4. DECISIONE A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007 LA STRUTTURA BASE DEL CASO GIUDIZIARIO Viene registrata una conversazione che configura una ipotesi di reato, da essa viene ricavato un campione parametrico che chiameremo “Anonimo” o “Test”. Il numero delle misure formantiche di qualità estraibili dal campione non può generalmente essere programmato. Si cerca di ottenere il massimo di misure e di dati che rispettano gli standard di qualità. Ad una o più persone sospettate di essere possibili autori della conversazione anonima, cioè colpevoli, si chiede di rilasciare un “Saggio” di voce dal quale si ricava un campione parametrico omonimo, o “Reference”. Questo paradigma è immediatamente estendibile a dati di rilevanza giudiziaria di tipo diverso. SAGGI E COMUNITA’ LINGUISTICHE Si deve supporre che ogni saggio sia rilasciato in ambiente controllato, con testi opportuni e che sia capiente quanto basta per dare al campione dei parametri vocali il numero programmato di gradi di libertà. Si suppone che le voci “Anonimo” e “Saggio” facciano parte di una medesima comunità linguistica nazionale, regionale o locale dei cui modelli statistici vocali si dispone. In caso contrario va progettato ed eseguito un esperimento che consenta di acquisire un nuovo modello di popolazione, statisticamente adeguato, ricavato da parlatori indipendenti, appartenenti a comunità socio-linguisticamente ben definite. PROBABILITA’ DI COLPEVOLEZZA L’evento statisticamente sotto osservazione è il campione anonimo di “Test”. La colpevolezza dell’autore del saggio è uno “stato di natura, C” che può essere così espresso: “L’autore del saggio è l’autore della telefonata anonima” L’obiettivo dell’esperimento giudiziario è la misura quantitativa della probabilità di tale stato di natura. Sulla tale probabilità esistono sempre informazioni fattuali o convinzioni precedenti all’esperimento, eventualmente derivate da esperimenti diversi ed indipendenti, esse pure rappresentabili mediante una misura di probabilità “a priori” P(C) o come “Chance a priori in favore della colpevolezza” (Prior Odds) CH(C) = P(C)/P(C) dove P(C C) = 1. ESPERIMENTI MULTIPLI, PROBABILITÀ A POSTERIORI In qualità di esperti siamo chiamati a dare un contributo conoscitivo su tale possibile colpevolezza per il tramite di uno o più esperimenti di laboratorio (ESP1, ESP2, …), in particolare attraverso uno o più test di identificazione. Al termine degli esperimenti la P(C) a priori sarà stata modificata con una misura nuova di probabilità che denomineremo “a posteriori”. Questa sequenza può essere significativamente espressa mediante la formula di Bayes: P(CESP1,ESP2, …) = P(C)P(ESP1,ESP2, …)C)/ [P(C)P(ESP1,ESP2, ...C) + P(C) P(ESP1,ESP2, … C)] VEROSIMIGLIANZE E LIKELIHOOD RATIO LR In questa formula i termini P(ESP1,ESP2, …)C) sono le verosimiglianze della ipotesi di colpevolezza alla luce degli esperimenti, cioè L(C; ESP1,ESP2, …) . La formula di Bayes, dividendo termine a termine, si esprime ancor più chiaramente in forma di odds o chance in favore della colpevolezza: CH(CESP1,ESP2, …) = CH(C) * P(ESP1,ESP2, …)C) / P(ESP1,ESP2, … C) = CH(C) * L(C; ESP1,ESP2, …) / L(C; ESP1,ESP2, …) = CH(C) * LR(C; ESP1,ESP2, …) LR COME MOLTIPLICATORE INFORMATIVO LR è il “Rapporto di verosimiglianza”. La relazione di Bayes consente di trattare i risultati di una pluralità di esperimenti. Se essi sono statisticamente indipendenti il valore L o di LR della sequenza è il prodotto delle singole L o dei LR. Uno o più test di identificazione che diano risultato positivo daranno luogo ad un aumento della probabilità di colpevolezza a priori. In caso negativo produrranno una diminuzione. Alla luce di questa trattazione ogni test di identificazione non va considerato altro che come un passo del processo “informativo” sullo stato di colpevolezza dell’imputato. IL SIGNIFICATO DI LR Eseguito l’esperimento ESP sui dati, LR è un rapporto tra le due verosimiglianze dell’ipotesi di colpevolezza e dell’ipotesi contraria (test aperto di tipo giudiziario), ovvero dell’ipotesi di colpevolezza del parlatore A rispetto ad altri parlatori B, B1, BK (test chiuso). È una misura quantitativa che va espressa con un numero, non con aggettivi. Può essere anche molto difficile da valutare. Il responso di uno strumento di laboratorio per l’identificazione dei parlatori, comunque complesso, utilizzato in una certa configurazione hardware e software, alimentato dai dati di un campione statistico assegnato, deve essere accompagnato dalle misura delle due verosimiglianze relative alle ipotesi C piuttosto che C. GLI ALGORITMI DI IDENTIFICAZIONE DEL PARLATORE La pura e semplice misura dei parametri fonoacustici del campione Anonimo è un esperimento. Sia tale campione A = (a1, a2, … , aK), dove gli a sono vettori pdimensionali e k è il numero di “realizzazioni” disponibili di tale voce. Sia xt il valore medio campionario. Sia pR(xt|R) la verosimiglianza del saggio dell’imputato e pP(xt|P) quella della popolazione di riferimento, supposta costituita da campioni di parlatori appartenenti alla stessa comunità di A. Gli algoritmi più semplici danno identificazione dei parlatori se la prima verosimiglianza prevale sulla seconda e quindi se LR>1. ALTRI ALGORITMI Assegnato il campione, le verosimiglianze mutano al variare delle pdf ipotizzate dai modelli. Alcuni algoritmi usano le verosimiglianze del campione: i pR(ai|R) / pP(ai|P) che coincidono con il LR delle medie all’ipotesi di distribuzione multivariata normale. Naturalmente i valori di LR ricavati da pdf continue in algoritmi diversi possono essere molto diversi. Per calcolare tali verosimiglianze non è necessario disporre delle probabilità a priori dei dati, esse pure funzioni continue note a priori eventualmente da altri esperimenti sui medesimi dati. Può convenire quotare il logaritmo naturale o decimale lr(C;A) per mitigare la scala di escursione molto ampia dei valori numerici dei LR. L’INFERENZA BAYESIANA L’approccio bayesiano all’inferenza statistica consente la massima valorizzazione del contenuto informativo dei dati di un esperimento anche nello spazio delle variabili continue e permette, come si è visto, di concatenare razionalmente i risultati di esperimenti diversi in un determinato contesto e sugli stessi dati. E’ basato sul teorema di Bayes: “Sia X un campione di n vettori p-dimensionali x, regolati (modellati) da una p.d.f. p(x) per la cui definizione sono richiesti m parametri = (1,2, … m). Si ha : p(|x) = cost p(x|) p() dove la costante non è altro che il valore atteso di x su tutti i valori possibili di ”. L’INFERENZA BAYESIANA SULLA PDF Il Teorema di Bayes continuo può essere così espresso: p.d.f. a posteriori verosimiglianza x p.d.f. a priori Quando si dispone di una molteplicità di esperimenti indipendenti sui medesimi dati, in questa eguaglianza si sostituirà alla verosimiglianza il prodotto delle verosimiglianze di ciascun esperimento. In questo modo l’approccio bayesiano ha il grande pregio di mettere bene in evidenza il ruolo dei flussi di informazione che derivano da successive acquisizioni. LA STRUTTURA DEL METODO FUB SPREAD Per eseguire la procedura FUB SPREAD è indispensabile conoscere il modello della popolazione pP(x|P), in prima approssimazione N(P;SP), cui appartengono l’anonimo e l’imputato, i cui modelli si suppone siano N(r;Sr) e N(t;St) per i quali si fa l’ipotesi Sr = St = S. Nei casi in cui il modello della popolazione non è stato studiato, come per la popolazione femminile italiana, o di voci ricavate da canali diversi dal telefonico, non si può supporre di conoscere P quindi nè SP né il centroide della popolazione P né S. In tal caso il vettore r,t r ,t verrà incrementato di tutti i parametri che servono a definire S che sono in numero p(p+1)/2. IL CASO MONODIMENSIONALE Seguiamo il caso monodimensionale per semplicità di scrittura. Sono disponibili dall’esperimento i dati xt, xr, wt, wr, nt, nr che costituiscono una statistica sufficiente per mt mr e s. Per = nt+nr -2 si pone: w = [(nt -1) wt + (nr -1) wr ] / Le medie delle due popolazioni, anonimo e saggio, sono indipendentemente distribuite con le p.d.f. N(xt;w2/nt), e N(xr;w2/nr). La distribuzione della varianza è una s2/ 2, indipendente. Assumendo che le distribuzioni a priori di mt mr e s siano indipendenti e localmente uniformi si ha una distribuzione a posteriori: p(mt-mr ,s2| X) = p(s2|w) p(mt-mr | s2, xt-xr ) MODELLO DI POPOLAZIONE DISPONIBILE; p=1 In questo caso la matrice di covarianza W viene stimata con i dati di un un database, come SP99, indipendentemente dai dati dell’anonimo e del saggio e anche dalla fattispecie giuridica. Si può pertanto assumere S W. Nel caso p=1 si ha S s2; la probabilità a posteriori sarà: p(mt-mr ,s2| X) = p(g | X, w) = N(xt-xr ,w(nt+nr )/ntnr). La formula è generalizzabile multidimensionale p>1: al caso p(mt-mr,S | X) = p(g | X, W) = N(xt-xr ,W(nt+nr )/ntnr) MODELLO DI POPOLAZIONE DISPONIBILE; p>1 La pdf ha sezioni isoprobabili ellissoidiche descritte da: D2 = (g-(xt-*r)) [ntnr/(nt+nr )W-1] (g-(xt-xr))’ = cost Si dimostra che D2 ha una distribuzione 2p con p gradi di libertà. Questo risultato è geometricamente identico al risultato del test campionario di confronto tra due medie normali multivariate, nel quale la relazione: D2 < Inv 2p (1-a) definiva la regione di accettazione del test chiquadratico con livello di confidenza (1-a). La definizione della regione di accettazione del test Bayesiano verrà trattata più avanti. INDISPONIBILITÀ DI UN MODELLO DI POPOLAZIONE La mancanza del modello di popolazione, come si vedrà in seguito, impedisce lo svolgimento corretto del processo decisionale. Non impedisce però sempre l’effettuazione di un test di identificazione. In questo caso la matrice di covarianza W viene stimata dai dati dello specifico caso X=(xt;xr) con la formula del “pooling”. Una matrice di covarianza stimata con n<p dati è singolare. La condizione n>p, benchè non sufficiente, è comunque necessaria per la invertibilità di W. Nel caso monodimensionale si può ricavare la distribuzione marginale a posteriori di g=mt-mr. IL CASO MONODIMENSIONALE Integrando via la variabile s2 si ottiene: p(mt-mr|X) = p(g |X) = [B(½,½)w(nt+nr)/ntnr]-½ * -½(+1) [1+(g-(x -x ))/(w(n +n )/n n )] t r t r t r * che è la ben nota t(0,1,) di Student con nt+nr-2 gradi di libertà e t = (g-(xt-xr))/(w(nt+nr)/ntnr)½] t di Student 0.8 dgf 1 0.6 dgf 10 0.4 dgf 100 normale 0.2 0 0 1 2 3 4 IL CASO MULTIDIMENSIONALE Se p>1 si dimostra che la distribuzione è la tp multivariata con =nt+nr-p-1 gradi di libertà. La probabilità a posteriori rispetta la relazione: p(g |X)[1+(g -(xt-xr))(W(nt+nr)/ntnr)-1 (g -(xt-*r))’]-½(+p) La distribuzione è dunque una tp(0,W/,). Come nel caso univariato la pdf è una funzione monotonicamente decrescente della Fq di Mahalanobis : D2 = (g -(xt-xr))(W(nt+nr)/ntnr)-1 (g -(xt-xr))’ Nello spazio Sp la variabile g descrive contorni di eguale probabilità a posteriori su ellissoidi D2 = cost. Anche qui si tratta, dal punto di vista geometrico, dello stesso risultato del Test campionario T2 di Hotelling. PARALLELO COL TEST CAMPIONARIO DI HOTELLING In quel caso il test veniva condotto mettendo a frutto la statistica T2 di Hotelling a due campioni secondo la relazione, dove F è la distribuzione di Fisher: ntnr/p(nt+nr)(nt+nr-2 ) D2 ~ Fp, che regola il test di identità delle due medie e che, assegnato il livello di confidenza (1-a), determina il contorno ellissoidico della regione di identificazione. Viceversa, nell’approccio Bayesiano, il livello di probabilità a posteriori, che viene scelto in base al procedimento decisionale, determina il valore di D2 e quindi il dominio ellissoidale. In questo caso, come si vede, non è rilevante il tipo di distribuzione della D2, ma la distribuzione a posteriori, tp, di g. LE REGIONI BAYESIANE HPD I test Bayesiani vengono condotti attraverso il calcolo di una funzione di probabilità a posteriori. Tali p.d.f. nello spazio Sp possono essere sezionate da un piano p.d.=cost che determina uno o più volumi, caratterizzati dal fatto che tutti i punti interni hanno p.d. più alta di qualsiasi punto esterno. Tali regioni sono chiamate HPD (Highest Posterior Density). Il livello di probabilità che le individua p=f(q) viene determinato in base a procedure decisionali di minimo rischio. Se g=0 cade entro il dominio HPD=HPD(q) il risultato del test Bayesiano è positivo. Alle ipotesi qui assunte per le distribuzioni di t,r, N(t,r;w2/nt,r), i domini HPD sono sempre di forma ellissoidica. LA DECISIONE BAYESIANA I test statistici di identificazione sono parte integrante deI processo decisionale giudiziario. Mentre i test sono di competenza dei tecnici, la decisione comporta la responsabilità e la partecipazione di altri soggetti. In questo modo l’approccio bayesiano valorizza per intero i livelli informativi disponibili in tutte le fasi della procedura. Le conoscenze a priori, prima della effettuazione del o dei test di identificazione, sono di due tipi: L’opinione della corte, prima di affidare l’accertamento fonico, si esprime sotto forma di probabilità di colpevolezza P(C) (es. 30%) o di chance in favore della colpevolezza (C) (3:7) LA CONOSCENZA A PRIORI DEI TECNICI Eventuali informazioni sull’appartenenza sociolinguistica dell’anonimo e dell’imputato possono dare ai tecnici informazioni sulla p.d.f. a priori del campione. In caso contrario si adotta l’ipotesi “non informativa” (p.d.f. a priori uniformi). Risultanze tecniche. Possono comprendere prove d’ascolto, analisi dei sonogrammi, prove parametriche anche multiple. Se per ogni prova si sanno esprimere in termini chiari ed affidabili le verosimiglianze, l’inferenza bayesiana sequenziale consente di valorizzarne a pieno tutti i risultati. Allo stato delle cose non sono state però ancora elaborate verosimiglianze per le prove soggettive. IL COSTO DELLA DECISIONE Fondamentalmente occorre premettere alla decisione una valutazione del costo sociale delle decisioni che si prendono. Si può senza dubbi particolari considerare nullo il costo sociale di una decisione giusta o lo si sostituisce con un vantaggio. Le decisioni sbagliate hanno invece un costo che si può quantificare in molti modi. Per evitare defatiganti discussioni sulle più opportune unità di misura (si tratterebbe di denaro o altro tipo di valore) è sufficiente definire il rapporto q tra le due decisioni sbagliate in materia di colpevolezza o di innocenza. Nei nostri lavori, in mancanza di una determinazione diversa di una corte, assumiamo q 1000. STATO DI NATURA E DECISIONE Nel gergo della teoria delle decisioni si definisce “Stato di natura”, il fatto sul quale l’analisi statistica deve eseguire un’inferenza. Nel caso giudiziario tale stato riguarda l’imputato che può essere colpevole (C) o innocente (C). E’ facile estendere la procedura al caso di più anonimi e più imputati. La decisione dovrà naturalmente essere D (l’imputato è colpevole) o D (l’imputato è innocente). Sono quindi possibili due combinazioni giuste D|C, D|C, e due sbagliate D|C, D|C. LA MATRICE DELLA DECISIONE DECISIONE A MINIMO RISCHIO Il rischio di una decisione è il prodotto della probabilità degli stati di natura e del costo della decisione stessa. Le componenti hanno la forma: R(.) = P(.) Costo(.) La misura della probabilità degli stati di natura è pertanto indispensabile e deve tener conto di tutti gli esperimenti eseguiti. Il costo è quello che deriva dalle conseguenze della decisione presa. Nella procedura giudiziaria le decisioni possibili sono riconducibili a due: D e D i cui rischi sono le somme: R(D) = P(C) Costo(D|C) + P(C) Costo(D|C) R(D) = P(C) Costo(D|C) + P(C) Costo(D|C) CALCOLO DEL RISCHIO DELLA DECISIONE La decisione assunta sarà quella a rischio minore; si deciderà per la colpevolezza solo se: R(D) < R(D) e quindi, poiché i costi delle decisioni giuste sono nulli o comunque eguali nei due casi se: P(C|D) Costo(D|C) < P(C|D) Costo(D|C) ovvero se: P(C|D)/P(C|D) = Pf.rj./Pf.id. > Costo(D|C)/ Costo(D|C) = q Il valore di f(q) determina la dimensione della regione di identificazione ID Sp e la distanza di soglia del test bayesiano FUB SPREAD. INGEGNERIA INVERSA Sfortunatamente, assegnato il fattore di qualità del test bayesiano q (d’ordinario 1000 o superiore) NON SAPPIAMO calcolare la regione di identificazione né la relativa distanza di soglia del test che, lo ricordiamo, è costante sul confine di tale regione. Merita prendere nota che, a differenza dei test campionari, il test bayesiano non determina una soglia predefinita, ma la calcola volta per volta in funzione del valore del rischio ammesso. Quello che sappiamo fare, una volta calcolata la distanza di Mahalanobis tra le medie dell’anonimo e del saggio, è calcolare il rischio della identificazione per il tramite delle probabilità di errore. DENTRO O FUORI? Sappiamo che all’avvicinarsi delle due medie, anonimo e saggio, la probabilità di errore di falsa identificazione deve diminuire. Assumiamo pertanto come distanza di soglia del test bayesiano la distanza tra le medie dei due parlatori. Avremo così ritagliato una regione minima di identificazione ID.min, un ellissoide di centro xr definito dall’equazione: D2min = (xt-xr) ntnr/(nt+nr )W-1 (xt-xr)’ Calcoliamo il fattore di qualità che corrisponde a tale scelta, q max. Attribuiamo l’identificazione se questo numero supera il nostro soggettivo livello di rischio relativo accettabile, 1000, 10000 o altro. LE PROBABILITÀ DI ERRORE: FALSA REIEZIONE Per eseguire il calcolo del fattore di rischio il programma deve calcolare le due probabilità di errore, del primo e del secondo tipo. Per gli errori del I tipo che si verificano quando il test rifiuta l’identità ove l’imputato è colpevole, applicando la formula di Bayes si ha: Pf.rj. = P(C|D) = P(D|C) P(C)/P(D) = = L(C;D) P(C)/[(1-L(C;D))P(C)+L(C;D)P(C)] LE PROBABILITÀ DI ERRORE: FALSA REIEZIONE La verosimiglianza della colpevolezza C, quando l’inferenza ha dato risultato di non identificazione D, L(C;D), corrisponde al caso che un campione xr rilasciato dall’imputato non sia stato riconosciuto come tale. Per calcolarla si integra, per D2(g)>D2 (qmax), la distribuzione N(xt-xr ;W(nt+nr)/ntnr). La probabilità di falsa reiezione a posteriori si può dare in forma equivalente: Pf.rj. = L(C;D) P(C)/[1-P(C)+2L(C;D)P(C)- L(C;D)] In figura si osservi l’andamento di Pf.rj per alcuni valori di L(C;D) caratteristici dei test campionari rispetto ai quali concettualmente a L(C;D) svolgono lo stesso ruolo. LE PROBABILITÀ DI ERRORE: FALSA REIEZIONE PROBABILITA' DI FALSA REIEZIONE A POSTERIORI 100% 90% 80% L, ex alfa, = 1% 70% L, ex alfa, = 5% P.f.rj. 60% L, ex alfa, = 10% 50% 40% 30% 20% 10% 0% 0 0.2 0.4 0.6 0.8 PROBABILITA' DI COLPEVOLEZZA A PRIORI 1 LA PROBABILITA’ DI FALSA IDENTIFICAZIONE_1 Applicando la formula di Bayes si ha: Pf.id. = P(C|D) = P(D|C) P(C)/P(D) = = L(C;D) P(C)/[(1-L(C;D))P(C)+L(C;D)P(C)] = = L(C;D) (1-P(C))/[P(C)+L(C;D)-2L(C;D)P(C)]. Il calcolo della verosimiglianza L(C;D) è davvero molto complicato. Non risultano disponibili in forma chiusa integrali ellittici del tipo necessario. Si tratta di calcolare la probabilità che vengano identificati per errore soggetti appartenenti alla comunità di riferimento diversi dall’imputato. Ciò accade in FUB SPREAD per tutti i parlatori il cui centroide cade nella regione di identificazione del test. Questo errore non può mai essere nullo. LA PROBABILITA’ DI FALSA IDENTIFICAZIONE_2 Nella prima figura si osserva l’andamento della probabilità di falsa identificazione a posteriori Pf.id in funzione della probabilità di colpevolezza a priori dell’imputato per alcuni valori tipo del rapporto di verosimiglianza. La scala delle ordinate è data per comodità in forma logaritmica in base 10. Per P(C) = 0,5 si ha Pf.id. = L(C;D), quindi Log(Pf.id.) = Log(L(C;D)). Si ha anche Pf.rj. = L(C;D). Nella seconda figura la Pf.id. è rappresentata in andamenti relativi rispetto al valore assunto per P(C)=0,5; valore per il quale gli odds (chance) a posteriori eguagliano il rapporto di verosimiglianza. FALSA IDENTIFICAZIONE vs LR PROBABILITA' DI FALSA IDENTIFICAZIONE 0 -1 LOG(Pf.id.) -2 -3 -4 -5 -6 -7 0 0.2 0.4 0.6 0.8 Probabilità di colpevolezza a priori LR = 10% LR = 0.1% LR = 1:100.000 1 FALSA IDENTIFICAZIONE vs LR per P=1/2 a priori PROBABILITA' DI FALSA IDENTIFICAZIONE 20 Pf.id.(P(C))/Pf.id.(0.5) 18 16 LR = 10% 14 LR = 1% 12 LR = 0.1% 10 LR = 1:100.000 8 6 4 2 0 0 0.2 0.4 0.6 Probabilità di colpevolezza a priori 0.8 1 LA QUALITÀ q DEL TEST vs LA PROBABILITÀ A PRIORI Il rapporto tra le probabilità d’errore a posteriori può essere dato in funzione delle chance di colpevolezza a priori (odds) dell’imputato, (C) : Pf.rj./ Pf.id = q = L(C;D) / L(C;D)* [L(C;D) + (C) (1- L(C;D)] / [L(C;D) + (C)-1 (1- L(C;D)] RAPPORTO q in funzione degli odds a priori 10 8 Log(q) 6 4 -3 -2 -1 2 Lf.rj.=0.1; Lf.id.=10**-4 0 Lf.rj.=0.1; Lf.id.=0.01 -2 0 1 2 -4 Log(Odds a priori) 3 4 5 6 INTEGRAZIONE MONTECARLO DELLA LF.ID. Per il difficile calcolo di L(C;D) si rende necessario fare ricorso ai metodi di integrazione Montecarlo. Se non esiste una primitiva, un integrale definito in una regione ID Sp può essere stimato con un approccio probabilistico Montecarlo. Viene calcolato il valore medio della funzione integranda in corrispondenza dei punti di un campione distribuito all’interno al volume ID in modo uniforme. La media viene accumulata fino a che la sua deviazione standard scende stabilmente al di sotto di un valore percentuale prefissato dal programmatore. L’integrazione Montecarlo può essere effettuata qualunque sia la pdf. L’ipotesi di normalità del modello della popolazione non è dunque necessaria. ALGORITMO DI INTEGRAZIONE ELLITTICA_1 Nel nostro caso le regioni di integrazione sono ellissoidi. L’algoritmo di integrazione, esegue i seguenti passi: Si genera un campione z di n punti a distribuzione sferica in Sp. Moltiplicando per le li della matrice L delle componenti principali di W si genera un campione a simmetria ellittica; Si ruota il campione mediante antitrasformazione alle componenti principali y = G-1z; Il campione viene proiettato sulla superficie di ID, indi ridistribuito uniformemente nel volume interno; Si calcola il valore medio campionario della p.d.f. della popolazione di riferimento; ALGORITMO DI INTEGRAZIONE ELLITTICA_2 Il procedimento viene iterato finché si scende, per m iterazioni consecutive, al di sotto dell’errore standard stabilito. Cade l’ipotesi di normalità della p.d.f. della popolazione di riferimento (in figura sono però rappresentate sezioni di p.d.f. normali). La funzione può essere data per punti con un approccio distribution - free. FF0e FF0a MOLTIPLICATORI BAYESIANI Il calcolo delle probabilità di errore associate alla regione di identificazione del test consente come già visto di calcolare il rapporto di verosimiglianza LR del test. Le chance di colpevolezza (odds a favore della colpevolezza) dell’imputato a test E effettuato ed a decisione D presa sono : (C|E,D)q = LR(C;E,D) (C) Dove i due termini di LR sono: L(C;E,D) 1-Pf.rj. L(C;E,D) Pf.id. LR(C;E,D) = (1-Pf.rj.)/Pf.id. ALTRI MOLTIPLICATORI In molti trattamenti statistici dell’informazione vocale a fini giudiziari si fa uso del concetto di verosimiglianza e si calcolano rapporti LR di altro tipo, che assumono valori vari, anche molto diversi tra loro. Questi LR sono generalmente rapporti di pdf continue del dato e non sono moltiplicatori bayesiani delle probabilità di interesse giudiziario nè possono essere usati per il calcolo della probabilità di colpevolezza a posteriori. Si consideri però che se un LR viene usato per confrontare due ipotesi, generalmente due pdf in alternativa, valori alti o molto alti dei LR sono correttamente usati per accreditare l’ipotesi più verosimile. BIBLIOGRAFIA [1] C.G.G. Aitken, “Statistics and the Evaluation of Evidence for Forensic Scientist”, JohnWiley & sons, New York [2] Atal B.S., 1972, “Automatic speaker recognition based on pitch contours”, J. Acoust. Soc. Am. 52, pp. 1687-1697 [3] Baldwin J., P. French, 1990, “Forensic phonetics”, Pinter, London-New York. [4] Bolt R. H., Cooper F. S., Green D. M., et al.,1979 “On the theory and practice of voice identification”, National Academy of Sciences, Washington D.C. [5] Box G.E.P., Tiao G.T., 1973, “Bayesian Inference in Statistical Analysis”, Addison Wesley, Reading, Massachussets [6] Braun A., 1995, “Procedures and perspectives in forensic phonetics”, Proceedings of ICPHS’95, Stockholm, Vol.3, pp.146153 BIBLIOGRAFIA [7] Bricker P.D., Gnagnadesikan R., Mathews M.V., Pruzansky S., Tukey P.A., Wachter K.W., Warner J.L., 1971,“Statistical techniques for talker identification”, The Bell System Technical Journal, vol. 50, n. 4 [8] Doddington G. R., 1985, “Speaker recognition - identifying people by their voices”, IEEE-ASSP-Transactions 73: pp.1651 [9] Falcone M., De Sario N.,1994, “A PC based speaker identification system for forensic use: IDEM”, Proceedings of the ESCA Workshop on Automatic Speaker Recognition, Identification and Verification, Martigny, pp.169-172 [10] Falcone M., Paoloni A., De Sario N., “IDEM: a software tool to study vowel formant in speaker identification”, Proceedings of ICPHS’95, Stockholm, Vol.3, pp.294-297 BIBLIOGRAFIA [11] Federico A., 1994, “Reliable statistical models for decision making in speaker identification”, FUB internal report [12] Federico A., Paoloni A., 1995, “Parametric speaker recognition over large population of telephonic voices”, Proceedings of Eurospeech, Madrid [13] Fisher R.A.,1959, “Statistical Methods and Statistical Inference”, Oliver and Boyd, London [14] Künzel H., 1994, “Current approach to forensic speaker recognition”, Proceedings of ESCA Workshop on Automatic Speaker Recognition, Identification and Verification, Martigny, pp.135-141 [15] Mardia K.V., 1979, “Multivariate Analysis”, Academic Press, London