L@bphon Tecniche di riconoscimento del parlante Luciano Romito Dipartimento di Linguistica Laboratorio di Fonetica Università degli Studi della Calabria Soriano sul Cimino 19 settembre 2007 Distribuzione dei periti/consulenti intervistati sul territorio nazionale Distribuzione del campione di periti/consulenti sul territorio nazionale Valle d'Aosta Piem onte Lom bardia Trentino Alto Adige Friuli Venezia Giulia Liguria Veneto Em ilia Rom agna Toscana Marche Um bria Lazio Abruzzo Molise Cam pania Puglia Basilicata Calabria Sicilia Sardegna ? Intervistato Non Reperibile Si rifiuta Quante perizie/consulenze vengono effettuate in Italia in un anno Ad oggi e con poco più del 50% del campione, nell’anno scorso, tra perizie e consulenze, ne sono state effettuate ben 594 Con quali metodi? Incerto 11% Uditivo Parametrico 65% Sonogrammi Uditivo 13% Parametrico Incerto Sonogrammi 11% Con quale statistica ? Smart 2% Analisi regressiva 2% Nessuna risposta 6% Nessuna risposta Spread 26% Nessuna statistica Confronto di medie Nessuna statistica 38% Anova T-Student Hotelling Mahalanobis Mahalanobis 8% Hotelling 4% T-Student Anova 2% 6% Spread Smart Confronto di medie 6% Analisi regressiva Come viene fornita la risposta al quesito? 15% 6% 13% 36% Si/No Similitudine in percentuale Compatibilità Giudizio in scala rapporto di verisimiglianza nessuna risposta 21% 9% Forensic Speaker Identification La FSI è una disciplina che rientra nella Fonetica Forense così come questa è una branca della Fonetica. La Fonetica Forense oltre al FSI include Speaker Profiling ed altro come già detto Chi è il perito nel mondo? periti Fonetisti Full Time Periti occasionali (accademici etc) Olanda, Germania, Svezia, Austria, Spagna e Svizzera (Rose 2002:21) Australia, Gran Bretagna (Braun and Kunzel 1998:4) Italia (Romito-Galatà 2006) Titolo di studio Laurea 57% Altro 2% I grado 4% Laurea II grado Conservatorio 4% Conservatorio I grado Altro II grado 33% Laurea Ingegneria 60% Scienze statistiche ed economiche 9% Scienze letterarie Medicina Scienze dell'informazione 6% Altro Scienze dell'informazione Altro 6% Medicina 6% Ingegneria Scienze statistiche ed economiche Scienze letterarie 13% Diploma Industriale 50% Generico 28% Ragioneria Maturità Scientifica Industriale Generico Maturità Scientifica 11% Ragioneria 11% Laureati Età (in anni) Diplomati 0% <30 2% 4% da 30 a 39 7% 21% da 40 a 49 9% 17% da 50 a 59 13% 15% >60 5% L’essere perito è una attività principale 24% 76% attività principale si occupa di altro Automatici Semiautomatici Soggettivi Confronto dei sonogrammi Confronto Uditivo Aural-Spectrografic identification Aural-Spectografic (voiceprint) identification Se parliamo di metodi soggettivi dobbiamo ricordare che: gli uomini e i computer (Ladefoged 2001:78-95) il giudice … è un uomo Acoustic Theory of Speech Production: il comportamento di alcuni parametri acustici e articolatoriamente interpretabile) Metodo automatico (cfr. Clermont and Itahashi 1999) Acusticamente esistono molti parametri che possono essere usati per comparare le voci la scelta è determinata da una approfondita analisi linguistica non esistono parametri ideali ma solo alcune indicazioni: a) mostrare una alta variabilità interparlatare e una bassa variabilità intraparltore; b) essere resistente al camuffamento c) avere una alta frequenza di occorrenza d) essere robusto durante la trasmissione e) essere relativamente facile da estrarre e misurare voiceprint identification Tale metodo è stato sviluppato e commercializzato da Kersta 1962 Tosi (“... the legal application of speaker identification, which at present still consists mainly in the practice of visual examination of spectrograms...”). successivamente negli anni ‘70 ed in seguito ad una serie di critiche (tra cui per ultimo Romito 2000) si è deciso di utilizzare una combinazione del Metodo Uditivo e di quello Visivo. (Hollien 1990:215) Tale metodo viene chiamato Aural-Spectographic Method (McDermott et al. 1996)* Dove viene utilizzato Questo metodo è ancora usato almeno fino al 2001) dall’FBI (Nakasone and Beck 2001)* Dalla Polizia Giapponese (Osanai 2001) In Israele, Italia, Spagna, Columbia (Rose 2002) Non viene più usato in Olanda e Germania (Kunzel 1994:138) riconoscere una voce è una abilità umana I fonetisti di questa abilità ne fanno il proprio lavoro questa abilità è stata per decenni riconosciuta dai Tribunali (Gruber and Poza 1995:section 99) la scienza e la letteratura è invece controversa: il dato uditivo è sufficiente: Badwin 1979, Baldwin and French 1990:9) il dato uditivo non è necessario anzi non serve (Furui 1989) Bisogna combinare le due tecniche acustico e uditivo (Kunzel 1987, 1995:76-81; French 1994:173-4) non tutti hanno la stessa abilità (Ladefoged and Ladefoged 1980:45; Hollien 1995:15, Foulkes and Barron 2000:182) alcune voci sono più facilmente identificabili (Popçun et al. 1989, Rose and Duncan 1995:12,16) altre voci sono più simili tra loro rispetto ad altre Caratteristiche associate alla identificazione uditiva L’esposizione Più si ascolta una voce più questa diventa familiare e quindi più facilmente identificabile (Ladefoged and Ladefoged 1980:49) più una voce è familiare più è facile capirla anche in contesti rumorosi. a volte la familiarità della voce sembra facilitare il compito invece… Caratteristiche associate alla identificazione uditiva La quantità. esperimenti mostrano che nell’ascolto di una sola parola l’errore è del 69%, lo stesso scende al 34% con una frase e al 17% con ascolti di 30 sec. (Rose 2002:102) La distanza tra gli ascolti Errore del 50% dopo 10 minuti. 57% dopo un giorno, 61% dopo 7 giorni, 68% dopo 15 gg. Competenza della Lingua o dialetto sia nel confronto sia conoscenza da parte dell’ascoltatore One is far more likely to identify a voice as a given person’s if one is expecting to hear that person’s voice>> Ladefoged 1978, Ladefoged and Ladefoged 1980:47, Broeders 1995:155 Romito 2000. Approfondimento del Metodo sonografico Non c’è accordo Esistono almeno due protocolli (Gruber and Poza 1995:section 54-71) Il primo sviluppato da VIAAS (Voice Identification and Acoustic Analysis SubCommittee, della International Association for Identification pubblicato negli atti dell’associazione VCS 1991) Il secondo protocollo è quello dell’FBI (Koenig 1986:2089-90) I protocolli sono molto simili, entrambi sono soggettivi e basati sull’esperienza dell’esperto VCS 1991:373-9 Ideally, the exemplar should be spoken [by the suspect] in a manner that replicates the unknown talker, to include speech rate, accent, (whether real or feigned), hoarseness, or any abnormal vocal effect… In general, the suspect is instructed to talk at his or her natural speaking rate: if this is markedly different from the unknown sample, efforts should be made through recitation to appropriately adjust the speech rate of the exemplar… Spoken accents or dialects, both real and feigned should be emulated by the known speaker… If any other unique aural or spectrally displayable speech characteristics are present in the questioned voice, then attemps should be made to include them in the exemplars. AFTI Visual comparison of spectrograms involves, in general, the examination of spectrograph (??) features of like sounds as portrayed in spectrograms in terms of time, frequency and amplitude… Aural cues… include resonance quality, pitch, temporal factors, inflection, dialect, articulation, syllable grouping, breath pattern disguise, pathologies and other peculiar speech characteristics Critiche Dove è la scientificità? Il riconoscimento della voce e il riconoscimento visivo interessano differenti parti del cervello (cfr. Blakemore 1977:161-4) L’emisfero destro viene utilizzato per il riconoscimento dei volti e l’emisfero sinistro per le voci. Inoltre dipende anche se le voci sono familiari. Le voci familiari vengono riconosciute dall’emisfero destro come i volti. Al momento attuale il metodo uditivo non utilizza un metodo analitico ma più che altro intuitivo Non ci sono evidenze nell’esaminatore o caratteristiche numerabili Non si conoscono gli elementi minimi della comparazione (Hollien 1990:215) Come può la voce essere discriminata con questo metodo? Utilizza parametri qualitativi o quantitativi? (Aitken 1995:14-15) I dati di partenza sono differenti. Non basta parlare di contorni formantici. Bisogna definire una serie di passi attuabili da qualunque laboratorio e che conducano allo stesso risultato “Foto A ‘orno’ di ‘Buongiorno’. La prima formante corrisponde alla ‘o’, quindi la ‘r’, consonante occlusiva, seguita dalla ‘n’ e successivamente di nuovo la seconda formante della ‘o’ conclusiva in quanto non seguita da consonante. […] Dopo la ‘b’ occlusiva […] segue la prima formante corrispondente alla ‘i’, quindi la inspirazione e la successiva espirazione con la ‘l’ e la successiva formante di ‘e’, sempre con la stessa ripresa di energia tra la inspirazione e la espirazione conclusiva. [...] Nella foto 2 si evidenzia un inviluppo compresso con la prima formante (i) e quella terminale, seconda formante della ‘e’ confermando la mancanza di armoniche proprio dalla compressione dell’inviluppo e da esaltazioni particolari. [...] Solo in qualche occasione si è visualizzata l’esaltazione di formanti, rimanendo per il resto piuttosto contenuta, né si è rilevata esaltazione nella fase di espirazione finale per la tendenziale caratteristica di pronuncia veloce e ripresa rapida nella parte terminale. Infatti in alcuni oscillogramma non risulta presente tale manifestazione poiché il soggetto riesce in un’unica espirazione a pronunciare l’intera parola, senza necessità di recupero. Approfondimento del Metodo uditivo Metodo uditivo attraverso ascoltatori inesperti Metodo uditivo attraverso un campione ristretto di esperti fonetisti (trained phonetician) Single vs multiple choice Familar vs unfamilar voices Metodo Uditivo Nei metodi uditivi vi è il Panel approach il Direct processing comparazione di coppie di frasi e risposta in percentuale di diversi tipi sia solo percettivi che fino alla identificazione di parti molto tecniche ed acustiche. dove un ascoltatore esperto ascolta un intero brano e identifica la voce. l’Aural-Perceptual Approach (cfr. tabella) Uditivo sfruttando la memoria a breve termine Voce Anonima A Voce Anonima B Rumore Bianco Voce Nota C Rumore bianco Voce Anonima B Rumore bianco Voce Anonima A rumore bianco Rumore bianco Voce Nota D Rumore bianco Voce Anonima B Voce Anonima A Voce Anonima A Voce Anonima B Voce Anonima A Voce Anonima B costruzione test Per questa fase possono essere utilizzati diversi programmi che operano con piste separate Nella creazione di questi set di confronto particolare attenzione deve essere posta sul tentativo di ricreare le stesse condizioni qualitative. Ciascun set deve essere composto rispettando la seguente struttura: [set Z = voce X + silenzio + voce Y (+ rumore)] dove a) “silenzio” inserito tra “voce X” e “voce Y” è della durata di 1,2 secondi; b) “(+ rumore)” è il rumore di fondo presente nelle conversazioni intercettate e che deve essere aggiunto alla porzione del saggio fonico con un operazione di mixing c) “voce X” e “voce Y” possono essere rispettivamente, una porzione della conversazione intercettata e una del saggio fonico (o viceversa), sulla base, ovviamente, delle frasi precedentemente ritenute utili di durata 2,4 sec. D) “rumore” è rumore bianco che resetta e prepara la memoria a breve termine per un nuovo confronto. Esempio Esecuzione del Test Il gruppo di ascoltatori Il test deve essere sottoposto ad un campione di ascoltatori di almeno 50 unità. Gli ascoltatori, di età media compresa tra i 18 e i 35 anni, sono provenienti dalle province sia del sospettato che delle voci anonime (ovviamente questo prevede una analisi dialettologica preventiva) Nessuno dei soggetti su specifica richiesta soffre o ha sofferto di disturbi di tipo uditivo tali da inficiare le risposte fornite durante il test. Modalità e luogo di esecuzione del test Il test si svolge all’interno di una camera silente o anecoica. Le registrazioni del test devono essere riprodotte in modalità stereofonica con sorgente sonora frontale. Il test viene condotto in presenza di un operatore con funzioni di supervisore e coordinatore del test stesso. Premesse fatte agli ascoltatori Prima di sottoporre il test agli ascoltatori, agli stessi vengono fatte alcune premesse per un corretto svolgimento delle operazioni di valutazione loro richieste. Nello specifico viene loro illustrata brevemente la prova da svolgere: dare una risposta secondo la tabella che segue soffermando l’attenzione solo ed unicamente sulla somiglianza o meno delle voci ascoltate. ETA'_____________ SESSO: M ڤ _____ Fڤ PROVENIENZA____ __________ Scala di giudizio SI NO Set confronto 1 2 … 0% 25% 50% 75% 100% I risultati del Test Il test deve essere così composto: 20 set di confronto, relativi alla comparazione tra il saggio fonico e le voci anonime; 10 set di confronto, relativi alla comparazione tra le voci anonime; 10 set di confronto, relativi alla comparazione tra le voci note; 10 set di controllo di cui con risposta “no” e con risposta “si”. Vengono accettati e utilizzati al fine della comparazione uditiva solo quei test che superano il set di controllo con almeno 25 risposte corrette su 30. Solo alla fine il risultato ottenuto, frutto di una analisi soggettiva, avrà valore scientifico. Domande da porsi sul proprio metodo Precisely what parameters were used to compare the samples? How can the parameters be justified? In what way were the parameters quantified? What decision procedures were used? What for exemple, were the threshold? How can these decision procedures be justified? What is the probability of observing the differences between samples assuming same speaker origin/different speaker origin?