L’Indagine Fonica
CASI REALI
e
METODI PER L’ IDENTIFICAZIONE
DEL PARLATORE
Magg. Davide Zavattaro
Soriano nel Cimino, 21.09.07
PARTE I
Il riconoscimento del parlatore
Il riconoscimento del parlatore
(Speaker Identification)
Rapimenti
Estorsioni
Droga
Rivendicazioni
di Attentati
Molestie
Ingiurie
Provenienza reperti:
• Attività di intercettazione di P.G. ai
sensi dell’art. 266 c.p.p.
• Registrazioni ordinarie di Enti
Istituzionali o privati (es. 117, 118,
Aeroporti…)
• Denuncia di privati cittadini
Essendo la natura dell’esame tipicamente
comparativa, è necessario disporre di
idoneo
materiale
di
confronto:
Conversazioni/telefonate di sicura provenienza e
attribuzione
oppure
Si procede all’acquisizione di un saggio fonico
Acquisizione del saggio fonico
• Il soggetto deve essere iscritto nel registro
degli indagati
• L’avvocato deve essere invitato a presenziare
• Le apparecchiature di acquisizione devono
essere simili a quelle utilizzate per registrare la
voce anonima
• Preventivamente bisogna stilare un testo
contenente le frasi pronunciate dall’anonimo
Acquisizione del saggio fonico
• FASE 1: Colloquio introduttivo con
richiesta generalità
• FASE 2: L’indagato deve ripetere le frasi
contenute nel testo, sotto dettatura
• FASE 3: Colloquio informale con
l’indagato
Al termine: Redazione del verbale
PRINCIPALI PROBLEMI
NELL’ANALISI DELLE VOCI:
• Microvariabilità temporale della voce
• Variabilità di lungo termine
• Trattazione matematica dei dati
• Effetti del canale di trasmissione
• Disturbi (rapporto s/n)
• Quantità del materiale anonimo
• Disponibilità del materiale di riferimento/saggio
fonico
Il processo di produzione fonatorio crea due
categorie di ‘reperti’ utili alle indagini…
LA VOCE
IL MESSAGGIO
…ne derivano due filoni metodologici per
l’identificazione :
ANALISI FONETICO-LINGUISTICHE
(soggettive, qualitative)
- fonetiche, lessicali, prosodiche…
ANALISI STRUMENTALI
(oggettive, quantitative)
-analisi delle frequenze prodotte nella fonazione
(vibrazione corde vocali e frequenze di risonanza del cavo
orale)
Gli esami linguistici:
•Sono stabili rispetto al canale
•Sono robusti rispetto al rapporto segnale/rumore
•Possono fornire un quadro particolareggiato
ma
•Richiedono grandi quantità di materiale
•Prevedono che si tratti della stessa lingua
•Sono qualitativi
Gli esami strumentali
•
Sono oggettivi (misure delle frequenze sonore emesse)
•
Richiedono una quantità minimale di segnale utile (circa
•
12 secondi).
Consentono un’elaborazione statistica dei dati fornendo gli
elementi indispensabili per i processi decisionali.
Ma
• Sono condizionati dalla qualità del segnale (rapporto s/n)
•Gli esiti delle analisi attuali si aggirano su valori di p.f.i.
che oscillano, nei riconoscimenti positivi, tra 10-2 e 10-4.
La SOLUZIONE è cercare
un’integrazione tra più metodologie
La difficoltà principale è riconoscere le aree
di sovrapposizione (parametri indipendenti) e
rendere quantitativi gli esami linguisticofonetici
Nel mondo sono tipicamente impiegati 3 metodi
per il riconoscimento del parlatore
1. Linguistico-fonetico
2. Semi-automatico
3. Totalmente automatico
Metodo Linguistico-Fonetico
Storicamente è stato il primo ad apparire
Richiede un notevole background di
carattere fonetico
E’ fortemente dipendente dalla lingua
Richiede grandi quantità di materiale
audio
Metodo Linguistico-Fonetico
Le analisi si dividono in:
1. Prove d’ascolto
2. Esami fonetici
3. Esami lessicali
4. Esami prosodici
1. Prove d’ascolto
Sono basate sulla memoria a breve termine
Si costruisce un file, contenente sia le frasi
anonime che le medesime pronunciate dal
sospettato, poi si procede all’ascolto,
ripetendo l’operazione in tempi diversi
2. Esami fonetici
Si ricercano gli elementi caratterizzanti che differiscono
dalla pronuncia corretta nazionale
ES. TRE
 tré, trè, tce...
ES. NOVE  nòve, nóve…
L’insieme dei risultati darà indicazioni sulla regione linguistica
di provenienza del parlatore, tuttavia il riscontro di particolari
difetti fornisce importanti elementi di riconoscimento individuale.
Per questo scopo le consonanti più sensibili sono:
‘R’, ‘S’, ‘C’, ‘G’, ‘Z’
3. Esami lessicali
Lingua
Dialetto
Forniscono indicazioni sulla regione linguistica di
provenienza del parlatore
Terminologia specifica (gergo)
Padronanza della lingua
Aiutano ad individuare l’ambiente
socio-culturale e scolastico-professionale
Terminologia preferenziale (ripetizioni)
Terminologia personale
Forniscono informazioni legate alle abitudini
individuali
TEL. 670 sillabe
secondi vel.
eh, e come si fa? 6
0,66
ma siete a posto o no?
7
0,88
allora faccia'.. e facciamo
15
'na1,61
cosa…
adesso vedo se posso…
8
1,06
fare scendere io
6
0,74
ah ho capito
5
0,58
ah va bene, va bene 8dai
0,93
allora mi chiami tu? 7
0,79
Totali tel 670
62
7,25
dev. st.
s v. medio
9,09
7,95
9,32
7,55
8,11
8,62
8,6
8,86
8,55
4. Esami prosodici
Inflessione/cadenza
Danno indicazioni sulla regione linguistica di provenienza de
0,6
0,21
parlatore
Sospettatosillabe
secondi vel.
volevo sentir da te 7
0,73
Adesso vado a sentire
13 com'è1,44
la
ma mi sembra troppo
6
0,83
spetta facciamo 'na11
cosa facciamo
1,31
20
adesso vedo se casomai
16
posso…
2,01
18
ah ho capito, ho capito
9
1,02
16
allora mi chiami tu? 7
0,75
14
Di solito quando ci 17
son stati 1,97
i Cara..
12
sia in una maniera 12
che è la mia
1,55m..
10
o nel bene o nel male
8
0,92
8
primo processo che13abbiamo
1,51
fatto..
6
dopo tanti anni vengono
13 a scoprire
41,62
Totali CURCI
132
15,66
2
dev. st.
9,59
9,03
7,23
8,4
7,96
8,82
9,33
8,63
7,74
8,7
8,61
8,02
8,43
s v. medio
percentuali relative
Pause (vuote e piene) - Lunghezza consonanti plosive (p,t,k)
Sono elementi individuali misurabili strumentalmente
Velocità di locuzione
E’ il parametro più utile a fini
forensi,
per misu0,68
0,2
rabilità, stabilità e trattabilità statistica
V
0
4-4,49 4,5-5 5,01- 5,51-6 6-6,5 6,51-7 7,01- 7,51-8 8,01- 8,51-9
5,5
7,5
8,5
velocità medie della popolazione
>9
Metodo Linguistico-Fonetico: considerazioni
Alcuni parametri sono ‘robusti’ rispetto
agli effetti del canale e al rapporto
segnale/rumore
Richiede giorni per un esame completo
E’ complicato creare database
Le risposte sono generalmente qualitative,
le valutazioni soggettive
L’orecchio è uno strumento attendibile?
140
120
100
80
60
40
20
10
K
20
K
5K
2K
1K
10
0
20
0
50
0
50
0
20
db
Hz
GRAFICO DELLA SENSIBILITA’
DELL’ORECCHIO UMANO
La percezione è utile?
1. Tutti abbiamo forme di percezione
2. La percezione solitamente è PARZIALE
3. La verità può essere AMBIGUA
4. La verità può essere UNIVOCA ma la
nostra percezione porta a conclusioni
ERRATE
Esempio di realtà AMBIGUA
Esempio di realtà UNIVOCA
Il riconoscimento del parlatoreesami ‘oggettivi’
(Speaker Identification)
La voce è un suono complesso perché è dato dalla
combinazione di tre effetti:
1. La vibrazione delle corde vocali
(genera la Frequenza Fondamentale)
2. Il rumore prodotto nella fonazione
3. Il transito attraverso il tratto vocalico
(genera le Frequenze Formanti)
- Il segnale finale è dato dalla CONVOLUZIONE del segnale
entrante x(t) con il filtro vocale h(t)
g(t)=x(t)h(t)
- Lo spettro del segnale finale è dato dal PRODOTTO degli
spettri dei segnali x(t) e h(t)
Modello
ESEMPI OPERATIVI
Segnale relativo ad una ‘a’
-Spettro-
Per essere leggibile, uno spettro necessita dell’applicazione di algoritmi specifici (CEPSTRUM o
LPC) che rendano possibile la ricostruzione delle
componenti dovute al tratto vocalico
METODI di tipo SEMI - AUTOMATICO
(IDEM, SMART, DIALECT, SIVE...)
Sistemi computerizzati che richiedono
l’interazione uomo-macchina
Alcune task sono automatiche:
•Stima rapporto s/n
•Estrazione di parametri (pitch, formanti...)
•Modelli matematici intra-interparlatore (GMM,
Distances, Matrix...)
•Analisi statistiche e decisionali (Tests)
METODI SEMIAUTOMATICI
Attività ‘manuali’ lasciate all’operatore:
•Selezione dei tratti da misurare (editing)
•Controllo delle misure
(correttezza, selezione delle vocali, deleting...)
•Selezione dei parametri decisionali
(livello di confidenza, variabili e database... )
•Controllo finale
Il sistema indica le misurazioni delle
risonanze: le FORMANTI
Il sistema consente una rappresentazione
bidimensionale delle misure effettuate
Al termine si effettua sia il test di compatibilità (es.
c2) che il calcolo della probabilità di falsa
identificazione (integrazione Montecarlo)
Equivalenza verbale - LR
Metodi Semiautomatici - considerazioni
Questi esami lavorano nel dominio delle
frequenze in condizioni di stazionarietà (i.e. F0 e
Formanti)
Le formanti sono robuste rispetto al canale
E’ possibile una ricca trattazione statistica (Lr o
P.F.A./P.F.R.)
Sono metodi accettati in dibattimento
Metodi semiautomatici europei
IDEM
ITALY (Carabinieri)
SMART
ITALY (Police)
(+FRANCE and SPAIN -Police-)
SIVE
LITHUANIA, LATVIA, ESTONIA
CHECZ REP., POLAND, FINLAND
DIALECT
-Phonexi-
RUSSIA, BELORUSSIA,
UKRAINE, KAZAKHSTAN,
UZBEKISTAN
Metodi Totalmente automatici
Rappresentano le più moderne opportunità
Tutti i passi sono automatici:
-Estrazione dei parametri
-trattamento statistico e catalogazione
-calcolo della likelihood ratio
L’operatore deve solo:
-inserire i tratti di segnale nel sistema
-scegliere il database di riferimento
Metodi Totalmente automatici
Il segnale, una volta inserito nel sistema, viene
processato secondo il seguente schema:
- realizzazione di una FFT ogni 10 ms, con
finestra di 25-30 ms;
-estrazione automatica dei 15-30 coefficienti
(MFCC...) per singola ‘frame’;
-catalogazione delle misure;
-realizzazione del modello intra-speaker;
-calcolo della likelihood ratio finale
Metodi Totalmente automatici
Il trattamento statistico prevede il computo della
LIKELIHOOD RATIO secondo un modello
continuo, la soglia è variabile caso per caso.
Metodi Totalmente automatici
Lavorano nel campo delle frequenze e del
tempo (parametri MFCC e DMFCC)
Caratteristiche principali:
-velocità
-sensibilità al canale
-sensibilità al rapporto segnale/rumore
-discreta robustezza sulla lingua
Metodi automatici europei
LVIS
in fase di test presso il RaCIS
(Loquendo)
IDENTIVOX SPAGNA (Guardia Civil)
‘Meuwly’
Svizzera (Zurigo-Losanna)
‘SIS’
FRANCIA (Gendarmeria)
Trawl
RUSSIA
Parte II
METODI A CONFRONTO
-vincoli
-robustezza
-velocità
-parametri coinvolti
-validità in dibattimento
-performance
Rapporto segnale/rumore - vincoli
Linguistic/
Phonetic
Semi
Automatic
Full
Automatic
~ 10 dB
~ 12 dB
~ 17 dB
Vincoli sulla durata
Linguistic/
Phonetic
Semi
Automatic
Full
Automatic
??
~ 12”
~ 30” per l’anonimo
~ 2’ per il sospettato
Robustezza sul canale
Linguistic/
Phonetic
+++
Semi
Automatic
++/+++
Full
Automatic
-
Robustezza sulla lingua
(opeatore non madrelingua)
Linguistic/
Phonetic
-/+
Semi
Automatic
+/++
Full
Automatic
++/+++
(dipende dal grado di con.)
(dipende dalla lingua)
Velocità (comparazione a 2 voci)
Linguistic/
Phonetic
~ 1-2 Days
Semi
Automatic
~ 1 Day
Full
Automatic
~ 10 min
Parametri utilizzati
Linguistic/
Phonetic
Semi
Automatic
Full
Automatic
Fonemi, semantica, prosodia,
respiro...
(‘imparati’ / caratteristiche timedependent / frequency dependent)
F0, Formanti
(Frequency domain)
F0, MFCC, DMFCC, DDMFCC
(Tutti i dominii)
Risposte
Linguistic/
Phonetic
Scala verbale – Soggettiva/qualitativa
Semi
Automatic
P.F.A./P.F.R. o Lr
Full
Automatic
Lr / Tippet Plot
Performance
Linguistic/
Phonetic
Semi
Automatic
Full
Automatic
Alta ??
(non esiste una reale validazione)
EER < 1 %
EER 1%-15%
(dipende dal tipo di canale)
Casi rigettati per i limiti del sistema
(il segnale non rispetta i vincoli)
Linguistic/
Phonetic
1% - 5%
Semi
Automatic
~ 20%
Full
Automatic
30% - 60%
E’ accettato in dibattimento ?
Linguistic/
Phonetic
generalmente sì
(non in U.S.A. - caso Daubert)
Semi
Automatic
Sì
Full
Automatic
??
(Sono da considerarsi alla stregua di
AFIS e IBIS, cioè utili per per analisi
preventive)
CONCLUSIONI
Nessuno dei 3 metodi può definirsi ‘il migliore’ in
senso assoluto, avendo differenti limiti
La richiesta dominante delle Scienze Forensi è
‘fornire risposte quantitative’
I sistemi linguistico-fonetico, pur qualitativi, sono
però finora accettati quasi ovunque
I metodi Semi-automatici appaiono i più versatili,
potendo combinarsi con le variabili time-dependent
usate dai fonetisti
CONCLUSIONI
L’accertamento completo dovrebbe essere condotto
con la combinazione di tutte le tecniche (il ‘metodo
dei metodi’) in modo da poter garantire
applicabilità e performance superiori in qualsiasi
condizione.
PARTE III
CASI REALI
1°
Comparazione in caso di
voce alterata
Il caso
Svizzera, Canton Ticino
Un ragazzo uccide la nonna con un macete e aggredisce
il padre. Viene arrestato immediatamente.
Nella camera del ragazzo viene trovato un video di 6
minuti nel quale un soggetto maschile, totalmente
incappucciato, con un macete in mano, legge un discorso
delirante, con voce alterata, nel quale spiega che bisogna
compiere ‘grandi azioni’ prima di suicidarsi.
Il P.M. vuole sapere se la voce è dell’assassino oppure
sia un’azione di plagio sul ragazzo
Il caso
La Polizia Scientifica del Canton Ticino non opera
comparazioni di voce
L’Istituto Centrale di Zurigo non è in grado di trattare il
caso per via della lingua e perché, utilizzando sistemi
automatici, la voce alterata rappresenta un limite.
Tuttavia la voce naturale del ragazzo, all’ascolto, appare
molto simile.
Metodo di lavoro
Effettuazione del saggio fonico secondo le modalità
standard
Approccio linguistico (laddove possibile)
Approccio strumentale (laddove possibile)
Approccio linguistico
Il parlatore anonimo si esprime con accento ticinese
(simile al lombardo), mostrando una chiara ‘r’ uvulare.
Nel messaggio, tuttavia, si evidenziano 6 parole
pronunciate con accento differente da quello locale:
dèa – Atèna – appartèngo – sènza – intèndere - sèmpre
La dimostrazione che l’accento fosse effettivamente
diverso nella popolazione ticinese è stata ottenuta
intervistando una quindicina di persone del luogo,
invitate a leggere frasi contenenti queste parole.
Il saggio fonico
Si effettua in carcere, in modalità ortofonica, e si
propone al sospettato, dopo un colloquio informale, di
ripetere frasi contenenti le parole evidenziate, per
verificarne le caratteristiche fonetiche, nonché di
rileggere il messaggio pronunciato nel video
Approccio strumentale
Dalla voce del sospettato e dell’anonimo sono stati
estratti 7-8 campioni per ogni vocale e da questi sono
state misurate le formanti.
Poiché la F0 (frequenza fondamentale) è indubbiamente
modificata dall’alterazione volontaria, non è stata presa
in considerazione (nel saggio la voce era naturale)
L’esito del test è stato sorprendentemente positivo.
Conclusioni
Quando il materiale è abbondante, anche a fronte di
alterazioni volontarie nel parlato, è possibile ottenere
risultati da esami di tipo linguistico
Il tipo di alterazione (strozzatura della glottide) ha
riflessi sulla F0 ma non sulle formanti
2°
Trascrizione
‘complessa’
Il caso
Viene assassinato un certo sig. ZAVETTIERI
Tempo dopo, tra tante ore di intercettazione ambientale,
in auto, due parlatori sembrano riferirsi ad un contatto
avuto con la vittima, ma il tratto è di sole 3 parole,
immerse nel rumore di fondo.
Cosa viene pronunciato?
Il perito, in primo grado, afferma che il tratto è
INCOMPRENSIBILE
Il consulente tecnico del P.M. sente la frase:
“CHIDDHU, U CARROZZERI?”
Mentre la P.G. operante sente, invece, la frase:
“CHIDDHU, U ZAVETTERI?”
????
Quando il rapporto segnale/rumore è basso,
è noto che l’orecchio non è sufficiente per
dirimere una disputa sull’interpretazione
Effettivamente l’orecchio è in grado di
portarci su entrambe le posizioni suggerite,
ma non può essere uno strumento idoneo per
DIMOSTRARE cosa realmente sia stato
pronunciato.
Approccio linguistico
La parola da determinare ha 4 sillabe, la prima vocale è
una ‘a’ e termina con il gruppo ‘eri’. Tuttavia il dialetto
è calabrese, quindi alcune consonanti potrebbero essere
aspirate, dato il rumore di fondo non si può stabilire se:
La prima consonante sia una ‘Z’ o una ‘C’ aspirata
Al centro vi sia una doppia ‘R’, pronunciata in modalità
verosimilmente uvulare, oppure una doppia ‘T’ aspirata
Approccio strumentale
La vocale che fa la differenza è la atona centrale, ‘o’
(oppure ‘u’) nell’ipotesi CARROZZERI ovvero ‘e’
nell’ipotesi ‘ZAVETTERI’.
Metodo: si tenta di estrarre le formanti
Approccio strumentale
La vocale che fa la differenza è la atona centrale, ‘o’
(oppure ‘u’) nell’ipotesi CARROZZERI ovvero ‘e’
nell’ipotesi ‘ZAVETTERI’.
Spettro della ‘e’ del gruppo ‘eri’ (non in contestazione)
Spettro della vocale in contestazione
Approccio strumentale
Spettro della ‘e’ del gruppo
‘eri’(non in contestazione)
Spettro della vocale disputata
Conclusioni
La vocale che fa la differenza è configurabile come ‘e’
ma non come ‘o’ oppure ‘u’.
Benchè nulla si possa dire di certo sulle restanti
consonanti, il risultato porta tuttavia a dirimere il dubbio
sulla scelta delle due opzioni.
Si rimarca che, in ogni caso, non si può affermare con
certezza che la parola sia realmente ZAVETTERI ma
bensì che Zavetteri sia l’unica ipotesi superstite.
3°
Correttezza peritale
Il caso
In una moschea si ritrovano arabi sospettati di attività
terroristica
Tra tante ore di intercettazione si arriva ad un tratto dove
effettivamente un tizio sembra avere un’arma in mano e,
scrive la P.G., “Si nota chiaramente lo scarrellamento di
una pistola”
Si può confermare?
La percezione uditiva tenderebbe a confermare l’ipotesi
Il contesto stesso, peraltro, suggerisce questa
interpretazione (alta probabilità a priori)
Una prova con una vera pistola semiautomatica è stata
effettuata con esito positivo.
E’ sufficiente?
Ipotesi alternative
In totale assenza di suggerimenti, malgrado la positività
del riscontro non è possibile garantire con certezza che
un’arma sia l’unica fonte del suono percepito.
Poiché al termine del brano si sente il cigolìo di una
porta e, effettivamente, esistono porte con pomelli a
scatto, si sono effettuate prove che hanno dato anch’esse
compatibilità con porte e pomelli in materiale plastico.
Risultato:
Non si può stabilire con certezza quale sia la fonte.
Saranno gli organi inquirenti ad effettuare
sopralluogo e verificare o suggerire altre ipotesi.
un
Il consulente di parte afferma che:
‘il rumore percepito, a sua memoria, è ben diverso da
quello di uno scarrellamento d’arma
Ha contato 5 impulsi di telefonino (presentando
l’oscillogramma!!), segno evidente che il soggetto stava
digitando dei numeri, quindi aveva le mani impegnate e
dunque, in nessun caso, poteva operare uno
scarrellamento d’arma
La tragica verità
Poiché la fase processuale era avanzata nessuno ha
riscontrato se nella moschea vi fossero porte a pomelli…
Il proprietario della moschea ha dichiarato che quel
rumore era stato generato da un ‘tagliamaioliche’
presente nella stanza…
La testimonianza del consulente di parte non è stata
‘sottolineata’…
Scarica

L`Indagine Fonica - Associazione Italiana di Scienze della Voce