Metodologie statistiche a confronto:
CART e Analisi Discriminante
Irene Ricci, Silvia Calamai, Maddalena Agonigi
Scuola Normale Superiore
Pisa
Che cosa è un classificatore
Un classificatore o una regola di classificazione
rappresenta un modo sistematico per predire la
classe di appartenenza di un dato sperimentale
Un classificatore è una funzione d che associa una
classe di appartenenza c, dello spazio C di tutte le
classi, ad ogni vettore x dello spazio X costituito da
tutti i dati sperimentali
d(x) = c
x  X, c  C
Gli scopi di un’analisi di
classificazione
Acquisire una maggiore conoscenza delle variabili che
governano il fenomeno oggetto di studio:


Stabilire una gerarchia di fattori sulla base della loro
importanza
Eliminare i fattori non rilevanti ai fini della
classificazione
Creare una struttura predittiva in grado di classificare
nuovi dati sperimentali
Classification and Regression Trees
CART
metodologia statistica introdotta da Breiman et al. nel
1984



produce classificazioni nella forma di diagrammi ad
albero rovesciato
produce segmentazioni di tipo binario
produce alberi di classificazione se i dati sono qualitativi,
alberi di regressione se i dati sono quantitativi
Come classifica CART
suddivide ogni nodo dell’albero in altri due nodi dopo
aver individuato lo split migliore mediante:


un set di domande binarie per ogni variabile
un criterio di bontà dello split ad ogni nodo
decide quando un nodo è da considerarsi nodo
terminale (regole di arresto)
assegna una classe di appartenenza ad ogni nodo
terminale
I vantaggi di CART
la classificazione finale ha una forma semplice e di facile
interpretazione
non è necessario fare assunzioni sulla distribuzione statistica dei
dati
le variabili possono essere sia qualitative che quantitative
si possono trattare set di dati molto ampi e con un numero
molto alto di variabili
i risultati sono invarianti per trasformazioni monotone delle
variabili (logaritmi, elevamento a potenza positiva…)
è possibile processare casi con dati mancanti
L’Analisi Discriminante (AD)
Metodologia statistica che assegna una classe ad ogni
elemento di un set di dati che hanno distribuzione
statistica normale
L’analisi genera una o più funzioni discriminanti D
dalla combinazione lineare di quelle variabili che
meglio discriminano i dati
D = a·f1 + b·f2+c·f3
Come classifica AD
La funzione discriminante D viene calcolata tramite il
metodo dei minimi quadrati che garantisce:

Variabilità minima all’interno di una classe

Variabilità massima fra classi diverse
Obiettivi della ricerca
Utilizzando CART acquisire nuove INFORMAZIONI su
sistemi vocalici già studiati con l’Analisi Discriminante
Determinare le VARIABILI
che meglio distinguono e
meglio caratterizzano uno
stesso sistema vocalico
Determinare quali UNITA’
DI MISURA meglio
caratterizzano uno stesso
sistema vocalico
Variabili e Unità di misura
Variabili “grezze”
F1
F2
F3
Differenze spettrali
F1 - f0
F2 - F1
F3 - F2
Scale acustiche
 Hertz
 LogHz
 Koenig
Scale uditive
 Bark
 Mel
 ERB
I dati
1199 entrate vocaliche provenienti dal database:
Archivio delle varietà di Italiano Parlato (AVIP):
archivio di parole e pseudo-parole prodotte mediante
lettura e di parlato semi-spontaneo (Map Task)
I soggetti sono tutti nati e vissuti a Pisa (23 - 31 anni)
e rappresentano un campione omogeneo per sesso,
età, provenienza geografica, livello socio-culturale
Analisi acustica
Parametri utilizzati per l’analisi (Multispeech)
 Sampling rate: 11.025 Hz
 Analysis size: 100 punti
 Window: Hamming
 Pre – emphasis: 0.8
Vocalismo tonico
Variabili misurate: F1, F2, F3, f0 (nella parte
stazionaria della vocale)
Studi che ricorrono ad AD nelle
indagini sui sistemi vocalici
Assmann et al. (1982)
Syrdal (1985)
Syrdal & Gopal (1986)
Nearey & Assmann (1986)
Jongman et al. (1989)
Hillenbrand & Gayvert (1993)
Cosi et al. (1995)
Adank (1999)
Delvaux & Soquet (2001)
Adank et al. (2001)
Jassem et al. (2001)
Weenink (2001)
Ménard et al. (2002)
Calamai (2003)
…
Studi che ricorrono a CART nelle
indagini sui sistemi vocalici
Studi sul vocalismo:
??
Studi su altri fenomeni:







Rosario & Hearst (2001) [semantica]
Bouzon & Hirst (2002) [durata]
Ernestus & Baayen (2003) [consonantismo]
Cosi et al. (2003) [prosodia]
Heylen (2004) [sintassi]
Tesser et al. (AISV 2004) [prosodia]
...
Un punto di contatto…
Matrici di confusione: entrambe le metodologie
statistiche creano come output delle matrici, nelle
quali si hanno evidenziati i casi classificati
correttamente e quelli mal classificati
Casi predetti
I numeri sulla
diagonale sono
la classificazione
corretta
Casi originali
1
2
…
n
1 45
3
…
1
2 0
49
…
0
… 2
…
42
0
n 0
1
0
50
I numeri fuori
diagonale sono la
classificazione
errata
Un esempio di albero
Disegno sperimentale
Software statistico: Answer Tree (SPSS)
Parametri utilizzati



Livelli dal nodo radice: 5
Numero massimo di casi
 Nodo genitore: 5
 Nodo figlio: 2
Misura dell’impurità: indice Gini
Confronto fra CART e AD
Unità di misura considerate: tutte
Variabili considerate: F1 e F2
CART
Analisi
Discriminante
Hz
96,2 %
91,6 %
LogHz
96,2 %
93,7 %
Bark
96,2 %
92,6 %
Mel
96,2 %
92,6 %
Erb
67,4 %
93,4 %
Koenig
66,2 %
91,2 %
Matrici di confusione (Hz)
1
2
3
4
5
6 7 Totale
1
429 1
0
0
6
0 0 436
2
0 208 1
0
0
0 0 215
3
0
6
90
8
0
0 0
94
4
0
0
3 120 0
0 0 128
5
7
0
0
0 156 6 0 166
6
0
0
0
0
4 83 2
91
7
0
0
0
0
0
2 67 69
Totale 436 209 104 123 169 89 69 1199
CART
Analisi Discriminante
1
2
3
4
5
6 7 Totale
1
422 2
0
0
12 0 0 436
2
0 207 2
0
0
0 0 209
3
0
5
76 23
0
0 0 104
4
0
0
16 107 0
0 0 123
5
8
0
0
0 152 9 0 169
6
0
0
0
0
4 77 8
89
7
0
0
0
0
0 12 57 69
Totale 430 214 94 130 168 98 65 1199
Analisi ulteriori con CART /1
Variabili analizzate: F1, F2, F3, F1-f0, F2-F1, F3-F2
Unità di
misura
Percentuale di
corretta
classififcazione
Bark
96,6 %
Hz
96,5 %
LogHz
96,5 %
Mel
96,5 %
ERB
93,6%
Koenig
92,3%
Qualche osservazione…
Le unità di misura che meglio rappresentano il
sistema vocalico sono:
BARK
HERTZ - LOGHZ - MEL
in ogni caso…
Scale acustiche e scale uditive sono molto simili



nella separazione delle categorie vocaliche
nei punteggi
nella gerarchia dei parametri
Qualche osservazione…
La variabile che risulta più importante (che compare
più spesso subito al primo nodo) è
F1 o F1-f0
La variabile che non compare mai (che non influisce
sulla determinanzione della vocale) è:
F3-F2
Qualche osservazione…
E, e, i, O, o, u, a
E, e, i, O, o, u
posteriori
alta e medio-alta
alta
medio-bassa
medio-alta
a
anteriori
medio-bassa
alta
alta e medio-alta
medio-alta
Analisi ulteriori con CART /2
CART e il fattore ‘stile’
parlato letto vs. parlato semi-spontaneo
Parlato letto
 16 nodi
 miglioramento: 0. 244
 variabili utili: F1, F2
98,9 %
Parlato semi-spontaneo
85,4 %
 30 nodi
 miglioramento: 0.146
 variabili utili: F1, F2, F3, F2-F1, F1-f0
Work in progress…
Estendere il campione di analisi:
 Sistemi atoni
 Altre varietà di italiano regionale (p.e. Firenze, Roma)
 Altri stili…
Aumentare le variabili in gioco:
 durata
Estendere il confronto ad altre metodologie:
 algoritmi ad albero decisionale (CHAID, QUEST…)
 reti neurali
Scarica

PPT