Metodologie statistiche a confronto: CART e Analisi Discriminante Irene Ricci, Silvia Calamai, Maddalena Agonigi Scuola Normale Superiore Pisa Che cosa è un classificatore Un classificatore o una regola di classificazione rappresenta un modo sistematico per predire la classe di appartenenza di un dato sperimentale Un classificatore è una funzione d che associa una classe di appartenenza c, dello spazio C di tutte le classi, ad ogni vettore x dello spazio X costituito da tutti i dati sperimentali d(x) = c x X, c C Gli scopi di un’analisi di classificazione Acquisire una maggiore conoscenza delle variabili che governano il fenomeno oggetto di studio: Stabilire una gerarchia di fattori sulla base della loro importanza Eliminare i fattori non rilevanti ai fini della classificazione Creare una struttura predittiva in grado di classificare nuovi dati sperimentali Classification and Regression Trees CART metodologia statistica introdotta da Breiman et al. nel 1984 produce classificazioni nella forma di diagrammi ad albero rovesciato produce segmentazioni di tipo binario produce alberi di classificazione se i dati sono qualitativi, alberi di regressione se i dati sono quantitativi Come classifica CART suddivide ogni nodo dell’albero in altri due nodi dopo aver individuato lo split migliore mediante: un set di domande binarie per ogni variabile un criterio di bontà dello split ad ogni nodo decide quando un nodo è da considerarsi nodo terminale (regole di arresto) assegna una classe di appartenenza ad ogni nodo terminale I vantaggi di CART la classificazione finale ha una forma semplice e di facile interpretazione non è necessario fare assunzioni sulla distribuzione statistica dei dati le variabili possono essere sia qualitative che quantitative si possono trattare set di dati molto ampi e con un numero molto alto di variabili i risultati sono invarianti per trasformazioni monotone delle variabili (logaritmi, elevamento a potenza positiva…) è possibile processare casi con dati mancanti L’Analisi Discriminante (AD) Metodologia statistica che assegna una classe ad ogni elemento di un set di dati che hanno distribuzione statistica normale L’analisi genera una o più funzioni discriminanti D dalla combinazione lineare di quelle variabili che meglio discriminano i dati D = a·f1 + b·f2+c·f3 Come classifica AD La funzione discriminante D viene calcolata tramite il metodo dei minimi quadrati che garantisce: Variabilità minima all’interno di una classe Variabilità massima fra classi diverse Obiettivi della ricerca Utilizzando CART acquisire nuove INFORMAZIONI su sistemi vocalici già studiati con l’Analisi Discriminante Determinare le VARIABILI che meglio distinguono e meglio caratterizzano uno stesso sistema vocalico Determinare quali UNITA’ DI MISURA meglio caratterizzano uno stesso sistema vocalico Variabili e Unità di misura Variabili “grezze” F1 F2 F3 Differenze spettrali F1 - f0 F2 - F1 F3 - F2 Scale acustiche Hertz LogHz Koenig Scale uditive Bark Mel ERB I dati 1199 entrate vocaliche provenienti dal database: Archivio delle varietà di Italiano Parlato (AVIP): archivio di parole e pseudo-parole prodotte mediante lettura e di parlato semi-spontaneo (Map Task) I soggetti sono tutti nati e vissuti a Pisa (23 - 31 anni) e rappresentano un campione omogeneo per sesso, età, provenienza geografica, livello socio-culturale Analisi acustica Parametri utilizzati per l’analisi (Multispeech) Sampling rate: 11.025 Hz Analysis size: 100 punti Window: Hamming Pre – emphasis: 0.8 Vocalismo tonico Variabili misurate: F1, F2, F3, f0 (nella parte stazionaria della vocale) Studi che ricorrono ad AD nelle indagini sui sistemi vocalici Assmann et al. (1982) Syrdal (1985) Syrdal & Gopal (1986) Nearey & Assmann (1986) Jongman et al. (1989) Hillenbrand & Gayvert (1993) Cosi et al. (1995) Adank (1999) Delvaux & Soquet (2001) Adank et al. (2001) Jassem et al. (2001) Weenink (2001) Ménard et al. (2002) Calamai (2003) … Studi che ricorrono a CART nelle indagini sui sistemi vocalici Studi sul vocalismo: ?? Studi su altri fenomeni: Rosario & Hearst (2001) [semantica] Bouzon & Hirst (2002) [durata] Ernestus & Baayen (2003) [consonantismo] Cosi et al. (2003) [prosodia] Heylen (2004) [sintassi] Tesser et al. (AISV 2004) [prosodia] ... Un punto di contatto… Matrici di confusione: entrambe le metodologie statistiche creano come output delle matrici, nelle quali si hanno evidenziati i casi classificati correttamente e quelli mal classificati Casi predetti I numeri sulla diagonale sono la classificazione corretta Casi originali 1 2 … n 1 45 3 … 1 2 0 49 … 0 … 2 … 42 0 n 0 1 0 50 I numeri fuori diagonale sono la classificazione errata Un esempio di albero Disegno sperimentale Software statistico: Answer Tree (SPSS) Parametri utilizzati Livelli dal nodo radice: 5 Numero massimo di casi Nodo genitore: 5 Nodo figlio: 2 Misura dell’impurità: indice Gini Confronto fra CART e AD Unità di misura considerate: tutte Variabili considerate: F1 e F2 CART Analisi Discriminante Hz 96,2 % 91,6 % LogHz 96,2 % 93,7 % Bark 96,2 % 92,6 % Mel 96,2 % 92,6 % Erb 67,4 % 93,4 % Koenig 66,2 % 91,2 % Matrici di confusione (Hz) 1 2 3 4 5 6 7 Totale 1 429 1 0 0 6 0 0 436 2 0 208 1 0 0 0 0 215 3 0 6 90 8 0 0 0 94 4 0 0 3 120 0 0 0 128 5 7 0 0 0 156 6 0 166 6 0 0 0 0 4 83 2 91 7 0 0 0 0 0 2 67 69 Totale 436 209 104 123 169 89 69 1199 CART Analisi Discriminante 1 2 3 4 5 6 7 Totale 1 422 2 0 0 12 0 0 436 2 0 207 2 0 0 0 0 209 3 0 5 76 23 0 0 0 104 4 0 0 16 107 0 0 0 123 5 8 0 0 0 152 9 0 169 6 0 0 0 0 4 77 8 89 7 0 0 0 0 0 12 57 69 Totale 430 214 94 130 168 98 65 1199 Analisi ulteriori con CART /1 Variabili analizzate: F1, F2, F3, F1-f0, F2-F1, F3-F2 Unità di misura Percentuale di corretta classififcazione Bark 96,6 % Hz 96,5 % LogHz 96,5 % Mel 96,5 % ERB 93,6% Koenig 92,3% Qualche osservazione… Le unità di misura che meglio rappresentano il sistema vocalico sono: BARK HERTZ - LOGHZ - MEL in ogni caso… Scale acustiche e scale uditive sono molto simili nella separazione delle categorie vocaliche nei punteggi nella gerarchia dei parametri Qualche osservazione… La variabile che risulta più importante (che compare più spesso subito al primo nodo) è F1 o F1-f0 La variabile che non compare mai (che non influisce sulla determinanzione della vocale) è: F3-F2 Qualche osservazione… E, e, i, O, o, u, a E, e, i, O, o, u posteriori alta e medio-alta alta medio-bassa medio-alta a anteriori medio-bassa alta alta e medio-alta medio-alta Analisi ulteriori con CART /2 CART e il fattore ‘stile’ parlato letto vs. parlato semi-spontaneo Parlato letto 16 nodi miglioramento: 0. 244 variabili utili: F1, F2 98,9 % Parlato semi-spontaneo 85,4 % 30 nodi miglioramento: 0.146 variabili utili: F1, F2, F3, F2-F1, F1-f0 Work in progress… Estendere il campione di analisi: Sistemi atoni Altre varietà di italiano regionale (p.e. Firenze, Roma) Altri stili… Aumentare le variabili in gioco: durata Estendere il confronto ad altre metodologie: algoritmi ad albero decisionale (CHAID, QUEST…) reti neurali