“Analisi di dati categoriali” Corso di Laurea in Sociologia Facoltà di Sociologia Università Milano-Bicocca Ottobre 2009 Simone Sarti I modelli log-lineari I modelli log-lineari rappresentano un approccio complementare e compatto al problema dell’analisi multivariata delle variabili categoriali Obiettivo: esprimere la struttura della tabella di contingenza a più vie con un numero limitato di parametri Il modello si configura come una descrizione plausibile e parsimoniosa della realtà 2 Il modello moltiplicativo tavola 2x2 B DESTINAZIONE BOR CMI tot A ORIGINEBOR 47 53 100 CMI 44 137 181 tot 91 190 281 Le frequenze possono essere espresse come funzione moltiplicativa di quattro parametri Fij iA Bj ijAB effetto generale, effetto numerosità iA effetto marginale della variabile A jB effetto marginale della variabile B ijAB effetto interazione fra le var A e B L’assenza di un effetto si avrà quando il parametro indicante quell’effetto assume valore 1 3 Esempio B A DESTINAZIONE BOR CMI ORIGINE BOR 47 53 CMI 44 137 tot 91 190 Tab. contingenza 2 x 2 di mobilità intergenerazionale tot 100 181 281 Fij iA Bj ijAB BOR CMI BOR F11 1A 1B 11AB F12 1A 2B 12AB CMI A B AB F21 2A 1B 21AB F22 2 2 22 4 equazioni per 9 incognite! Occorre introdurre dei vincoli ! 4 La parametrizzazione di Goodman nel caso di 2 variabili dicotomiche Il prodotto dei parametri relativi alle stesse variabili deve essere uguale iA =1 jB =1 ijAB =1 Svolgendo le produttorie ne deriva: 1A 2A =1 1B 2B =1 ossia ossia 1A=1/2A 1B=1/2B 11AB =22AB = 1/12AB=1/ 21AB 5 BOR CMI BOR F11 1A 1B 11AB CMI F21 1 1 1 11AB B 1 A F12 1A F22 1 1 1B 11AB 1 A 1 1 1B 11AB Parametrizzazione di Goodman 1A 1B 11AB Fij 4 incognite per 4 valori osservati 6 Calcolo dell’effetto numerosità B A DESTINAZIONE BOR CMI ORIGINE BOR 47 53 CMI 44 137 tot 91 190 Frequenze osservate tot 100 181 281 F11 F12 F21 F22 4 F11 F12 F21 F22 4 47 53 44 137 62,25 Media geometrica delle frequenze di cella. Cattura l’effetto dovuto alla numerosità dei casi. 7 Calcolo dell’effetto marginale di A B A DESTINAZIONE BOR CMI ORIGINE BOR 47 53 CMI 44 137 tot 91 190 A 1 Frequenze osservate tot 100 181 281 F11 F12 F21 F22 4 F11 F12 F21 F22 4 47 53 / 44 137 0,80 A 1 E’ la radice quarta dell’effetto marginale di A. Se minore di 1 le chance di avere origini borghesi sono minori di quelle di essere CMI. 8 Calcolo dell’effetto marginale di B Frequenze osservate B A DESTINAZIONE BOR CMI ORIGINE BOR 47 53 CMI 44 137 tot 91 190 B 1 tot 100 181 281 F11 F12 F21 F22 4 F11 F21 F12 F22 4 47 44 / 53 137 0,73 B 1 E’ la radice quarta dell’effetto marginale di B. Se minore di 1 le chance di avere destinazione borghese sono minori di quelle di essere CMI. 9 Calcolo dell’effetto interazione B A DESTINAZIONE BOR CMI ORIGINE BOR 47 53 CMI 44 137 tot 91 190 AB 11 Frequenze osservate tot 100 181 281 F11 F12 F21 F22 11AB 4 F11 F22 F21 F12 4 47 137 / 53 44 1,28 E’ la radice quarta dell’odds ratio, che misura l’associazione tra le due variabili A/B. Se maggiore di 1, i soggetti di origine borghese (piuttosto che CMI) hanno più chance di diventare borghesi (piuttosto che CMI). 10 B Calcolo degli effetti A 1 B 1 A AB 11 DESTINAZIONE BOR CMI ORIGINE BOR 47 53 CMI 44 137 tot 91 190 4 F11 F12 F21 F22 4 47 53 44 137 62,25 1A 4 F11 F12 F21 F22 4 47 53 / 44 137 0,80 1B 4 F11 F21 F12 F22 4 47 44 / 53 137 0,73 11AB 4 F11 F22 F21 F12 4 47 137 / 53 44 1,28 1,28 ODDSRATIO AB 4 11 4 2,76 11 tot 100 181 281 Ricostruzione delle frequenze. Le frequenze ricostruite (attese) sono uguali a quelle osservate nella tabella. Fij A i B j AB ij F11 1A 1B 11AB 47 F12 A 1 F21 F22 1 A 1 1 1 B 1 A B 1 1 1 1B 1 AB 11 1 AB 11 53 44 11AB 137 12 A 1 B 1 AB 11 L’uso di pochi parametri (che costituiscono il modello dei dati osservati) ci permette di interpretare gli effetti, ma anche di testare delle ipotesi. VEROSIMIGLIANZA E PARSIMONIA 13 Note conclusive modello moltiplicativo Il parametro 11AB 4 F11 F22 F21 F12 4 47 137 / 53 44 1,28 (e dove 1,284=2,76 è l’odds ratio) 1,28 è l’effetto interazione o associazione tra A e B e quindi evidenzia la forza dell’associazione tra le variabili La forza della relazione è tanto maggiore quanto più ci allontaniamo da 1. La relazione è positiva se il valore del parametro è superiore ad 1, mentre è negativa se il valore è inferiore ad 1. 14 Modelli insaturi Fij= iAjBijAB modello saturo Fij= iAjB modello insaturo, assumiamo che tra la var.A e la var.B ci sia indipendenza, dunque poniamo l’effetto interazione (ijAB) pari a 1. Fij= iA modello insaturo, la struttura si semplifica ulteriormente. Fissiamo l’effetto marginale della variabile B pari a1 Fij= modello insaturo, la struttura si semplifica ulteriormente. Assumiamo che i casi siano distribuiti in modo uniforme in tutte le celle. 15 Il modello additivo Tavola 2x2 Attraverso il logaritmo le frequenze possono essere espresse come funzione additiva ossia come somma dei quattro parametri. L’equazione log-lineare può essere considerata come un’equazione di regressione nella quale l’unità di analisi non sono gli individui bensì le celle (la var. dipendente è rappresentata dal logaritmo della frequenza di cella) (Corbetta 1992) Fij iA Bj ijAB ln Fij ln ln iA ln Bj ln ijAB ln Fij A i B j AB ij 16 La parametrizzazione di Goodman nel caso di 2 variabili dicotomiche nel modello additivo La somma dei parametri lambda delle varie categorie di una stessa variabile deve essere uguale a zero. iA =0 jB =0 i jijAB =0 Svolgendo le sommatorie ne deriva 2A = - 1A 2B = - 1B 22AB = 11AB = - 12AB = - 21AB Tale parametrizzazione, introducendo vincoli sui parametri, serve per identificare il modello: in altre parole, abbiamo 4 equazioni e 9 parametri da stimare a partire dalle quattro celle di frequenze. Con tale parametrizzazione le 4 frequenze di cella di una tavola 2x2 possono essere ottenute combinando 4 parametri 17 Calcolo degli effetti modello additivo ln F11 F12 F21 F22 ln 47 ln 53 ln 44 ln 137 ln 4,131 4 4 ln F11 F12 F21 F22 ln 47 ln 53 ln 44 ln 137 0,221 4 4 ln F11 F21 F12 F22 ln 47 ln 44 ln 53 ln 137 1B ln 1B 0,314 4 4 1A ln 1A 11AB ln 11AB ln F11 F22 F12 F21 ln 47 ln 137 ln 44 ln 53 0,254 4 4 ODDSRATIO e AB 411 e40, 254 2,76 INTERPRETAZIONE DEI LAMBDA Gli effetti dei marginali e di interazione possono essere considerati in termini di deviazioni dai valori medi delle frequenze di celle. Lo squilibrio fra i due marginali è maggiore per la variabile B rispetto alla variabile A Il valore positivo di 11AB segnala la presenza di una relazione positiva. Le celle 11 e 22 presentano una frequenza più alta rispetto al caso di indipendenza. Ricostruiamo la tab.2*2 con il modello additivo: le frequenze ricostruite (attese) sono uguali a quelle osservate. lnF11 = + 1 A+ lnF12 = + 1 lnF21 = - 1 A- A+ 1 B+ 1 B- 1 B- 11 AB=3,85 F11 e3,85 47 11 AB=3,97 F12 e 11 AB=3,78 F21 e3,78 44 lnF22 = - 1A- 1B+ 11AB=4,92 3, 97 53 F22 e 4,92 137 19 Modelli insaturi lnFij= +iA+jB + ijAB modello saturo lnFij= +iA+jB modello insaturo, fissiamo l’effetto interazione pari a zero lnFij= +iA fissiamo l’effetto interazione e il marginale della var.b pari a zero lnFij= fissiamo l’effetto interazione e gli effetti dei marginali della var.A e della var.B pari a zero 20 Come si calcolano gli errori standard delle stime dei parametri R sˆ C (1 / Fij ) i 1 j 1 R C 2 1 1 1 1 sˆ 47 53 442 137 0,066 2 2 R = numero di categorie della variabile di riga C = numero di categorie della variabile di colonna L’ipotesi nulla secondo la quale nella popolazione il valore di lambda è uguale a zero può essere verificata utilizzando un test t. 21 TEST DI SIGNIFICATIVITA’ DEI PARAMETRI tTEST VALOREOSSE RVATO H 0 e.s. H0 : 0 Rapportiamo i parametri stimati all’errore standard per calcolare i valori t da confrontare con quelli critici. t A t B tAB A 0 sˆ B 0 sˆ 0,22 0,066 3,32 0,31 0,066 4,68 AB 0 sˆ 0,25 0,066 3,77 22 Dal momento che i valori ottenuti sono superiori in valore assoluto a ±1,98 (il valore critico di t per alfa=0,05) possiamo concludere che i parametri sono significativamente diversi da zero per alfa=0,05. Non si può passare ad un modello insaturo. tB 4,68 tA 3,32 t AB 3,77 Soglia -1,98 Soglia +1,98 0,95 T 0,025 0,025 0 IPOTESI NULLA 23 INTERVALLI DI CONFIDENZA DEI PARAMETRI Possiamo calcolare gli I.C. dei parametri aggiungendo il valore t all’errore standard: A 1,98 sˆ 1,98 sˆ B lim.inf. -0.351 lim.sup. -0.089 lim.inf. -0.441 lim.sup. -0.179 ODDSRATIO e AB 1,98 sˆ 0.119 1,61 lim.sup. 0.381 4,58 lim.inf. 24 4 AB MODELLI TEORICI MODELLO SATURO* MODELLO INDIPENDENZA A MODELLO SOLO EFFETTO A A MODELLO SOLO EFFETTO B EQUIPROBABILITA’ A B B Notazione AB (AB) (A)(B) (A) B (B) *Il modello saturo riproduce i dati osservati. 25 Test dei modelli I modelli con tutti i parametri che ci consentono di realizzare l’identità tra frequenze attese ed osservate si chiamano saturi (esso conterrà tanti parametri quante sono le celle). I modelli semplificati, nei quali uno o più parametri vengono fissati a zero vengono definiti insaturi Il modello insaturo genererà delle frequenze teoriche o frequenze attese che verranno confrontate con le frequenze osservate. 26 Se gli scarti tra frequenze attese e osservate sono di entità ridotta il modello semplificato (o insaturo) verrà accettato. Il confronto fra frequenze attese e frequenze osservate viene fatto sulla base del calcolo della statistica L2 Nota come statistica del chi-quadrato del rapporto di verosimiglianza. Si distribuisce come una variabile chi-quadrato con tanti gradi di libertà quanti sono i parametri lambda indipendenti posti a zero. fi L 2 f i ln i 1 Fi k 2 27 Il modello teorico non deve scostarsi troppo dai dati osservati. L’H0 è che il modello si scosta troppo (contrariamente al test di indipendenza del Chi-quadrato!) g = gradi di libertà L2 0 Non posso rifiutare H0 Rifiuto H0 P 0 DATI OSSERVATI L2p MODELLO L2 Probabilità che il modello sia vero ! Tavola di contingenza sex * titolo SEX*TITOLODISTUDIO Conteggio s ex titolo 0 licmedia- 1 diploma+ 696 292 586 285 1282 577 0 F 1 M Totale Modello saturo (P=1) Stime dei parametri Effetto s ex*titolo s ex titolo Parametro 1 1 1 Stima .037 .049 .397 Errore s tand .025 .025 .025 Z 1.472 1.955 15.826 Sig .141 .051 .000 b Pas so 0 1 2 Class e di generazionec Effetto eliminato Class e di generazionec Effetto eliminato Class e di generazionec 1 1 2 Probabilità che il modello sia “vero” ! Intervallo di confidenza al 95% Limite Limite inferiore s uperiore -.012 .086 .000 .098 .348 .446 Riepilogo dei passi Effetti s ex*titolo s ex*titolo s ex, titolo s ex titolo s ex, titolo 2 P L a Chi-quadrato .000 2.166 2.166 7.369 274.170 2.166 df Sig 0 1 1 1 1 1 Numero di iterazioni . .141 .141 .007 .000 .141 a. Per ‘Effetto eliminato’, rappres enta la variazione del chi-quadrato dopo l’eliminazione dell’effetto dal modello. b. In cias cun pas saggio viene eliminato l’effetto con il livello di s ignificatività più alto per la variazione del rapporto di verosimiglianza, a condizione che il livello di s ignificatività s ia maggiore di .050. c. Le s tatiche del modello migliore verranno visualizzate per ciascun pas saggio dopo 0. Totale 988 871 1859 2 2 2 SINTASSI SPSS data list free/ n sex titolo. begin data 696 1 1 292 1 2 586 2 1 285 2 2 end data. weight by n. value labels sex 1'm' 2'f' /titolo 1 'licmedia' 2 'diploma'. HILOGLINEAR sex(0 1) titolo(0 1) /METHOD=BACKWARD /CRITERIA MAXSTEPS(10) P(.05) ITERATION(20) DELTA(.5) /PRINT=FREQ RESID ESTIM /DESIGN . 30 L’obiettivo è trovare un modello con un basso valore di L2 ad esso associato e quindi con un’alta probabilità di rappresentare la struttura delle relazioni tra le variabili a livello di popolazione. Un modello viene corroborato quanto i dati osservati hanno un’elevata probabilità di essere generati dal modello ipotizzato. Il rapporto di verosimiglianza è utile per individuare gli scarti tra modello e dati quanto il campione non supera i 1500 casi. Quando il campione è molto ampio l’adozione della statistica L2 comporta il rifiuto di modelli “buoni”. Il valore della statistica L2 aumenta all’aumentare della dimensione del campione. 31 BIC Una statistica più appropriata per valutare la bontà di adattamento del modello ai dati è rappresentata dal Criterio bayesiano di informazione (BIC) BIC L g ln N 2 LnN è il logaritmo naturale della dimensione del campione Il BIC rappresenta un buon compromesso tra capacità di riproduzione dei dati e parsimonia. Più negativo è il valore assunto dalla statistica BIC, migliore è l’adattamento ai dati di un certo modello. 32 MODELLO A TRE VIE Modelli gerarchici 33 Nei modelli gerarchici le relazioni multivariate di un certo livello includono tutte le relazioni più semplici di livello subordinato. Le frequenze attese vengono stimate sulla base del modello teorico attraverso algoritmi iterativi (ad esempio l’“adattamento proporzionale iterativo”) 34 Esempi di notazione dei modelli gerarchici A=area S=sex E=educ (ASE) - modello saturo lnFijk= + iA + jS + kE + ijAS + ikAE + jkSE + ijkASE (AS)(AE)(SE) – effetti a due lnFijk= + iA + jS + kE + ijAS + ikAE + jkSE (AS)(SE) – effetti a due di sole due variabili lnFijk= + iA + jS + kE + ijAS + jkSE (A)(S) – effetti marginali di sole due variabili lnFijk= + iA + jS Probabilità che il modello sia “vero” ! ESEMPIO DI VALUTAZIONE DEI MODELLI Modello L2 g p (ABC) 0,0 0 1,00 (AB)(AC)(BC) 1,5 1 0,20 (AB)(C) 34,0 3 0,00 (A)(B)(C) 76,2 4 0,00 36 CONFRONTO FRA MODELLI ELIMINAZIONE DEI PARAMETRI DAI MODELLI PROCEDURA BACKWARD Si parte dal modello saturo e si eliminano man mano i parametri che non tolgono verosimiglianza. Si aumenta la parsimonia lasciando il modello verosimile 37 *PM (1=favorevole alla pena di morte 2=non favorevole) *REL(1=non-praticante 2=praticante) *POL(1=centro-destra 2=centro-sinistra) REL a tteggia mento religioso * PM pena di morte * POL orientamento politico Crosstabulation Count POL orientamento politico 1,00 centro destra 2,00 centro sinistra REL atteggiamento religioso Total 1,00 non praticante 2,00 praticante REL atteggiamento religioso Total 1,00 non praticante 2,00 praticante PM pena di morte 1,00 2,00 non favorevole favorevole 456 112 213 110 669 222 344 184 37 38 381 222 Total 568 323 891 528 75 603 38 Il passaggio da un modello all’altro è valutato attraverso la differenza tra i valori L2 associati ai due modelli (+ PARSIMONIOSO -PARSIMONIOSO), e la differenza tra i rispettivi gradi di libertà. Delta L2 e Delta G hanno la distribuzione nota del Chi-quadrato, per cui è possibile effettuare un test di significatività. L L L 2 2 2 g g g MODELLO 1 SATURO [PM*REL*POL] L2= 0 g=0 P=1,00 MODELLO 2 INSATURO [PM*REL] [PM*POL] [REL*POL] L2= 0,095 g=1 P=0.75 MODELLO 3 INSATURO [PM*REL] [PM*POL] L2= 126,926 g=2 P=0,00 VALUTAZIONE DEL PASSAGGIO DAL MODELLO SATURO AL MODELLO 2 L22 - L21= 0,095 g2 - g1 =1 ACCETTATO ! VALUTAZIONE DEL PASSAGGIO DAL MODELLO 2 AL MODELLO 3 L23 - L2 2=126,835 g3 - g2 =1 NON ACCETTATO! *PM (1=favorevole alla pena di morte 2=non favorevole) *REL(1=non-praticante 2=praticante) *POL(1=centro-destra 2=centro-sinistra) data list free/ PM REL POL PESO. begin data 1 1 1 456 1 1 2 344 1 2 1 213 1 2 2 37 2 1 1 112 2 1 2 184 2 2 1 110 2 2 2 38 end data. weight by PESO. LOGLINEAR PM(1,2) REL(1,2) POL(1,2) /PRINT= ESTIM /DESIGN = PM REL POL PM BY REL PM BY POL REL BY POL. 40 SESSO EDUCAZIONE AREA Abbiamo una relazione tra genere (M/F) e educazione (D/ND). Vogliamo sapere se l’area geografica (sud/nord) influisce su questa relazione. Modello: area*sex*educ lnFijk= + iA + jS + kE + ijAS + ikAE + jkSE + ijkASE Costruiamo un modello teorico di indipendenza e lo confrontiamo con le frequenze osservate. Si tratta di porre a zero i seguenti parametri: ijkASE 41 Modello saturo ASE Tavola di contingenza sex * titolo * area Conteggio area 0 Nord s ex 1 Sud Totale s ex Totale 0 F 1 M 0 F 1 M titolo 0 licmedia- 1 diploma+ 415 177 326 175 741 352 281 115 260 110 541 225 Totale 592 501 1093 396 370 766 Modello area*sex*educ lnFijk= + iA + jS + kE + ijAS + ikAE + jkSE + ijkASE 42 SINTASSI SPSS S sˆ HILOGLINEAR sex(0 1) titolo(0 1) area(0 1) /METHOD=BACKWARD /CRITERIA MAXSTEPS(10) P(.05) ITERATION(20) DELTA(.5) /PRINT=FREQ RESID ESTIM /DESIGN . Stime dei parametri Effetto s ex*titolo*area s ex*titolo s ex*area titolo*area s ex titolo area Parametro 1 1 1 1 1 1 1 Stima .025 .033 .016 -.035 .047 .402 .188 Errore s tand .026 .026 .026 .026 .026 .026 .026 Z .960 1.285 .638 -1.354 1.828 15.729 7.365 R C (1 / F ijk k 1 i 1 j 1 S R C 2 ) 0,026 Modello saturo Sig .337 .199 .523 .176 .068 .000 .000 Intervallo di confidenza al 95% Limite Limite inferiore s uperiore -.026 .075 -.017 .083 -.034 .066 -.085 .016 -.003 .097 .352 .453 .138 .239 43 Riepilogo dei passi b Pas so 0 Class e di generazionec 1 1 Effetto eliminato Class e di generazionec Effetto eliminato 1 2 3 2 Effetti Class e di generazionec Effetto eliminato 3 Class e di generazionec Effetto eliminato 4 1 2 Class e di generazionec Effetto eliminato 5 1 2 Class e di generazionec df Numero di iterazioni Sig s ex*titolo*area .000 0 . s ex*titolo*area .922 1 .337 s ex*titolo, sex*area, titolo*area .922 1 .337 s ex*titolo s ex*area titolo*area 2.264 1.197 1.790 1 1 1 .132 .274 .181 s ex*titolo, titolo*area 2.118 2 .347 s ex*titolo 2.166 1 .141 2 titolo*area 1.692 1 .193 2 s ex*titolo, area 3.811 3 .283 s ex*titolo 2.166 1 .141 2 57.820 1 .000 2 5.977 4 .201 57.820 7.369 274.170 1 1 1 .000 .007 .000 5.977 4 .201 area area, sex, titolo 1 2 3 a Chi-quadrato area s ex titolo area, sex, titolo 3 2 2 2 2 2 2 a. Per ‘Effetto eliminato’, rappres enta la variazione del chi-quadrato dopo l’eliminazione dell’effetto dal modello. b. In cias cun pas saggio viene eliminato l’effetto con il livello di s ignificatività più alto per la variazione del rapporto di veros imiglianza, a condizione che il livello di significatività sia maggiore di .050. c. Le s tatiche del modello migliore verranno visualizzate per ciascun pas s aggio dopo 0. (A)(S)(E) lnFijk= + iA + jS 44 + jE Altro esempio: SPSS SESSO*TITOLODISTUDIO*STATOCIVILE === STC 2 Riepilogo dei passi b Pas so 0 1 2 3 4 Effetti Class e di generazionec Effetto eliminato Class e di generazionec Effetto eliminato Class e di generazionec Effetto eliminato Class e di generazionec Effetto eliminato Class e di generazionec 1 1 2 3 1 2 1 2 V15*civile*titolo V15*civile*titolo V15*civile, V15*titolo, civile*titolo V15*civile V15*titolo civile*titolo V15*titolo, civile*titolo V15*titolo L a Chi-quadrato .000 1.764 1.764 .854 4.258 3.056 2.619 3.907 df Sig 0 1 1 1 1 1 2 1 . .184 .184 .355 .039 .080 .270 .048 Numero di iterazioni 3 2 2 2 2 civile*titolo 2.704 1 .100 2 V15*titolo, civile V15*titolo 5.323 3.907 3 1 .150 .048 2 civile 5.895 1 .015 2 V15*titolo, civile 5.323 3 .150 a. Per ‘Effetto eliminato’, rappres enta la variazione del chi-quadrato dopo l’eliminazione dell’effetto dal modello. b. In cias cun pas saggio viene eliminato l’effetto con il livello di s ignificatività più alto per la variazione del rapporto di veros imiglianza, a condizione che il livello di s ignificatività s ia maggiore di .050. c. Le s tatiche del modello migliore verranno visualizzate per ciascun pas saggio dopo 0. Modello più parsimonioso: (ST)(C) 45