“Analisi di dati categoriali” Corso di Laurea in Sociologia Facoltà di Sociologia Università Milano-Bicocca Ottobre 2009 Simone Sarti 1 Variabili Possono applicarsi diverse tipologie di variabili. Le principali sono definite in base a: - alla scala di misurazione - alle relazioni che intercorrono tra loro - all’osservabilità NB: se una variabile registra sempre lo stesso stato rispetto alla proprietà osservata è detta COSTANTE. 2 Variabili: la scala di misurazione Si distinguono tre principali livelli di misurazione delle variabili: nominale, ordinale e cardinale. A seconda della scala di misurazione cambiano le procedure di rilevazione (operativizzazione delle proprietà in casi) e le analisi applicabili. 3 Variabili NOMINALI Quando le modalità non sono ordinabili e possiedono un alto grado di autonomia semantica (le modalità hanno senso di per sé, indipendentemente dalle altre). La fede religiosa L’essere d’accordo o no (si/no) con una certa affermazione La condizione occupazionale Il colore dei capelli Il genere Non è possibile nessuna operazione aritmetica sulle modalità. Tuttavia alle modalità è possibile attribuire dei valori a cui corrispondono delle etichette. Ad esempio per il genere (variabile nominale): 1=femmina; 2=maschio 4 Variabili ORDINALI Quando le modalità sono ordinabili e possiedono un basso grado di autonomia semantica. La frequenza di un certo luogo (spesso, qualche volta, mai) …teatro u.m. L’ordinamento in preferenze di alcuni colori (rosso, giallo, verde) L’essere molto, abbastanza, poco o per niente d’accordo … Il livello d’istruzione in gradi scolastici. È possibile applicare sulle modalità operazione di confronto (<>=). Alle modalità è possibile attribuire dei valori a cui corrispondono delle etichette. Ad esempio per il titolo di studio: 4=Laurea; 3=Diploma; 2=Licenza Media; 1=Licenza Elementare 5 Variabili CARDINALI (e quasi-cardinali) Quando le modalità costituiscono numeri derivati da misurazioni discrete (conteggi) o continue, e non possiedono nessun grado di autonomia semantica (le modalità non hanno senso di per sé, se non in relazione alle altre). L’altezza in centimetri L’età in anni Il reddito Grado di accordo tra 0 e 100 su una certa affermazione* È possibile applicare sulle modalità tutte le operazione di confronto (-+*/). Le modalità corrispondono ai valori, e non vengono attribuite etichette. 6 Esempio sull’autonomia semantica VARIABILE NOMINALE: proprietà=appartenenza religiosa Paese A Paese B Cattolici 60 % Cattolici 30 % Islamici 30 % Islamici 50 % Atei 10 % Atei 20 % Nel paese A ci sono meno islamici che nel paese B. VARIABILE ORDINALE: proprietà=frequenza a messa Gruppo A Sempre 20 % Qualche volta 30 % Mai 50 % Gruppo B NO Sempre 40 % Qualche volta 20 % Mai 40 % Nel gruppo A sono più praticanti del paese B. NON E’ VERO ! Il confronto deve avvenire considerando anche le altre modalità. 7 La distribuzione di frequenza La prima è più elementare delle analisi è la distribuzione di frequenza. Essa consiste in un banale conteggio delle modalità di una variabile. 8 LA MATRICE DEI DATI: CASI PER VARIABILI 9 Distribuzioni di frequenza: il genere V15 SESSO Valid 1 maschio 2 femmina Total Frequency 26091 27617 53708 Il conteggio dei casi osservati Percent 48.6 51.4 100.0 Valid Percent 48.6 51.4 100.0 Cumulative Percent 48.6 100.0 10 Distribuzioni di frequenza V15 SESSO Valid 1 maschio 2 femmina Total Frequency 26091 27617 53708 Percent 48.6 51.4 100.0 Le quote percentuali delle modalità Valid Percent 48.6 51.4 100.0 Cumulative Percent 48.6 100.0 11 Distribuzioni di frequenza v5_gener 5_Genere musicale preferito Valid Mis sing Total 1 rock e hardrock 2 leggera 3 pop 4 hiphop e dance 5 lirica 6 etnica er eggae Total Sys tem Frequency 137 160 104 35 6 12 454 26 480 Percent 28.5 33.3 21.6 7.3 1.2 2.6 94.5 5.5 100.0 Valid Percent 30.2 35.2 22.8 7.8 1.2 2.7 100.0 Cumulativ Percent 30 65 88 96 97 100 Le percentuali sui casi validi, al netto dei casi mancanti 12 Proporzioni V15 SESSO Valid 1 maschio 2 femmina Total Frequency 26091 27617 53708 Percent 48.6 51.4 100.0 Valid Percent 48.6 51.4 100.0 Cumulative Proporzioni Percent 0,48648.6 100.0 0,514 1,000 Proporzioni : complemento ad 1 delle percentuali 13 Rappresentazioni grafiche di distribuzioni di frequenza DIAGRAMMA A BARRE 14 Rappresentazioni grafiche di distribuzioni di frequenza DIAGRAMMA A TORTA 15 L’analisi monovariata: le statistiche Le statistiche servono a dare una descrizione sintetica del fenomeno. Esse si applicano in modo diverso secondo la scala di misurazione con la quale sono rilevate le variabili. 16 L’analisi monovariata: le statistiche Esistono misure di tendenza centrale che sintetizzano l’informazione contenuta nella variabile in un valore caratteristico. Esistono misure di dispersione che indicano la varietà delle informazioni presenti in una variabile. 17 Le misure di tendenza centrale su variabili NOMINALI LA MODA: E’ la modalità più frequente. 18 MODA in una distribuzione di frequenza v5_gener 5_Genere musicale preferito Valid Mis sing Total 1 rock e hardrock 2 leggera 3 pop 4 hiphop e dance 5 lirica 6 etnica er eggae Total Sys tem Frequency 137 160 104 35 6 12 454 26 480 Percent 28.5 33.3 21.6 7.3 1.2 2.6 94.5 5.5 100.0 Valid Percent 30.2 35.2 22.8 7.8 1.2 2.7 100.0 Cumulati Percent 30 65 88 96 97 100 19 Le misure di dispersione su variabili NOMINALI L’indice di omogeneità 20 Situazione di omogeneità 100 90 80 80 70 60 50 40 30 20 13 10 2 2 2 1 altre cristiani sikh buddisti 0 induisti musulmani Composizione religiosa in India 2001 21 Situazione di eterogeneità 100 90 80 70 60 50 40 34 30 23 20 15 12 11 6 10 0 CDU/CSU SPD Liberali Linke Grunen altri Risultati elezioni in Germania 2009, percentuali 22 Indice di omogeneità Misura la dispersione in una variabile nominale O k p i 1 2 i Dove k è il numero di modalità e pi è la proporzione di casi che si trovano nella categoria i-esima. L’indice di omogeneità O è dato quindi dalla somma dei quadrati delle frequenze proporzionali. k E 1 pi2 1 O Indice di eterogeneità i 1 23 Indice di omogeneità O k i 1 pi2 È massimo (=1) quando tutti i casi assumono la stessa modalità. È minimo (=1/k) quando la distribuzione è massimamente eterogenea, i casi si distribuiscono ugualmente nelle diverse modalità. ESEMPIO con due modalità (p,1- p) O 1 Omin = 0,502 + 0,502 = 0,50 1/2 0 Omax = 02 + 12 = 1 1/2 1 p 24 Indice di omogeneità relativa Per confrontare distribuzioni con un diverso numero di modalità. Varia tra 0 (minima omogeneità) ed 1 (massima omogeneità). Orel kO 1 k 1 25 Video di Faidate presenti su youtube e categoria tematica Maggiore è questo indice più è la concentrazione dei contenuti del rispettivo dominio: elevata omogeneità in Spagna e Germania, dove spiccano poche categorie, ed una minore in Francia, dove invece i contenuti sono dispersi tra più categorie. Mondo Entertainment, music Vehicles,motors Business Tech, electronics, gadgets Computers and internet Education Parenting, love&sex Fashion, style, beauty Cooking Health, fitness, sports Hobbies, leisure Home, DIY, house Religion, philosophy Weapons Totale Indice di omogeneità Regno Unito Germania Francia Spagna Italia 9 2 0 31 14 8 6 3 0 14 9 0 2 3 100 13 9 0 10 10 3 5 30 1 5 7 3 0 4 100 5 8 0 32 21 2 0 6 0 2 15 3 3 5 100 2 10 2 14 22 6 6 14 2 4 6 0 0 12 100 6 12 0 21 33 10 2 4 0 2 8 2 2 0 100 8 2 0 22 24 2 0 20 6 4 14 0 0 0 100 0,16 0,15 0,19 0,13 0,19 0,18 26 Le distribuzioni di frequenza: le proporzioni come distribuzioni di probabilità V15 SESSO Valid 1 maschio 2 femmina Total Frequency 26091 27617 53708 Percent 48.6 51.4 100.0 Valid Percent 48.6 51.4 100.0 Cumulative Percent 48.6 100.0 Le proporzioni delle modalità possono essere interpretate come probabilità. Maschi Femmine Totale Pm Pf Pm+f 0,486 0,514 1,000 27 Maschi Femmine Totale Pm Pf Pm+f 0,486 0,514 1,000 Una probabilità può variare tra 0 e 1 Un evento è certo quando ha probabilità 1 Un evento è irrealizzabile quando ha probabilità 0 La somma delle probabilità di tutti gli eventi possibili è uguale a 1 Nell’esempio abbiamo che la probabilità di estrarre a caso una femmina dal nostro campione è 0,514. La probabilità di estrarre un maschio è di 0,486. Estraendo a caso un soggetto dal nostro campione abbiamo più probabilità di estrarre una femmina che non un maschio. Siamo certi (probabilità uguale ad 1) di estrarre o un maschio o una femmina. 28 29 Test di significatività VARIABILI CATEGORIALI Test del Chi-quadrato (MONOVARIATA) 30 In un convegno internazionale una sessione è composta da scienziati delle seguenti nazionalità. Italiani Francesi Inglesi Tedeschi Spagnoli N 75 29 36 19 81 240 % 31,3 12,1 15,0 7,9 33,8 100,0 31 Test di significatività Poniamo l’ipotesi che la composizione dei membri del convegno non sia distribuita ugualmente secondo la nazionalità. Infatti, se fosse vero il contrario, considerate cinque le nazioni che partecipano al convegno, avremmo dovuto avere che alla sessione partecipassero il 20 % di scienziati per nazione. 32 Hp di lavoro: Vi sono differenze nella partecipazione al convegno secondo la nazionalità. Hp0 nulla: Non vi sono differenze. 20% per nazione. 33 Calcoliamo le differenze per misurare quanto il fenomeno osservato si discosta dalla situazione ipotizzata: O E N % Hp0 N/5 (O-E)2 (O-E)2/E Italiani 75 31,3 48 729 15,2 Francesi 29 12,1 48 361 7,5 Inglesi 36 15,0 48 144 3 Tedeschi 19 7,9 48 841 17,5 Spagnoli 81 33,8 48 1089 22,7 240 100,0 240 Ipotesi nulla Totale 65,9 Chi-Quadrato χ2 K 2 i 1 f f * 2 i i fi * 65,9 Il chi-quadrato che abbiamo osservato costituisce una misura della distanza dall’ipotesi nulla di equidistribuzione (20% di scienziati per nazione). 35 Chi-Quadrato χ2 Maggiore è il valore di χ 2 , più siamo lontani dall’ipotesi di equidistribuzione. i=1…K K 2 i 1 f f 0 2 * 2 i i fi * Dove f*i è la frequenza attesa 36 Test del Chi-Quadrato χ2 Quando N è abbastanza ampio (N>100) è possibile effettuare un test di significatività ricorrendo alla distribuzione nota del ChiQuadrato. Dunque, considerando il numero di gradi di libertà, è possibile sottoporre a test di significatività l’ipotesi nulla. Distribuzione del Chi-Quadrato χ2 Il chi-quadrato ha una funzione di densità nota, ma variabile secondo i gradi di libertà. I gradi di libertà, nell’esempio proposto, sono k-1, dove k sono le modalità. I gradi di libertà rappresentano le frequenze di cella che possiamo “liberamente” inserire dato il totale. Oppure, costituiscono i vincoli minimi necessari a riempire tutte le celle. 38 Gradi di libertà = k – 1 N Italiani Francesi Inglesi Tedeschi Spagnoli N Molto Abbastanza Poco Per niente N Maschi Femmine 100 100 100 gdl = 4 gdl = 3 gdl = 1 39 φ(χ2) Funzione di densità di χ2 φ(χ2) g 2 2 ( ) g 2 2 g 1 2 2 e 2 0 0 0 ( )d 1 2 χ2 40 Il χ2 E’ FUNZIONE DEI GRADI DI LIBERTA’ φ(χ2) 2 ( ) g 2 2 g=1 g=4 g=10 g 2 0 g 1 2 2 e ( )d 1 2 2 0 g=20 0 χ2 41 Distribuzione nota della v.c. χ2 d 1 pT 13,44 0,8 t 0 φ(χ2) Funzione di densità di χ2 AREA di NON Rifiuto di H0 2 con gl=10 AREA di Rifiuto di H0 0 2 0.80 0 0.20 13,44 χ2 42 Logica falsificazionista, errori Realtà del fenomenmo Esito del test H0 vera H0 falsa H0 non rifiutata No errore Errore II tipo (β) H0 rifiutata Errore I tipo (α) No errore 43 pRifiutoH 0 H 0 vera α è la probabilità teorica di rifiutare a priori l’H0 quando questa è vera. α viene fissata arbitrariamente, solitamente si utilizza una soglia del 5 %. α = 0,05 44 Livello di significatività α ; costituisce l’area di RIFIUTO di H0, ossia l’area di ACCETTAZIONE di H1 g 2 2 2 g 2 g 1 2 2 e d g = gradi di libertà 0 2 α 0 χ2α χ2 45 Ricapitolando … Il chi-quadrato osservato è uguale a 65,9. I gradi di libertà sono 4. Hp nulla: Non vi sono differenze: 20% per nazione Livello di significatività alfa=0,05 46 α Valore critico del Chi-quadro 0 47 Rifiutiamo H0. Respingiamo l’ipotesi nulla di equidistribuzione. Con una significatività statistica dello 0,05 accettiamo che gli scienziati non rappresentano allo stesso modo le nazioni che partecipano alla sessione. φ(χ2) Funzione di densità di χ2 con gl=4 AREA di Rifiuto di H0 e accettazione di H1 0.95 0 0.05 9,49 χα2 χ2 65,9 48 49 Relazioni tra variabili La relazione tra variabili può essere caratterizzata da: forma forza direzione. 50 Forma della relazione La forma di una relazione caratterizza i possibili modi in cui i valori delle variabili sono associati. La forma può caratterizzare anche il segno di una relazione (quando le variabili sono metriche o ordinali). 51 ESEMPIO: forma di una relazione Percentuali di riga (di cella e marginali) Tavola di contingenza sex SESSO * titolo % entro sex SESSO s ex SESSO Totale 1 maschio 2 femmina 1 Obbligo 66.2% 67.7% 66.9% titolo 2 Diploma 27.7% 27.0% 27.3% 3 Univers ità 6.1% 5.3% 5.7% Totale 100.0% 100.0% 100.0% I maschi sono più istruiti delle donne. 52 Forza della relazione La forza della relazione misura il grado di “covariazione” tra le variabili. In altre parole indica il potere predittivo di una variabile sull’altra. “Qualunque fenomeno, che vari in un modo qualsiasi ogni volta che un altro fenomeno varia in qualche modo particolare, è una causa o un effetto di quel fenomeno, p è connesso a quel fenomeno mediante qualche fatto di causazione” John Stuart Mill 53 ESEMPIO: forza di una relazione Soddisfatti del lavoro Non soddisfatti del lavoro totale maschio 536 287 823 femmina 304 139 443 totale 840 426 1266 V di cramer = 0,035 54 Direzione della relazione Quando è possibile ipotizzare un rapporto di causazione, allora è possibile attribuire alle variabili lo status di dipendenti o indipendenti e definire quindi una direzione di successione. X Y 55 ESEMPIO: direzione della relazione Percentuali di riga (di cella e marginali) Tavola di contingenza sex SESSO * titolo Y % entro sex SESSO X s ex SESSO Totale 1 maschio 2 femmina 1 Obbligo 66.2% 67.7% 66.9% titolo 2 Diploma 27.7% 27.0% 27.3% 3 Univers ità 6.1% 5.3% 5.7% Totale 100.0% 100.0% 100.0% Assumiamo che il genere influenzi la distribuzione del titolo di studio. 56 Variabili indipendenti e dipendenti A seconda della posizione che le variabili occupano in un’ipotesi causale esse si costituiscono come variabili dipendenti o indipendenti. Una stessa variabile dunque può essere dipendente o indipendente a seconda del modello analitico in cui è inserita. Ad esempio la coorte d’età (X) può condizionare il titolo di studio (Y). Ma in un altro caso il titolo di studio (X) può essere il fattore condizionante della carriera lavorativa (Y). 57 Applicazioni di analisi bivariata su variabili categoriali Variabili categoriali (o nominali) Su esse registriamo un numero finito di stati (modalità) che riteniamo non ordinabili lungo alcuna dimensione concettuale. Le modalità godono di un alto grado di autonomia semantica. L’Analisi Bivariata Tratta lo studio della distribuzione dei dati osservati sugli stati di due variabili. Si indagano le relazioni intercorrenti tra due variabili. Possono dare risposta a semplici interrogativi teorici. L’Analisi Bivariata Tavole di contingenza, o tabelle a doppia entrata, o incroci Costituiscono lo fase più elementare nello studio delle relazioni tra due variabili. Struttura di una tavola di contingenza Frequenze di cella (R x C) e marginali (R + C) Variabile X sulle righe, variabile Y sulle colonne Y Y1 Y2 Y3 X1 f11 f12 f13 f1. X2 f21 f22 f23 f2. f.1 f.2 f.3 N X Struttura di una tavola di contingenza fij Righe: i = 1…R Colonne: j = 1…C frequenza della cella della i-esima riga e j-esima colonna fi. frequenza marginale della i-esima riga f.j frequenza marginale della j-esima colonna Struttura di una tavola di contingenza Frequenze di cella e marginali Variabile X sulle righe, variabile Y sulle colonne Tavola di contingenza sex SESSO * titolo Conteggio s ex SESSO Totale 1 maschio 2 femmina 1 Obbligo 8542 9134 17676 titolo 2 Diploma 3575 3640 7215 3 Univers ità 792 722 1514 Totale 12909 13496 26405 Struttura di una tavola di contingenza Percentuali totali di cella e marginali Y Y1 Y2 Y3 X1 f11/N % f12/N % f13/N % f1. /N % X2 f21/N % f22/N % f23/N % f2. /N % f.1/N % f.2/N % f.3/N % 100 X Struttura di una tavola di contingenza Percentuali totali di cella e marginali Tavola di contingenza sex SESSO * titolo % del totale s ex SESSO Totale 1 maschio 2 femmina 1 Obbligo 32.3% 34.6% 66.9% titolo 2 Diploma 13.5% 13.8% 27.3% 3 Univers ità 3.0% 2.7% 5.7% Totale 48.9% 51.1% 100.0% Struttura di una tavola di contingenza Percentuali CONDIZIONATE di riga (di cella e marginali). P11% p(Y1 | X1 )% Y Y1 Y2 Y3 X1 f11/f1. % f12/f1. % f13/f1. % 100 X2 f21/f2. % f22/f2. % f23/f2. % 100 f.1/N % f.2/N % f.3/N % 100 X Struttura di una tavola di contingenza Percentuali CONDIZIONATE di riga (di cella e marginali) P11% p(Titolo 1 | Sesso 1)% Tavola di contingenza sex SESSO * titolo % entro sex SESSO s ex SESSO Totale 1 maschio 2 femmina 1 Obbligo 66.2% 67.7% 66.9% titolo 2 Diploma 27.7% 27.0% 27.3% 3 Univers ità 6.1% 5.3% 5.7% Le percentuali di riga considerano lo stesso numero di maschi e femmine (=100). Totale 100.0% 100.0% 100.0% Differenze percentuali tra percentuali condizionate Tavola di contingenza sex SESSO * titolo % entro sex SESSO s ex SESSO Totale 1 maschio 2 femmina 1 Obbligo 66.2% 67.7% 66.9% titolo 2 Diploma 27.7% 27.0% 27.3% 3 Univers ità 6.1% 5.3% 5.7% Totale 100.0% 100.0% 100.0% - 1,5 % + 0,8 % Differenza % tra maschi e femmine sul titolo dell’obbligo ( a parità di numero). Differenza % tra maschi e femmine sul titolo universitario ( a parità di numero). Le differenze calcolate confrontando le percentuali di riga (ossia rispetto alla variabile indipendente) sulla stessa modalità della variabile dipendente permettono di misurare l’influenza (ipotetica) della variabile indipendente. Struttura di una tavola di contingenza Percentuali di colonna (di cella e marginali). Y Y1 Y2 Y3 X1 f11/f.1 % f12/f.2% f13/f.3 % f1./N % X2 f21/f.1 % f22/f.2 % f23/f.3 % f2./N % 100 100 100 100 X Misure di associazione tra variabili categoriali Chi-quadrato (Test di significatività) V di Cramer Q di Yule Phi Chi-Quadrato χ2 Il Chi-quadrato si basa su un confronto tra l’ipotesi di perfetta indipendenza delle due variabili, ed il fenomeno così come è stato osservato. Si confrontano le frequenze di cella attese con quelle osservate. Le frequenze attese di cella si trovano assumendo che la relazione tra le variabili sia dovuta al caso, e si calcolano attraverso la scomposizione delle frequenze marginali. f * ij f i. . f. j N Chi-Quadrato χ2 Frequenze attese di cella (R x C): f * ij f i. . f. j N Tavola di contingenza sex SESSO * titolo Conteggio atteso s ex SESSO Totale 1 maschio 2 femmina 1 Obbligo 8641.5 9034.5 17676.0 titolo 2 Diploma 3527.3 3687.7 7215.0 3 Univers ità 740.2 773.8 1514.0 In situazione di perfetta indipendenza il χ2 vale zero Totale 12909.0 13496.0 26405.0 Chi-Quadrato χ2 Maggiore è il valore di χ 2 , maggiore è l’associazione tra le variabili, poiché maggiore è la distanza dall’ipotesi di perfetta indipendenza. Se le due variabili sono indipendenti χ 2 vale 0. R C 2 i 1 j 1 f i=1…R f ij f * 2 ij * ij Dove f*ij è la frequenza attesa di cella j=1…C Test del Chi-Quadrato χ2 Quando N è abbastanza ampio (N>100) è possibile effettuare un test di significatività ricorrendo alla distribuzione nota del ChiQuadrato. Dunque, considerando il numero di gradi di libertà, è possibile sottoporre a test di significatività l’ipotesi nulla che la relazione tra due variabili sia dovuta al caso. gl = (R-1)(C-1) Test del Chi-Quadrato χ2 Gradi di libertà: gl = (R-1)(C-1) Il grado di libertà consiste nei valori da immettere che non possono essere calcolati automaticamente con i totali marginali. 30 10 40 20 0 20 50 10 60 df=1 Test di significatività Testiamo l’H0, l’ipotesi nulla che afferma l’indipendenza, ossia che la relazione tra le due variabili è dovuta al caso. Si stabilisce un livello di significatività oltre il quale respingere l’Ho. Distribuzione di probabilità nota della v.c. χ2 P(T<11,78) = 0.7 = t 0 φ(χ2) Funzione di densità di χ2 2 d = 1 - α con gl=10 AREA di Rifiuto di H0 0 2 0.7 0 0.3 11,78 χ2 Logica falsificazionista, Ipotesi H1 IPOTESI di LAVORO: - Ipotesi di associazione tra due variabili χ2 >0 H0 IPOTESI NULLA: -Le due variabili sono tra loro indipendenti χ2 =0 Logica falsificazionista, Ipotesi Per corroborare H1 devo falsificare H0. Non verifico H1, ma ne falsifico l’ipotesi “complementare” attraverso un test empirico che mi porterà ad accettare o respingere H0. Se rifiuto H0, allora l’ipotesi di lavoro H1 viene corroborata. Se “accetto” H0, non possiamo escludere che l’associazione non sia dovuta al caso, l’ipotesi di lavoro H1 viene falsificata. ATTENZIONE: Nella logica falsificazionista H0 non è un’ipotesi alternativa che sostituisce H1. Più correttamente occorrerebbe affermare che H0 non può essere rifiutata, non che H0 è accettata. Logica falsificazionista, errori Realtà del fenomeno Esito del test H0 vera H0 falsa H0 non rifiutata No errore Errore II tipo (β) H0 rifiutata Errore I tipo (α) No errore pRifiutoH 0 H 0 vera α è la probabilità teorica di rifiutare a priori l’H0 quando questa è vera. α viene fissata arbitrariamente, solitamente si utilizza una soglia del 5 %. α = 0,05 Livello di significatività α ; costituisce l’area di RIFIUTO di H0, ossia l’area di ACCETTAZIONE di H1 g 2 2 2 g 2 g 1 2 2 e d 0 2 α 0 χ2α χ2 Valore critico del Chi-quadro corrispondente per 2 gradi di libertà e area alfa dello 0,05 α 0 Il Chi-Quadrato χ2 è utile come test di significatività statistica, ma non come misura dell’intensità della relazione. Un grave limite del Chi-quadrato è la sua dipendenza dalla numerosità dei casi considerati. In caso di perfetta indipendenza esso vale 0, ma in caso di dipendenza il valore è proporzionale a N. Sensibilità del χ2 alla numerosità ESEMPIO: Hp. relazione tra genere e frequenza alla messa Basso Medio Alto Basso Medio Alto M 15 32 67 114 M 150 320 670 1140 F 14 56 80 150 F 140 560 800 1500 29 88 290 880 1470 2640 147 264 2 χ2 = 2,87 0,05 = 5,99 χ2 = 28,74 V di Cramer Per superare i limiti del Chi-quadrato (dovuti alla sensibilità alla numerosità dei casi) come misura di associazione sono stati proposti degli indici corretti. V 2 N (m 1) Dove m è il numero più piccolo tra R e C V varia tra 0 ed 1, ed è 0 in situazione di indipendenza. Se le variabili sono dicotomiche (0,1) V coincide con Phi e con il coefficiente di correlazione r di Pearson (misura d’associazione cardinale). Q di Yule Si utilizza nelle tavole 2x2 e considera il rapporto tra somma e differenza dei prodotti delle celle sulle diagonali. Q = bc - ad bc + ad a b a+b c d c+d a+c b+d N Q varia tra -1 e 1, ed è 0 in situazione di indipendenza. Il valore negativo indica una relazione inversa, ossia le modalità delle due variabili sono associate in modo inverso. Q di Yule Avvertenze: Q assume valore -1 o +1 quando una cella delle quattro è vuota. In questo caso la dipendenza non è perfetta, ma la Q raggiunge il suo massimo. Gli autori suggeriscono di attribuire una forza espressa in quartili al valore assoluto di Q. Phi Si utilizza nelle tavole 2x2 e considera il rapporto tra differenza dei prodotti delle celle sulle diagonali e la radice del prodotto delle marginali. E’ basato sul Chi-quadrato, come la V di Cramer. bc ad a b c d a c b d Phi varia tra -1 e 1, ed è 0 in situazione di indipendenza. Il valore negativo indica una relazione inversa, ossia le modalità delle due variabili sono associate in modo inverso. Phi Avvertenze: Talvolta Phi richiede una procedura di standardizzazione poiché i valori minimo e massimo possono essere lontano dai valori ipotetici -1, +1. Phi è per definizione sensibile alle frequenze marginali. Si dimostra inoltre che: 2 N 92 Applicazioni di analisi bivariata su variabili ordinali 93 Gamma Misure di cograduazione E’ una misura simmetrica, insensibile alle marginali, e si utilizza tra variabili ordinali. Considera la determinazione di coppie concordanti e discordanti. = nc - nd nc + nd Una coppia è concordante quando una delle due è superiore all’altra in entrambe le variabili. E’ discordante quando una delle due è superiore all’altra in una variabile, ma inferiore nella seconda variabile. Gamma varia tra -1 e 1, ed è 0 in situazione di indipendenza. 94 Coppie concordanti e discordanti Titolo di studio e salute percepita Non bene Bene Molto Bene Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 95 IPOTIZZIAMO UNA COGRADUAZIONE POSITIVA TRA TITOLO DI STUDIO E SALUTE PERCEPITA, cioè: ALL’AUMENTARE DEL TITOLO di STUDIO CORRISPONDE UNA SALUTE MIGLIORE. IN BASE A CIO DEFINIAMO: Coppie concordanti: quando, rispetto ad una determinata cella ij, le altre celle hanno un titolo di studio più alto associato a una salute migliore. Coppie discordanti: quando, rispetto ad una determinata cella ij, le altre celle hanno un titolo di studio più alto associato a una salute peggiore (o viceversa). 96 Coppie concordanti Non bene Bene Molto Bene Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nc11=28773 X (11373+2359+15236+3553)= 935726733 97 Coppie concordanti Non bene Bene Molto Bene Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nc12=9299 X (2359+3553)= 54975688 98 Coppie concordanti Non bene Bene Molto Bene Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nc13= 1202 X (0) = 0 Nessuna coppia concordante 99 Coppie concordanti Non bene Bene Molto Bene Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nc21=10657 X (15236+3553)= 200234373 100 Coppie concordanti Non bene Bene Molto Bene Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nc22=11373 X (3553)= 40408269 101 Coppie discordanti Non bene Bene Molto Bene Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nd11=28773 X (0)= 0 Nessuna coppia discordante 102 Coppie discordanti Non bene Bene Molto Bene Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nd12=9299 X (10657+10334)= 195195309 103 Coppie discordanti Non bene Bene Molto Bene Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nd13=1202 X (10657+11373+10334+15236)=57215200 104 Coppie discordanti Non bene Bene Molto Bene Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nd22=11373 X (10334)= 117528582 105 Coppie discordanti Non bene Bene Molto Bene Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nd23=2359 X (10334+15236)= 60319630 106 Misure di cograduazione Totale coppie concordanti nc = nc11 + nc12 + nc21 + nc22 = 1.231.345.063 Totale coppie discordanti nd = nd12 + nd13 + nd22 + nd23 = 430.258.721 Le celle che generano coppie concordanti sono (R-1)(C-1) = 4 Così come le celle che generano coppie discordanti. 107 Gamma nd= 430258721 = nc - nd nc + nd = Misure di cograduazione nc= 1231345063 1231345063 – 430258721 = 0,482 1231345063 + 430258721 Gamma uguale a 0,482 significa che la relazione tra titolo di studio e salute percepita è positiva, e che la probabilità che in una coppia di soggetti estratta a caso il soggetto che ha maggiore titolo di studio sia anche quello che ha migliore salute è superiore del 48,2 % della probabilità di trovare l’opposto. 108 Misure di cograduazione Test di significatività per Gamma Anche per Gamma esiste un test di significatività che ci permette di testare l’ipotesi nulla di indipendenza. I software permettono di calcolare la probabilità asintotica che viene utilizzata per respingere o meno l’ipotesi nulla. 109 ESEMPI GAMMA Tavola di contingenza tit * copeso Conteggio TABELLA 1 tit 1 2 3 4 Titolo universitario Diploma Lic.media Lic.elementare Totale copes o 2 s i,qualche volta durante 3 s i,qualche l'anno volta al mese 26 20 20 18 15 21 10 3 71 62 1 no,mai 13 9 4 2 28 4 s i,più volte a settimana 11 4 11 3 29 Totale 70 51 51 18 190 Misure simmetriche Ordinale per ordinale N. di cas i validi Valore .112 190 Gamma a E.S. asint. .088 b T appros s . 1.267 Sig. appross . .205 a. Senza ass umere l'ipotesi nulla. Non significativa b. Viene us ato l'errore s tandard asintotico in bas e all'as s unzione dell'ipotes i nulla. Tavola di contingenza tit * copeso Conteggio copes o 2 s i,qualche volta durante 3 s i,qualche l'anno volta al mese 51 34 43 30 30 39 4 4 128 107 TABELLA 2 tit 1 2 3 4 Titolo universitario Diploma Lic.media Lic.elementare Totale 1 no,mai 18 17 8 2 45 4 s i,più volte a settimana 18 33 37 4 92 Totale 121 123 114 14 372 Misure simmetriche Ordinale per ordinale N. di cas i validi Gamma Valore .230 372 a E.S. asint. .059 b T appros s . 3.888 Sig. appross . .000 Significativa a. Senza ass umere l'ipotesi nulla. b. Viene us ato l'errore s tandard asintotico in bas e all'as s unzione dell'ipotes i nulla. 110