ATTIVITÀ PIANO LAUREE SCIENTIFICHE UNIVERSITÀ DEGLI STUDI DI NAPOLI Federico II Laboratorio di Statistica CLASSI QUARTE Indagine “Terra promessa” Analisi delle relazioni tra variabili qualitativa Chi quadrato qualitativa LA VERIFICA DELLE IPOTESI 1. formulazione delle ipotesi statistiche; 2. scelta delle regola di decisione adeguata; 3. confronto del valore campionario calcolato con la distribuzione campionaria sotto H0; 4. rifiuto dell’ipotesi sotto H0 in base al fatto che il valore campionario calcolato cada in una particolare regione di valori nella distribuzione campionaria specificata nell’ipotesi H0. Verifica di ipotesi statistica Conclusioni 1. L’ipotesi nulla è conservata (si è verificato un risultato probabile) 2. L’ipotesi nulla è respinta (si è verificato un risultato altamente improbabile) H0: I DUE CARATTERI SONO INDIPENDENTI H1: I DUE CARATTERI NON SONO INDIPENDENTI : errore di I tipo = 0,05 Funzione test: chi-quadrato Regola di decisione: • 2 ≤ 2 accetto H0 • 2 > 2 rifiuto H0 POSSIBILI DECISIONI NELLA VERIFICA D’IPOTESI NELLA POPOLAZIONE È VERA IN BASE AI DATI CAMPIONARI NON SI RESPINGE H0 H0 H1 DECISIONE CORRETTA ERRORE 2° TIPO (PROBABILITÀ 1- ) SI RESPINGE H0 (PROBABILITÀ ) ERRORE 1° TIPO DECISIONE CORRETTA (PROBABILITÀ ) (PROBABILITÀ 1- ) ESEMPIO: Verifica di indipendenza in tabelle 22 (tetracoriche) SI "Hai fiducia in te stesso?" NO totale "We are the Champions" SI NO totale 276 90 366 72 348 57 147 Esiste una relazione tra la variabile «Hai fiducia in te stesso?» e «We are the Champions»? 129 495 CALCOLO DELLE FREQUENZE TEORICHE o ATTESE SI "Hai fiducia in te stesso?" "We are the Champions" SI NO totale 257,3 (a) 108,7 (c) 366 NO 90,7 (b) totale 348 38,3 (d) 147 a, b, c, d frequenze attese a=348 x 366 / 495 b=348 x 129 / 495 c=147 x 366 / 495 d=147 x 129 / 495 a = 257,3 b = 90,7 c = 108,7 d = 38,3 129 495 FREQUENZE OSSERVATE E FREQUENZE ATTESE NELL’IPOTESI DI ASSENZA DI ASSOCIAZIONE We are the champions TOTALE Sì Hai fiducia in te stesso? 276 O SI No A 257,3 72 O NO A 108,7 129 57 O A 90,7 TOTALE 366 90 O 348 A 38,3 147 495 Per ciascuna cella si calcola la differenza tra la frequenza osservata e quella attesa (contingenza) TEST 2 (CHI-QUADRATO) 2 2 2 i 1 j 1 O - A 2 A 276 257,3 90 108,7 72 90,7 57 38,3 2 2 257,3 108,7 1,36 3,22 3,86 9,13 17,6 2 2 90,7 Il valore del chi-quadrato indica presenza o assenza di associazione? 2 38,3 Per interpretare il risultato ottenuto si deve confrontare il valore calcolato del chi-quadrato con il valore critico della distribuzione del chi-quadrato (essendo vera H0) che corrisponde ad una probabilità di errore pari a 0,05. Per trovare il valore critico del chi-quadrato bisogna consultare la tavola della distribuzione dei suoi valori. Il valore critico è individuato entrando attraverso la colonna corrispondente alla probabilità prescelta (0,05) e alla riga corrispondente ai gradi di libertà (GdL) della tabella, dove: GdL = (n° righe -1) x (n° colonne -1) Essendo questa tabella 2X2, GdL=1. Densità La distribuzione chi-quadrato per alcuni valori dei gradi di libertà (gl=1, 2, 3,…) Distribuzione CHI-QUADRATO 1,2 g.l. 1 1 0,8 0,6 0,4 X2 0,2 0 0 2 4 6 8 10 12 14 16 18 20 22 3,8 Chi-quadrato calcolato=17,6 Chi-quadrato critico =3,84 Il chi-quadrato calcolato è maggiore del chi-quadrato critico quindi si rifiuta l’ipotesi di assenza di relazione. 24 Esempio: Verifica di indipendenza fra le variabili «dove proseguirai gli studi» e «dove ti piacerebbe vivere» Campania Altra Regione Estero Totale Sto bene dove sto 49 16 4 69 Altro quartiere 21 6 0 27 Altra città 22 11 1 34 Altra regione 45 45 3 93 Estero 140 77 50 267 tot 277 155 58 490 Calcolo delle frequenze teoriche Campania Altra regione Estero Totale Sto bene dove sto 39 21,82 8,18 69 Altro quartiere 15,26 8,54 3,20 27 Altra città 19,22 10,75 4,02 34 Altra regione 52,62 29,44 11 93 Estero 150,9 84,45 31,60 267 Totale 277 155 58 490 TEST 2 (CHI-QUADRATO) 2 2 2 O - A 2 i 1 j 1 A 2 2 2 2 2 2 49 39 16 21 . 82 3 11 140 150 . 9 77 84 . 45 50 31 . 6 2 ......... 39 21.82 11 150.9 84.45 2 =42.36 g.d.l.=4x2=8 =0.05 2 = 15.50 2 > 2 quindi i due caratteri sono dipendenti 31.6 Indice di contingenza media quadratica del Pearson • L’indice di contingenza quadratica media di Pearson è Φ2 = 2 /N; • in caso di indipendenza assume il suo valore minimo che è zero; • il valore massimo è pari a [(il più piccolo valore tra numero di righe e numero di colonne) -1]; • per renderlo normalizzato tra 0 e 1 occorre dividere il valore dell'indice per il suo valore massimo. Coefficiente di contingenza di Pearson Una misura di associazione basata sul chi-quadrato è: il coefficiente di contingenza di Pearson f2 = 2/N (5) Indice di Yule Data una tabella tetracorica a b c d L’indice di Yule si calcola : Q di Yule •Q=+1 i casi sono concentrati sulla diagonale ad Applicabile se le coppie di marginali sono entrambe equilibrate, oppure entrambe •Q = - 1 i casi sono concentrati squilibrate e non vi sono una sulla diagonale bc o tre celle semivuote, oppure entrambe squilibrate e una •Q=0 i casi sono equiripartiti diagonale è semivuota. ESEMPIO n °1: Calcolo degli indici in tabelle 22 (tetracoriche) SI "Hai fiducia in te stesso?" "We are the Champions" SI NO totale 276 90 366 NO totale 57 147 129 495 2 17.6 f 0.036 N 495 C 2 72 348 276 57 90 72 Q 0.37 276 57 90 72 2 17.6 0.19 2 N 495 17.6 ESEMPIO n °2: Calcolo degli indici in tabelle 53 Campania Altra Regione Estero Totale Sto bene dove sto 49 16 4 69 Altro quartiere 21 6 0 27 Altra città 22 11 1 34 Altra regione 45 45 3 93 Estero 140 77 50 267 tot 277 155 58 490 ESEMPIO n °2: Calcolo degli indici in tabelle 53 42.36 f 0.086 N 490 2 2 42.36 C 0.08 2 N 490 42.36 2 Conclusioni •In entrambi i casi analizzati si è rifiutata l’ipotesi di assenza di relazione; •Grazie agli indici si è potuto stimare il grado di associazione tra le variabili considerate Grazie per l’attenzione Liceo Statale “Q. O. Flacco” Portici (Na)