TABELLE DI CONTINGENZA E CHI QUADRATO 1 TABELLE DI CONTINGENZA La misurazione più semplice è la conta delle frequenze, per esempio il genere, il tipo di scuola frequentato, la provenienza geografica ecc. Più interessante è di solito rilevare la contemporanea presenza di due variabili (genere e provenienza, professione del padre e scuola freqentata ecc). I dati si presentano nelle tabelle di contingenza. 2 TABELLE DI CONTINGENZA a un criterio La tabella di contingenza può contenere dati riferiti alle categorie di una sola variabile. Se, ad esempio, in una domanda di un questionario si chiede all’intervistato che tipo di corso di laurea segue, la tabella che riassume i risultati di questo item avrà questo aspetto: Corsi di laurea in materie umanistiche 357 Corsi di laurea in materie scientifiche 602 totale 959 3 Tabelle di contingenza a due criteri . Se, invece di mostrare semplicemente la distribuzione di un campione rispetto alle categorie di una variabile, vogliamo vedere se esiste una relazione tra due variabili, incrociamo queste due variabili in una tabella di contingenza a due criteri. In ogni casella della tabella troviamo il numero di persone che presenta una particolare combinazione delle categorie delle due variabili. Considerando i dati della ricerca prima evidenziata, riguardo il giudizio del proprio corso di laurea, avremo una tabella di contingenza di questo tipo: 4 Giudizio Tipologia di corso Positivo Indifferente Negativo Totale Corso di laurea in materie umanistiche 155 304 161 620 Corso di laurea in materie scientifiche 102 186 92 380 Totale 257 490 253 1000 Esempio di tabella di contingenza a due criteri sulle opinioni di studenti che hanno risposto a un questionario interno diviso per ambiti accademici. 5 RELAZIONE TRA VARIABILI VISIBILE DALLE TABELLE DI CONTINGENZA Si può ipotizzare una relazione tra le variabili guardando solo una tabella di contingenza? In altre parole, esiste una relazione fra tipo di studi prescelti e giudizio sul corso? Per rispondere, ricordiamo il concetto di totali marginali 6 I totali marginali Per ogni riga (e per ogni colonna) otteniamo un conteggio, che può essere trasformato in percentuale 1 Positivo 2 neutro 3 negativo Totale 1 materie umanist iche 155 304 161 620 62,00% 2 materie scientifi che 102 186 92 380 38,00% 257 490 253 1000 25,70% 49,00% 25,30% 100,00% Totale Percentuali e totali marginali 1 Positivo 2 neutro 1 M. umanistiche 2 M. scientifiche 3 negativo Totale 155 304 161 620 62,00% 102 257 25,70% 186 490 49,00% 92 253 25,30% 380 1000 38,00% Le materie umanistiche sono il 62% e i conteggi sono 620 Il giudizio NEUTRO è pari al 49 % e i conteggi sono 490 Entrambe sono percentuali (o totali) marginali 100,00% Percentuali e totali marginali 1 Positivo 2 neutro 1 M. umanistiche 2 M. scientifiche 3 negativo Totale 62,00% 62,00% 62,00% 62,00% 62,00% 38,00% 257 38,00% 490 38,00% 253 38,00% 1000 38,00% 100,00% Nell’ipotesi di indipendenza, all’interno di ciascuna colonna ci aspettiamo di trovare le stesse percentuali marginali di riga. Per esempio, se le materie umanistiche sono il 62%, dovremmo trovare la stessa percentuale nei tre diversi giudizi. L’ipotesi di indipendenza Se le due misurazioni sono indipendenti, ovvero se non c’è nessuna relazione fra dare un tipo di giudizio e appartenere ad uno specifico gruppo di studenti, le percentuali totali di riga dovrebbero essere uguali in tutte le colonne, e le percentuali totali nelle colonne dovrebbero essere uguali in tutte le righe. Uguali va inteso come approssimativamente uguali, ovvero, si dovrebbe tener conto della variabilità stocastica. Percentuali e totali marginali 1 Positivo 2 neutro 1 M. umanistiche 2 M. scientifiche 3 negativo Totale 25,70% 49,00% 25,30% 620 25,70% 49,00% 25,30% 380 1000 25,70% 49,00% 25,30% 100,00% Nell’ipotesi di indipendenza, all’interno di ciascuna riga ci aspettiamo di trovare le stesse percentuali marginali della colonna totale Per esempio, il giudizio negativo è ottenuto dal 25,3% delle valutazioni complessive, e all’interno delle materie umanistiche e scientifiche si dovrebbe ottenere la stessa percentuale di 25,30 Percentuali e totali marginali 1 Positivo 2 neutro 1 M. umanistiche 2 M. scientifiche 3 negativo Totale 25,70% 49,00% 25,30% 620 25,70% 49,00% 25,30% 380 1000 25,70% 49,00% 25,30% 100,00% Combinando questi dati, vogliamo trovare il conteggio delle materie umanistiche partendo dai giudizi: 25,7 % di 620 è uguale a 159,4 Frequenza attesa È il conteggio teorico che ci aspettiamo di trovare in ogni cella, in base all’ipotesi di indipendenza, Frequenza attesa Il suo valore, combinando e semplificando si ottiene con la formula seguente: tot. riga tot.colonna freq. attesa tot.generale 620 257 freq. attesa 159,34 1000 Calcolo delle frequenze attese per ciascuna cella Per ciascuna cella della tavola di contingenza si può ottenere una frequenza attesa (indicata con la lettera A), che si può confrontare con la frequenza osservata (indicata con la lettera O) La differenza fra le due quantità deve essere però aggiustata in basa alla grandezza della frequenza attesa (una differenza di 5 può essere considerevole se la frequenza attesa è 2, ma trascurabile sela frequenza attesa è 200). La discrepanza fra frequenza attesa e frequenza osservata va elevata al quadrato, in modo che qualsiasi discrepanza in negativo non compensi una discrepanza in positivo. Calcolo della discrepanza complessiva Perciò, per ogni cella si calcola la discrepanza al quadrato Ricapitolando… Come si può ipotizzare una relazione tra le variabili guardando solo una tabella di contingenza? Osservo la partizione dei soggetti nelle varie caselle: se non c’è nessun tipo di relazione tra le due variabili (ovvero se le variabili sono tra loro indipendenti), le frequenze osservate dovrebbero essere uguali a quelle attese, a parte qualche fluttuazione casuale. La fluttuzione casuale è quantificabile con la statistica del chi quadrato Se il valore del chi quadrato è basso, la fluttuazione è scarsa, l’ipotesi di indipendenza fra le due variabili non può essere rigettata. Se il valore è elevato, la discrepanza è forte, probabilmente esiste una relazione fra le due 17 TEST DEL CHI QUADRATO Serve a verificare se due variabili sono indipendenti l’una dall’altra Usa solo tabelle di conteggi (escludendo quindi quelle per valori medi, di proporzioni o altro) 18 VERIFICA DELL’ASSOCIAZIONE TRA LE VARIABILI PRIMO PASSO: SCRIVERE LE IPOTESI innanzitutto, stabiliamo la nostra ipotesi nulla e quella alternativa. H0 : non c’è associazione tra livello di istruzione e voto. H1 : c’è associazione tra livello di istruzione e voto. Per decidere se accettare o scartare l’ipotesi nulla, dovremo calcolare un “valore test” statistico, e confrontare questo valore con il valore critico corrispondente. 19 PASSO 2: COSTRUIRE LA TABELLA DEI VALORI ATTESI I valori che troviamo nella tabella presentata qualche diapositiva fa sono i valori effettivamente osservati. Per il calcolo del chi quadro ci servono invece i valori attesi o teorici. I valori attesi sono i valori che ci aspetteremmo di trovare nella tabella se non ci fosse associazione statistica tra le variabili. Per calcolare i valori attesi si usa la formula: 20 PASSO 3: Calcolo del CHI QUADRATO Applicazione della formula Di cui: O = valori osservati A = valori attesi ESEMPIO: O = 80 A = 59,3 quindi Dunque 21 PASSO 4: TROVARE IL VALORE CRITICO DEL CHI QUADRATO Il valore critico (valore fisso) si trova sulle tavole di contingenza del chi quadrato incrociando il livello di significatività ( di solito posto a 5%, per cui si guarda la colonna dello 0,05) con il numero dei gradi di libertà (gl) che si trovano con la seguente formula: gl = (numero di righe - 1) x (numero colonne - 1) ESEMPIO: Se la tabella ha due righe e tre colonne, il numero dei gradi di libertà è uguale a : (2 – 1) x (3 – 1) = 1 x 2 = 2 Quindi nelle tavole di contingenza troveremo il punto dove gl = 2 e andremo fino alla casella della colonna dove il livello di significatività è di 5%: il valore trovato è 5,99, valore critico del chi quadrato per questo test. 22 PASSO 5: TRARRE LE CONCLUSIONI L’ipotesi nulla può essere scartata se il valore della statistica del chi quadrato calcolato è più grande del valore critico. In tal caso, accetteremmo l’ipotesi alternativa e potremmo affermare l’esistenza di una relazione tra le due variabili prese in considerazione. Curva del Valore critico Si accetta Ho se il valore del chi quadrato calcolato ricade qui Non si accetta Ho se il valore del chi quadrato calcolato ricade qui 23 Curva del Ecco la regola: Valore della statistica test maggiore del valore critico Si scarta l’ipotesi nulla Valore della statistica test minore (o uguale) del valore critico Si accetta l’ipotesi nulla 24 RESTRIZIONI SUL TEST DEL Il test del chi quadrato può essere usato solamente per le tabelle contenenti conteggi; affinché i risultati del test siano validi, è necessario che le frequenze attese abbiano un valore maggiore o uguale a cinque. Se vi sono delle caselle con valori minori di cinque, bisogna raccogliere più dati, oppure ridurre le categorie della tabella. 25 I RESIDUI : come approfondire le analisi I residui standardizzati ( r ) sono calcolati per ciascuna casella di una tabella con la seguente formula: DI CUI: O = valore osservato A = valore atteso 26 INTERPRETAZIONE DEI RESIDUI A partire da una tabella, l’interpretazione comincia con l’osservare se i residui di ciascuna casella sono positivi o negativi: Se il residuo è positivo Se il residuo è negativo Il valore osservato è più grande del valore atteso (indica, quindi, che ci sono più persone in quella casella di quelle che avevamo supposto ci sarebbero state se non ci fosse stata associazione) Il valore atteso è più grande del valore osservato (indica che ci sono meno 27 persone di quanto ci saremmo aspettati) Successivamente si considera la grandezza dei residui per vedere se la differenza tra i valori osservati e quelli attesi è significativa. per determinare la significatività al 5%, il valore di ciascun residuo deve essere confrontato con 1,96 o – 1,96, quindi si usano 2 e – 2. Se r > 2 o r < - 2 il valore è SIGNIFICATIVO Se 2 > r > - 2 il valore NON è SIGNIFICATIVO 28 ESEMPIO REALE Nella seguente tabella sono mostrati i residui standardizzati tra titolo di studio del padre e il giudizio di licenza di 1000 studenti. Il chi quadrato è 48,015, con 12 gradi di libertà è significativo a livello di p< 0,0005. 29 Ta vola di contingenz a h8 Titolo di studio de l pa dre * h5 Giudizio di licenz a ottenuto in terza me dia h5 Giudizio di licenza ottenuto in terza media 1 Sufficiente 2 Buono 3 Distinto 4 Ottimo h8 Titol o di stud io del padr e 1 Licenza elementare 2 Licenza media 3 Scuola professionale 4 Diploma di scuola super 5 Laurea o diploma universitario Totale Conteggio Res stand. Conteggio Res stand. Conteggio Res stand. Conteggio Res stand. Conteggio Res stand. Conteggio 30 27 13 5 2,6 ,5 -1,1 -2,4 100 97 67 38 2,8 -,3 -,5 -2,3 35 50 34 25 -,2 ,4 ,0 -,3 57 105 80 72 -2,4 ,1 ,6 1,9 28 51 43 43 -2,1 -,5 ,6 2,3 250 330 237 183 Totale 75 302 144 314 165 1000 Il chi quadrato è 48,015, con 12 gradi di libertà p< 0,0005. Se il chi quadrato è significativo… L’ipotesi nulla di indipendenza può essere rigettata Esiste almeno una cella in cui vi sono condensazioni o rarefazioni di conoccorrenze L’esame dei residui (positivi o negativi) permette di individuare le associazioni Ta vola di contingenz a h8 Titolo di studio de l pa dre * h5 Giudizio di licenz a ottenuto in terza me dia h5 Giudizio di licenza ottenuto in terza media 1 Sufficiente 2 Buono 3 Distinto 4 Ottimo h8 Titol o di stud io del padr e 1 Licenza elementare 2 Licenza media 3 Scuola professionale 4 Diploma di scuola super 5 Laurea o diploma universitario Totale Conteggio Res stand. Conteggio Res stand. Conteggio Res stand. Conteggio Res stand. Conteggio Res stand. Conteggio 30 27 13 5 2,6 ,5 -1,1 -2,4 100 97 67 38 2,8 -,3 -,5 -2,3 35 50 34 25 -,2 ,4 ,0 -,3 57 105 80 72 -2,4 ,1 ,6 1,9 28 51 43 43 -2,1 -,5 ,6 2,3 250 330 237 183 Totale 75 302 144 314 165 1000 I padri con titolo di studio elevato tendono ad avere studenti con giudizio elevato e viceversa. Solamente per i padri con la scuola professionale non si può inferire una tendenza. Chi ha buono o distinto non presenta delle indicazioni utili per indovinare il titolo di studio del padre. Chi ha ottimo tende ad avere un padre con laurea Gli studenti con sufficiente tendono ad avere un padre con licenza media o elementare L’associazione fra le due caratteristiche è accertata. MA… Si può dire che una delle due CAUSA l’altra? (c’è un effetto di causalità o causazione ?) Quali domande sono legittime? Si può affermare che il giudizio di licenza del figlio è causa del livello di istruzione del padre? Si può affermare che il livello di istruzione del padre è causa del giudizio di licenza del figlio? Si può affermare che il diploma di terza media del figlio è indipendente dal livello di istruzione del padre? La correlazione – accertata – non implica la causazione né il suo verso: la relazione di causa-effetto deve essere sempre accertata con la teoria, e mai con una tecnica statistica Per teoria si intende tutto l’insieme di conoscenze disponibili: ragionamento, osservazioni, sperimentazione, logica, buon senso …