Utilizzo dell’indice di connessione χ2 1 ESEMPIO: In una sperimentazione per valutare l’efficacia della vaccinazione per il morbillo, i familiari di malati di morbillo furono in parte sottoposti a vaccinazione, e in parte no: si ammalarono 1 vaccinati (244) non vaccinati (244) non si ammalarono 243 si ammalarono non si ammalarono 8 236 2 proporzione di soggetti che si ammalano tra i vaccinati: 1 = 0,00409 = 4,09‰ 244 proporzione di soggetti che si ammalano tra i non vaccinati: 8 = 0,03278 = 32,78‰ 244 Posso affermare che la vaccinazione previene la malattia? NO! Perché anche se nei due gruppi, quello sottoposto a vaccinazione ha una minor proporzione di malati, è possibile che il risultato sia casuale (ovvero dovuto a errore di campionamento) 3 Formalizzo il problema avanzando due ipotesi (H0): ipotesi zero, o ipotesi nulla, le due proporzioni differiscono per effetto dell’errore di campionamento. Il vaccino non può essere considerato efficace (H1): ipotesi alternativa, o altra ipotesi le due proporzioni non differiscono per effetto dell’errore di campionamento Il vaccino può essere considerato efficace. IL TEST DEL χ2 CONSENTE DI SAGGIARE L’IPOTESI NULLA 4 1. Costruzione della tabella di contingenza (2x2): malati non malati totale vaccinati 1 243 244 non vaccinati 8 236 244 totale 9 479 488 5 Il calcolo del chi quadro si basa sul confronto fra frequenze osservate e frequenze attese nelle singole sottocategorie. Le frequenze attese si calcolano a partire dalle frequenze osservate 2. Calcolo delle frequenze attese si costruisce una nuova tabella di contingenza in cui si trascrivono i soli totali marginali malati non malati totale vaccinati 244 non vaccinati 244 totale 9 479 488 6 2. Calcolo delle frequenze attese calcolo delle frequenze attese sotto (H0): (il vaccino non è efficace) malati vaccinati 9:488=A1:244 A1=4,5 non malati totale 479:488=A2:244 A2=239,5 244 244 non vaccinati 9:488=A3:244 479:488=A4:244 A3=4,5 A4=239,5 totale 9 479 488 7 3. Confronto tra la tabella di contingenza con frequenze osservate malati non malati vaccinati 1 243 non vaccinati 8 236 e la tabella di contingenza con frequenze attesa: malati non malati vaccinati 4,5 239,5 non vaccinati 4,5 239,5 8 Confronto tra frequenze campionarie 2 χ = s t ∑ ∑ i =1 h =1 (O − A) A 2 Dove: O = frequenze assolute osservate A = frequenze assolute attese 9 Calcolo del chi-quadrato χ2 = ∑ (O - A) 2 A 2 2 2 (1 − 4,5) (1 − 239,5) (8 − 4,5) + = + + 4,5 4,5 239,5 2 (236 − 239,5) = 5,54 239,5 10 2 χ 4. Confronto tra il valore del calcolato e quello riportato sulle tavole della distribuzione del χ 2 per (r-1) x (c-1) = gradi di libertà Dove: r = numero di righe della tabella di contingenza c = numero di colonne della tabella di contingenza Nel caso in esame: (2-1) x (2-1) = 1 grado di libertà 11 12 13 Tale valore delimita esattamente l’area di accettazione e di rigetto Area di accettazione Area di rigetto 0,95 0,05 3,841 Valore Sperimentale 4,075 Rifiuto l’ipotesi nulla (p<0,05) 14 Supponiamo, di voler stabilire l’esistenza di una relazione tra valore della pressione diastolica e razza di appartenenza 15 Riportiamo le frequenze empiriche, rilevate da un campione casuale, nella tabella di contingenza (3x2) DISTRIBUZIONE DELLE FREQUENZE DI DIVERSI VALORI DELLA PRESSIONE DIASTOLICA SECONDO LE DIVERSE RAZZE IN UN CAMPIONE DI 2.000 SOGGETTI NERI BIANCHI TOTALE >100 300 400 700 90 - 100 400 550 950 <90 150 200 350 TOTALE 850 1150 2000 16 Formalizzo il problema avanzando due ipotesi (H0): ipotesi zero, o ipotesi nulla, inesistenza di relazioni statisticamente significative tra la razza di appartenenza e la pressione diastolica (H1): ipotesi alternativa, o altra ipotesi, esistenza di connessione tra razza e pressione diastolica IL TEST DEL χ2 CONSENTE DI SAGGIARE L’IPOTESI NULLA 17 Calcolo delle frequenze attese DISTRIBUZIONE DELLE FREQUENZE TEORICHE NERI BIANCHI TOTALE >100 a b 700 90 - 100 c d 950 <90 e f 350 TOTALE 850 1150 2000 LE FREQUENZE DI OGNUNA DELLE CASELLE DELLA TABELLA SI CALCOLANO COME SEGUE: 850 × 700 a= ; 2000 1150 × 700 b= ; 2000 850 × 950 c= ; 2000 1150 × 950 d= ; 2000 850 × 350 e= ; 2000 1150 × 350 f = ; 2000 18 Le frequenze teoriche saranno pertanto distribuite come in tabella TABELLA DI INDIPENDENZA POPOLAZIONE PRESSIONE NERI BIANCHI TOTALE >100 297,5 402,5 700 90 - 100 403,75 546,25 950 <90 148,75 201,25 350 TOTALE 850 1150 2000 19 Una volta ottenute le frequenze teoriche è possibile passare al calcolo del valore del χ2 nel campione χ2 = (300 − 297,5) 297,5 2 ( 400 − 402,5) + ( 550 − 546,25) + 546,25 2 402,5 2 ( 400 − 403,75) + 403,75 2 + 2 ( 150 − 148,75) + 148,75 + 2 ( 200 − 201,25) + = 0,1152 201,25 20 CONFRONTO TRA IL VALORE DEL χ2 CALCOLATO E QUELLO RIPORTATO SULLA TAVOLA DELLA DISTRIBUZIONE DEL χ2 PER (r – 1) (c – 1) = gradi di libertà DOVE: r = NUMERO DI RIGHE DELLA TABELLA DI CONTINGENZA c = NUMERO DI COLONNE DELLA TABELLA DI CONTINGENZA NEL NOSTRO CASO (3 – 1) (2 – 1) =2 GRADI DI LIBERTÀ 21 NELLA TAVOLA DI DISTRIBUZIONE DEL χ2 PER 2 GRADI DI LIBERTÀ E A UN LIVELLO DI SIGNIFICATIVITÀ DELLO 0,01 SI TROVA UN VALORE DI χ2 = 9,210 χ2 0 22 TALE VALORE DELIMITA ESATTAMENTE L’AREA DI ACCETTAZIONE E DI RIGETTO α= 0,01 AREA DI ACCETTAZIONE 0,01 AREA DI RIGETTO 0,99 9,21 VALORE SPERIMENTALE 0,1152 23 ESSENDO IL VALORE DEL χ2 SPERIMENTALE INFERIORE AL VALORE CHE DELIMITA L’AREA DI RIFIUTO POSSIAMO, A UN LIVELLO DI SIGNIFICATIVITÀ DELLO 0.01 0.01,, ACCETTARE L’IPOTESI NULLA OVVERO NON VI È CONNESSIONE STATISTICAMENTE SIGNIFICATIVA TRA LA RAZZA DI APPARTENENZA E LA PRESSIONE DIASTOLICA 24 ESEMPIO: Si vuole confrontare l’efficacia di 3 farmaci anti-ipertensivi. Si scelgono 3 campioni di ipertesi; al primo campione si somministra il farmaco A, al secondo il farmaco B e al terzo il farmaco C. I risultati sono indicati nella tab. di contingenza 2*3: miglioramento non miglioramento totale prop. di miglior. I camp. farmaco A 10 10 20 (50%) II camp. farmaco B 10 5 15 (67%) III camp. farmaco C 10 20 30 (33%) totale 30 35 65 Le diverse proporzioni di miglioramento sono casuali (H H0) o i tre farmaci sono caratterizzati da diversa efficacia (H H1)? Il test del χ2 consente di saggiare l’ipotesi nulla 25 1. Tabella di contingenza con frequenze osservate: miglioramento non miglioramento farmaco A 10 10 farmaco B 10 5 farmaco C 10 20 2. Tabella di contingenza con frequenze attese: miglioramento non miglioramento farmaco A 30:65=x:20 9.23 35:65=x:20 10.77 farmaco B 30:65=x:15 6.92 35:65=x:15 8.08 farmaco C 30:65=x:30 13.85 35:65=x:30 16.15 26 3. Calcolo del chi – quadrato (con correzione di Yates Yates): ( O − A − 1 )2 2 = Χ 22 = Σ A ( 10 − 9.23 − 0.5) 2 ( 10 − 10.77 − 0.5) 2 ( 10 − 6.92 − 0.5) 2 = + + + 9.23 10.77 6.92 ( 5 − 8.08 − 0.5) 2 ( 10 − 13.85 − 0.5) 2 ( 20 − 16.15 − 0.5) 2 + + + = 3.306 8.08 13.85 16.15 27 4. Confronto con il χ2 teorico per (3-1)*(2-1)=2 gradi di libertà: g. l. 0.05 0.025 0.01 0.005 2 5.991 7.378 9.210 10.597 2 2 χ = 3.306 si accetta l’ipotesi nulla (p>0.05) non è possibile scartare l’ipotesi che i tre farmaci dimostrino diversa efficacia per effetto del caso 28