Utilizzo dell’indice di connessione χ2 1 ESEMPIO: In una sperimentazione per valutare l’efficacia della vaccinazione per il morbillo, i familiari di malati di morbillo furono in parte sottoposti a vaccinazione, e in parte no: si ammalarono 1 vaccinati (244) non vaccinati (244) non si ammalarono 243 si ammalarono non si ammalarono 8 236 2 proporzione di soggetti che si ammalano tra i vaccinati: 1 = 0,00409 = 4,09‰ 244 proporzione di soggetti che si ammalano tra i non vaccinati: 8 = 0,03278 = 32,78‰ 244 Posso affermare che la vaccinazione previene la malattia? NO! Perché anche se nei due gruppi, quello sottoposto a vaccinazione ha una minor proporzione di malati, è possibile che il risultato sia attribuito ad altre circostanze, differenziali tra i gruppi a confronto, oltre alla diversità dei trattamenti, quali: differente struttura per età, 3 differente prevalenza di una malattia concomitante, ecc. Formalizzo il problema avanzando due ipotesi (H0): ipotesi zero, o ipotesi nulla, le due proporzioni differiscono per effetto dell’errore di campionamento. Il vaccino non può essere considerato efficace (H1): ipotesi alternativa, o altra ipotesi le due proporzioni non differiscono per effetto dell’errore di campionamento Il vaccino può essere considerato efficace. IL TEST DEL χ2 CONSENTE DI SAGGIARE L’IPOTESI NULLA 4 1. Costruzione della tabella di contingenza (2x2): malati non malati totale vaccinati 1 243 244 non vaccinati 8 236 244 totale 9 479 488 5 Un breve salto nella teoria....... Y y1 ……........ yh............ yt Totale x1 n11 ................ n1h............ n1t n10 . . . . . . . . . . . . . . . xi ni1 nit ni0 . . . . . . . . . . . . . . . xs ns1 nst ns0 Totale n01 n0t N X …............ nih............ …............ nsh........... n0h Y è detto indipendente da X se, al variare di X, Y resta costante 6 Ossia se valgono le seguenti t catene di uguaglianze n n 11 =…….= 10 n n . . . =….= i0 n n s1 s0 . . . n 1h n 10 . . . n n i1 1t 10 =…….= =…….= n n . . . ih =…….= .i0 . . n n it i0 =…….= n n n n sh s0 . . . st s0 7 Considerando la generica catena di uguaglianze di rapporti n 1h n 10 =……..….= n n ih i0 =……..….= n sh n s0 Come è noto una catena di uguaglianze può scriversi come una catena di proporzioni: n1h:n10 =……= nih:ni0 =……= nsh:ns0 a cui può applicarsi la proprietà del comporre (n1h+…..+nsh):(n10 +….+ ns0)=nih:ni0 Frequenza marginale Totale collettivo 8 si può scrivere n0h:N = nih:ni0 è possibile ricavare nih ni0.n0h nih = N 9 2. Calcolo delle frequenze attese si costruisce una nuova tabella di contingenza in cui si trascrivono i soli totali marginali malati non malati totale vaccinati 244 non vaccinati 244 totale 9 479 488 10 2. Calcolo delle frequenze attese calcolo delle frequenze attese sotto (H0): (il vaccino non è efficace) malati vaccinati 9:488=A1:244 A1=4,5 non vaccinati 9:488=A3:244 totale 9 A3=4,5 non malati totale 479:488=A2:244 A2=239,5 244 479:488=A4:244 244 A4=239,5 479 488 11 3. Confronto tra la tabella di contingenza con frequenze osservate malati non malati vaccinati 1 243 non vaccinati 8 236 e la tabella di contingenza con frequenze attesa: malati non malati vaccinati 4,5 239,5 non vaccinati 4,5 239,5 12 Confronto tra frequenze campionarie 2 χ = s t ∑ ∑ i =1 h =1 (O − A) A 2 Dove: O = frequenze assolute osservate A = frequenze assolute attese 13 Calcolo del chi-quadrato χ2 = ∑ (O - A) 2 A 2 2 2 (1 − 4,5) (243 − 239,5) (8 − 4,5) + = + + 4,5 4,5 239,5 2 (236 − 239,5) = 5,54 239,5 14 È sempre opportuno apportare una modifica alla formula del chi-quadrato nota come correzione per la continuità di Yates 2 1 χ =∑ ( 1 − 4 ,5 − 0 ,5 ) 4,50 + 2 + ( 8 − 4 , 4 − 0 ,5 ) 2 4, 4 ( O − A − 1/2) 2 A ( 243 − 239 ,5 − 0,5) 239 , 4 + 2 + ( 236 − 239 ,5 − 0,5) 2 239 ,5 = 4,075 La correzione ha uno scarso effetto per grandi frequenze di cella ma diventa indispensabile quando si lavora con frequenze piccole 15 2 χ 5. Confronto tra il valore del calcolato e quello riportato sulle tavole della distribuzione del χ 2 per (r-1) x (c-1) = gradi di libertà Dove: r = numero di righe della tabella di contingenza c = numero di colonne della tabella di contingenza Nel caso in esame: (2-1) x (2-1) = 1 grado di libertà 16 17 18 Tale valore delimita esattamente l’area di accettazione e di rigetto Area di accettazione Area di rigetto 0,05 0,95 3,841 Valore Sperimentale 4,075 Rifiuto l’ipotesi nulla (p<0,05) 19 Possiamo così valutare l’efficacia del vaccino malati non malati vaccinati 1 243 244 I.nE. = (1/244)x100 = 0,4% non vaccinati 8 236 244 I.E. = (8/244)x100 = 3,27% I.E. − I.nE. 3,27% − 0,49% = = 84,7% Efficacia = I.E. 3,27% 20 Numero di soggetti da vaccinare per risparmiare un caso secondario di Morbillo 1 1 NNT = = = 37 0,032 - 0,049 0 , 0271 21 Il test: criterio di decisione SE È VERA H0 SE È VERA H1 ... e in base al campione decido che è vera H0 decisione giusta protezione: (1-α) decisione sbagliata errore di tipo II: β ... e in base al campione decido che è vera H1 decisione sbagliata errore di tipo I: α decisione giusta potenza: (1-β) 22 Il test: criterio di decisione Protezione (1-α): probabilità di accettare H0 quando è vera H0 Potenza del test (1-β): probabilità di rifiutare H0 quando è vera una specifica H1 Rischio di errore di tipo I (α): probabilità di rifiutare H0 quando è vera H0 Rischio di errore di tipo II (β): probabilità di accettare H0 quando è vera una specifica H1 23 Supponiamo, di voler stabilire l’esistenza di una relazione tra valore della pressione diastolica e gruppo etnico di appartenenza 24 Riportiamo le frequenze empiriche, rilevate da un campione casuale, nella tabella di contingenza (3x2) DISTRIBUZIONE DELLE FREQUENZE DI DIVERSI VALORI DELLA PRESSIONE DIASTOLICA SECONDO DIVERSI GRUPPI ETNICI IN UN CAMPIONE DI 2.000 SOGGETTI NERI BIANCHI TOTALE >100 300 400 700 90 - 100 400 550 950 <90 150 200 350 TOTALE 850 1150 2000 25 Formalizzo il problema avanzando due ipotesi (H0): ipotesi zero, o ipotesi nulla, inesistenza di relazioni statisticamente significative tra l’appartenenza ad un gruppo etnico e la pressione diastolica (H1): ipotesi alternativa, o altra ipotesi, esistenza di connessione tra l’appartenenza ad un gruppo etnico e la pressione diastolica IL TEST DEL χ2 CONSENTE DI SAGGIARE L’IPOTESI NULLA 26 Calcolo delle frequenze attese DISTRIBUZIONE DELLE FREQUENZE TEORICHE NERI BIANCHI TOTALE >100 a b 700 90 - 100 c d 950 <90 e f 350 TOTALE 850 1150 2000 LE FREQUENZE DI OGNUNA DELLE CASELLE DELLA TABELLA SI CALCOLANO COME SEGUE: 850 × 700 a= ; 2000 1150 × 700 b= ; 2000 850 × 950 c= ; 2000 1150 × 950 d= ; 2000 850 × 350 e= ; 2000 1150 × 350 f = ; 2000 27 Le frequenze teoriche saranno pertanto distribuite come in tabella TABELLA DI INDIPENDENZA POPOLAZIONE PRESSIONE NERI BIANCHI TOTALE >100 297,5 402,5 700 90 - 100 403,75 546,25 950 <90 148,75 201,25 350 TOTALE 850 1150 2000 28 Una volta ottenute le frequenze teoriche è possibile passare al calcolo del valore del χ2 nel campione χ2 = (300 − 297,5) 297,5 2 ( 400 − 402,5) + ( 550 − 546,25) + 546,25 2 402,5 2 ( 400 − 403,75) + 403,75 2 + 2 ( 150 − 148,75) + 148,75 + 2 ( 200 − 201,25) + = 0,1152 201,25 29 CONFRONTO TRA IL VALORE DEL χ2 CALCOLATO E QUELLO RIPORTATO SULLA TAVOLA DELLA DISTRIBUZIONE DEL χ2 PER (r – 1) (c – 1) = gradi di libertà DOVE: r = NUMERO DI RIGHE DELLA TABELLA DI CONTINGENZA c = NUMERO DI COLONNE DELLA TABELLA DI CONTINGENZA NEL NOSTRO CASO (3 – 1) (2 – 1) =2 GRADI DI LIBERTÀ 30 NELLA TAVOLA DI DISTRIBUZIONE DEL χ2 PER 2 GRADI DI LIBERTÀ E A UN LIVELLO DI SIGNIFICATIVITÀ DELLO 0,01 SI TROVA UN VALORE DI χ2 = 9,210 31 TALE VALORE DELIMITA ESATTAMENTE L’AREA DI ACCETTAZIONE E DI RIGETTO α= 0,01 AREA DI ACCETTAZIONE 0,01 AREA DI RIGETTO 0,99 9,21 VALORE SPERIMENTALE 0,1152 32 ESSENDO IL VALORE DEL χ2 SPERIMENTALE INFERIORE AL VALORE CHE DELIMITA L’AREA DI RIFIUTO POSSIAMO, A UN LIVELLO DI SIGNIFICATIVITÀ DELLO 0.01 0.01,, ACCETTARE L’IPOTESI NULLA OVVERO NON VI È CONNESSIONE STATISTICAMENTE SIGNIFICATIVA TRA LA RAZZA DI APPARTENENZA E LA PRESSIONE DIASTOLICA 33 ESEMPIO: Si vuole confrontare l’efficacia di 3 farmaci anti-ipertensivi. Si scelgono 3 campioni di ipertesi; al primo campione si somministra il farmaco A, al secondo il farmaco B e al terzo il farmaco C. I risultati sono indicati nella tab. di contingenza 2*3: miglioramento non miglioramento totale prop. di miglior. I camp. farmaco A 10 10 20 (50%) II camp. farmaco B 10 5 15 (67%) III camp. farmaco C 10 20 30 (33%) totale 30 35 65 Le diverse proporzioni di miglioramento sono casuali (H H0) o i tre farmaci sono caratterizzati da diversa efficacia (H H1)? Il test del χ2 consente di saggiare l’ipotesi nulla 34 1. Tabella di contingenza con frequenze osservate: miglioramento non miglioramento farmaco A 10 10 farmaco B 10 5 farmaco C 10 20 2. Tabella di contingenza con frequenze attese: miglioramento non miglioramento farmaco A 30:65=x:20 9.23 35:65=x:20 10.77 farmaco B 30:65=x:15 6.92 35:65=x:15 8.08 farmaco C 30:65=x:30 13.85 35:65=x:30 16.15 35 3. Calcolo del chi – quadrato (con correzione di Yates Yates): ( O − A − 1 )2 2 = Χ 22 = Σ A ( 10 − 9.23 − 0.5) 2 ( 10 − 10.77 − 0.5) 2 ( 10 − 6.92 − 0.5) 2 = + + + 9.23 10.77 6.92 ( 5 − 8.08 − 0.5) 2 ( 10 − 13.85 − 0.5) 2 ( 20 − 16.15 − 0.5) 2 + + + = 3.306 8.08 13.85 16.15 36 4. Confronto con il χ2 teorico per (3-1)*(2-1)=2 gradi di libertà: g. l. 0.05 0.025 0.01 0.005 2 5.991 7.378 9.210 10.597 2 2 χ = 3.306 si accetta l’ipotesi nulla (p>0.05) non è possibile scartare l’ipotesi che i tre farmaci dimostrino diversa efficacia per effetto del caso 37 Quale procedura bisogna adottare con campioni appaiati anziché indipendenti? Test di McNemar 38 ESEMPIO: Si considerino i dati di uno studio che esamina l’infarto acuto del miocardio in una Comunità: Diabete totale Infarto del miocardio Sì No totale Sì 46 25 71 No 98 119 217 144 144 288 La proporzione di diabetici è uguale nei due gruppi? 39 Abbiamo un totale di 288 osservazioni, costituita da 144 coppie Non Infarto del miocardio Infarto del miocardio Diabete Diabete Non diabete totale Non diabete totale 9 37 46 16 82 98 25 119 144 Ogni valore si riferisce ad una combinazione di risposte per una coppia appaiata 40 Formalizzo il problema avanzando due ipotesi (1) (H0): il numero di coppie in cui il soggetto con infarto acuto del miocardio è diabetico ed il soggetto appaiato non affetto da patologie cardiache non lo è, è uguale al numero di coppie in cui il soggetto non affetto da infarto è diabetico ed il soggetto appaiato affetto da infarto non lo è, o, più brevemente: (H0): non esiste alcuna associazione tra diabete ed infarto acuto del miocardio 41 Formalizzo il problema avanzando due ipotesi (2) (H1): esiste associazione tra diabete ed infarto acuto del miocardio Se: r = numero di coppie in cui il soggetto con infarto acuto del miocardio è diabetico ed il soggetto non affetto da infarto non è diabetico S = numero delle coppie in cui il soggetto non affetto da infarto è diabetico ed il soggetto con infarto non è diabetico [ r − s − 1] = 2 χ 2 r+s 42 [ 37 − 16 − 1] = 2 χ 2 37 + 16 = 7,55 α= 0,05 Rifiuto l’ipotesi nulla Pertanto, per la Comunità studiata, i soggetti con infarto acuto del miocardio hanno maggiori probabilità di soffrire di diabete rispetto ai soggetti sani appaiati per età e sesso. 43 44