Unità 9 Frequenze osservate e frequenze teoriche Test del 2 Tabelle di contingenza 1 FREQUENZE OSSERVATE E FREQUENZE TEORICHE Spesso in medicina è necessario verificare se vi sia una differenza significativa tra due o più categorie di esiti di trattamenti, ciascuna espressa dal numero (frequenza) degli esiti stessi. Come abbiamo già detto, i risultati ottenuti nei campioni non sempre concordano esattamente con i risultati teorici attesi secondo le regole di probabilità. Per esempio, benché considerazioni teoriche ci portino ad attenderci 50 teste e 50 croci da 100 lanci di una moneta non truccata, è raro che questi risultati siano ottenuti esattamente. 2 DEFINIZIONE DI 2 (CHI-QUADRATO) Una misura della discrepanza esistente tra le frequenze osservate 2 e quelle teoriche è fornita dalla statistica . La formula generale per il calcolo del 2 è data da k (O j E j )2 j 1 Ej 2 dove k è il numero di possibile eventi, mentre Oj ed Ej sono le corrispondenti frequenze osservate e teoriche (o attese). È ovvio che se la frequenza totale è N si ha k k j 1 j 1 O j E j N . Se le frequenze teoriche possono essere calcolate senza dovere stimare parametri della popolazione per mezzo delle statistiche campionarie, il numero ν dei gradi di libertà è dato da ν = k–1. 3 TEST 2 PER L’ANALISI DELLE TABELLE DI CONTINGENZA Per illustrare il test può essere utile fare riferimento ad un esempio. Il passaggio al caso generale è banale. Si pensi di considerare 3 trattamenti (A, B e C) con 3 categorie di esiti ciascuno (I, II e III). I risultati ottenuti possono essere riassunti in una tabella simile alla Tabella 1 in cui a1 rappresenta il numero (frequenza) di individui che, sottoposti al trattamento A, hanno avuto esito I, b1 il numero di individui che sottoposti a B hanno anche essi avuto esito I, e così via. Tale rappresentazione sintetica prende il nome di tabella di contingenza. 4 hi (i = 1, 2, 3) rappresenta il numero di pazienti che globalmente ha avuto esito i (hi = ai + bi + ci), mentre nj (j = a, b, c) rappresenta il numero di pazienti che globalmente è stato sottoposto al trattamento j (nj = j1 + j2 + j3). Infine T rappresenta il numero totale degli individui osservati. 5 CALCOLO: Il test su questa tabella può essere descritto nei seguenti punti: a. si calcola per ogni trattamento (riga) la somma dei quadrati delle frequenze, divise per il proprio totale di colonna: Na Nb Nc a32 a12 a 22 h1 h2 h3 b32 b12 b22 h1 h2 h3 c 32 c12 c 22 h1 h2 h3 6 b. si dividono i valori ottenuti per il rispettivo totale di riga e si sommano i risultati ottenuti: Z Na Nb Nc na nb nc c. al valore Z si toglie 1 e quindi si moltiplica per il numero totale di osservazioni: 2 (Z 1) T d. fissato il livello α di significatività, si va nella tabella del chiquadrato con (t – 1)∙(c – 1) gradi di libertà dove t è il numero di trattamenti e c il numero delle categorie di esiti [(3–1)·(3–1) = 4 nel caso considerato]. e. se il valore ottenuto è superiore a quello tabulare allora la differenza è significativa con p < α. 7 Per comodità di consultazione si riporta di nuovo a lato la Tabella dei valori critici per la distribuzione del chiquadrato. ν indica il numero di gradi di libertà. 8 Esercizio 1 I dati nella tabella sotto derivano da uno studio su individui affetti da tumori cerebrali, classificati per tipo di tumore e sede. Si stabilisca se il tipo di tumore è indipendente dalla sede con α = 5%. Risposta 2 2 Applicando il test ai dati in tabella si ottiene = 7,844. I gradi di libertà sono (3 – 1)x(3 – 1) = 4. 2 Si consulti ora la tabella dei valori critici del in corrispondenza a 4 gradi di libertà. 9 Il valore di = 7,844 ottenuto è maggiore di quello corrispondente a p = 0,10. Esso è tuttavia minore di quello corrispondente a p = 0,05. 2 Avendo fissato α = 0,05, non è quindi possibile rifiutare l’ipotesi nulla che “il tipo di tumore è indipendente dalla sede”; ovvero con i dati a disposizione non è possibile concludere che “il tipo di tumore dipende dalla sede”. Il valore esatto di p calcolato dal test è pari a 0,097. 10 TABELLA 2 x 2 Nel caso t = 2 e c = 2 la tabulazione assume la configurazione 2 x 2 con 1 grado di libertà (tabella 2 x 2). In questo caso particolare la formula per il calcolo del chi-quadrato diventa semplicemente: 2 (a1b2 a 2 b1 ) 2 T n a n b h1 h2 Tale espressione tende però a dare risultati viziati, nel senso che porta ad affermare l’efficacia di un trattamento anche quando i dati non lo confermano. 11 Per questo motivo per le tabelle 2 x 2, particolarmente quando i valori delle frequenze in tabella sono piccoli, è stato proposto di utilizzare la correzione di Yates (o correzione per la continuità) nel calcolo del valore del chi-quadrato. La correzione consiste nel modificare la formula come segue: 2 1 T )2 T 2 n a n b h1 h2 ( a1b2 a 2 b1 Bisogna stare attenti al fatto che per campioni poco numerosi il test del chi-quadrato è poco accurato anche se si impiega la correzione di Yates. 12 Esercizio 2 In un esperimento sulla efficacia della vaccinazione antipoliomielitica, un gruppo di 244 conviventi di malati di poliomielite è stato sottoposto a vaccinazione, mentre un altro gruppo di 233 conviventi di malati di poliomielite non è stato vaccinato. Nel gruppo dei non vaccinati si sono avuti 8 casi di poliomielite (3,43%), mentre fra i vaccinati si è avuto un solo caso (0,41%). La differenza parla a favore del vaccino, ma possiamo considerarla significativa con α = 0,05? Risposta Si organizzino i dati in tabella. Si calcoli ora il valore del , impiegando le formule precedentemente discusse. 2 I valori che si ottengono sono 5,886 e 4,366, rispettivamente senza e con la correzione di Yates. 13 Si consulti ora la tabella dei valori 2 critici del in corrispondenza a 1 grado di libertà. Il valore critico corrispondente ad α = 0,05 è 3,8415. Sia il valore di corretto sia (a maggior ragione) quello non corretto superano il valore critico. 2 Avendo fissato α = 0,05, è quindi possibile rifiutare l’ipotesi nulla che “i casi di poliomielite sono indipendenti dalla vaccinazione”, ovvero le differenze osservate fra vaccinati e non vaccinati sono significative. Il problema può essere ovviamente risolto anche utilizzando un pacchetto di software statistico, quale, ad esempio, GraphPad. I risultati così ottenuti sono mostrati di seguito. 14 15 16 17