Corso di biomatematica lezione 7-3: Test di significatività Silvia Capelli Sommario •Tabelle di contingenza e Yates •Tabelle 2x2 metodo esatto piccoli campioni (Fisher) •Tabelle 2xN Adattamento dei dati • Tabelle di contingenza 2x2 Quando confronto le risposte binarie di due campioni indipendenti è utile costruire una tabella a doppia entrata detta tabella di contingenza Il test del 2 permette in questo caso di verificare se le proporzioni di successi e di insuccessi nei due gruppi sono indipendenti dal “trattamento” al quale sono sottoposti oppure se esiste associazione tra essi. Silvia Capelli - Dottorato in Biologia Adattamento dei dati • Tabelle di contingenza 2x2 Per applicare il test del 2 dovrò costruirmi una tabella di valori misurati (osservati) ed una di valori attesi, vediamo con un esempio come fare: Date due zone una ad alto inquinamento ed una a basso inquinamento, si vuole stabilire se esiste un nesso con l’incidenza di malattie polmonari Per costruire la tabella dovrò tener conto che: 1. Le modalità della var. casuale vanno sulle righe 2. Le modalità della var. effetto sulle colonne (non tutti seguono la stessa convenzione…) Silvia Capelli - Dottorato in Biologia Adattamento dei dati • Tabelle di contingenza 2x2 Avremo dunque la tabella dei dati osservati Persone con malattie Persone senza malattie Totale Zona ad alto inquinamento Zona a basso inquinamento 32 a 48 b 80 n1 13 c 57 d 70 n2 Totale 45 n3 105 n4 150 N Silvia Capelli - Dottorato in Biologia Adattamento dei dati • Tabelle di contingenza 2x2 In questa tabella abbiamo indicato con le lettere a,b… i dati e con indici ni le rispettive somme parziali, con N la totale. Ora se fosse vera l’ipotesi nulla H0 le frequenze relative sarebbero uguali e le differenze riscontrate sarebbero casuali. La stima migliore di questa frequenza relativa nell’ipotesi nulla H0 è data dalla somma delle persone con malattie nei due gruppi diviso il totale, cioè (32+13)/150 = 0.3 Considerando che nei due campioni ho un diverso numero di osservazioni i valori aspettati sono di 24 (80x0.3) nel primo e di 21 (70x0.3) nel secondo Silvia Capelli - Dottorato in Biologia Adattamento dei dati • Tabelle di contingenza 2x2 Avremo quindi la tabella dei dati attesi (mantenendo le somme parziali e totali): Zona ad alto inquinamento Zona a basso inquinamento Totale Persone con malattie Persone senza malattie Totale 24 a 56 b 80 n1 21 c 49 d 70 n2 45 n3 105 n4 150 N Silvia Capelli - Dottorato in Biologia Adattamento dei dati • Tabelle di contingenza 2x2 Per i valori attesi è sufficiente trovare una sola delle frequenze attese e le altre le ricavo per differenza (somme costanti…), ovvero una tabella attesa 2x2 ha solo 1 grado di libertà (ho 4 dati e 3 informazioni necessarie: totale riga, totale colonna e totale generale, 4–3=1) Calcoliamo ora il c2 dai nostri dati secondo la formula n 2 ( g .d .l ) k 1 f oss k f f att k att k Silvia Capelli - Dottorato in Biologia 2 Adattamento dei dati • Tabelle di contingenza 2x2 Con i nostri dati otteniamo: 2 (1) 32 24 24 48 2 56 56 .... 2 8,163 Le tavole del 2 riportano come valori critici con g.d.l. 1 1. 3,84 alla probabilità a =0,05 2. 6,64 alla probabilità a =0,01 Quindi il valore calcolato è addirittura superiore a quello per a =0,01, ovvero con probabilità < 0,01 posso dire che la differenza tra le due popolazioni è significativa (molto…) Silvia Capelli - Dottorato in Biologia Adattamento dei dati • Tabelle di contingenza 2x2 Partendo solo dalla tabella dei dati osservati, è possibile ricavare il valore del 2 tramite la formula: N a b c d 2 2 (1) n n n n 1 2 3 Silvia Capelli - Dottorato in Biologia 4 Adattamento dei dati • Tabelle di contingenza 2x2 e correzione di Yates Anche per le tabelle 2x2 nel caso di campioni con osservazioni comprese tra 100 e 30 è necessario ricorrere alla correzione di Yates, che in questo caso diventa: 2 2 (1) N abcd N 2 n1 n2 n3 n4 E gli effetti di questa correzione sono tanto maggiori quanto più basso è il numero di osservazioni Silvia Capelli - Dottorato in Biologia Adattamento dei dati • Tabelle di contingenza 2x2 piccoli campioni: metodo esatto di Fisher Se il numero di osservazioni scende sotto le 30, e/o almeno una frequenza attesa è inferiore a 5, si ricorre al metodo delle probabilità esatte di Fisher che permette di stimare la PROBABILITA’ di ottenere una tabella 2x2 uguale a quella osservata. Con la stessa simbologia precedente avremo P i n1! n2! n3! n4! a! b! c! d!N! Silvia Capelli - Dottorato in Biologia Adattamento dei dati • Tabelle di contingenza 2x2 esatto di Fisher piccoli campioni: metodo Ora, per stabilire se esiste una differenza significativa tra le distribuzioni osservate (sani, malati) devo stimare la probabilità totale di ottenere una distribuzione così estrema o più estrema ancora. Per fare questo riduco di 1 il numero di osservazioni nella casella con numero minore e modifico le altre caselle per mantenere uguali i totali marginali ni . Per decidere tra le due ipotesi (H0 e H1) la probabilità che mi occorre stimare è data dalla somma della probabilità della distrib osservata e di quelle delle risposte più estreme nella stessa direzione. (test a 1 coda) Silvia Capelli - Dottorato in Biologia Adattamento dei dati • Tabelle di contingenza 2x2 piccoli campioni: metodo esatto di Fisher E’ necessario elencare tutte le possibilità più estreme, ovvero continuerò a ridurre i valori della casella con numero minore fino ad arrivare a 0. Sommo tutte le probabilità e confronto il risultato con il limite critico fissato (di solito a =0,05) Se P < a rifiuto H0 ed accetto H1 Nei test a due code P è raddoppiata… Silvia Capelli - Dottorato in Biologia Adattamento dei dati • Tabelle di contingenza 2xN Il metodo del calcolo del 2 può essere estesso anche al caso generale, ovvero con classificazioni multiple, ad esempio considerando il confronto tra 2 popolazioni per verificare l’ipotesi nulla H0 che tutte le N percentuali o proporzioni a confronto siano uguali. I gradi di libertà di una tabella 2xN sono N-1, mentre in generale per una tabella MxN saranno (N-1)x(M-1). Sarebbe opportuno NON avere caselle con frequenze attese inferiori a 5, ma con più gradi di libertà il 2 è meno sensibile ad eventuali errori dovuti a frequenze attese piccole. Silvia Capelli - Dottorato in Biologia Adattamento dei dati • Tabelle di contingenza 2xN - esempio Vogliamo confrontare l’effetto di 5 pesticidi dispersi in 5 areee diverse sulla sopravvivenza dello stesso tipo di animale Pestic. A Pestic. B Pestic. C Pestic. D Pestic. E Totale Morti 8 10 14 11 7 50 Sopravv. 12 6 20 22 10 70 Totale 20 16 34 33 17 120 Silvia Capelli - Dottorato in Biologia Adattamento dei dati • Tabelle di contingenza 2xN - esempio L’ipotesi nulla H0 è quella che tutti i pesticidi determinino la stessa frequenza percentuale, mentre l’ipotesi alternativa H1 è che almeno una classe sia significativamente differente dalle altre. Per determinare la distribuzione attesa in ogni casella dovrò fare il prodotto: Attesa= totale colonna x totale riga / totale generale Silvia Capelli - Dottorato in Biologia Adattamento dei dati • Tabelle di contingenza 2xN - esempio Otterremo dunque la tabella attesa Pestic. A Pestic. B Pestic. C Pestic. D Pestic. E Totale Morti 8,33 6,67 14,17 13,75 7,08 50,0 Sopravv. 11,67 9,33 19,83 19,25 9,92 70 Totale 20 16 34 33 17 120 Silvia Capelli - Dottorato in Biologia Adattamento dei dati • Tabelle di contingenza 2xN - esempio Il numero di gradi di libertà è (5-1)x(2-1)=4 e calcoliamo il 2 tramite la formula seguente: 2 ( g .d .l ) M N f oss k k 1 f Ottenendo 2 ( 4) 8 8,33 8,33 f att k 2 att k 10 2 6,67 6,67 .... 2 3,9266 Che essendo inferiore al valore critico 9,49 per a =0,05 implica di non poter rifiutare l’ipotesi nulla. Silvia Capelli - Dottorato in Biologia Adattamento dei dati • Tabelle di contingenza 2xN - esempio Per il calcolo del 2 possiamo utilizzare formule abbreviate come la seguente di Brandt e Snedecor: 2 ( g .d .l ) Con C100 p 1 p k k C p n p n i 1 i i i 1 i Dove k è il numero di gruppi a confronto, pi è la frequenza percentuale carattere in esame, gruppo i ni è la frequenza assoluta carattere in esame, gruppo i N totale osservazioni e p è la media di tutti i gruppi Silvia Capelli - Dottorato in Biologia Adattamento dei dati • Tabelle di contingenza 2xN - esempio Per il calcolo del 2 nel nostro caso avremo: Pestic. A Pestic. B Pestic. C Pestic. D Pestic. E Totale Morti ni Pi in % 8 40,0 10 62,5 14 41,2 11 33,3 7 41,2 50 41,66 Sopravv. 12 6 20 22 10 70 Totale 20 16 34 33 17 120 Silvia Capelli - Dottorato in Biologia