Corso di biomatematica lezione 7-3:
Test di significatività
Silvia Capelli
Sommario
•Tabelle di contingenza e Yates
•Tabelle 2x2 metodo esatto piccoli
campioni (Fisher)
•Tabelle 2xN
Adattamento dei dati
• Tabelle di contingenza 2x2
Quando confronto le risposte binarie di due campioni
indipendenti è utile costruire una tabella a doppia entrata
detta tabella di contingenza
Il test del 2 permette in questo caso di verificare se le
proporzioni di successi e di insuccessi nei due gruppi sono
indipendenti dal “trattamento” al quale sono sottoposti
oppure se esiste associazione tra essi.
Silvia Capelli - Dottorato in Biologia
Adattamento dei dati
• Tabelle di contingenza 2x2
Per applicare il test del 2 dovrò costruirmi una tabella di
valori misurati (osservati) ed una di valori attesi, vediamo
con un esempio come fare:
Date due zone una ad alto inquinamento ed una a basso
inquinamento, si vuole stabilire se esiste un nesso con
l’incidenza di malattie polmonari
Per costruire la tabella dovrò tener conto che:
1. Le modalità della var. casuale vanno sulle righe
2. Le modalità della var. effetto sulle colonne
(non tutti seguono la stessa convenzione…)
Silvia Capelli - Dottorato in Biologia
Adattamento dei dati
• Tabelle di contingenza 2x2
Avremo dunque la tabella dei dati osservati
Persone con
malattie
Persone senza
malattie
Totale
Zona ad alto
inquinamento
Zona a basso
inquinamento
32 a
48 b
80 n1
13 c
57 d
70 n2
Totale
45 n3
105 n4
150 N
Silvia Capelli - Dottorato in Biologia
Adattamento dei dati
•
Tabelle di contingenza 2x2
In questa tabella abbiamo indicato con le lettere a,b… i dati e
con indici ni le rispettive somme parziali, con N la totale.
Ora se fosse vera l’ipotesi nulla H0 le frequenze relative
sarebbero uguali e le differenze riscontrate sarebbero
casuali.
La stima migliore di questa frequenza relativa nell’ipotesi
nulla H0 è data dalla somma delle persone con malattie nei
due gruppi diviso il totale, cioè (32+13)/150 = 0.3
Considerando che nei due campioni ho un diverso numero di
osservazioni i valori aspettati sono di 24 (80x0.3) nel primo
e di 21 (70x0.3) nel secondo
Silvia Capelli - Dottorato in Biologia
Adattamento dei dati
• Tabelle di contingenza 2x2
Avremo quindi la tabella dei dati attesi (mantenendo le
somme parziali e totali):
Zona ad alto
inquinamento
Zona a basso
inquinamento
Totale
Persone con
malattie
Persone senza
malattie
Totale
24 a
56 b
80 n1
21 c
49 d
70 n2
45 n3
105 n4
150 N
Silvia Capelli - Dottorato in Biologia
Adattamento dei dati
• Tabelle di contingenza 2x2
Per i valori attesi è sufficiente trovare una sola delle
frequenze attese e le altre le ricavo per differenza (somme
costanti…), ovvero una tabella attesa 2x2 ha solo 1 grado
di libertà (ho 4 dati e 3 informazioni necessarie: totale
riga, totale colonna e totale generale, 4–3=1)
Calcoliamo ora il c2 dai nostri dati secondo la formula

n
2
( g .d .l )

k 1


f
oss
k

f
f
att
k
att
k
Silvia Capelli - Dottorato in Biologia


2
Adattamento dei dati
• Tabelle di contingenza 2x2
Con i nostri dati otteniamo:

2
(1)

32

 24
24
  48
2
 56
56
  .... 
2
8,163
Le tavole del 2 riportano come valori critici con g.d.l. 1
1. 3,84 alla probabilità a =0,05
2. 6,64 alla probabilità a =0,01
Quindi il valore calcolato è addirittura superiore a quello
per a =0,01, ovvero con probabilità < 0,01 posso dire che la
differenza tra le due popolazioni è significativa (molto…)
Silvia Capelli - Dottorato in Biologia
Adattamento dei dati
• Tabelle di contingenza 2x2
Partendo solo dalla tabella dei dati osservati, è possibile
ricavare il valore del 2 tramite la formula:


N
a

b

c

d

2

2
(1)
n n n n
1
2
3
Silvia Capelli - Dottorato in Biologia
4
Adattamento dei dati
• Tabelle di contingenza 2x2 e correzione di Yates
Anche per le tabelle 2x2 nel caso di campioni con
osservazioni comprese tra 100 e 30 è necessario ricorrere
alla correzione di Yates, che in questo caso diventa:
2

2
(1)


N


 abcd 
 N


2




n1  n2  n3  n4
E gli effetti di questa correzione sono tanto maggiori quanto
più basso è il numero di osservazioni
Silvia Capelli - Dottorato in Biologia
Adattamento dei dati
•
Tabelle di contingenza 2x2 piccoli campioni: metodo
esatto di Fisher
Se il numero di osservazioni scende sotto le 30, e/o almeno
una frequenza attesa è inferiore a 5, si ricorre al metodo
delle probabilità esatte di Fisher che permette di stimare la
PROBABILITA’ di ottenere una tabella 2x2 uguale a quella
osservata.
Con la stessa simbologia precedente avremo
P
i

n1!  n2!  n3!  n4!
a!  b!  c!  d!N!
Silvia Capelli - Dottorato in Biologia
Adattamento dei dati
•
Tabelle di contingenza 2x2
esatto di Fisher
piccoli campioni: metodo
Ora, per stabilire se esiste una differenza significativa tra le
distribuzioni osservate (sani, malati) devo stimare la probabilità
totale di ottenere una distribuzione così estrema o più estrema
ancora.
Per fare questo riduco di 1 il numero di osservazioni nella
casella con numero minore e modifico le altre caselle per
mantenere uguali i totali marginali ni .
Per decidere tra le due ipotesi (H0 e H1) la probabilità che
mi occorre stimare è data dalla somma della probabilità della distrib
osservata e di quelle delle risposte più estreme nella stessa direzione.
(test a 1 coda)
Silvia Capelli - Dottorato in Biologia
Adattamento dei dati
•
Tabelle di contingenza 2x2 piccoli campioni: metodo
esatto di Fisher
E’ necessario elencare tutte le possibilità più estreme,
ovvero continuerò a ridurre i valori della casella con
numero minore fino ad arrivare a 0.
Sommo tutte le probabilità e confronto il risultato con il
limite critico fissato (di solito a =0,05)
Se P < a rifiuto H0 ed accetto H1
Nei test a due code P è raddoppiata…
Silvia Capelli - Dottorato in Biologia
Adattamento dei dati
• Tabelle di contingenza 2xN
Il metodo del calcolo del 2 può essere estesso anche al caso
generale, ovvero con classificazioni multiple, ad esempio
considerando il confronto tra 2 popolazioni per verificare
l’ipotesi nulla H0 che tutte le N percentuali o proporzioni a
confronto siano uguali.
I gradi di libertà di una tabella 2xN sono N-1, mentre in
generale per una tabella MxN saranno (N-1)x(M-1).
Sarebbe opportuno NON avere caselle con frequenze
attese inferiori a 5, ma con più gradi di libertà il 2 è meno
sensibile ad eventuali errori dovuti a frequenze attese
piccole.
Silvia Capelli - Dottorato in Biologia
Adattamento dei dati
• Tabelle di contingenza 2xN - esempio
Vogliamo confrontare l’effetto di 5 pesticidi dispersi in 5
areee diverse sulla sopravvivenza dello stesso tipo di
animale
Pestic. A
Pestic. B
Pestic. C
Pestic. D
Pestic. E
Totale
Morti
8
10
14
11
7
50
Sopravv.
12
6
20
22
10
70
Totale
20
16
34
33
17
120
Silvia Capelli - Dottorato in Biologia
Adattamento dei dati
• Tabelle di contingenza 2xN - esempio
L’ipotesi nulla H0 è quella che tutti i pesticidi determinino la
stessa frequenza percentuale, mentre l’ipotesi alternativa H1
è che almeno una classe sia significativamente differente
dalle altre.
Per determinare la distribuzione attesa in ogni casella dovrò
fare il prodotto:
Attesa= totale colonna x totale riga / totale generale
Silvia Capelli - Dottorato in Biologia
Adattamento dei dati
• Tabelle di contingenza 2xN - esempio
Otterremo dunque la tabella attesa
Pestic. A
Pestic. B
Pestic. C
Pestic. D
Pestic. E
Totale
Morti
8,33
6,67
14,17
13,75
7,08
50,0
Sopravv.
11,67
9,33
19,83
19,25
9,92
70
Totale
20
16
34
33
17
120
Silvia Capelli - Dottorato in Biologia
Adattamento dei dati
• Tabelle di contingenza 2xN - esempio
Il numero di gradi di libertà è (5-1)x(2-1)=4 e calcoliamo il
2 tramite la formula seguente:

2
( g .d .l )

M N 



f
oss
k
k 1
f
Ottenendo

2
( 4)

8

 8,33
8,33

f
att
k


2
att
k
  10
2
 6,67
6,67
  .... 
2
3,9266
Che essendo inferiore al valore critico 9,49 per a =0,05
implica di non poter rifiutare l’ipotesi nulla.
Silvia Capelli - Dottorato in Biologia
Adattamento dei dati
• Tabelle di contingenza 2xN - esempio
Per il calcolo del 2 possiamo utilizzare formule abbreviate
come la seguente di Brandt e Snedecor:

2
( g .d .l )
Con

C100
p 1 p
 
k
k
C   p n  p n
i 1
i
i
i 1
i
Dove k è il numero di gruppi a confronto,
pi è la frequenza percentuale carattere in esame, gruppo i
ni è la frequenza assoluta carattere in esame, gruppo i
N totale osservazioni e p è la media di tutti i gruppi
Silvia Capelli - Dottorato in Biologia
Adattamento dei dati
• Tabelle di contingenza 2xN - esempio
Per il calcolo del 2 nel nostro caso avremo:
Pestic. A
Pestic. B
Pestic. C
Pestic. D
Pestic. E
Totale
Morti ni
Pi in %
8
40,0
10
62,5
14
41,2
11
33,3
7
41,2
50
41,66
Sopravv.
12
6
20
22
10
70
Totale
20
16
34
33
17
120
Silvia Capelli - Dottorato in Biologia
Scarica

Corso di biomatematica lezione 7-3