Unità 9
Frequenze osservate e frequenze teoriche
Test del

2
Tabelle di contingenza
1
FREQUENZE OSSERVATE E FREQUENZE TEORICHE
Spesso in medicina è necessario verificare se vi sia una differenza
significativa tra due o più categorie di esiti di trattamenti,
ciascuna espressa dal numero (frequenza) degli esiti stessi.
Come abbiamo già detto, i risultati ottenuti nei campioni non sempre
concordano esattamente con i risultati teorici attesi secondo le regole
di probabilità.
Per esempio, benché considerazioni teoriche ci portino ad
attenderci 50 teste e 50 croci da 100 lanci di una moneta non
truccata, è raro che questi risultati siano ottenuti esattamente.
2
DEFINIZIONE DI

2
(CHI-QUADRATO)
Una misura della discrepanza esistente tra le frequenze osservate
2
e quelle teoriche è fornita dalla statistica  . La formula generale
per il calcolo del  2 è data da
k
(O j  E j )2
j 1
Ej
 
2
dove k è il numero di possibile eventi, mentre Oj ed Ej sono le
corrispondenti frequenze osservate e teoriche (o attese).
È ovvio che se la frequenza totale è N si ha
k
k
j 1
j 1
 O j  E j  N .
Se le frequenze teoriche possono essere calcolate senza
dovere stimare parametri della popolazione per mezzo delle
statistiche campionarie, il numero ν dei gradi di libertà è dato
da ν = k–1.
3
TEST

2
PER L’ANALISI DELLE TABELLE DI CONTINGENZA
Per illustrare il test può essere utile fare riferimento ad un esempio.
Il passaggio al caso generale è banale.
Si pensi di considerare 3 trattamenti (A, B e C) con 3 categorie di
esiti ciascuno (I, II e III).
I risultati ottenuti possono essere riassunti in una tabella simile alla
Tabella 1 in cui a1 rappresenta il numero (frequenza) di individui
che, sottoposti al trattamento A, hanno avuto esito I, b1 il numero di
individui che sottoposti a B hanno anche essi avuto esito I, e così
via.
Tale rappresentazione sintetica prende il nome di tabella di
contingenza.
4
hi (i = 1, 2, 3) rappresenta il numero di pazienti che globalmente
ha avuto esito i (hi = ai + bi + ci), mentre nj (j = a, b, c) rappresenta
il numero di pazienti che globalmente è stato sottoposto al
trattamento j (nj = j1 + j2 + j3).
Infine T rappresenta il numero totale degli individui osservati.
5
CALCOLO:
Il test su questa tabella può essere descritto nei seguenti punti:
a. si calcola per ogni trattamento (riga) la somma dei quadrati
delle frequenze, divise per il proprio totale di colonna:
Na
Nb
Nc

a32
a12
a 22


h1
h2
h3

b32
b12
b22


h1
h2
h3

c 32
c12
c 22


h1
h2
h3
6
b. si dividono i valori ottenuti per il rispettivo totale di riga e si
sommano i risultati ottenuti:
Z

Na
Nb
Nc


na
nb
nc
c. al valore Z si toglie 1 e quindi si moltiplica per il numero totale di
osservazioni:
 2  (Z  1) T
d. fissato il livello α di significatività, si va nella tabella del chiquadrato con (t – 1)∙(c – 1) gradi di libertà dove t è il numero di
trattamenti e c il numero delle categorie di esiti [(3–1)·(3–1) = 4
nel caso considerato].
e. se il valore ottenuto è superiore a quello tabulare allora la
differenza è significativa con p < α.
7
Per
comodità
di
consultazione si riporta
di nuovo a lato la
Tabella
dei
valori
critici
per
la
distribuzione del chiquadrato.
ν indica il numero di
gradi di libertà.
8
Esercizio 1
I dati nella tabella sotto derivano da uno studio su individui affetti da
tumori cerebrali, classificati per tipo di tumore e sede.
Si stabilisca se il tipo di tumore è indipendente dalla sede con α = 5%.
Risposta
2
2
Applicando il test  ai dati in tabella si ottiene  = 7,844.
I gradi di libertà sono (3 – 1)x(3 – 1) = 4.
2
Si consulti ora la tabella dei valori critici del  in corrispondenza a 4
gradi di libertà.
9
Il valore di  = 7,844 ottenuto è
maggiore di quello corrispondente
a p = 0,10.
Esso è tuttavia minore di quello
corrispondente a p = 0,05.
2
Avendo fissato α = 0,05, non è quindi possibile rifiutare l’ipotesi
nulla che “il tipo di tumore è indipendente dalla sede”; ovvero con i
dati a disposizione non è possibile concludere che “il tipo di
tumore dipende dalla sede”.
Il valore esatto di p calcolato dal test è pari a 0,097.
10
TABELLA 2 x 2
Nel caso t = 2 e c = 2 la tabulazione assume la configurazione
2 x 2 con 1 grado di libertà (tabella 2 x 2).
In questo caso particolare la formula per il calcolo del chi-quadrato
diventa semplicemente:
2

(a1b2  a 2 b1 ) 2 T
n a n b h1 h2
Tale espressione tende però a dare risultati viziati, nel senso che
porta ad affermare l’efficacia di un trattamento anche quando i dati
non lo confermano.
11
Per questo motivo per le tabelle 2 x 2, particolarmente quando i
valori delle frequenze in tabella sono piccoli, è stato proposto di
utilizzare la correzione di Yates (o correzione per la continuità)
nel calcolo del valore del chi-quadrato.
La correzione consiste nel modificare la formula come segue:
2

1
T )2 T
2
n a n b h1 h2
( a1b2  a 2 b1 
Bisogna stare attenti al fatto che per campioni poco numerosi
il test del chi-quadrato è poco accurato anche se si impiega la
correzione di Yates.
12
Esercizio 2
In un esperimento sulla efficacia della vaccinazione antipoliomielitica,
un gruppo di 244 conviventi di malati di poliomielite è stato sottoposto
a vaccinazione, mentre un altro gruppo di 233 conviventi di malati di
poliomielite non è stato vaccinato.
Nel gruppo dei non vaccinati si sono avuti 8 casi di poliomielite
(3,43%), mentre fra i vaccinati si è avuto un solo caso (0,41%).
La differenza parla a favore del vaccino, ma possiamo
considerarla significativa con α = 0,05?
Risposta
Si organizzino i dati in tabella.
Si calcoli ora il valore del  ,
impiegando le formule precedentemente discusse.
2
I valori che si ottengono sono 5,886 e 4,366, rispettivamente senza e
con la correzione di Yates.
13
Si consulti ora la tabella dei valori
2
critici del  in corrispondenza a
1 grado di libertà.
Il valore critico corrispondente ad
α = 0,05 è 3,8415.
Sia il valore di  corretto sia (a maggior ragione) quello non corretto
superano il valore critico.
2
Avendo fissato α = 0,05, è quindi possibile rifiutare l’ipotesi nulla
che “i casi di poliomielite sono indipendenti dalla vaccinazione”,
ovvero le differenze osservate fra vaccinati e non vaccinati sono
significative.
Il problema può essere ovviamente risolto anche utilizzando un
pacchetto di software statistico, quale, ad esempio, GraphPad. I
risultati così ottenuti sono mostrati di seguito.
14
15
16
17
Scarica

(Chi-quadrato)