Utilizzo dell’indice di connessione
χ2
1
ESEMPIO: In una sperimentazione per valutare l’efficacia
della vaccinazione per il morbillo, i familiari di malati di
morbillo furono in parte sottoposti a vaccinazione, e in parte
no:
si ammalarono
1
vaccinati
(244)
non vaccinati
(244)
non si ammalarono 243
si ammalarono
non si ammalarono
8
236
2
proporzione di soggetti che si ammalano tra i
vaccinati:
1
= 0,00409 = 4,09‰
244
proporzione di soggetti che si ammalano tra i non
vaccinati:
8
= 0,03278 = 32,78‰
244
Posso affermare che la vaccinazione previene la malattia?
NO! Perché anche se nei due gruppi, quello sottoposto a
vaccinazione ha una minor proporzione di malati, è
possibile che il risultato sia attribuito ad altre circostanze,
differenziali tra i gruppi a confronto, oltre alla diversità
dei trattamenti, quali:
differente struttura per età,
3
differente prevalenza di una malattia concomitante, ecc.
Formalizzo il problema avanzando due ipotesi
(H0): ipotesi zero, o ipotesi nulla, le due proporzioni
differiscono per effetto dell’errore di campionamento.
Il vaccino non può essere considerato efficace
(H1): ipotesi alternativa, o altra ipotesi le due proporzioni
non differiscono per effetto dell’errore di campionamento
Il vaccino può essere considerato efficace.
IL TEST DEL
χ2 CONSENTE DI SAGGIARE L’IPOTESI NULLA
4
1. Costruzione della tabella di contingenza (2x2):
malati
non malati totale
vaccinati
1
243
244
non vaccinati
8
236
244
totale
9
479
488
5
Un breve salto nella teoria.......
Y
y1
……........ yh............
yt
Totale
x1
n11
................ n1h............
n1t
n10
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
xi
ni1
nit
ni0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
xs
ns1
nst
ns0
Totale
n01
n0t
N
X
…............ nih............
…............ nsh...........
n0h
Y è detto indipendente da X se, al variare di X, Y resta costante
6
Ossia se valgono le seguenti t catene di uguaglianze
n
n
11
=…….=
10
n
n
.
.
.
=….=
i0
n
n
s1
s0
.
.
.
n 1h
n 10
.
.
.
n
n
i1
1t
10
=…….=
=…….=
n
n
.
.
.
ih
=…….=
.i0
.
.
n
n
it
i0
=…….=
n
n
n
n
sh
s0
.
.
.
st
s0
7
Considerando la generica catena di uguaglianze
di rapporti
n 1h
n 10
=……..….=
n
n
ih
i0
=……..….=
n sh
n s0
Come è noto una catena di uguaglianze può scriversi come una
catena di proporzioni:
n1h:n10 =……= nih:ni0 =……= nsh:ns0
a cui può applicarsi la proprietà del comporre
(n1h+…..+nsh):(n10 +….+ ns0)=nih:ni0
Frequenza
marginale
Totale
collettivo
8
si può scrivere
n0h:N = nih:ni0
è possibile ricavare nih
ni0.n0h
nih =
N
9
2. Calcolo delle frequenze attese
si costruisce una nuova tabella di contingenza in cui si
trascrivono i soli totali marginali
malati
non malati totale
vaccinati
244
non vaccinati
244
totale
9
479
488
10
2. Calcolo delle frequenze attese
calcolo delle frequenze attese sotto (H0):
(il vaccino non è efficace)
malati
vaccinati
9:488=A1:244
A1=4,5
non vaccinati
9:488=A3:244
totale
9
A3=4,5
non malati totale
479:488=A2:244
A2=239,5
244
479:488=A4:244
244
A4=239,5
479
488
11
3. Confronto tra la tabella di contingenza con frequenze
osservate
malati
non malati
vaccinati
1
243
non vaccinati
8
236
e la tabella di contingenza con frequenze attesa:
malati
non malati
vaccinati
4,5
239,5
non vaccinati
4,5
239,5
12
Confronto tra frequenze campionarie
2
χ =
s
t
∑ ∑
i =1
h =1
(O − A)
A
2
Dove:
O = frequenze assolute osservate
A = frequenze assolute attese
13
Calcolo del chi-quadrato
χ2 =
∑
(O - A) 2
A
2
2
2
(1 − 4,5) (243 − 239,5) (8 − 4,5)
+
=
+
+
4,5
4,5
239,5
2
(236 − 239,5)
= 5,54
239,5
14
È sempre opportuno apportare una modifica alla formula
del chi-quadrato nota come correzione per la continuità
di Yates
2
1
χ =∑
( 1 − 4 ,5 − 0 ,5 )
4,50
+
2
+
( 8 − 4 , 4 − 0 ,5 ) 2
4, 4
( O − A − 1/2)
2
A
( 243 − 239 ,5 − 0,5)
239 , 4
+
2
+
( 236 − 239 ,5 − 0,5) 2
239 ,5
= 4,075
La correzione ha uno scarso effetto per grandi frequenze di cella ma
diventa indispensabile quando si lavora con frequenze piccole
15
2
χ
5. Confronto tra il valore del calcolato e quello
riportato sulle tavole della distribuzione del
χ
2
per
(r-1) x (c-1) = gradi di libertà
Dove:
r = numero di righe della tabella di contingenza
c = numero di colonne della tabella di contingenza
Nel caso in esame:
(2-1) x (2-1) = 1 grado di libertà
16
17
18
Tale valore delimita esattamente l’area di
accettazione e di rigetto
Area di accettazione
Area di rigetto
0,05
0,95
3,841
Valore
Sperimentale
4,075
Rifiuto l’ipotesi nulla (p<0,05)
19
Possiamo così valutare l’efficacia del vaccino
malati
non malati
vaccinati
1
243
244 I.nE. = (1/244)x100 = 0,4%
non vaccinati
8
236
244 I.E. = (8/244)x100 = 3,27%
I.E. − I.nE. 3,27% − 0,49%
=
= 84,7%
Efficacia =
I.E.
3,27%
20
Numero di soggetti da vaccinare per
risparmiare un caso secondario di Morbillo
1
1
NNT =
=
= 37
0,032 - 0,049
0 , 0271
21
Il test: criterio di decisione
SE È VERA H0
SE È VERA H1
... e in base al
campione
decido che
è vera H0
decisione
giusta
protezione:
(1-α)
decisione
sbagliata
errore di tipo II:
β
... e in base al
campione
decido che
è vera H1
decisione
sbagliata
errore di tipo I:
α
decisione
giusta
potenza:
(1-β)
22
Il test: criterio di decisione
Protezione (1-α):
probabilità di accettare H0 quando è vera H0
Potenza del test (1-β):
probabilità di rifiutare H0 quando è vera una specifica H1
Rischio di errore di tipo I (α):
probabilità di rifiutare H0 quando è vera H0
Rischio di errore di tipo II (β):
probabilità di accettare H0 quando è vera una specifica H1
23
Supponiamo, di voler
stabilire l’esistenza di una
relazione tra valore della
pressione diastolica e gruppo
etnico di appartenenza
24
Riportiamo le frequenze empiriche, rilevate da
un campione casuale, nella tabella di
contingenza (3x2)
DISTRIBUZIONE DELLE FREQUENZE DI DIVERSI VALORI DELLA
PRESSIONE DIASTOLICA SECONDO DIVERSI GRUPPI ETNICI IN UN
CAMPIONE DI 2.000 SOGGETTI
NERI
BIANCHI
TOTALE
>100
300
400
700
90 - 100
400
550
950
<90
150
200
350
TOTALE
850
1150
2000
25
Formalizzo il problema avanzando due ipotesi
(H0): ipotesi zero, o ipotesi nulla, inesistenza di
relazioni statisticamente significative tra
l’appartenenza ad un gruppo etnico e la
pressione diastolica
(H1): ipotesi alternativa, o altra ipotesi, esistenza
di connessione tra l’appartenenza ad un
gruppo etnico e la pressione diastolica
IL TEST DEL
χ2 CONSENTE DI SAGGIARE L’IPOTESI NULLA
26
Calcolo delle frequenze attese
DISTRIBUZIONE DELLE FREQUENZE TEORICHE
NERI
BIANCHI
TOTALE
>100
a
b
700
90 - 100
c
d
950
<90
e
f
350
TOTALE
850
1150
2000
LE FREQUENZE DI OGNUNA DELLE CASELLE DELLA
TABELLA SI CALCOLANO COME SEGUE:
850 × 700
a=
;
2000
1150 × 700
b=
;
2000
850 × 950
c=
;
2000
1150 × 950
d=
;
2000
850 × 350
e=
;
2000
1150 × 350
f =
;
2000 27
Le frequenze teoriche saranno pertanto
distribuite come in tabella
TABELLA DI INDIPENDENZA
POPOLAZIONE
PRESSIONE
NERI
BIANCHI
TOTALE
>100
297,5
402,5
700
90 - 100
403,75
546,25
950
<90
148,75
201,25
350
TOTALE
850
1150
2000
28
Una volta ottenute le frequenze teoriche è
possibile passare al calcolo del valore del
χ2 nel campione
χ2
=
(300 − 297,5)
297,5
2
(
400 − 402,5)
+
(
550 − 546,25)
+
546,25
2
402,5
2
(
400 − 403,75)
+
403,75
2
+
2
(
150 − 148,75)
+
148,75
+
2
(
200 − 201,25)
+
= 0,1152
201,25
29
CONFRONTO TRA IL VALORE DEL χ2 CALCOLATO E
QUELLO RIPORTATO SULLA TAVOLA DELLA
DISTRIBUZIONE DEL χ2 PER
(r – 1) (c – 1) = gradi di libertà
DOVE:
r = NUMERO DI RIGHE DELLA TABELLA DI CONTINGENZA
c = NUMERO DI COLONNE DELLA TABELLA DI CONTINGENZA
NEL NOSTRO CASO
(3 – 1) (2 – 1) =2 GRADI DI LIBERTÀ
30
NELLA TAVOLA DI
DISTRIBUZIONE DEL χ2
PER 2 GRADI DI LIBERTÀ
E A UN LIVELLO DI
SIGNIFICATIVITÀ DELLO
0,01 SI TROVA UN VALORE
DI
χ2 = 9,210
31
TALE VALORE DELIMITA ESATTAMENTE
L’AREA DI ACCETTAZIONE E DI RIGETTO
α= 0,01
AREA DI ACCETTAZIONE
0,01 AREA DI RIGETTO
0,99
9,21
VALORE SPERIMENTALE
0,1152
32
ESSENDO IL VALORE DEL χ2
SPERIMENTALE INFERIORE AL VALORE
CHE DELIMITA L’AREA DI RIFIUTO
POSSIAMO, A UN LIVELLO DI
SIGNIFICATIVITÀ DELLO 0.01
0.01,,
ACCETTARE L’IPOTESI NULLA
OVVERO NON VI È CONNESSIONE
STATISTICAMENTE SIGNIFICATIVA TRA LA
RAZZA DI APPARTENENZA E LA PRESSIONE
DIASTOLICA
33
ESEMPIO:
Si vuole confrontare l’efficacia di 3 farmaci anti-ipertensivi.
Si scelgono 3 campioni di ipertesi; al primo campione si
somministra il farmaco A, al secondo il farmaco B e al terzo
il farmaco C. I risultati sono indicati nella tab. di contingenza 2*3:
miglioramento
non miglioramento
totale
prop. di miglior.
I camp.
farmaco A
10
10
20
(50%)
II camp.
farmaco B
10
5
15
(67%)
III camp.
farmaco C
10
20
30
(33%)
totale
30
35
65
Le diverse proporzioni di miglioramento sono casuali (H
H0) o i
tre farmaci sono caratterizzati da diversa efficacia (H
H1)?
Il test del χ2 consente di saggiare l’ipotesi nulla
34
1. Tabella di contingenza con frequenze osservate:
miglioramento
non miglioramento
farmaco A
10
10
farmaco B
10
5
farmaco C
10
20
2. Tabella di contingenza con frequenze attese:
miglioramento
non miglioramento
farmaco A
30:65=x:20
9.23
35:65=x:20
10.77
farmaco B
30:65=x:15
6.92
35:65=x:15
8.08
farmaco C
30:65=x:30
13.85
35:65=x:30
16.15
35
3. Calcolo del chi – quadrato (con
correzione di Yates
Yates):
( O − A − 1 )2
2 =
Χ 22 = Σ
A
( 10 − 9.23 − 0.5) 2 ( 10 − 10.77 − 0.5) 2 ( 10 − 6.92 − 0.5) 2
=
+
+
+
9.23
10.77
6.92
( 5 − 8.08 − 0.5) 2 ( 10 − 13.85 − 0.5) 2 ( 20 − 16.15 − 0.5) 2
+
+
+
= 3.306
8.08
13.85
16.15
36
4. Confronto con il χ2 teorico per
(3-1)*(2-1)=2 gradi di libertà:
g. l.
0.05
0.025
0.01
0.005
2
5.991
7.378
9.210
10.597
2
2
χ = 3.306
si accetta l’ipotesi nulla (p>0.05)
non è possibile scartare l’ipotesi che i tre farmaci
dimostrino diversa efficacia per effetto del caso
37
Quale procedura bisogna adottare con campioni appaiati anziché
indipendenti?
Test di McNemar
38
ESEMPIO: Si considerino i dati di uno studio che esamina
l’infarto acuto del miocardio in una Comunità:
Diabete
totale
Infarto del miocardio
Sì
No
totale
Sì
46
25
71
No
98
119
217
144
144
288
La proporzione di diabetici è uguale nei due gruppi?
39
Abbiamo un totale di 288 osservazioni, costituita da 144
coppie
Non Infarto del miocardio
Infarto del miocardio Diabete
Diabete
Non diabete
totale
Non diabete
totale
9
37
46
16
82
98
25
119
144
Ogni valore si riferisce ad una combinazione di risposte per una coppia appaiata
40
Formalizzo il problema avanzando due ipotesi (1)
(H0): il numero di coppie in cui il soggetto con infarto
acuto del miocardio è diabetico ed il soggetto
appaiato non affetto da patologie cardiache non lo
è, è uguale al numero di coppie in cui il soggetto
non affetto da infarto è diabetico ed il soggetto
appaiato affetto da infarto non lo è,
o, più brevemente:
(H0):
non esiste alcuna associazione tra diabete ed
infarto acuto del miocardio
41
Formalizzo il problema avanzando due ipotesi (2)
(H1): esiste associazione tra diabete ed infarto acuto del
miocardio
Se:
r = numero di coppie in cui il soggetto con infarto acuto
del miocardio è diabetico ed il soggetto non affetto
da infarto non è diabetico
S = numero delle coppie in cui il soggetto non affetto da
infarto è diabetico ed il soggetto con infarto non è
diabetico
[
r − s − 1]
=
2
χ
2
r+s
42
[
37 − 16 − 1]
=
2
χ
2
37 + 16
= 7,55
α= 0,05
Rifiuto l’ipotesi nulla
Pertanto, per la Comunità studiata, i soggetti con infarto acuto del
miocardio hanno maggiori probabilità di soffrire di diabete rispetto ai
soggetti sani appaiati per età e sesso.
43
44
Scarica

1369214210-test del chi2 pdf