ATTIVITÀ PIANO LAUREE SCIENTIFICHE
UNIVERSITÀ DEGLI STUDI DI NAPOLI
Federico II
Laboratorio di Statistica
CLASSI QUARTE
Indagine
“Terra promessa”
Analisi delle relazioni tra variabili
qualitativa
Chi quadrato
qualitativa
LA VERIFICA DELLE IPOTESI
1. formulazione delle ipotesi statistiche;
2. scelta delle regola di decisione adeguata;
3. confronto del valore campionario calcolato con
la distribuzione campionaria sotto H0;
4. rifiuto dell’ipotesi sotto H0 in base al fatto che il
valore campionario calcolato cada in una
particolare regione di valori nella distribuzione
campionaria specificata nell’ipotesi H0.
Verifica di ipotesi statistica
Conclusioni
1. L’ipotesi nulla è conservata (si è
verificato un risultato probabile)
2. L’ipotesi nulla è respinta (si è verificato
un risultato altamente improbabile)
H0:
I DUE CARATTERI SONO INDIPENDENTI
H1: I DUE CARATTERI NON SONO INDIPENDENTI
:
errore di I tipo = 0,05
Funzione test:
chi-quadrato
Regola di decisione:
• 2 ≤ 2
accetto H0
• 2 > 2 rifiuto H0
POSSIBILI DECISIONI NELLA VERIFICA
D’IPOTESI
NELLA POPOLAZIONE È VERA
IN BASE AI
DATI
CAMPIONARI
NON SI
RESPINGE H0
H0
H1
DECISIONE
CORRETTA
ERRORE 2° TIPO
(PROBABILITÀ 1- )
SI RESPINGE
H0
(PROBABILITÀ )
ERRORE 1° TIPO
DECISIONE CORRETTA
(PROBABILITÀ )
(PROBABILITÀ 1- )
ESEMPIO: Verifica di indipendenza in tabelle 22
(tetracoriche)
SI
"Hai fiducia in te
stesso?"
NO
totale
"We are the Champions"
SI
NO
totale
276
90
366
72
348
57
147
Esiste una relazione tra la variabile
«Hai fiducia in te stesso?»
e «We are the Champions»?
129
495
CALCOLO DELLE FREQUENZE TEORICHE o ATTESE
SI
"Hai fiducia in te
stesso?"
"We are the Champions"
SI
NO
totale
257,3 (a) 108,7 (c)
366
NO 90,7 (b)
totale
348
38,3 (d)
147
a, b, c, d frequenze attese
a=348 x 366 / 495
b=348 x 129 / 495
c=147 x 366 / 495
d=147 x 129 / 495
a = 257,3
b = 90,7
c = 108,7
d = 38,3
129
495
FREQUENZE OSSERVATE E FREQUENZE ATTESE
NELL’IPOTESI DI ASSENZA DI ASSOCIAZIONE
We are the champions
TOTALE
Sì
Hai
fiducia
in te
stesso?
276 O
SI
No
A 257,3
72 O
NO
A 108,7
129
57 O
A 90,7
TOTALE
366
90 O
348
A 38,3
147
495
Per ciascuna cella si calcola la differenza tra la frequenza osservata
e quella attesa (contingenza)
TEST 2 (CHI-QUADRATO)
2
2
  
2
i 1 j 1

O - A 
2
A

276  257,3 90  108,7  72  90,7  57  38,3




2
2
257,3
108,7
 1,36  3,22  3,86  9,13  17,6
2
2
90,7
Il valore del chi-quadrato indica
presenza o assenza di associazione?
2
38,3

Per interpretare il risultato ottenuto si deve confrontare il
valore calcolato del chi-quadrato con il valore critico della
distribuzione del chi-quadrato (essendo vera H0) che
corrisponde ad una probabilità di errore pari a 0,05.
Per trovare il valore critico del chi-quadrato bisogna
consultare la tavola della distribuzione dei suoi valori. Il valore
critico è individuato entrando attraverso la colonna
corrispondente alla probabilità prescelta (0,05) e alla riga
corrispondente ai gradi di libertà (GdL) della tabella, dove:
GdL = (n° righe -1) x (n° colonne -1)
Essendo questa tabella 2X2, GdL=1.
Densità
La distribuzione chi-quadrato per alcuni valori
dei gradi di libertà (gl=1, 2, 3,…)
Distribuzione CHI-QUADRATO
1,2
g.l. 1
1
0,8
0,6
0,4
X2
0,2
0
0
2
4
6
8
10
12
14
16
18
20
22
3,8
Chi-quadrato calcolato=17,6 Chi-quadrato critico =3,84
Il chi-quadrato calcolato è maggiore del chi-quadrato
critico quindi si rifiuta l’ipotesi di assenza di relazione.
24
Esempio: Verifica di indipendenza fra le variabili
«dove proseguirai gli studi» e «dove ti
piacerebbe vivere»
Campania
Altra
Regione
Estero
Totale
Sto bene
dove sto
49
16
4
69
Altro
quartiere
21
6
0
27
Altra città
22
11
1
34
Altra
regione
45
45
3
93
Estero
140
77
50
267
tot
277
155
58
490
Calcolo delle frequenze teoriche
Campania
Altra
regione
Estero
Totale
Sto bene
dove sto
39
21,82
8,18
69
Altro
quartiere
15,26
8,54
3,20
27
Altra città
19,22
10,75
4,02
34
Altra regione
52,62
29,44
11
93
Estero
150,9
84,45
31,60
267
Totale
277
155
58
490
TEST 2 (CHI-QUADRATO)
2
2
 2  
O - A 2
i 1 j 1
A
2
2
2
2
2
2












49

39
16

21
.
82
3

11
140

150
.
9
77

84
.
45
50

31
.
6
2 

 ......... 



39
21.82
11
150.9
84.45
2 =42.36
g.d.l.=4x2=8
=0.05
2 = 15.50
2 > 2 quindi i due caratteri sono dipendenti
31.6
Indice di contingenza media
quadratica del Pearson
• L’indice di contingenza quadratica media di
Pearson è Φ2 = 2 /N;
• in caso di indipendenza assume il suo
valore minimo che è zero;
• il valore massimo è pari a [(il più piccolo
valore tra numero di righe e numero di
colonne) -1];
• per renderlo normalizzato tra 0 e 1 occorre
dividere il valore dell'indice per il suo valore
massimo.
Coefficiente di contingenza
di Pearson
Una misura di associazione basata sul chi-quadrato è:
il coefficiente di contingenza di Pearson
f2 = 2/N
(5)
Indice di Yule
Data una tabella tetracorica
a b


c d 
L’indice di Yule si calcola :
Q di Yule
•Q=+1 i casi sono concentrati
sulla diagonale ad
Applicabile se le coppie di
marginali sono entrambe
equilibrate, oppure entrambe
•Q = - 1 i casi sono concentrati squilibrate e non vi sono una
sulla diagonale bc
o tre celle semivuote, oppure
entrambe squilibrate e una
•Q=0 i casi sono equiripartiti
diagonale è semivuota.
ESEMPIO n °1: Calcolo degli indici in tabelle 22
(tetracoriche)
SI
"Hai fiducia in te
stesso?"
"We are the Champions"
SI
NO
totale
276
90
366
NO
totale
57
147
129
495
2
17.6
f 

 0.036
N
495
C
2
72
348
276  57  90  72
Q
 0.37
276  57  90  72
2
17.6

 0.19
2
N
495  17.6
ESEMPIO n °2: Calcolo degli indici in tabelle 53
Campania
Altra
Regione
Estero
Totale
Sto bene
dove sto
49
16
4
69
Altro
quartiere
21
6
0
27
Altra città
22
11
1
34
Altra
regione
45
45
3
93
Estero
140
77
50
267
tot
277
155
58
490
ESEMPIO n °2: Calcolo degli indici in tabelle 53
 42.36
f 

 0.086
N
490
2
2

42.36
C

 0.08
2
N
490  42.36
2
Conclusioni
•In entrambi i casi analizzati si
è rifiutata l’ipotesi di assenza
di relazione;
•Grazie agli indici si è potuto
stimare il grado di
associazione tra le variabili
considerate
Grazie per l’attenzione
Liceo Statale “Q. O. Flacco”
Portici (Na)
Scarica

H 0 - Dipartimento di Matematica e Applicazioni