TABELLE DI CONTINGENZA E CHI
QUADRATO
1
TABELLE DI CONTINGENZA
La misurazione più semplice è la conta delle
frequenze, per esempio il genere, il tipo di scuola
frequentato, la provenienza geografica ecc.
 Più interessante è di solito rilevare la
contemporanea presenza di due variabili (genere
e provenienza, professione del padre e scuola
freqentata ecc). I dati si presentano nelle tabelle
di contingenza.

2
TABELLE DI CONTINGENZA
a un criterio

La tabella di contingenza può contenere dati riferiti alle
categorie di una sola variabile. Se, ad esempio, in una
domanda di un questionario si chiede all’intervistato che
tipo di corso di laurea segue, la tabella che riassume i
risultati di questo item avrà questo aspetto:
Corsi di laurea in
materie
umanistiche
357
Corsi di laurea in
materie
scientifiche
602
totale
959
3
Tabelle di contingenza a due criteri .



Se, invece di mostrare semplicemente la distribuzione
di un campione rispetto alle categorie di una
variabile, vogliamo vedere se esiste una relazione tra
due variabili, incrociamo queste due variabili in una
tabella di contingenza a due criteri.
In ogni casella della tabella troviamo il numero di
persone che presenta una particolare combinazione
delle categorie delle due variabili.
Considerando i dati della ricerca prima evidenziata,
riguardo il giudizio del proprio corso di laurea,
avremo una tabella di contingenza di questo tipo:
4
Giudizio
Tipologia di
corso
Positivo
Indifferente
Negativo
Totale
Corso di laurea
in materie
umanistiche
155
304
161
620
Corso di laurea
in materie
scientifiche
102
186
92
380
Totale
257
490
253
1000
Esempio di tabella di contingenza a due criteri sulle opinioni di
studenti che hanno risposto a un questionario interno diviso per
ambiti accademici.
5
RELAZIONE TRA VARIABILI VISIBILE DALLE
TABELLE DI CONTINGENZA
Si può ipotizzare una relazione tra le variabili
guardando solo una tabella di contingenza?
In altre parole, esiste una relazione fra tipo di studi
prescelti e giudizio sul corso?

Per rispondere, ricordiamo il concetto di totali
marginali
6
I totali marginali

Per ogni riga (e per ogni colonna) otteniamo un conteggio, che
può essere trasformato in percentuale
1 Positivo
2 neutro
3 negativo
Totale
1 materie
umanist
iche
155
304
161
620
62,00%
2 materie
scientifi
che
102
186
92
380
38,00%
257
490
253
1000
25,70%
49,00%
25,30%
100,00%
Totale
Percentuali e totali marginali
1 Positivo 2 neutro
1 M.
umanistiche
2 M.
scientifiche



3 negativo
Totale
155
304
161
620
62,00%
102
257
25,70%
186
490
49,00%
92
253
25,30%
380
1000
38,00%
Le materie umanistiche sono il 62% e i conteggi sono 620
Il giudizio NEUTRO è pari al 49 % e i conteggi sono 490
Entrambe sono percentuali (o totali) marginali
100,00%
Percentuali e totali marginali
1 Positivo 2 neutro
1 M.
umanistiche
2 M.
scientifiche
3 negativo
Totale
62,00%
62,00%
62,00%
62,00%
62,00%
38,00%
257
38,00%
490
38,00%
253
38,00%
1000
38,00%
100,00%
Nell’ipotesi di indipendenza, all’interno di ciascuna
colonna ci aspettiamo di trovare le stesse percentuali
marginali di riga.
 Per esempio, se le materie umanistiche sono il 62%,
dovremmo trovare la stessa percentuale nei tre diversi
giudizi.

L’ipotesi di indipendenza
Se le due misurazioni sono indipendenti, ovvero
se non c’è nessuna relazione fra dare un tipo di
giudizio e appartenere ad uno specifico gruppo di
studenti, le percentuali totali di riga dovrebbero
essere uguali in tutte le colonne, e le percentuali
totali nelle colonne dovrebbero essere uguali in
tutte le righe.
 Uguali va inteso come approssimativamente
uguali, ovvero, si dovrebbe tener conto della
variabilità stocastica.

Percentuali e totali marginali
1 Positivo 2 neutro
1 M.
umanistiche
2 M.
scientifiche


3 negativo
Totale
25,70%
49,00%
25,30%
620
25,70%
49,00%
25,30%
380
1000
25,70%
49,00%
25,30%
100,00%
Nell’ipotesi di indipendenza, all’interno di ciascuna riga ci
aspettiamo di trovare le stesse percentuali marginali della
colonna totale
Per esempio, il giudizio negativo è ottenuto dal 25,3% delle
valutazioni complessive, e all’interno delle materie umanistiche e
scientifiche si dovrebbe ottenere la stessa percentuale di 25,30
Percentuali e totali marginali
1 Positivo 2 neutro
1 M.
umanistiche
2 M.
scientifiche


3 negativo
Totale
25,70%
49,00%
25,30%
620
25,70%
49,00%
25,30%
380
1000
25,70%
49,00%
25,30%
100,00%
Combinando questi dati, vogliamo trovare il
conteggio delle materie umanistiche partendo dai
giudizi:
25,7 % di 620 è uguale a 159,4
Frequenza attesa

È il conteggio teorico che ci aspettiamo di trovare in ogni
cella, in base all’ipotesi di indipendenza,
Frequenza attesa

Il suo valore, combinando e semplificando si ottiene con la
formula seguente:
tot. riga  tot.colonna
freq. attesa 
tot.generale
620  257
freq. attesa
 159,34
1000
Calcolo delle frequenze attese per
ciascuna cella
Per ciascuna cella della tavola di contingenza si
può ottenere una frequenza attesa (indicata con
la lettera A), che si può confrontare con la
frequenza osservata (indicata con la lettera O)
 La differenza fra le due quantità deve essere però
aggiustata in basa alla grandezza della frequenza
attesa (una differenza di 5 può essere
considerevole se la frequenza attesa è 2, ma
trascurabile sela frequenza attesa è 200).
 La discrepanza fra frequenza attesa e frequenza
osservata va elevata al quadrato, in modo che
qualsiasi discrepanza in negativo non compensi
una discrepanza in positivo.

Calcolo della discrepanza complessiva

Perciò, per ogni cella si calcola la discrepanza al
quadrato
Ricapitolando…
Come si può ipotizzare una relazione tra le
variabili guardando solo una tabella di
contingenza?
 Osservo la partizione dei soggetti nelle varie
caselle: se non c’è nessun tipo di relazione tra le
due variabili (ovvero se le variabili sono tra loro
indipendenti), le frequenze osservate
dovrebbero essere uguali a quelle attese, a parte
qualche fluttuazione casuale.
 La fluttuzione casuale è quantificabile con la
statistica del chi quadrato
 Se il valore del chi quadrato è basso, la
fluttuazione è scarsa, l’ipotesi di indipendenza
fra le due variabili non può essere rigettata.
 Se il valore è elevato, la discrepanza è forte,
probabilmente esiste una relazione fra le due

17
TEST DEL CHI QUADRATO
Serve a verificare se due variabili sono
indipendenti l’una dall’altra
 Usa solo tabelle di conteggi (escludendo quindi
quelle per valori medi, di proporzioni o altro)

18
VERIFICA DELL’ASSOCIAZIONE TRA LE
VARIABILI
PRIMO PASSO:
SCRIVERE LE IPOTESI
innanzitutto, stabiliamo la nostra ipotesi nulla e quella
alternativa.
H0 : non c’è associazione tra livello di istruzione e voto.
H1 : c’è associazione tra livello di istruzione e voto.
Per decidere se accettare o scartare l’ipotesi nulla,
dovremo calcolare un “valore test” statistico, e
confrontare questo valore con il valore critico
corrispondente.
19
PASSO 2:
COSTRUIRE LA TABELLA DEI VALORI ATTESI
I valori che troviamo nella tabella presentata
qualche diapositiva fa sono i valori
effettivamente osservati. Per il calcolo del chi
quadro ci servono invece i valori attesi o teorici.
 I valori attesi sono i valori che ci aspetteremmo
di trovare nella tabella se non ci fosse
associazione statistica tra le variabili.
 Per calcolare i valori attesi si usa la formula:

20
PASSO 3:
Calcolo del CHI QUADRATO

Applicazione della formula
Di cui:
O = valori osservati
A = valori attesi
ESEMPIO:
O = 80
A = 59,3
quindi
Dunque
21
PASSO 4:
TROVARE IL VALORE CRITICO DEL CHI QUADRATO

Il valore critico (valore fisso) si trova sulle tavole di contingenza
del chi quadrato incrociando il livello di significatività ( di solito
posto a 5%, per cui si guarda la colonna dello 0,05) con il numero
dei gradi di libertà (gl) che si trovano con la seguente formula:
gl = (numero di righe - 1) x (numero colonne - 1)
ESEMPIO:
Se la tabella ha due righe e tre colonne, il numero dei gradi di
libertà è uguale a : (2 – 1) x (3 – 1) = 1 x 2 = 2
Quindi nelle tavole di contingenza troveremo il punto dove gl = 2 e
andremo fino alla casella della colonna dove il livello di
significatività è di 5%: il valore trovato è 5,99, valore critico del
chi quadrato per questo test.
22
PASSO 5:
TRARRE LE CONCLUSIONI

L’ipotesi nulla può essere scartata se il valore della statistica del
chi quadrato calcolato è più grande del valore critico. In tal caso,
accetteremmo l’ipotesi alternativa e potremmo affermare
l’esistenza di una relazione tra le due variabili prese in
considerazione.
Curva del
Valore critico
Si accetta Ho se il
valore del chi quadrato
calcolato ricade qui
Non si accetta Ho se il
valore del chi quadrato
calcolato ricade qui
23
Curva del
Ecco la regola:
Valore della statistica test maggiore
del valore critico
Si scarta l’ipotesi nulla
Valore della statistica test minore (o
uguale) del valore critico
Si accetta l’ipotesi
nulla
24
RESTRIZIONI SUL TEST DEL


Il test del chi quadrato può essere usato solamente per le
tabelle contenenti conteggi; affinché i risultati del test
siano validi, è necessario che le frequenze attese abbiano
un valore maggiore o uguale a cinque.
Se vi sono delle caselle con valori minori di cinque, bisogna
raccogliere più dati, oppure ridurre le categorie della
tabella.
25
I RESIDUI : come approfondire le analisi

I residui standardizzati ( r ) sono calcolati per
ciascuna casella di una tabella con la seguente
formula:
DI CUI:
O = valore osservato
A = valore atteso
26
INTERPRETAZIONE DEI RESIDUI

A partire da una tabella, l’interpretazione comincia con
l’osservare se i residui di ciascuna casella sono
positivi o negativi:
Se il residuo è positivo
Se il residuo è negativo
Il valore osservato è più
grande del valore atteso
(indica, quindi, che ci sono più
persone in quella casella di
quelle che avevamo supposto ci
sarebbero state se non ci fosse
stata associazione)
Il valore atteso è più grande
del valore osservato
(indica che ci sono meno
27
persone di quanto ci saremmo
aspettati)

Successivamente si considera la grandezza dei residui per
vedere se la differenza tra i valori osservati e quelli attesi è
significativa.
per determinare la significatività al 5%, il valore di ciascun
residuo deve essere confrontato con 1,96 o – 1,96, quindi si
usano 2 e – 2.
Se r > 2 o r < - 2
il valore è SIGNIFICATIVO
Se 2 > r > - 2
il valore NON è SIGNIFICATIVO
28
ESEMPIO REALE
Nella seguente tabella sono mostrati i residui standardizzati tra titolo
di studio del padre e il giudizio di licenza di 1000 studenti.
Il chi quadrato è 48,015, con 12 gradi di libertà è significativo a livello
di p< 0,0005.
29
Ta vola di contingenz a h8 Titolo di studio de l pa dre * h5 Giudizio di licenz a ottenuto in terza me dia
h5 Giudizio di licenza ottenuto in terza media
1 Sufficiente 2 Buono 3 Distinto 4 Ottimo
h8
Titol
o di
stud
io
del
padr
e
1 Licenza
elementare
2 Licenza
media
3 Scuola
professionale
4 Diploma di
scuola super
5 Laurea o
diploma
universitario
Totale
Conteggio
Res
stand.
Conteggio
Res
stand.
Conteggio
Res
stand.
Conteggio
Res
stand.
Conteggio
Res
stand.
Conteggio
30
27
13
5
2,6
,5
-1,1
-2,4
100
97
67
38
2,8
-,3
-,5
-2,3
35
50
34
25
-,2
,4
,0
-,3
57
105
80
72
-2,4
,1
,6
1,9
28
51
43
43
-2,1
-,5
,6
2,3
250
330
237
183
Totale
75
302
144
314
165
1000
Il chi quadrato è 48,015, con 12 gradi di libertà p< 0,0005.
Se il chi quadrato è significativo…
L’ipotesi nulla di indipendenza può essere
rigettata
 Esiste almeno una cella in cui vi sono
condensazioni o rarefazioni di conoccorrenze
 L’esame dei residui (positivi o negativi) permette
di individuare le associazioni

Ta vola di contingenz a h8 Titolo di studio de l pa dre * h5 Giudizio di licenz a ottenuto in terza me dia
h5 Giudizio di licenza ottenuto in terza media
1 Sufficiente 2 Buono 3 Distinto 4 Ottimo
h8
Titol
o di
stud
io
del
padr
e
1 Licenza
elementare
2 Licenza
media
3 Scuola
professionale
4 Diploma di
scuola super
5 Laurea o
diploma
universitario
Totale
Conteggio
Res
stand.
Conteggio
Res
stand.
Conteggio
Res
stand.
Conteggio
Res
stand.
Conteggio
Res
stand.
Conteggio
30
27
13
5
2,6
,5
-1,1
-2,4
100
97
67
38
2,8
-,3
-,5
-2,3
35
50
34
25
-,2
,4
,0
-,3
57
105
80
72
-2,4
,1
,6
1,9
28
51
43
43
-2,1
-,5
,6
2,3
250
330
237
183
Totale
75
302
144
314
165
1000
I padri con titolo di studio elevato tendono ad avere studenti
con giudizio elevato e viceversa.
Solamente per i padri con la scuola professionale non si può
inferire una tendenza.
Chi ha buono o distinto non presenta delle indicazioni utili
per indovinare il titolo di studio del padre.
Chi ha ottimo tende ad avere un padre con laurea
Gli studenti con sufficiente tendono ad avere un padre con
licenza media o elementare
L’associazione fra le due caratteristiche è
accertata. MA…

Si può dire che una delle due CAUSA l’altra? (c’è
un effetto di causalità o causazione ?)
Quali domande sono legittime?
Si può affermare che il giudizio di licenza del
figlio è causa del livello di istruzione del padre?
 Si può affermare che il livello di istruzione del
padre è causa del giudizio di licenza del figlio?
 Si può affermare che il diploma di terza media
del figlio è indipendente dal livello di istruzione
del padre?

La correlazione – accertata – non
implica la causazione né il suo verso: la
relazione di causa-effetto deve essere
sempre accertata con la teoria, e mai
con una tecnica statistica
Per teoria si intende tutto l’insieme di
conoscenze disponibili: ragionamento,
osservazioni, sperimentazione, logica,
buon senso …
Scarica

Il chi quadrato e residui - e