“Analisi di dati categoriali”
Corso di Laurea in Sociologia
Facoltà di Sociologia
Università Milano-Bicocca
Ottobre 2009
Simone Sarti
1
Variabili
Possono applicarsi diverse tipologie di variabili.
Le principali sono definite in base a:
- alla scala di misurazione
- alle relazioni che intercorrono tra loro
- all’osservabilità
NB: se una variabile registra sempre lo stesso stato
rispetto alla proprietà osservata è detta COSTANTE.
2
Variabili: la scala di misurazione
Si distinguono tre principali livelli di misurazione delle
variabili: nominale, ordinale e cardinale.
A seconda della scala di misurazione cambiano le
procedure di rilevazione (operativizzazione delle
proprietà in casi) e le analisi applicabili.
3
Variabili NOMINALI
Quando le modalità non sono ordinabili e possiedono un alto grado di
autonomia semantica (le modalità hanno senso di per sé,
indipendentemente dalle altre).
La fede religiosa
L’essere d’accordo o no (si/no) con una certa affermazione
La condizione occupazionale
Il colore dei capelli
Il genere
Non è possibile nessuna operazione aritmetica sulle modalità. Tuttavia
alle modalità è possibile attribuire dei valori a cui corrispondono delle
etichette.
Ad esempio per il genere (variabile nominale): 1=femmina; 2=maschio
4
Variabili ORDINALI
Quando le modalità sono ordinabili e possiedono un basso
grado di autonomia semantica.
La frequenza di un certo luogo (spesso, qualche volta, mai) …teatro u.m.
L’ordinamento in preferenze di alcuni colori (rosso, giallo, verde)
L’essere molto, abbastanza, poco o per niente d’accordo …
Il livello d’istruzione in gradi scolastici.
È possibile applicare sulle modalità operazione di confronto
(<>=). Alle modalità è possibile attribuire dei valori a cui
corrispondono delle etichette.
Ad esempio per il titolo di studio: 4=Laurea; 3=Diploma;
2=Licenza Media; 1=Licenza Elementare
5
Variabili CARDINALI (e quasi-cardinali)
Quando le modalità costituiscono numeri derivati da misurazioni
discrete (conteggi) o continue, e non possiedono nessun grado
di autonomia semantica (le modalità non hanno senso di per sé,
se non in relazione alle altre).
L’altezza in centimetri
L’età in anni
Il reddito
Grado di accordo tra 0 e 100 su una certa affermazione*
È possibile applicare sulle modalità tutte le operazione di confronto
(-+*/). Le modalità corrispondono ai valori, e non vengono
attribuite etichette.
6
Esempio sull’autonomia semantica
VARIABILE NOMINALE: proprietà=appartenenza religiosa
Paese A
Paese B
Cattolici
60 %
Cattolici
30 %
Islamici
30 %
Islamici
50 %
Atei
10 %
Atei
20 %
Nel paese A ci sono meno islamici che nel paese B.
VARIABILE ORDINALE: proprietà=frequenza a messa
Gruppo A
Sempre
20 %
Qualche volta
30 %
Mai
50 %
Gruppo B
NO
Sempre
40 %
Qualche volta
20 %
Mai
40 %
Nel gruppo A sono più praticanti del paese B. NON E’ VERO !
Il confronto deve avvenire considerando anche le altre modalità.
7
La distribuzione di frequenza
La prima è più elementare delle analisi
è la distribuzione di frequenza.
Essa consiste in un banale conteggio
delle modalità di una variabile.
8
LA MATRICE DEI DATI: CASI PER VARIABILI
9
Distribuzioni di frequenza: il genere
V15 SESSO
Valid
1 maschio
2 femmina
Total
Frequency
26091
27617
53708
Il conteggio
dei casi
osservati
Percent
48.6
51.4
100.0
Valid Percent
48.6
51.4
100.0
Cumulative
Percent
48.6
100.0
10
Distribuzioni di frequenza
V15 SESSO
Valid
1 maschio
2 femmina
Total
Frequency
26091
27617
53708
Percent
48.6
51.4
100.0
Le quote
percentuali
delle modalità
Valid Percent
48.6
51.4
100.0
Cumulative
Percent
48.6
100.0
11
Distribuzioni di frequenza
v5_gener 5_Genere musicale preferito
Valid
Mis sing
Total
1 rock e hardrock
2 leggera
3 pop
4 hiphop e dance
5 lirica
6 etnica er eggae
Total
Sys tem
Frequency
137
160
104
35
6
12
454
26
480
Percent
28.5
33.3
21.6
7.3
1.2
2.6
94.5
5.5
100.0
Valid Percent
30.2
35.2
22.8
7.8
1.2
2.7
100.0
Cumulativ
Percent
30
65
88
96
97
100
Le percentuali sui
casi validi, al netto
dei casi mancanti
12
Proporzioni
V15 SESSO
Valid
1 maschio
2 femmina
Total
Frequency
26091
27617
53708
Percent
48.6
51.4
100.0
Valid Percent
48.6
51.4
100.0
Cumulative
Proporzioni
Percent
0,48648.6
100.0
0,514
1,000
Proporzioni :
complemento ad 1
delle percentuali
13
Rappresentazioni grafiche di
distribuzioni di frequenza
DIAGRAMMA A
BARRE
14
Rappresentazioni grafiche di
distribuzioni di frequenza
DIAGRAMMA A
TORTA
15
L’analisi monovariata: le statistiche
Le statistiche servono a dare una
descrizione sintetica del fenomeno.
Esse si applicano in modo diverso
secondo la scala di misurazione con la
quale sono rilevate le variabili.
16
L’analisi monovariata: le statistiche
Esistono misure di tendenza centrale che
sintetizzano l’informazione contenuta
nella variabile in un valore caratteristico.
Esistono misure di dispersione che
indicano la varietà delle informazioni
presenti in una variabile.
17
Le misure di tendenza centrale
su variabili NOMINALI
LA MODA:
E’ la modalità più frequente.
18
MODA in una distribuzione di frequenza
v5_gener 5_Genere musicale preferito
Valid
Mis sing
Total
1 rock e hardrock
2 leggera
3 pop
4 hiphop e dance
5 lirica
6 etnica er eggae
Total
Sys tem
Frequency
137
160
104
35
6
12
454
26
480
Percent
28.5
33.3
21.6
7.3
1.2
2.6
94.5
5.5
100.0
Valid Percent
30.2
35.2
22.8
7.8
1.2
2.7
100.0
Cumulati
Percent
30
65
88
96
97
100
19
Le misure di dispersione
su variabili NOMINALI
L’indice di omogeneità
20
Situazione di omogeneità
100
90
80
80
70
60
50
40
30
20
13
10
2
2
2
1
altre
cristiani
sikh
buddisti
0
induisti
musulmani
Composizione religiosa in India 2001
21
Situazione di eterogeneità
100
90
80
70
60
50
40
34
30
23
20
15
12
11
6
10
0
CDU/CSU
SPD
Liberali
Linke
Grunen
altri
Risultati elezioni in Germania 2009, percentuali
22
Indice di omogeneità
Misura la dispersione in una variabile nominale
O
k
p
i 1
2
i
Dove k è il numero di modalità e pi è la proporzione di casi che si trovano
nella categoria i-esima.
L’indice di omogeneità O è dato quindi dalla somma dei quadrati delle
frequenze proporzionali.
k
E  1   pi2  1  O
Indice di eterogeneità
i 1
23
Indice di omogeneità
O
k

i 1
pi2
È massimo (=1) quando tutti i casi assumono la stessa modalità.
È minimo (=1/k) quando la distribuzione è massimamente
eterogenea, i casi si distribuiscono ugualmente nelle diverse
modalità.
ESEMPIO con due modalità (p,1- p)
O
1
Omin = 0,502 + 0,502 = 0,50
1/2
0
Omax = 02 + 12 = 1
1/2
1
p
24
Indice di omogeneità relativa
Per confrontare distribuzioni con
un diverso numero di modalità.
Varia tra 0 (minima omogeneità)
ed 1 (massima omogeneità).
Orel
kO  1

k 1
25
Video di Faidate presenti su youtube e categoria tematica
Maggiore è questo indice più è la concentrazione dei contenuti del rispettivo dominio:
elevata omogeneità in Spagna e Germania, dove spiccano poche categorie, ed una
minore in Francia, dove invece i contenuti sono dispersi tra più categorie.
Mondo
Entertainment, music
Vehicles,motors
Business
Tech, electronics, gadgets
Computers and internet
Education
Parenting, love&sex
Fashion, style, beauty
Cooking
Health, fitness, sports
Hobbies, leisure
Home, DIY, house
Religion, philosophy
Weapons
Totale
Indice di omogeneità
Regno
Unito
Germania Francia
Spagna
Italia
9
2
0
31
14
8
6
3
0
14
9
0
2
3
100
13
9
0
10
10
3
5
30
1
5
7
3
0
4
100
5
8
0
32
21
2
0
6
0
2
15
3
3
5
100
2
10
2
14
22
6
6
14
2
4
6
0
0
12
100
6
12
0
21
33
10
2
4
0
2
8
2
2
0
100
8
2
0
22
24
2
0
20
6
4
14
0
0
0
100
0,16
0,15
0,19
0,13
0,19
0,18
26
Le distribuzioni di frequenza:
le proporzioni come distribuzioni di probabilità
V15 SESSO
Valid
1 maschio
2 femmina
Total
Frequency
26091
27617
53708
Percent
48.6
51.4
100.0
Valid Percent
48.6
51.4
100.0
Cumulative
Percent
48.6
100.0
Le proporzioni delle modalità possono essere
interpretate come probabilità.
Maschi
Femmine
Totale
Pm
Pf
Pm+f
0,486
0,514
1,000
27
Maschi
Femmine
Totale
Pm
Pf
Pm+f
0,486
0,514
1,000
Una probabilità può variare tra 0 e 1
Un evento è certo quando ha probabilità 1
Un evento è irrealizzabile quando ha probabilità 0
La somma delle probabilità di tutti gli eventi possibili è uguale a 1
Nell’esempio abbiamo che la probabilità di estrarre a caso una
femmina dal nostro campione è 0,514. La probabilità di estrarre un
maschio è di 0,486. Estraendo a caso un soggetto dal nostro
campione abbiamo più probabilità di estrarre una femmina che
non un maschio. Siamo certi (probabilità uguale ad 1) di estrarre o
un maschio o una femmina.
28
29
Test di significatività
VARIABILI CATEGORIALI
Test del Chi-quadrato
(MONOVARIATA)
30
In un convegno internazionale una sessione è
composta da scienziati delle seguenti nazionalità.
Italiani
Francesi
Inglesi
Tedeschi
Spagnoli
N
75
29
36
19
81
240
%
31,3
12,1
15,0
7,9
33,8
100,0
31
Test di significatività
Poniamo l’ipotesi che la composizione dei
membri del convegno non sia distribuita
ugualmente secondo la nazionalità.
Infatti, se fosse vero il contrario, considerate
cinque le nazioni che partecipano al
convegno, avremmo dovuto avere che alla
sessione partecipassero il 20 % di scienziati
per nazione.
32
Hp di lavoro:
Vi sono differenze nella partecipazione al
convegno secondo la nazionalità.
Hp0 nulla:
Non vi sono differenze. 20% per nazione.
33
Calcoliamo le differenze per misurare quanto
il fenomeno osservato si discosta dalla
situazione ipotizzata:
O
E
N
%
Hp0 N/5
(O-E)2
(O-E)2/E
Italiani
75
31,3
48
729
15,2
Francesi
29
12,1
48
361
7,5
Inglesi
36
15,0
48
144
3
Tedeschi
19
7,9
48
841
17,5
Spagnoli
81
33,8
48
1089
22,7
240
100,0
240
Ipotesi nulla
Totale 65,9
Chi-Quadrato χ2
K
 
2
i 1
f  f 
* 2
i
i
fi
*
 65,9
Il chi-quadrato che abbiamo osservato
costituisce una misura della distanza dall’ipotesi
nulla di equidistribuzione (20% di scienziati per
nazione).
35
Chi-Quadrato χ2
Maggiore è il valore di χ 2 , più siamo lontani
dall’ipotesi di equidistribuzione.
i=1…K
K
 
2
i 1
f  f 
 0
2
* 2
i
i
fi
*
Dove f*i è la frequenza attesa
36
Test del Chi-Quadrato χ2
Quando N è abbastanza ampio (N>100) è
possibile effettuare un test di significatività
ricorrendo alla distribuzione nota del ChiQuadrato.
Dunque, considerando il numero di gradi di
libertà, è possibile sottoporre a test di
significatività l’ipotesi nulla.
Distribuzione del Chi-Quadrato χ2
Il chi-quadrato ha una funzione di densità nota,
ma variabile secondo i gradi di libertà.
I gradi di libertà, nell’esempio proposto, sono k-1,
dove k sono le modalità.
I gradi di libertà rappresentano le frequenze di
cella che possiamo “liberamente” inserire dato il
totale. Oppure, costituiscono i vincoli minimi
necessari a riempire tutte le celle.
38
Gradi di libertà = k – 1
N
Italiani
Francesi
Inglesi
Tedeschi
Spagnoli
N
Molto
Abbastanza
Poco
Per niente
N
Maschi
Femmine
100
100
100
gdl = 4
gdl = 3
gdl = 1
39
φ(χ2)
Funzione di densità di χ2

φ(χ2)
g
2
2
 ( ) 

g
 
2
2
g

1 
2
2
e
2  0


0
0
 (  )d   1
2
χ2
40
Il χ2
E’ FUNZIONE DEI GRADI DI LIBERTA’

φ(χ2)
2
 ( ) 

g
 
2
2
g=1
g=4
g=10
g
2


0
g

1 
2
2
e
 (  )d   1
2
2  0
g=20
0
χ2
41
Distribuzione nota della v.c. χ2
  d  1  
pT  13,44  0,8    
t
0
φ(χ2) Funzione di densità di χ2
AREA di NON
Rifiuto di H0
2
con gl=10
AREA di
Rifiuto di H0
 0
2
0.80
0
0.20
13,44
χ2
42
Logica falsificazionista, errori
Realtà del fenomenmo
Esito
del
test
H0 vera
H0 falsa
H0 non
rifiutata
No errore
Errore
II tipo (β)
H0
rifiutata
Errore
I tipo (α)
No errore
43
  pRifiutoH 0 H 0 vera
α è la probabilità teorica di rifiutare a priori l’H0 quando
questa è vera.
α viene fissata arbitrariamente, solitamente si utilizza
una soglia del 5 %.
α = 0,05
44
Livello di significatività α ; costituisce l’area di RIFIUTO di H0,
ossia l’area di ACCETTAZIONE di H1

g

2
2
2  g  
 
2
g

1 
2
2
e d 
g = gradi di libertà
 0
2
α
0
χ2α
χ2
45
Ricapitolando …
Il chi-quadrato osservato è uguale a 65,9.
I gradi di libertà sono 4.
Hp nulla:
Non vi sono differenze: 20% per nazione
Livello di significatività alfa=0,05
46
α
Valore critico del Chi-quadro
0
47
Rifiutiamo H0.
Respingiamo l’ipotesi nulla di equidistribuzione.
Con una significatività statistica dello 0,05 accettiamo
che gli scienziati non rappresentano allo stesso modo
le nazioni che partecipano alla sessione.
φ(χ2) Funzione di densità di χ2
con gl=4
AREA di Rifiuto di H0
e accettazione di H1
0.95
0
0.05
9,49
χα2
χ2
65,9
48
49
Relazioni tra variabili
La relazione tra variabili può essere
caratterizzata da:
forma
forza
direzione.
50
Forma della relazione
La forma di una relazione caratterizza i
possibili modi in cui i valori delle variabili
sono associati.
La forma può caratterizzare anche il
segno di una relazione (quando le
variabili sono metriche o ordinali).
51
ESEMPIO: forma di una relazione
Percentuali di riga (di cella e marginali)
Tavola di contingenza sex SESSO * titolo
% entro sex SESSO
s ex SESSO
Totale
1 maschio
2 femmina
1 Obbligo
66.2%
67.7%
66.9%
titolo
2 Diploma
27.7%
27.0%
27.3%
3 Univers ità
6.1%
5.3%
5.7%
Totale
100.0%
100.0%
100.0%
I maschi sono più istruiti delle donne.
52
Forza della relazione
La forza della relazione misura il grado di
“covariazione” tra le variabili. In altre parole
indica il potere predittivo di una variabile
sull’altra.
“Qualunque fenomeno, che vari in un modo
qualsiasi ogni volta che un altro fenomeno varia
in qualche modo particolare, è una causa o un
effetto di quel fenomeno, p è connesso a quel
fenomeno mediante qualche fatto di causazione”
John Stuart Mill
53
ESEMPIO: forza di una relazione
Soddisfatti
del lavoro
Non
soddisfatti
del lavoro
totale
maschio
536
287
823
femmina
304
139
443
totale
840
426
1266
V di cramer = 0,035
54
Direzione della relazione
Quando è possibile ipotizzare un rapporto
di causazione, allora è possibile attribuire
alle variabili lo status di dipendenti o
indipendenti e definire quindi una
direzione di successione.
X
Y
55
ESEMPIO: direzione della relazione
Percentuali di riga (di cella e marginali)
Tavola di contingenza sex SESSO * titolo
Y
% entro sex SESSO
X
s ex SESSO
Totale
1 maschio
2 femmina
1 Obbligo
66.2%
67.7%
66.9%
titolo
2 Diploma
27.7%
27.0%
27.3%
3 Univers ità
6.1%
5.3%
5.7%
Totale
100.0%
100.0%
100.0%
Assumiamo che il genere influenzi la distribuzione
del titolo di studio.
56
Variabili indipendenti e dipendenti
A seconda della posizione che le variabili
occupano in un’ipotesi causale esse si
costituiscono come variabili dipendenti o
indipendenti.
Una stessa variabile dunque può essere
dipendente o indipendente a seconda del
modello analitico in cui è inserita.
Ad esempio la coorte d’età (X) può condizionare
il titolo di studio (Y). Ma in un altro caso il titolo
di studio (X) può essere il fattore condizionante
della carriera lavorativa (Y).
57
Applicazioni di analisi bivariata su
variabili categoriali
Variabili categoriali
(o nominali)
Su esse registriamo un numero finito di stati
(modalità) che riteniamo non ordinabili lungo
alcuna dimensione concettuale.
Le modalità godono di un alto grado di
autonomia semantica.
L’Analisi Bivariata
Tratta lo studio della distribuzione dei
dati osservati sugli stati di due variabili.
Si indagano le relazioni intercorrenti tra
due variabili. Possono dare risposta a
semplici interrogativi teorici.
L’Analisi Bivariata
Tavole di contingenza, o tabelle a
doppia entrata, o incroci
Costituiscono lo fase più elementare
nello studio delle relazioni tra due
variabili.
Struttura di una tavola di contingenza
Frequenze di cella (R x C) e marginali (R + C)
Variabile X sulle righe, variabile Y sulle colonne
Y
Y1
Y2
Y3
X1
f11
f12
f13
f1.
X2
f21
f22
f23
f2.
f.1
f.2
f.3
N
X
Struttura di una tavola di contingenza
fij
Righe:
i = 1…R
Colonne:
j = 1…C
frequenza della cella della i-esima riga e j-esima colonna
fi.
frequenza marginale della i-esima riga
f.j
frequenza marginale della j-esima colonna
Struttura di una tavola di contingenza
Frequenze di cella e marginali
Variabile X sulle righe, variabile Y sulle colonne
Tavola di contingenza sex SESSO * titolo
Conteggio
s ex SESSO
Totale
1 maschio
2 femmina
1 Obbligo
8542
9134
17676
titolo
2 Diploma
3575
3640
7215
3 Univers ità
792
722
1514
Totale
12909
13496
26405
Struttura di una tavola di contingenza
Percentuali totali di cella e marginali
Y
Y1
Y2
Y3
X1
f11/N %
f12/N %
f13/N %
f1. /N %
X2
f21/N %
f22/N %
f23/N %
f2. /N %
f.1/N %
f.2/N %
f.3/N %
100
X
Struttura di una tavola di contingenza
Percentuali totali di cella e marginali
Tavola di contingenza sex SESSO * titolo
% del totale
s ex SESSO
Totale
1 maschio
2 femmina
1 Obbligo
32.3%
34.6%
66.9%
titolo
2 Diploma
13.5%
13.8%
27.3%
3 Univers ità
3.0%
2.7%
5.7%
Totale
48.9%
51.1%
100.0%
Struttura di una tavola di contingenza
Percentuali CONDIZIONATE di riga (di cella e marginali).
P11%  p(Y1 | X1 )%
Y
Y1
Y2
Y3
X1
f11/f1. %
f12/f1. %
f13/f1. %
100
X2
f21/f2. %
f22/f2. %
f23/f2. %
100
f.1/N %
f.2/N %
f.3/N %
100
X
Struttura di una tavola di contingenza
Percentuali CONDIZIONATE di riga (di cella e marginali)
P11%  p(Titolo  1 | Sesso  1)%
Tavola di contingenza sex SESSO * titolo
% entro sex SESSO
s ex SESSO
Totale
1 maschio
2 femmina
1 Obbligo
66.2%
67.7%
66.9%
titolo
2 Diploma
27.7%
27.0%
27.3%
3 Univers ità
6.1%
5.3%
5.7%
Le percentuali di riga considerano lo stesso
numero di maschi e femmine (=100).
Totale
100.0%
100.0%
100.0%
Differenze percentuali tra percentuali condizionate
Tavola di contingenza sex SESSO * titolo
% entro sex SESSO
s ex SESSO
Totale
1 maschio
2 femmina
1 Obbligo
66.2%
67.7%
66.9%
titolo
2 Diploma
27.7%
27.0%
27.3%
3 Univers ità
6.1%
5.3%
5.7%
Totale
100.0%
100.0%
100.0%
- 1,5 %
+ 0,8 %
Differenza % tra maschi e
femmine sul titolo dell’obbligo
( a parità di numero).
Differenza % tra maschi e
femmine sul titolo universitario
( a parità di numero).
Le differenze calcolate confrontando le percentuali di riga (ossia rispetto alla
variabile indipendente) sulla stessa modalità della variabile dipendente
permettono di misurare l’influenza (ipotetica) della variabile indipendente.
Struttura di una tavola di contingenza
Percentuali di colonna (di cella e marginali).
Y
Y1
Y2
Y3
X1
f11/f.1 %
f12/f.2%
f13/f.3 %
f1./N %
X2
f21/f.1 %
f22/f.2 %
f23/f.3 %
f2./N %
100
100
100
100
X
Misure di associazione tra variabili categoriali
Chi-quadrato (Test di significatività)
V di Cramer
Q di Yule
Phi
Chi-Quadrato χ2
Il Chi-quadrato si basa su un confronto tra l’ipotesi di
perfetta indipendenza delle due variabili, ed il fenomeno
così come è stato osservato.
Si confrontano le frequenze di cella attese con quelle
osservate.
Le frequenze attese di cella si trovano assumendo che la
relazione tra le variabili sia dovuta al caso, e si calcolano
attraverso la scomposizione delle frequenze marginali.
f 
*
ij
f i. . f. j
N
Chi-Quadrato χ2
Frequenze attese di cella (R x C):
f 
*
ij
f i. . f. j
N
Tavola di contingenza sex SESSO * titolo
Conteggio atteso
s ex SESSO
Totale
1 maschio
2 femmina
1 Obbligo
8641.5
9034.5
17676.0
titolo
2 Diploma
3527.3
3687.7
7215.0
3 Univers ità
740.2
773.8
1514.0
In situazione di perfetta indipendenza il χ2 vale zero
Totale
12909.0
13496.0
26405.0
Chi-Quadrato χ2
Maggiore è il valore di χ 2 , maggiore è
l’associazione tra le variabili, poiché maggiore
è la distanza dall’ipotesi di perfetta
indipendenza. Se le due variabili sono
indipendenti χ 2 vale 0.
R
C
  
2
i 1 j 1
f
i=1…R

f
ij
f

* 2
ij
*
ij
Dove f*ij è la frequenza attesa di cella
j=1…C
Test del Chi-Quadrato χ2
Quando N è abbastanza ampio (N>100) è
possibile effettuare un test di significatività
ricorrendo alla distribuzione nota del ChiQuadrato.
Dunque, considerando il numero di gradi di
libertà, è possibile sottoporre a test di
significatività l’ipotesi nulla che la relazione tra
due variabili sia dovuta al caso.
gl = (R-1)(C-1)
Test del Chi-Quadrato χ2
Gradi di libertà:
gl = (R-1)(C-1)
Il grado di libertà consiste
nei valori da immettere che
non possono essere
calcolati automaticamente
con i totali marginali.
30
10
40
20
0
20
50
10
60
df=1
Test di significatività
Testiamo l’H0, l’ipotesi nulla che afferma
l’indipendenza, ossia che la relazione tra le
due variabili è dovuta al caso.
Si stabilisce un livello di significatività
oltre il quale respingere l’Ho.
Distribuzione di probabilità nota della v.c. χ2
P(T<11,78) = 0.7 =
  
t
0
φ(χ2) Funzione di densità di χ2
2
 d = 1 - α
con gl=10
AREA di
Rifiuto di H0
 0
2
0.7
0
0.3
11,78
χ2
Logica falsificazionista, Ipotesi
H1 IPOTESI di LAVORO:
- Ipotesi di associazione tra due variabili
χ2 >0
H0 IPOTESI NULLA:
-Le due variabili sono tra loro indipendenti
χ2 =0
Logica falsificazionista, Ipotesi
Per corroborare H1 devo falsificare H0.
Non verifico H1, ma ne falsifico l’ipotesi “complementare”
attraverso un test empirico che mi porterà ad accettare o
respingere H0.
Se rifiuto H0, allora l’ipotesi di lavoro H1 viene corroborata.
Se “accetto” H0, non possiamo escludere che
l’associazione non sia dovuta al caso, l’ipotesi di lavoro H1
viene falsificata.
ATTENZIONE: Nella logica falsificazionista H0 non è
un’ipotesi alternativa che sostituisce H1. Più
correttamente occorrerebbe affermare che H0 non può
essere rifiutata, non che H0 è accettata.
Logica falsificazionista, errori
Realtà del fenomeno
Esito
del
test
H0 vera
H0 falsa
H0 non
rifiutata
No errore
Errore
II tipo (β)
H0
rifiutata
Errore
I tipo (α)
No errore
  pRifiutoH 0 H 0 vera
α è la probabilità teorica di rifiutare a priori l’H0 quando
questa è vera.
α viene fissata arbitrariamente, solitamente si utilizza
una soglia del 5 %.
α = 0,05
Livello di significatività α ; costituisce l’area di RIFIUTO di H0,
ossia l’area di ACCETTAZIONE di H1

g

2
2
2  g  
 
2
g

1 
2
2
e d 
 0
2
α
0
χ2α
χ2
Valore critico del Chi-quadro corrispondente
per 2 gradi di libertà e area alfa dello 0,05
α
0
Il Chi-Quadrato χ2 è utile come test di
significatività statistica, ma non come misura
dell’intensità della relazione.
Un grave limite del Chi-quadrato è la sua
dipendenza dalla numerosità dei casi
considerati.
In caso di perfetta indipendenza esso vale 0,
ma in caso di dipendenza il valore è
proporzionale a N.
Sensibilità del χ2 alla numerosità
ESEMPIO: Hp. relazione tra genere e frequenza alla messa
Basso Medio Alto
Basso Medio Alto
M
15
32
67
114
M
150
320
670 1140
F
14
56
80
150
F
140
560
800 1500
29
88
290
880 1470 2640
147 264
2
χ2
= 2,87
  0,05 = 5,99
χ2
= 28,74
V di Cramer
Per superare i limiti del Chi-quadrato (dovuti alla
sensibilità alla numerosità dei casi) come misura di
associazione sono stati proposti degli indici corretti.
V 

2
N (m  1)
Dove m è il numero più piccolo tra R e C
V varia tra 0 ed 1, ed è 0 in situazione di indipendenza.
Se le variabili sono dicotomiche (0,1) V coincide con Phi e
con il coefficiente di correlazione r di Pearson (misura
d’associazione cardinale).
Q di Yule
Si utilizza nelle tavole 2x2 e considera il
rapporto tra somma e differenza dei prodotti
delle celle sulle diagonali.
Q =
bc - ad
bc + ad
a
b
a+b
c
d
c+d
a+c b+d
N
Q varia tra -1 e 1, ed è 0 in situazione di indipendenza. Il
valore negativo indica una relazione inversa, ossia le
modalità delle due variabili sono associate in modo inverso.
Q di Yule
Avvertenze:
Q assume valore -1 o +1 quando una cella
delle quattro è vuota. In questo caso la
dipendenza non è perfetta, ma la Q raggiunge
il suo massimo.
Gli autori suggeriscono di attribuire una forza
espressa in quartili al valore assoluto di Q.
Phi
Si utilizza nelle tavole 2x2 e considera il
rapporto tra differenza dei prodotti delle celle
sulle diagonali e la radice del prodotto delle
marginali. E’ basato sul Chi-quadrato, come la
V di Cramer.

bc  ad
a  b c  d a  c b  d 
Phi varia tra -1 e 1, ed è 0 in situazione di indipendenza. Il
valore negativo indica una relazione inversa, ossia le
modalità delle due variabili sono associate in modo inverso.
Phi
Avvertenze:
Talvolta Phi richiede una procedura di
standardizzazione poiché i valori minimo e
massimo possono essere lontano dai valori
ipotetici -1, +1.
Phi è per definizione sensibile alle frequenze
marginali.
Si dimostra inoltre che:


2
N
92
Applicazioni di analisi bivariata su
variabili ordinali
93
Gamma

Misure di cograduazione
E’ una misura simmetrica, insensibile alle
marginali, e si utilizza tra variabili ordinali.
Considera la determinazione di coppie
concordanti e discordanti.

=
nc - nd
nc + nd
Una coppia è concordante
quando una delle due è
superiore all’altra in entrambe
le variabili.
E’ discordante quando una
delle due è superiore all’altra in
una variabile, ma inferiore
nella seconda variabile.
Gamma varia tra -1 e 1, ed è 0 in situazione di indipendenza.
94
Coppie concordanti e discordanti
Titolo di studio e salute percepita
Non
bene
Bene
Molto
Bene
Licenza
elementare
28773
9299
1202 39274
Licenza media
10657
11373
2359 24389
Diploma e più
10334
15236
3553 29123
49764
35908
7114 92786
95
IPOTIZZIAMO UNA COGRADUAZIONE
POSITIVA TRA TITOLO DI STUDIO E SALUTE
PERCEPITA, cioè:
ALL’AUMENTARE DEL TITOLO di STUDIO
CORRISPONDE UNA SALUTE MIGLIORE.
IN BASE A CIO DEFINIAMO:
Coppie concordanti:
quando, rispetto ad una determinata cella ij, le altre celle hanno un
titolo di studio più alto associato a una salute migliore.
Coppie discordanti:
quando, rispetto ad una determinata cella ij, le altre celle hanno un titolo
di studio più alto associato a una salute peggiore (o viceversa).
96
Coppie concordanti
Non
bene
Bene
Molto
Bene
Licenza
elementare
28773
9299
1202 39274
Licenza media
10657
11373
2359 24389
Diploma e più
10334
15236
3553 29123
49764
35908
7114 92786
nc11=28773 X (11373+2359+15236+3553)= 935726733
97
Coppie concordanti
Non
bene
Bene
Molto
Bene
Licenza
elementare
28773
9299
1202 39274
Licenza media
10657
11373
2359 24389
Diploma e più
10334
15236
3553 29123
49764
35908
7114 92786
nc12=9299 X (2359+3553)= 54975688
98
Coppie concordanti
Non
bene
Bene
Molto
Bene
Licenza
elementare
28773
9299
1202 39274
Licenza media
10657
11373
2359 24389
Diploma e più
10334
15236
3553 29123
49764
35908
7114 92786
nc13= 1202 X (0) = 0
Nessuna coppia concordante
99
Coppie concordanti
Non
bene
Bene
Molto
Bene
Licenza
elementare
28773
9299
1202 39274
Licenza media
10657
11373
2359 24389
Diploma e più
10334
15236
3553 29123
49764
35908
7114 92786
nc21=10657 X (15236+3553)= 200234373
100
Coppie concordanti
Non
bene
Bene
Molto
Bene
Licenza
elementare
28773
9299
1202 39274
Licenza media
10657
11373
2359 24389
Diploma e più
10334
15236
3553 29123
49764
35908
7114 92786
nc22=11373 X (3553)= 40408269
101
Coppie discordanti
Non
bene
Bene
Molto
Bene
Licenza
elementare
28773
9299
1202 39274
Licenza media
10657
11373
2359 24389
Diploma e più
10334
15236
3553 29123
49764
35908
7114 92786
nd11=28773 X (0)= 0
Nessuna coppia discordante
102
Coppie discordanti
Non
bene
Bene
Molto
Bene
Licenza
elementare
28773
9299
1202 39274
Licenza media
10657
11373
2359 24389
Diploma e più
10334
15236
3553 29123
49764
35908
7114 92786
nd12=9299 X (10657+10334)= 195195309
103
Coppie discordanti
Non
bene
Bene
Molto
Bene
Licenza
elementare
28773
9299
1202 39274
Licenza media
10657
11373
2359 24389
Diploma e più
10334
15236
3553 29123
49764
35908
7114 92786
nd13=1202 X (10657+11373+10334+15236)=57215200
104
Coppie discordanti
Non
bene
Bene
Molto
Bene
Licenza
elementare
28773
9299
1202 39274
Licenza media
10657
11373
2359 24389
Diploma e più
10334
15236
3553 29123
49764
35908
7114 92786
nd22=11373 X (10334)= 117528582
105
Coppie discordanti
Non
bene
Bene
Molto
Bene
Licenza
elementare
28773
9299
1202 39274
Licenza media
10657
11373
2359 24389
Diploma e più
10334
15236
3553 29123
49764
35908
7114 92786
nd23=2359 X (10334+15236)= 60319630
106
Misure di cograduazione
Totale coppie concordanti
nc = nc11 + nc12 + nc21 + nc22 = 1.231.345.063
Totale coppie discordanti
nd = nd12 + nd13 + nd22 + nd23 = 430.258.721
Le celle che generano coppie concordanti sono (R-1)(C-1) = 4
Così come le celle che generano coppie discordanti.
107
Gamma
nd= 430258721

=
nc - nd
nc + nd
=
Misure di cograduazione
nc= 1231345063
1231345063 – 430258721
= 0,482
1231345063 + 430258721
Gamma uguale a 0,482 significa che la relazione tra
titolo di studio e salute percepita è positiva, e che la
probabilità che in una coppia di soggetti estratta a caso
il soggetto che ha maggiore titolo di studio sia anche
quello che ha migliore salute è superiore del 48,2 %
della probabilità di trovare l’opposto.
108
Misure di cograduazione
Test di significatività per Gamma
Anche per Gamma esiste un test di significatività che ci
permette di testare l’ipotesi nulla di indipendenza.
I software permettono di calcolare la probabilità
asintotica che viene utilizzata per respingere o meno
l’ipotesi nulla.
109
ESEMPI GAMMA
Tavola di contingenza tit * copeso
Conteggio
TABELLA 1
tit
1
2
3
4
Titolo universitario
Diploma
Lic.media
Lic.elementare
Totale
copes o
2 s i,qualche
volta durante
3 s i,qualche
l'anno
volta al mese
26
20
20
18
15
21
10
3
71
62
1 no,mai
13
9
4
2
28
4 s i,più volte
a settimana
11
4
11
3
29
Totale
70
51
51
18
190
Misure simmetriche
Ordinale per ordinale
N. di cas i validi
Valore
.112
190
Gamma
a
E.S. asint.
.088
b
T appros s .
1.267
Sig. appross .
.205
a. Senza ass umere l'ipotesi nulla.
Non
significativa
b. Viene us ato l'errore s tandard asintotico in bas e all'as s unzione dell'ipotes i nulla.
Tavola di contingenza tit * copeso
Conteggio
copes o
2 s i,qualche
volta durante
3 s i,qualche
l'anno
volta al mese
51
34
43
30
30
39
4
4
128
107
TABELLA 2
tit
1
2
3
4
Titolo universitario
Diploma
Lic.media
Lic.elementare
Totale
1 no,mai
18
17
8
2
45
4 s i,più volte
a settimana
18
33
37
4
92
Totale
121
123
114
14
372
Misure simmetriche
Ordinale per ordinale
N. di cas i validi
Gamma
Valore
.230
372
a
E.S. asint.
.059
b
T appros s .
3.888
Sig. appross .
.000
Significativa
a. Senza ass umere l'ipotesi nulla.
b. Viene us ato l'errore s tandard asintotico in bas e all'as s unzione dell'ipotes i nulla.
110
Scarica

ANALISIDATICATEGORIALI_1