L’analisi bivariata
L’analisi bivariata serve a studiare la relazione fra coppie di variabili.
Le sue funzioni sono:
1.Stabilire se date due variabili (x e y) esiste tra loro una relazione di
indipendenza o di associazione;
2.In caso di associazione, quantificare (ove possibile) il grado di
associazione tra coppie di variabili mediante coefficienti.
Cosa bisogna tenere a mente quando si effettua un’analisi bivariata:
1.L’analisi bivariata studia relazioni statistiche e quindi probabilistiche;
2.Distinzione tra variabili indipendenti e variabili dipendenti;
3.Le tecniche di analisi bivariata variano in base al tipo di variabili
considerate.
Metodologia della ricerca sociale
1
L’analisi bivariata: tipi di variabili e di relazioni
Variabile dipendente
Nominale
Ordinale
Cardinale
Nominale
Variabile
indipendente
Analisi della
varianza
Ordinale
Associazione
Cograduazione
Cardinale
Metodologia della ricerca sociale
Correlazione
/
Regressione
2
L’analisi bivariata
L’analisi bivariata ha dunque, nella maggior parte dei casi, come
prodotto principale una tavola di contingenza (o tabella a doppia
entrata, o incrocio).
Variabile B
Modalità A
Variabile A
Modalità B
Totale
Modalità A
Modalità B
Totale
Rispetto alla distribuzione di frequenza la tavola di contingenza
tiene contemporaneamente conto di due variabili: una posta in
colonna, l’altra in riga.
Oltre alle frequenze assolute, possiamo riportare nella tabella
anche (oppure soltanto) le frequenze relative (le percentuali).
Metodologia della ricerca sociale
3
L’analisi bivariata
Le frequenze possono essere relativizzate al totale di riga o di
colonna, o al totale complessivo. Bisogna essere consapevoli che
percentualizzazioni differenti danno informazioni differenti.
Il tipo di percentualizzazione:
• Si sceglie la percentuale di colonna quando si vuole analizzare
l’influenza che la variabile posta in colonna ha sulla variabile posta
in riga;
• Si sceglie la percentuale di riga quando si vuole analizzare
l’influenza che la variabile posta in riga ha sulla variabile posta in
colonna.
I totali, di riga e di colonna, costituiscono le frequenze marginali
e corrispondono alle frequenze delle variabili prese
singolarmente (cioè alle loro distribuzioni monovariate).
Metodologia della ricerca sociale
4
Esempi:
quali informazioni si ottengono cambiando la percentualizzazione?
Genere
Settore di
occupazione
Femminile
Pubblico
75
47
122
Privato
32
56
88
107
103
210
Totale
Quale quota di occupati nel privato è donna?
Percentuale di riga
Genere
Settore di
occupazione
Totale
Maschile
Totale
Maschile
Femminile
Pubblico
61,5
38,5
100,0
Privato
36,4
63,6
100,0
51,0
49,0
100,0
Totale
Metodologia della ricerca sociale
5
Esempi:
quali informazioni si ottengono cambiando la percentualizzazione?
Genere
Settore di
occupazione
Totale
Maschile
Femminile
Pubblico
75
47
122
Privato
32
56
88
107
103
210
Totale
Quale quota di donne è occupata nel settore privato?
Percentuale di colonna
Genere
Settore di
occupazione
Totale
Maschile
Femminile
Pubblico
70,1
45,6
58,1
Privato
29,9
54,4
41,9
100,0
100,0
100,0
Totale
Metodologia della ricerca sociale
6
Esempi:
quali informazioni si ottengono cambiando la percentualizzazione?
Genere
Settore di
occupazione
Totale
Maschile
Femminile
Pubblico
75
47
122
Privato
32
56
88
107
103
210
Totale
Quale quota del campione è donna e occupata nel settore privato?
Percentuale sul totale
Genere
Settore di
occupazione
Totale
Maschile
Femminile
Pubblico
35,7
22,4
58,1
Privato
15,2
26,7
41,9
51,0
49,0
100,0
Totale
Metodologia della ricerca sociale
7
Le
statistiche
bivariate:
Misurare l’associazione tra due variabili
quali indici possono essere utilizzati in base al tipo delle due variabili?
I programmi di analisi dei dati offrono la possibilità di calcolare diversi indici in
grado di informarci sulla significatività della relazione, la misura
dell’associazione, il livello di cograduazione o correlazione tra due variabili,
ma è il ricercatore a scegliere
l’indice più adatto:
- al tipo di variabili;
- alle sue esigenze conoscitive.
Metodologia della ricerca sociale
8
Le statistiche bivariate: il test del Chi-quadrato
Misurare l’associazione tra due variabili
Il test del chi-quadrato (Х2) è un test di “verifica” delle ipotesi che dà conto
della significatività della relazione fra due variabili categoriali (non ci dice
nulla sulla forza della relazione).
Il test rientra nella famiglia dei test delle ipotesi, cioè permette di
confrontare un set di dati osservati con il corrispettivo set di dati attesi in
base ad un’ipotesi teorica e di stimare la validità di questa ipotesi.
Si tratta di falsificare l’ipotesi nulla (H0), ovvero di assenza di relazione
statistica fra due variabili. Se l’ipotesi di assenza di relazione viene respinta,
automaticamente viene accettata l’ipotesi di ricerca (H1) che sostiene
l’esistenza della relazione.
Il suo calcolo si basa sul confronto tra:
• Frequenze osservate: il numero dei casi effettivamente osservati;
• Frequenze attese: la frequenza teorica che si dovrebbe attendere
sulla base dei totali marginali, se tra le due variabili considerate non
esistesse alcuna relazione.
Metodologia della ricerca sociale
9
Le statistiche bivariate: il test del Chi-quadrato
Logica e test del Chi-quadrato
Il test del chi-quadrato Х2 si basa sulla differenza tra frequenze osservate
e frequenze attese: è dato dalla somma dei quadrati di queste differenze
rapportati alle frequenze attese.
Se la frequenza osservata è “molto” diversa rispetto alla frequenza
che avremmo in caso di mancanza di relazione, allora c’è un
associazione tra le due variabili.
Il valore del chi-quadrato è
tanto maggiore quanto
maggiore è la distanza fra la
tabella delle frequenze
osservate e la tabella delle
frequenze attese. È zero nel
caso di indipendenza perfetta.
Metodologia della ricerca sociale
( fo - fe )
c =å
fe
2
2
10
Le statistiche bivariate: il test del Chi-quadrato
Logica e test del Chi-quadrato
Come si stabilisce se il chi quadrato Х2 indica una relazione significativa?
Si confronta il valore calcolato sulla tabella con quello di una
distribuzione teorica.
La tavola di distribuzione del chi-quadrato ci dice se un certo valore del
chi quadrato è sufficientemente piccolo da poter essere attribuito ad
errori casuali (ovvero ad una distribuzione casuale delle unità nelle celle
della tabella) o se esiste una qualche relazione fra le due variabili e a
che livello di probabilità tale relazione è significativa.
Il controllo sulle tavole di distribuzione è necessario in quanto, a
determinati livelli di probabilità, anche valori del chi-quadrato lontani
dallo zero potrebbero rendere compatibile il risultato con l’ipotesi nulla
H0 di indipendenza fra le variabili.
Metodologia della ricerca sociale
11
Le statistiche bivariate: il test del Chi-quadrato
Come si effettua il controllo del valore ottenuto con quello della tavola di
distribuzione?
1.Bisogna innanzitutto calcolare i gradi di libertà di una tabella:
g.d.l. = (n. di righe – 1) * (n. di colonne -1)
In una tabella composta da due variabili ciascuna con quattro modalità:
g.d.l. = (4 - 1) * (4 - 1) = 9
In una tabella composta da due variabili ciascuna con due modalità:
g.d.l.=(2-1)*(2-1)=1
2. Va individuato il livello di probabilità cui riferirsi;
Convenzionalmente si respinge l’ipotesi nulla di indipendenza (H0) se p ≤ 0,05,
cioè se il valore del chi-quadrato Х2 è così grande da avere solo il 5% di
probabilità di essere dovuto al caso (cioè ad errori casuali) ed il 95% di essere
invece addebitabile ad una relazione fra le variabili.
3. Si confrontano valori calcolati con quelli della tavola di distribuzione del
chi-quadrato.
Metodologia della ricerca sociale
12
I gradi di libertà
I gradi di libertà sono il numero di valori “liberi di variare”:
• in una distribuzione di frequenza con k modalità i gradi di libertà sono
sempre K-1 (ad esempio per la variabile genere, una volta definito che i maschi sono il 40%
e che il totale è 100% le femmine non possono che essere il 60%, per cui c’è un solo grado di
libertà dato da 2-1=1; per la variabile età (codificata da 1 a 100 anni e oltre) dobbiamo definire
le quote per tutte le altre età perché un valore sia vincolato: i gradi di libertà sono 100-1=99);
•
in una tavola di contingenza il numero di valori liberi di variare è dato da
(n. di righe – 1) * (n. di colonne -1) cioè dal prodotto dei g.d.l. delle due
distribuzioni:
Y
1 gdl
X
Tot
Tot
a
b
a
10
60
70
b
10
20
30
20
80
100
2 gdl
X
Tot
Y
a
b
a
25
?
b
?
c
Tot
Y
Tot
a
b
40
25
15
40
?
30
10
20
30
?
?
30
25
5
30
60
40
100
60
40
100
Una volta definito il contenuto
di una sola cella tutte le altre
sono vincolate.
Serve definire il contenuto di due celle
perché tutte le altre siano vincolate.
Metodologia della ricerca sociale
13
I gradi di libertà: esempi
Y
4 gdl
X
Tot
a
b
c
a
15
?
?
40
b
?
?
?
30
c
?
?
?
35
25
40
Tot
Y
a
b
c
15
10
?
9
8
30
?
100
35
[…]
Tot
Y
Tot
a
b
c
40
15
10
15
40
?
30
9
8
13
30
?
?
30
11
7
12
30
25
40 100
35
25
40 100
g.d.l.= (3-1)*(3-1)= 4
Serve definire il contenuto di quattro celle perché tutte le altre siano vincolate.
6 gdl
X
Tot
Y
Y
Tot
a
b
c
d
a
5
?
?
?
21
b
?
?
?
?
47
c
?
?
?
?
Y
b
c
d
21
5
3
11
2
21
?
47
13
9
17
8
47
?
?
32
3
8
2
19 32
30
29 100
b
c
d
5
3
11
?
13
9
17
32
?
?
21 20 30 29 100
21
20
21 20 30 29 100
g.d.l.= (3-1)*(4-1)= 2*3=6
Serve definire il contenuto di sei celle perché tutte le altre siano vincolate.
Metodologia della ricerca sociale
Tot
a
a
[…]
Tot
14
Le statistiche bivariate: il test del Chi-quadrato
1. tanto più alti sono i gradi di libertà della tabella (cioè tanto più
numerose sono le modalità delle variabili considerate) tanto più alto
dovrà risultare il Х2 per avere un livello di probabilità accettabile;
2. tanto più alto è il livello di probabilità desiderato (e dunque tanto più
piccolo è il rischio di errore che si è disposti ad assumere) tanto più
elevato dovrà risultare il Х2 per permettere il rifiuto di H0.
Metodologia della ricerca sociale
15
Come si calcola il Chi-quadrato
Genere
Settore
occupazionale
Totale
Femminile
Maschile
Pubblico
56
21
77
Privato
19
44
63
75
65
140
Totale
( fo - fe )
c =å
fe
2
2
1. Il calcolo delle frequenze attese (fe) sulla base dei marginali e del totale:
Genere
Genere
Settore di
occupazione
Femminile
Maschile
Pubblico
75*77/140
65*77/140
Privato
75*63/140
65*63/140
Settore di
occupazione
Femminile
Maschile
Pubblico
41,25
35,75
Privato
33,75
29,25
2. Applicazione della formula:
Χ2= [(56-41,25)2/41,25]+[(21-35,75)2/35,75]+[(19-33,75)2/33,75]+[(44-29,25)2/29,25]
Χ2=5,27 + 6,08 + 6,45 + 7,44
Χ2=25,24
Metodologia della ricerca sociale
16
Come si controlla la significatività del Chi-quadrato
3. Confronto del valore di X2 ottenuto dal calcolo con quello del tabulato:
Χ2=25,24
g.d.l.= (2-1)*(2-1)=1*1=1
Metodologia della ricerca sociale
Il valore del Х2 ottenuto è maggiore a tutti
quelli riportati in tabella per un solo grado
di libertà (25,24>7,88), quindi possiamo
affermare che la relazione è significativa
con un livello di probabilità superiore allo
0,005.
17
Esempi:
Relazione tra due variabili categoriali: il Chi-quadrato.
1. Assenza di relazione significativa
Tabella 2x2
Genere
Tipo di contratto
Femminile
Part time
29
36
65
Full time
32
35
67
61
71
132
Totale
Genere
Tipo di contratto
Totale
Maschile
Femminile
Part time
47,5
50,7
49,2
Full time
52,5
49,3
50,8
100,0
100,0
100,0
Totale
Chi quadrato
Totale
Maschile
0,131
Metodologia della ricerca sociale
Sig.
0,717
18
Esempi:
Relazione tra due variabili categoriali: il Chi-quadrato.
2. Presenza di una relazione significativa
Tabella 2x2
Genere
Tipo di contratto
Femminile
Part time
56
21
77
Full time
19
44
63
75
65
140
Totale
Genere
Tipo di contratto
Totale
Maschile
Femminile
Part time
74,7
32,3
55,0
Full time
25,3
67,7
45,0
100,0
100,0
100,0
Totale
Chi quadrato
Totale
Maschile
25.244
Metodologia della ricerca sociale
Sig.
0,000
19
Esempi:
Relazione tra due variabili categoriali: il Chi-quadrato.
1. Assenza di relazione significativa
Tabella 2x3
Genere
Settore economico
di occupazione
Primario
Secondario
Terziario
Totale
Femminile
45
32
55
132
Maschile
49
32
65
146
Genere
Settore economico
di occupazione
Primario
Secondario
Terziario
Totale
Chi quadrato
0,299
Metodologia della ricerca sociale
Femminile
34,1
24,2
41,7
100,0
Maschile
33,6
21,9
44,5
100,0
Sig.
Totale
94
64
120
278
Totale
33,8
23,0
43,2
100,0
0,861
20
Esempi:
Relazione tra due variabili categoriali: il Chi-quadrato.
2. Presenza di una relazione significativa
Tabella 2x3
Genere
Settore economico
di occupazione
Primario
Secondario
Terziario
Totale
Femminile
65
25
20
110
Maschile
25
30
65
120
Genere
Settore economico
di occupazione
Primario
Secondario
Terziario
Totale
Chi quadrato
41.699
Metodologia della ricerca sociale
Femminile
59,1
22,7
18,2
100,0
Maschile
20,8
25,0
54,2
100,0
Sig.
Totale
90
55
85
230
Totale
39,1
23,9
37,0
100,0
0,000
21
Le misure di associazione
Il chi-quadrato ci informa circa la significatività della relazione tra due
variabili, ma non ci dice nulla circa la sua intensità (o forza).
Perché non è possibile utilizzare il Х2 come misura della forza di una
relazione?
Semplicemente perché i valori del Х2 sono direttamente proporzionali alla
numerosità campionaria: tanto più numerosi sono i casi (più alte le
frequenze osservate e attese) tanto più alto sarà il valore dell’indice.
Per avere informazioni circa l’intensità della relazione tra due variabili è
dunque necessario utilizzare misure di associazione.
Le principali misure di associazione si basano però sul Х2, che appare sempre
al numeratore o al denominatore.
Metodologia della ricerca sociale
22
Le misure di associazione: il Phi
Dato che il Х2 non può essere utilizzato come misura di associazione
perché dipende dalla numerosità del campione la soluzione più
semplice è quella di rapportarlo al numero di casi: la radice quadrata di
questo rapporto è detta Phi: Ф.
f=
c
2
N
Tale indice però non è normalizzato, ossia non ha
un campo di variazione compreso tra 0 e 1: il suo
minimo
teorico
(che
indica
l’assoluta
indipendenza delle variabili) è 0, ma il suo
massimo varia a seconda delle dimensioni della
tabella.
Questo rende difficile sia la sua interpretazione
che il raffronto con indici diversi (provenienti da
altre popolazioni diversamente numerose).
Metodologia della ricerca sociale
23
Le misure di associazione: la V di Cramèr e il C di Pearson
La misura V proposta da Cramèr rapporta il valore del Х2 al suo massimo
teorico, (k - 1)*N, dove k è il minore fra il numero di righe e di colonne:
c
V=
N(k -1)
2
L’indice assume valori compresi fra 0 (indipendenza)
e 1 (relazione perfetta).
La misura C di Pearson, detta anche coefficiente di contingenza,
rapporta il valore del Х2 alla somma tra se stesso e il numero di casi:
C=
c
2
c2 + N
Questo indice non permette una piena
confrontabilità fra valori ottenuti con variabili
diverse in quanto il limite superiore varia a
seconda delle dimensioni della tabella.
Metodologia della ricerca sociale
24
Le misure di associazione asimmetriche
Goodman e Kruskal hanno proposto diverse misure di associazione tra
variabili nominali basate sul criterio della riduzione proporzionale
dell’errore. I calcoli sono complessi, dunque non studieremo le formule, ma
in breve: l’associazione è calcolata come la proporzione di riduzione degli
errori di previsione nel prevedere il valore di Y (la variabile dipendente)
conoscendo X (la variabile indipendente).
L’idea è che, se in molti casi conoscere X permette di prevedere Y, le due
variabili sono associate; se invece la conoscenza di X non fa diminuire gli
errori nel prevedere Y, le due variabili non sono associate.
Le misure più note sono la λ (lambda) e la τ (tau) di Goodman e Kruskal, e
si leggono come la quota di errore che la conoscenza della variabile
indipendente ci evita di commettere nella previsione della variabile
dipendente.
Naturalmente queste misure assumono un valore diverso a seconda di
quale variabile viene scelta come dipendente, per questo sono dette
misure di associazione asimmetriche.
Metodologia della ricerca sociale
25
Esempi:
Relazione tra due variabili categoriali: il Chi-quadrato, il Phi e la V.
1. Assenza di relazione significativa
Tabella 2x3
Genere
Settore economico
di occupazione
Primario
Secondario
Terziario
Totale
Femminile
45
32
55
132
Maschile
49
32
65
146
Genere
Settore economico
di occupazione
Primario
Secondario
Terziario
Totale
Chi quadrato
0,299
Phi
0,033
V di Cramer
0,033
Metodologia della ricerca sociale
Femminile
34,1
24,2
41,7
100,0
Maschile
33,6
21,9
44,5
100,0
Sig.
Totale
94
64
120
278
Totale
33,8
23,0
43,2
100,0
0,861
26
Esempi:
Relazione tra due variabili categoriali: il Chi-quadrato, il Phi e la V.
2. Presenza di una relazione significativa
Tabella 2x3
Genere
Settore economico
di occupazione
Primario
Secondario
Terziario
Totale
Femminile
65
25
20
110
Maschile
25
30
65
120
Genere
Settore economico
di occupazione
Primario
Secondario
Terziario
Totale
Chi quadrato
41.699
Phi
0.426
V di Cramer
0.426
Metodologia della ricerca sociale
Femminile
59,1
22,7
18,2
100,0
Maschile
20,8
25,0
54,2
100,0
Sig.
Totale
90
55
85
230
Totale
39,1
23,9
37,0
100,0
0,000
27
La scarsa fortuna delle misure di associazione
Perché nonostante l’ampio utilizzo di variabili nominali nella ricerca sociale
nei rapporti di ricerca si incontrano raramente misure di associazione?
a)Perché quasi tutte le misure di associazione, come si è visto, sono
insoddisfacenti dal punto di vista della confrontabilità.
b)Perché tutte le misure di associazione presentano dei problemi nella loro
interpretazione (mentre la lettura della tabella è semplice e diretta).
c)Perché quando si ha a che fare con variabili nominali può avere poco
senso calcolare un’unica misura di associazione, dato che le modalità
delle variabili godono di una piena autonomia semantica.
Spesso una buona lettura della tavola di contingenza e delle differenze tra
percentuali dice molto di più di uno o più indici di associazione.
Come vedremo a breve in alcuni casi è inoltre possibile avvalersi di
un’altra serie di strumenti legati all’interpretazione della relazione tra
variabili in termini di rapporti di probabilità (odds).
Metodologia della ricerca sociale
28
Un caso particolare: la tabella 2x2
Il caso in cui si abbia a che fare con due variabili dicotomiche è del
tutto particolare:
•Le misure Φ e V coincidono;
•Queste due misure coincidono anche con il coefficiente di
correlazione r di Pearson (vedi oltre) calcolato assegnando i valori 0 e 1
alle due modalità di ciascuna variabile;
sostanzialmente questa particolarità è dovuta al fatto che le tavole
2x2 hanno un solo grado di libertà.
Le misure di associazione nella
tabella 2x2 si basano sul
prodotto incrociato:
Cross product = (ad - cb)
Y
X
0
1
0
a
b
1
c
d
Perché?
Perché se la relazione è forte i casi si addensano su una delle due diagonali,
e se questo accade la differenza tra il prodotto di a per d e quello di b per c
sarà elevata.
Metodologia della ricerca sociale
29
La tabella 2x2: il Q di Yule
0
1
0
a
b
Il Q di Yule è una misura di
associazione per tavole 2x2, rapporta
il prodotto incrociato alla somma dei
prodotti ad e cb:
1
c
d
Q= (ad - cb)/(ad + cb)
Y
X
può variare fra -1 e +1; assume il
valore 0 in assenza di relazione.
Associazione
Genere
Settore di
occupazione
Totale
Totale
Maschile
Femminile
Pubblico
75
23
122
Privato
32
56
88
107
103
210
Q=[(75*56)-(32*23)]/[(75*56)+(32*23)]
Q=0.65
Mancanza di associazione
Genere
Q=[(34*36)-(28*42)]/[(34*36)+(28*42)]
Q=0.02
Settore di
occupazione
Totale
Metodologia della ricerca sociale
Totale
Maschile
Femminile
Pubblico
34
42
76
Privato
28
36
64
62
78
140
30
La tabella 2x2: dalle proporzioni agli odds
p= Tx0/T
w= Tx0/Tx1
Una proporzione p è un rapporto fra la parte e il tutto.
Un odds w(rapporto di probabilità) è il rapporto fra la frequenza
di una categoria e quella della categoria alternativa (nel caso
di variabili dicotomiche).
E’ pari a 1 quando le due modalità della variabile hanno lo
stesso peso.
Y
X
Totale
0
1
0
a
b
Tx0
1
c
d
Tx1
Ty0
Ty1
T
Totale
Il passaggio dall’odds alla proporzione e quello contrario sono molto semplici,
infatti: w= p /(1-p) e p= w/(1+w).
Metodologia della ricerca sociale
31
La tabella 2x2: dalle proporzioni agli odds
Le proporzioni condizionate e i rapporti di probabilità condizionati non sono
che proporzioni e odds calcolati per la variabile X entro una sola delle
modalità della variabile Y o viceversa.
Y
X
Totale
0
1
0
a
b
Tx0
1
c
d
Tx1
Ty0
Ty1
T
Totale
Genere
Settore di
occupazione
Totale
Totale
Maschile
Femminile
Pubblico
75
47
122
Privato
32
56
88
107
103
210
Metodologia della ricerca sociale
Le percentuali di riga e di
colonna non sono che
proporzioni condizionate:
a/(a+c)= a/Ty0
b/(b+a)= b/Tx0
ecc…
Uomini occupati nel pubblico:
a/(a+c)
75/(75+32)=0,701
=70.1%
Uomini occupati nel privato:
c/(a+c)
32/(75+32)=0,299
=29.9%
32
I rapporti di probabilità (odds) condizionati.
I rapporti di probabilità condizionati (odds condizionati) permettono di
analizzare quanto le due variabili sono in relazione.
Genere
Settore di
occupazione
Totale
Maschile
Femminile
Pubblico
75
47
122
Privato
32
56
88
107
103
210
Totale
Ad esempio se il rapporto tra uomini
e donne occupati nel pubblico
fosse uguale a quello nel privato
non avremmo ragione di ritenere
che ci sia relazione tra il genere e il
settore di occupazione, nella
tabella invece:
Rapporto tra uomini e donne occupati nel pubblico:
a/b
75/47=1.59
(per ogni donna occupata nel pubblico ci sono 1,59 uomini)
Rapporto tra uomini e donne occupati nel privato:
c/d
32/56=0,57
(per ogni donna occupata nel privato ci sono 0,57 uomini)
Per poter calcolare gli odds basta che una sola delle due variabili sia dicotomica,
ma potranno essere calcolati solo per la variabile dicotomica entro le modalità
dell’altra.
Metodologia della ricerca sociale
33
Il confronto tra rapporti di probabilità condizionati:
l’odds ratio
Genere
Settore di
occupazione
Totale
Totale
Maschile
Femminile
Pubblico
75
47
122
Privato
32
56
88
107
103
210
Rapporto tra donne e uomini nel pubblico:
a/b
75/47=1,59
Rapporto tra donne e uomini nel privato:
c/d
32/56=0,57
I rapporto tra i rapporti di probabilità condizionati (odds ratio) permette di
formalizzare il confronto tra odds:
odds ratio= (a/b)/(c/d) = ad/bc = 1,59/0,57 = 2,78
Come si legge questo valore?
Posto pari a uno il rapporto tra donne e uomini occupati nel privato, lo stesso
rapporto nel settore pubblico è quasi triplo (2,78 volte superiore).
Il rapporto tra gli odds o rapporto di associazione può assumere valori compresi tra 0
e più infinito, e il valore 1 indica l’assenza di relazione (i due rapporti sono uguali).
Per poter calcolare l’odds ratio entrambe le variabili devono essere dicotomiche.
Metodologia della ricerca sociale
34
Le misure di cograduazione
Nel caso in cui entrambe le variabili incluse nell’analisi siano variabili
ordinali, è possibile utilizzare non solo misure di associazione, ma anche
misure di cograduazione.
Non solo cioè è possibile analizzare la significatività statistica e la forza
della relazione, ma anche la sua forma (o segno).
Relazione diretta
Relazione inversa
Anzianità di servizio
Bassa
Reddito
da
lavoro
Media
Alta
Basso
Medio
Alto
Totale
Anzianità di servizio
Totale
Bassa
Reddito
da
lavoro
Media
Alta
Basso
Medio
Alto
Totale
Cioè è possibile chiedersi:
1.Esiste una relazione tra anzianità di servizio e reddito da lavoro?
2.Quanto è forte la relazione tra anzianità di sevizio e reddito da lavoro?
ma anche:
3.Il reddito da lavoro cresce o decresce al crescere dell’anzianità di servizio?
Metodologia della ricerca sociale
35
Totale
Le misure di cograduazione: il Gamma
Le misure di cograduazione si basano sul confronto fra i valori assunti dalle
variabili X ed Y su tutte le possibili coppie di casi, gli esiti possibili di questo
confronto sono tre:
1. i casi sono concordanti (P): i valori di X e Y sul caso A sono entrambi
maggiori (o entrambi minori) di quelli delle stesse variabili sul caso B;
2. i casi sono discordanti (Q): un caso A ha un valore maggiore di X e uno
minore di Y rispetto ad un caso B;
3. i casi sono appaiati: presentano lo stesso valore su X e/o su Y.
Se la maggior parte delle coppie è concordante o discordante si è in
presenza di una cograduazione.
P -Q
Il coefficiente più noto è il gamma di Goodman e Kruskal (1954) g =
P +Q
Se γ è uguale a +1 c’è una perfetta relazione positiva, se è uguale a -1 la
relazione è negativa. Quando γ è uguale a 0 c’è assenza di relazione (lo
stesso numero di coppie discordanti e concordanti).
Metodologia della ricerca sociale
36
Le misure di cograduazione: i Tau
Il coefficiente gamma presenta però delle criticità:
 tende a sovrastimare la forza di un’associazione (perché non considera
le coppie appaiate);
 risente del numero delle modalità delle due variabili (aumenta
all’aumentare della sensibilità di una delle classificazione delle variabili
categoriali ordinate).
Kendall per ovviare a questi limiti ha proposto altre due misure:
a) il Tau-b (o tau q), più utilizzata per le tabelle quadrate;
b) il Tau-c (o tau r), più utilizzata per le tabelle rettangolari.
tb =
P-Q
Px * Py
2m
tc = (P - Q) * 2
N * (m - 1)
Dove: P sono le coppie concordanti, Q le coppie discordanti, Px è il numero
massimo di coppie calcolato in base ai marginali della variabile X, Py il numero
massimo di coppie calcolato in base ai marginali della variabile Y, N il numero dei
casi e m in numero minore tra quello delle modalità in riga e quello delle modalità in
colonna.
I coefficienti di Kendall, come il gamma, sono ambedue bidirezionali.
Metodologia della ricerca sociale
37
Le coppie
X
Totale
A
B
C
A
a
b
c
a+b+c
B
d
e
f
d+e+f
C
g
h
i
g+h+i
a+d+g
b+e+h
c+f+i
N
Y
Totale
Coppie concordanti
P = a*(e+f+h+i) + b*(f+i) + d*(h+i) + e*i
Coppie discordanti
Q = c*(e+d+h+g) + b*(d+g) + f*(h+g) +e*g
Coppie massime (X)
Px = (a+d+g)*(b+e+h) + (a+d+g)*(c+f+i) + (b+e+h)*(c+f+i)
Coppie massime (Y)
Py = (a+b+c)*(d+e+f) + (a+b+c)*(g+h+i) + (d+e+f)*(g+h+i)
Metodologia della ricerca sociale
38
Le coppie concordanti
P = a*(e+f+h+i) + b*(f+i) + d*(h+i) + e*i
X
Y
X
A
B
C
A
a
b
c
B
d
e
f
C
g
h
i
Y
A
B
C
A
a
b
c
B
d
e
f
C
g
h
i
X
Y
X
A
B
C
A
a
b
c
B
d
e
f
C
g
h
i
Metodologia della ricerca sociale
Y
A
B
C
A
a
b
c
B
d
e
f
C
g
h
i
39
Le coppie discordanti
Q = c*(e+d+h+g) + b*(d+g) + f*(h+g) + e*g
X
Y
X
A
B
C
A
a
b
c
B
d
e
f
C
g
h
i
Y
A
B
C
A
a
b
c
B
d
e
f
C
g
h
i
X
Y
X
A
B
C
A
a
b
c
B
d
e
f
C
g
h
i
Metodologia della ricerca sociale
Y
A
B
C
A
a
b
c
B
d
e
f
C
g
h
i
40
Le coppie, il Gamma e il Tau-b: un esempio
X
Totale
A
B
C
A
12
4
1
17
B
6
9
8
23
C
2
7
11
20
20
20
20
60
Y
Totale
Coppie concordanti
P = 12*(9+8+7+11) + 4*(8+11) + 6*(7+11) + 9*11=703
Coppie discordanti
Q = 1*(9+6+7+2) + 4*(6+2) + 8*(7+2) +9*2=146
Coppie massime (X)
Px = 20*20 + 20*20 + 20*20=1200
Coppie massime (Y)
Py = 17*23 + 17*20 + 23*20=1191
Gamma= (703-146)/(703+146) = 0,656
Tau b= (703-146)/√(1200*1191) = 0,466
Metodologia della ricerca sociale
41
Le coppie, il Gamma e il Tau-c: un esempio
X
A
B
A
12
1
13
B
6
8
14
C
2
11
13
20
20
40
Y
Totale
X
Totale
Y
Totale
A
B
A
a
b
a+b
B
c
d
c+d
C
e
f
e+f
a+c+e
b+d+f
N
Totale
Coppie concordanti
P = a*(d+f)+c*f
P = 12*(8+11)+6*11=294
Coppie discordanti
Q = b*(c+e)+d*e
Q = 1(6+2)+8*2=24
Gamma= (294-24)/(294+24) = 0,849
Tau c= (294-24)*[2*2/(402*(2-1))]= 0,675
Metodologia della ricerca sociale
42
Esempi:
Cograduazione tra due variabili ordinali: il Tau-b e il gamma.
1. Assenza di cograduazione
Tabella 3x3
Anzianità di servizio
Media
Alta
10
12
8
30
28,6%
30,8%
28,6%
29,4%
12
13
11
36
34,3%
33,3%
39,3%
35,3%
13
14
9
36
37,1%
35,9%
32,1%
35,3%
35
39
28
102
100,0%
100,0%
100,0%
100,0%
Basso
Tenore di vita
Medio
Alto
Totale
Totale
Bassa
Chi quadrato
,335
Phi
,057
V di Cramer
,041
Tau-b di Kendall
-,023
Gamma
-,035
Metodologia della ricerca sociale
Sig.
,987
43
Esempi:
Cograduazione tra due variabili ordinali: il Tau-b e il gamma.
2. Cograduazione
Tabella 3x3
Anzianità di servizio
Media
Alta
24
6
0
30
68,6%
15,4%
0,0%
29,4%
10
26
4
40
28,6%
66,7%
14,3%
39,2%
1
7
24
32
2,9%
17,9%
85,7%
31,4%
35
39
28
102
100,0%
100,0%
100,0%
100,0%
Basso
Reddito da
lavoro
Medio
Alto
Totale
Totale
Bassa
Chi quadrato
79,703
Phi
,884
V di Cramer
,625
Tau-b di Kendall
,710
Gamma
,908
Metodologia della ricerca sociale
Sig.
,000
44
Esempi:
Cograduazione tra due variabili ordinali: il Tau-b e il gamma.
3. Contrograduazione
Tabella 3x3
Anzianità di servizio
Media
Alta
4
13
15
32
11,4%
33,3%
53,6%
31,4%
10
26
7
43
28,6%
66,7%
25,0%
42,2%
21
0
6
27
60,0%
0,0%
21,4%
26,5%
35
39
28
102
100,0%
100,0%
100,0%
100,0%
Bassa
Soddisfazione
lavorativa
Media
Alta
Totale
Totale
Bassa
Chi quadrato
43,385
Phi
,652
V di Cramer
,461
Tau-b di Kendall
-,412
Gamma
-,566
Metodologia della ricerca sociale
Sig.
,000
45
Esempi:
Cograduazione tra due variabili ordinali: il Tau-c e il gamma.
1. Assenza di cograduazione
Tabella 4x3
Titolo di studio
Basso
Tenore di vita
Medio
Alto
Totale
Nessuno / L.
Elementare
L. Media
Diploma
Laurea o
superiore
Totale
7
6
10
7
30
29,2%
31,6%
31,3%
25,9%
29,4%
10
5
11
10
36
41,7%
26,3%
34,4%
37,0%
35,3%
7
8
11
10
36
29,2%
42,1%
34,4%
37,0%
35,3%
24
19
32
27
102
100,0%
100,0%
100,0%
100,0%
100,0%
Chi quadrato
1,456
Phi
,119
V di Cramer
,084
Tau-c di Kendall
,033
Gamma
,045
Metodologia della ricerca sociale
Sig.
,962
46
Esempi:
Cograduazione tra due variabili ordinali: il Tau-c e il gamma.
2. Cograduazione
Tabella 4x3
Titolo di studio
Basso
Reddito da
lavoro
Medio
Alto
Totale
Nessuno / L.
Elementare
L. Media
Diploma
Laurea o
superiore
Totale
18
5
3
4
30
75,0%
26,3%
9,4%
14,8%
29,4%
4
11
22
3
40
16,7%
57,9%
68,8%
11,1%
39,2%
2
3
7
20
32
8,3%
15,8%
21,9%
74,1%
31,4%
24
19
32
27
102
100,0%
100,0%
100,0%
100,0%
100,0%
Chi quadrato
62,847
Phi
,785
V di Cramer
,555
Tau-c di Kendall
,554
Gamma
,679
Metodologia della ricerca sociale
Sig.
,000
47
Esempi:
Cograduazione tra due variabili ordinali: il Tau-c e il gamma.
3. Contrograduazione
Tabella 4x3
Titolo di studio
Bassa
Soddisfazione
lavorativa
Media
Alta
Totale
Nessuno / L.
Elementare
L. Media
Diploma
Laurea o
superiore
Totale
1
1
5
25
32
4,2%
5,3%
15,6%
92,6%
31,4%
4
16
23
0
43
16,7%
84,2%
71,9%
0,0%
42,2%
19
2
4
2
27
79,2%
10,5%
12,5%
7,4%
26,5%
24
19
32
27
102
100,0%
100,0%
100,0%
100,0%
100,0%
Chi quadrato
107,399
Phi
1,026
V di Cramer
,726
Tau-c di Kendall
-,708
Gamma
-,825
Metodologia della ricerca sociale
Sig.
,000
48
Altre misure di cograduazione
• D di Somer, un coefficiente uni-direzionale. Rispetto al gamma, al
denominatore troviamo le coppie appaiate, ovvero le coppie formate
da casi che hanno lo stesso valore sulla variabile in colonna,
considerata dipendente. Il coefficiente D indica la prevalenza di coppie
concordanti (cograduate) e discordanti (contrograduate) nell’insieme
delle coppie non legate sulla variabile indipendente.
• Nel caso di variabili ordinali con un elevato numero di modalità (es.
graduatorie o valori derivanti da un termometro dei sentimenti) la misura
di cograduazione più utilizzata è il ρ (rho) di Spearman:
N
r = 1-
6å d
2
i
i=1
2
N(N -1)
Metodologia della ricerca sociale
Dove d è la differenza tra i punteggi di un
caso sulle due variabili messe in relazione (ad
esempio tra le sue posizioni in due diverse
graduatorie), e N è la numerosità della
popolazione.
49
Scarica

17.19.59_B6-Analisi bivariata I parte