Distribuzioni di frequenza e misure di tipicità
servono a descrivere e sintetizzare i dati, per poterli
comparare con altre distribuzioni (gruppi
differenti della popolazione o del campione esaminato).
Tali comparazioni sono alla base delle ipotesi circa
l’esistenza di una relazione fra due variabili
(RELAZIONI BIVARIATE).
Le tabelle che organizzano queste comparazioni sono
chiamate “TABELLE A DOPPIA ENTRATA” (o
cross-tabulation).
Alcune regole per le tabelle 2X2
 Nella lettura di una tabella 2X2 si parte sempre dall’esterno
per andare verso l’interno (cd. “principio del carciofo”)
• vengono indicate le variabili che sono incrociate:
- la variabile indipendente X è scritta in alto, in colonna
- la variabile dipendente Y è riportata in riga
• per ciascuna variabile sono specificate le modalità
• ciascuna cella della tabella contiene le frequenze, cioè il numero dei
casi che possiedono le diverse modalità considerate (le frequenze
possono essere espresse in termini assoluti o relativi percentuali)
 Quando le percentuali sono calcolate nella direzione della
variabile indipendente X - per colonna - si compara per riga;
viceversa, quando le percentuali sono calcolate nella
direzione della variabile dipendente Y - per riga - si compara
per colonna
Peculiarità delle tavole di contingenza
• Parsimoniosità. La tabella riporta solo le percentuali che
servono all’analisi
• Totali. Ogni riga o colonna percentuale finisce col totale
100 consentendo così al lettore di capire in che direzione
sono state calcolate le percentuali
• Base delle percentuali. Sotto al totale va riportata, in
genere tra parentesi, la base della percentuale (N). Infatti
un conto è dire che i giovani sono praticanti per il 25% su
un campione di 100 individui ed un altro dirlo
relativamente ad un campione di 1.000 individui. Si ritiene
imprudente calcolare e commentare percentuali su basi
inferiori a 50 casi
Peculiarità delle tavole di contingenza
• Cifre decimali, decimale zero, arrotondamenti,
quadratura. Si veda l’analisi monovariata
• Intestazione. Le tabelle debbono essere sempre intestate
(titolo) ed autoesplicative. Per esempio la frase “Intensità
della partecipazione politica secondo il partito votato” è
più chiara chiara rispetto a “Relazione fra partecipazione
politica e preferenza partitica”
• Somma di percentuali. La somma delle percentuali è
legittima se appartengono alla medesima distribuzione, ma
non lo è qualora si considerino due o più distribuzioni.
Leggere una tabella …
• selezionare le modalità più significative e centrare su di
queste l’analisi
• una percentuale affinché sia degna di nota deve essere
superiore ai 5 punti percentuali.
Leggere una tabella …
• Un altro modo di lettura consiste nel calcolare la differenza
di fra le due modalità di risposta oppure fra le risposte
positive e negative.
• Un’osservazione va fatta sulla forma della relazione: se al
crescere di una variabile cresce anche l’altra si può dire
che la relazione che si presenta agli occhi del ricercatore è
monotonica o lineare.
• La compattazione della tabella è importante in special
modo quando la tabella presenta l’incrocio di più di due
variabili
Come accertare l’esistenza di una
effettiva relazione causale tra la
variabile indipendente X e la
variabile dipendente X ?
 IPOTESI NULLA e TEST DEL CHI
QUADRO
 introduzione di una VARIABILE DI
CONTROLLO
Esempio: relazione fra grado di interesse per la
campagna presidenziale e voto
frequenze osservate
Grado di interesse per la campagna presidenziale
Non interessato Molto interessato
Votato
Non votato
Totale
Totale
58%
(313)
42%
(227)
87%
(452)
13%
(68)
72%
(765)
28%
(295)
51%
(540)
49%
(520)
100%
(1060)
Fonte: Campbell, et al. (1964, tab. 4-3, p. 56), sono stati esclusi coloro che
dichiarano di essere “abbastanza interessati”.
LOGICA DEL TEST DEL CHI QUADRO
 Formulazione dell’ipotesi nulla, che assume
l’assenza di relazione fra le le due variabili
considerate.
 Individuazione delle frequenze che si dovrebbero
ottenere se l’ipotesi nulla fosse vera (frequenze
“attese”).
 Comparazione delle frequenze attese con quelle
“osservate” empiricamente nel campione
analizzato.
 Valutazione della probabilità con cui la differenza
tra frequenze “attese” e quelle “osservate” possa
essere dovuta al caso.
Esempio: relazione fra grado di interesse per la
campagna presidenziale e voto
frequenze attese
Grado di interesse per la campagna presidenziale
Non interessato Molto interessato
Totale
Votato
765x540 = 390
1060
765x520 = 375
1060
Non votato
295x540 = 150
1060
295x520 = 145
1060
72%
(765)
28%
(295)
51%
(540)
49%
(520)
100%
(1060)
Totale
Fonte: Campbell, et al. (1964, tab. 4-3, p. 56), sono stati esclusi coloro che
dichiarano di essere “abbastanza interessati”.
Relazione tra grado di interesse per la campagna presidenziale e voto:
un esempio di calcolo del CHI QUADRO
Votato
Non votato
Totale
Grado di interesse per la campagna
presidenziale
Non interessato Molto interessato Totale
313
452
765
390
375
-77
77
15,20
15,81
227
150
77
39,53
68
145
-77
40,89
295
540
520
1060
Fonte: Campbell, et al. (1964, tab.4-3, p.56), sono stati esclusi coloro che dichiarano di essere abbastanza interessati.
Interpretazione: in ciascuna cella, la prima riga è la frequenza osservata, la seconda la frequenza attesa, la terza è la
differenza tra frequenze osservate ed attese e la quarta linea è il quadrato di questa differenza, diviso per le frequenze
attese, che indica il contributo di ciascuna cella al chi quadro totale. Ad esempio, nella prima cella in alto a sinistra:
freq. Osservate = 313
freq. Attese = 390
Differenza (O-A) = (313-390)=-77
(O  A) 2 (313  390) 2 ( 77) 2 5929



 15,20
A
390
390
390
CONDIZIONI DEL TEST
 che il campione sia estratto casualmente, cioè
che ogni individuo abbia la stessa probabilità di
essere estratto di ogni altro;
 che le categorie o modalità di ciascuna delle
due variabili siano mutuamente esclusive ed
esaustive, per cui ciascun individuo o caso non
può essere collocato che in una ed una sola
cella;
 che la maggioranza (più dell’80%) delle
frequenze attese abbiano una frequenza
superiore a 5 casi.
RELAZIONI TRIVARIATE
Per esaminare in modo sistematico la relazione fra
due variabili bisogna introdurre una terza variabile
di controllo (detta ‘test factor’):
ISTRUZIONE
ETA’
TOLLERANZA
“tenere costante” la relazione
• Scopo dell’elaborazione è determinare se la relazione fra la variabile
indipendente X e la variabile dipendente Y sia dovuta o meno ad un
terzo fattore Z (test factor).
• Dire che la relazione fra X ed Y dipende da Z significa che se Z non si
manifestasse, allora la relazione fra X e Y non esisterebbe.
ES: “I giovani sono più tolleranti degli anziani perché hanno un
maggiore livello di istruzione” significa che “Se i giovani non
avessero un maggiore livello di istruzione degli anziani, non sarebbero
più tolleranti”.
Per accertare se il livello di istruzione esercita un tale effetto sulla
relazione bivariata fra età e tolleranza, bisogna tenere sotto controllo,
ovvero mantenere costante, la terza variabile addizionale così da
specificarne l’eventuale influenza sulla relazione stessa.
• Un modo per tenere costante il test factor è la classificazione in
sottogruppi: si creano tanti sottogruppi quante sono le modalità della
variabile di controllo e si esamina la relazione bivariata iniziale per
ciascuno di tali sottogruppi.
ES: compariamo il livello di tolleranza dei giovani con quello degli
anziani, a parità di livello di istruzione.
Relazione spuria
Stato civile
(variabile
indipendente X)
ETA’
(variabile di
controllo Z)
Consumo
regolare di
dolci
(variabile
dipendente Y)
Consumo di dolci per stato civile
STATO CIVILE
CONSUMO
DI DOLCI
Sposati
Non sposati
Regolare
63%
75%
Non
regolare
37%
25%
TOTALE
100%
(2010)
100%
(999)
Consumo di dolci per età
ETA’
CONSUMO
DI DOLCI
Fino a 25 anni
25 anni e oltre
Regolare
80%
58%
Non
regolare
20%
42%
TOTALE
100%
(1302)
100%
(1707)
Consumo di dolci per stato civile,
controllando per l’età
ETA’
Fino a 25 anni
25 anni e oltre
STATO CIVILE
CONSUMO
DI DOLCI
Sposato
Non
sposato
Sposato
Non
sposato
Regolare
81%
79%
58%
60%
Non
regolare
19%
21%
42%
40%
Totale
100%
(503)
100%
(799)
100%
(1507)
100%
(200)
Perché dunque le persone sposate mangiano meno
dolci delle persone non sposate ?
Perché gli sposati sono, in percentuale, più anziani
dei non sposati e le persone più anziane di solito
mangiano meno dolci.
 La relazione iniziale fra stato civile e consumo
di dolci è quindi annullata, poiché dovuta alla
variabile età e non allo stato civile: i non sposati
consumano dolci più regolarmente degli sposati
perché più giovani e non per non aver contratto
matrimonio.
Relazione spuria o
variabile interveniente ?
VARIABILE
INDIPENDENTE
VARIABILE
DIPENDENTE
VARIABILE DI
CONTROLLO
VARIABILE
VARIABILE
INDIPENDENTE INTERVENIENTE
VARIABILE
DIPENDENTE
Relazione fra
assenteismo dal lavoro e stato civile
STATO
CIVILE
ASSENTEISMO
ONERI
CASALINGHI
Assenteismo dal lavoro per stato civile
STATO CIVILE
(DONNE)
ASSENTEISMO
Sposate
Non sposate
Sì
2.3%
6.4%
No
97.7%
93.6%
TOTALE
100%
(10560)
100%
(6496)
Assenteismo dal lavoro per stato civile,
controllando per quantità di lavoro domestico
ONERI CASALINGHI
Elevata
Scarsa o nulla
STATO CIVILE
ASSENTEISMO
Sposato
Non
sposato
Sposato
Non
sposato
Sì
7.0%
5.7%
2.2%
1.9%
No
93.0%
94.3%
97.8%
98.1%
TOTALE
100%
(5680)
100%
(1104)
100%
(816)
100%
(9126)
Quantità di lavoro domestico per stato civile
STATO CIVILE
(DONNE)
ONERI
CASALINGHI
Sposate
Non sposate
Elevata
88%
10%
Scarsa o nulla
12%
90%
100%
(6496)
100%
(10230)
TOTALE
Perché sul lavoro le donne sposate sono più assenteiste
delle donne non sposate ?
Perché le donne sposate hanno maggiori oneri casalinghi
delle nubili e questa variabile influenza l’assenteismo.
NB: non si può nemmeno dire, però, che il matrimonio di per sé non
causi assenteismo: comparando infatti il rapporto tra numero di sposate e
nubili con molti oneri casalinghi (5680/1104), con il rapporto tra sposate
e nubili con ridotti oneri casalinghi (816/9126), si trova che la relazione
si inverte: di fatto la maggioranza delle donne sposate ha elevati oneri
casalinghi (88%), mentre fra le donne nubili solo il 10% ha elevati oneri
domestici.
 La relazione iniziale fra stato civile e assenteismo è
quindi mediata e non annullata dalla variabile oneri
casalinghi, che perciò diventa una variabile
interveniente.
Relazione spuria o
variabile interveniente ?
Più elevato
livello di
assenteismo
Matrimonio
Maggiori oneri
casalinghi
Matrimonio
Maggiori oneri
casalinghi
Più elevato
livello di
assenteismo
Compariamo le due relazioni esaminate:
Esempio del consumo di dolci:
STATO CIVILE
ETA’
CONSUMO DI DOLCI
(relazione spuria)
Esempio dell’assenteismo:
MATRIMONIO
ONERI
CASALINGHI
ASSENTEISMO
(relazione condizionale indiretta,
con variabile interveniente )
Regole per distinguere relazioni spurie
da relazioni condizionate
da una variabile interveniente
 Esaminare il numero di casi a fondo di ciascuna colonna:
• quando il rapporto fra i totali di ciascun gruppo o modalità
della variabile di controllo è uguale, ciò significa
probabilmente che la relazione è spuria
• quando il rapporto non è uguale, allora la variabile di controllo
probabilmente interviene fra variabile indipendente e
dipendente
 Se la relazione tra variabile di controllo e variabile
indipendente è reversibile - se cioè la direzione di causalità può
essere invertita indifferentemente fra le due variabili - allora
siamo in presenza di una relazione spuria. Altrimenti, se la
freccia di causalità può solo andare dalla variabile indipendente a
quella di controllo e non viceversa, è più difficile sostenere che la
variabile di controllo possa influenzare quella indipendente (si
tratterebbe in questo caso di variabile interveniente).
Scarica

6 - Paolo Bellucci