Accenni di analisi
monovariata e
bivariata
ANALISI MONOVARIATA
Analisi delle informazioni ricavabili da una
variabile alla volta, prescindendo dalle
relazioni con le altre variabili
DISTRIBUZIONE DI FREQUENZA: è
l’ordinamento tabulare dei dati raccolti e
le frequenze corrispondenti
Verifiche da fare in sede di analisi
monovariata:
-
-
Verifica di PLAUSIBILITÀ: controllo
nella matrice dei “valori selvaggi”
AGGREGAZIONE DELLE MODALITÀ,
secondo due criteri:
- equilibrio della distribuzione
- affinità semantica

CONTROLLI SUI DATI: controlli di
plausibilità; controllo in matrice dei valori
selvaggi; controlli di congruenza; valori
mancanti; ponderazione
EQUILIBRIO DELLA DISTRIBUZIONE
Le modalità si possono raggruppare
secondo:
- I valori che assume la distribuzione
- L’affinità semantica (non si possono
assommare variabili con significato
divergente)

Valori mancanti
Distinguiamo 4 situazioni di valori mancanti:
 Non sa: il soggetto non sa rispondere
 Non applicabile: il soggetto non è tenuto a
rispondere
 Non risponde: il soggetto rifiuta di
rispondere
 Valore implausibile: si registra un valore
non compreso nel codice
Soltanto le ultime due costituiscono
realmente dei valori mancanti
Valori selvaggi
GENERE
Valid
Frequency
MASCHILE
396
FEMMINILE
423
15
1
Total
820
Percent
48,3
51,6
,1
100,0
Valid Percent
48,3
51,6
,1
100,0
Cumulative
Percent
48,3
99,9
100,0
Ponderazione
% nella
popolazione
% nel
campione
Pesi
Licenza
elementare
Licenza
media
29,5
25,3
42,4
40,8
Diploma
20,7
23,4
Laurea
7,4
10,5
29,5/25,3=
1,17
42,4/40,8=
1,04
20,7/23,4=
0,88
7,4/10,5=
0,70
15-17
18-21
22-25
26-29
32%
16%
15%
37%
48%
52%
LICEO CLASSICO
15,6%
LICEO SCIENTIFICO 19,7%
ALTRO LICEO
6,9%
IST. TECNICO
33,5%
IST. PROFESSIONALE 8,1%
ALTRO
16,2%
42,2%
41,6%
Misure e test applicabili in sede di analisi
monovariata
- Media aritmetica: somma dei valori,
divisi per il loro numero (solo se la
variabile è cardinale)
- Varianza: in una distribuzione, è la
distanza dei singoli valori dal valore
medio. Se la varianza è alta significa
che i singoli valori sono molto diversi tra
loro
-
-
Mediana: è il valore di una distribuzione
che la divide in due parti
Moda: è la modalità della distribuzione
che ha la frequenza maggiore, cioè il
maggior numero di casi (se la variabile
è nominale è l’unica misura di tendenza
centrale calcolabile)
Media, mediana, moda
X1 + X2 + X3 +… Xn
X=
N
Serie: 18, 20, 20, 20, 21, 23, 60
Media:
Mediana:
Moda:
La differenza interquartile
Dividiamo i casi della distribuzione in 4 parti di
eguale numerosità. I valori che segnano i confini
sono detti QUARTILI.
Il primo quartile è quel valore che ha sotto di sé il
25% della distribuzione e sopra di sé il 75%.
Il secondo quartile coincide con la mediana
Il terzo ha il 75% dei casi sotto di sé e il 25%
sopra.
Il quarto è l’ultimo caso della distribuzione
DIFFERENZA INTERQUARTILE: Q = Q3 ─ Q1
Deviazione standard e varianza
(per variabili cardinali)
Scostamento semplice medio
È la media aritmetica degli scarti di ogni
singolo valore dalla media
Es. 18, 20, 20, 20, 21, 23, 25
Media: 21
Per ogni valore della distribuzione si può
calcolare il suo scarto dalla media, fare la
somma di questi scarti e dividerli per il
numero dei casi

Deviazione standard (scarto quadratico
medio)
Prendiamo gli scarti dei singoli valori dalla
media e li eleviamo al quadrato;
sommiamo questi scarti al quadrato, li
dividiamo per il numero dei casi e poi
estraiamo la radice quadrata
 La varianza
È il quadrato della deviazione standard

Voti riportati agli esami di sociologia: 23, 21,
30, 18, 22, 29






Svolgimento:
Calcolo la media: 23,8
Calcolo gli scarti: 0,8 + 2,8 + 6,2 + 5,8 + 1,8 +
5,2
Somma di ogni scarto elevato al quadrato = 0,6
+7,8 +38,4+33,6+3,2+27,0=110,6
Calcolo la deviazione standard (è la radice
quadrata della somma degli scarti al quadrato,
divisa per il n° dei casi): √ 110,6/6 = 4,29
Ottengo la varianza (è il quadrato della dev.
standard) = 18,4
Distribuzione di frequenza della variabile
ordinale “auto-collocazione sulla scala
sinistra-destra”
v.a.
%
% cum.
Estrema sinistra
52
2,2
2,2
Sinistra
531
22,0
24,2
Centro-sinistra
742
30,8
55,0
Centro
313
13,0
68,0
Centro-destra
505
20,9
88,9
Destra
243
10,1
99,0
Estrema destra
24
1,0
100
2.410
100
Totale
ANALISI BIVARIATA
Studia le relazioni che possono esistere tra 2
variabili. Ha come prodotto una tabella di
contingenza.
Se riporto percentuali di riga:
totale marginale di riga = a 100
Se riporto percentuali di colonna:
totali marginali di colonna = a 100
Si scelgono le percentuali da riportare sulla
base di quella che consideriamo variabile
indipendente.
Il numero delle categorie non deve essere
troppo elevato
FREQUENZA OSSERVATA: è il numero dei
dati di una cella effettivamente rilevati
FREQUENZA ATTESA: è la frequenza teorica
che si dovrebbe ottenere sulla base dei totali
marginali, se tra le due variabili considerate
non esistesse alcuna associazione.
FREQ. ATTESA = Prodotto dei totali marginali
Totale dei casi
Se la frequenza osservata è molto diversa
rispetto alla freq. attesa, allora c’è
un’associazione tra le due variabili.
I risultati sono affidabili e statisticamente
significativi soltanto se le frequenze
attese sono alte e le freq. osservate
basse.
Chi-quadrato: testa la significatività della
relazione tra 2 variabili; si basa sulla
differenza tra freq. osservate e freq.
attese
Frequenze attese/Frequenze osservate
GENERE * TITOLO DI STUDIO (ricod) Crosstabulation
GENERE
MASCHILE
FEMMINILE
Total
TITOLO DI STUDIO (ricod)
ELEM.MEDIA DIPLOMA LAUREA
Count
179
139
76
Expected Count
166,6
154,5
72,9
% within GENERE
45,4%
35,3%
19,3%
% of Total
21,9%
17,0%
9,3%
Count
166
181
75
Expected Count
178,4
165,5
78,1
% within GENERE
39,3%
42,9%
17,8%
% of Total
20,3%
22,2%
9,2%
Count
345
320
151
Expected Count
345,0
320,0
151,0
% within GENERE
42,3%
39,2%
18,5%
% of Total
42,3%
39,2%
18,5%
Total
394
394,0
100,0%
48,3%
422
422,0
100,0%
51,7%
816
816,0
100,0%
100,0%
Scarica

6. Cenni di analisi monovariata e bivariata