Accenni di analisi
monovariata e
bivariata
ANALISI MONOVARIATA
Analisi delle informazioni ricavabili da una
variabile alla volta, prescindendo dalle
relazioni con le altre variabili
DISTRIBUZIONE DI FREQUENZA: è
l’ordinamento tabulare dei dati raccolti e
le frequenze corrispondenti
Verifiche da fare in sede di analisi
monovariata:
-
-
Verifica di PLAUSIBILITÀ: controllo
nella matrice dei “valori selvaggi”
AGGREGAZIONE DELLE MODALITÀ,
secondo due criteri:
- equilibrio della distribuzione
- affinità semantica

CONTROLLI SUI DATI: controlli di
plausibilità; controllo in matrice dei valori
selvaggi; controlli di congruenza; valori
mancanti; ponderazione
EQUILIBRIO DELLA DISTRIBUZIONE
Le modalità si possono raggruppare
secondo:
- I valori che assume la distribuzione
- L’affinità semantica (non si possono
assommare variabili con significato
divergente)

Valori mancanti
Distinguiamo 4 situazioni di valori mancanti:
 Non sa: il soggetto non sa rispondere
 Non applicabile: il soggetto non è tenuto a
rispondere
 Non risponde: il soggetto rifiuta di
rispondere
 Valore implausibile: si registra un valore
non compreso nel codice
Soltanto le ultime due costituiscono
realmente dei valori mancanti
Valori selvaggi
GENERE
Valid
Frequency
MASCHILE
396
FEMMINILE
423
15
1
Total
820
Percent
48,3
51,6
,1
100,0
Valid Percent
48,3
51,6
,1
100,0
Cumulative
Percent
48,3
99,9
100,0
Ponderazione
% nella
popolazione
% nel
campione
Pesi
Licenza
elementare
Licenza
media
29,5
25,3
42,4
40,8
Diploma
20,7
23,4
Laurea
7,4
10,5
29,5/25,3=
1,17
42,4/40,8=
1,04
20,7/23,4=
0,88
7,4/10,5=
0,70
15-17
18-21
22-25
26-29
32%
16%
15%
37%
48%
52%
LICEO CLASSICO
15,6%
LICEO SCIENTIFICO 19,7%
ALTRO LICEO
6,9%
IST. TECNICO
33,5%
IST. PROFESSIONALE 8,1%
ALTRO
16,2%
42,2%
41,6%
Misure e test applicabili in sede di analisi
monovariata
- Media aritmetica: somma dei valori,
divisi per il loro numero (solo se la
variabile è cardinale)
- Varianza: in una distribuzione, è la
distanza dei singoli valori dal valore
medio. Se la varianza è alta significa
che i singoli valori sono molto diversi tra
loro
-
-
Mediana: è il valore di una distribuzione
che la divide in due parti
Moda: è la modalità della distribuzione
che ha la frequenza maggiore, cioè il
maggior numero di casi (se la variabile
è nominale è l’unica misura di tendenza
centrale calcolabile)
Media, mediana, moda
X1 + X2 + X3 +… Xn
X=
N
Serie: 18, 20, 20, 20, 21, 23, 60
Media:
Mediana:
Moda:
Distribuzione di frequenza della variabile
ordinale “auto-collocazione sulla scala
sinistra-destra”
v.a.
%
% cum.
Estrema sinistra
52
2,2
2,2
Sinistra
531
22,0
24,2
Centro-sinistra
742
30,8
55,0
Centro
313
13,0
68,0
Centro-destra
505
20,9
88,9
Destra
243
10,1
99,0
Estrema destra
24
1,0
100
2.410
100
Totale
ANALISI BIVARIATA
Studia le relazioni che possono esistere tra 2
variabili. Ha come prodotto una tabella di
contingenza.
Se riporto percentuali di riga:
totale marginale di riga = a 100
Se riporto percentuali di colonna:
totali marginali di colonna = a 100
Si scelgono le percentuali da riportare sulla
base di quella che consideriamo variabile
indipendente.
Il numero delle categorie non deve essere
troppo elevato
FREQUENZA OSSERVATA: è il numero dei
dati di una cella effettivamente rilevati
FREQUENZA ATTESA: è la frequenza teorica
che si dovrebbe ottenere sulla base dei totali
marginali, se tra le due variabili considerate
non esistesse alcuna associazione.
FREQ. ATTESA = Prodotto dei totali marginali
Totale dei casi
Se la frequenza osservata è molto diversa
rispetto alla freq. attesa, allora c’è
un’associazione tra le due variabili.
I risultati sono affidabili e statisticamente
significativi soltanto se le frequenze
attese sono alte e le freq. osservate
basse.
Chi-quadrato: testa la significatività della
relazione tra 2 variabili; si basa sulla
differenza tra freq. osservate e freq.
attese
Frequenze attese/Frequenze osservate
GENERE * TITOLO DI STUDIO (ricod) Crosstabulation
GENERE
MASCHILE
FEMMINILE
Total
TITOLO DI STUDIO (ricod)
ELEM.MEDIA DIPLOMA LAUREA
Count
179
139
76
Expected Count
166,6
154,5
72,9
% within GENERE
45,4%
35,3%
19,3%
% of Total
21,9%
17,0%
9,3%
Count
166
181
75
Expected Count
178,4
165,5
78,1
% within GENERE
39,3%
42,9%
17,8%
% of Total
20,3%
22,2%
9,2%
Count
345
320
151
Expected Count
345,0
320,0
151,0
% within GENERE
42,3%
39,2%
18,5%
% of Total
42,3%
39,2%
18,5%
Total
394
394,0
100,0%
48,3%
422
422,0
100,0%
51,7%
816
816,0
100,0%
100,0%
COME VERIFICARE LA RELAZIONE TRA
DUE VARIABILI?
Chi-quadrato: testa la significatività della
relazione tra 2 variabili; si basa sulla differenza
tra frequenze osservate (fo) e frequenze attese
(fe)
(fo─ fe)2
χ2 = Σ
fe
Test statistico di verifica delle ipotesi:
In realtà non verifica (= dimostrare che è
vera) un’ipotesi, ma può solo arrivare a
falsificarla (= dimostrare che è falsa)
Il chi quadro,quindi, può arrivare a
dimostrare che l’ipotesi nulla (secondo la
quale non esiste una relazione fra la
variabili) è falsa
Esercizi
A. Calcola la MEDIANA della serie di cifre che segue:
Età: 15, 37, 86, 36, 19, 39, 55, 89, 16, 25, 41, 70, 67, 12
Svolgimento:
12, 15, 16, 19, 25, 36, 37, 39, 41, 55, 67, 70, 86, 89
Tra 37 e 39
B. Calcola la VARIANZA per la serie di numeri sottoelencata:
Voti riportati agli esami di sociologia: 23, 21, 30, 18, 22, 29
Svolgimento:
Calcolo la media: 23,8
Calcolo gli scarti: 0,8 + 2,8 + 6,2 + 5,8 + 1,8 + 5,2
Somma di ogni scarto elevato al quadrato = 0,6 +7,8
+38,4+33,6+3,2+27,0=110,6
Calcolo la deviazione standard (è la radice quadrata della somma degli scarti al
quadrato, divisa per il n° dei casi): √ 110,6/6 = 4,29
Ottengo la varianza (è il quadrato della dev. standard) = 18,4
C. Calcola la VARIANZA per la serie di numeri sottoelencata:
Voti riportati agli esami di metodologia: 27, 28, 30, 27, 29, 30
Svolgimento:
Calcolo la media: 28,5
Calcolo gli scarti: 1,5 + 0,5 + 1,5 + 1,5 + 0,5 + 1,5
Somma di ogni scarto elevato al quadrato
2,25+0,25+2,25+2,25+0,25+2,25= 9,4
Calcolo la deviazione standard: √ 9,4/6 = 1,2
Ottengo la varianza (è il quadrato della dev. standard) = 1,5
Svolgimento:
Freq. osservata: 142
Freq. Attesa: 396 x 231/ 819 = 111,7
Freq. osservata: 89
Freq. Attesa: 423 x 231/ 819 = 119,3
Freq. osservata: 254
Freq. Attesa: 396 x 588/ 819 = 284,3
Freq. osservata: 334
Freq. Attesa: 423 x 588/ 819 = 303,7
χ2 = Σ (fo─ fe)2 / fe
[(142 ─ 111,7)2 / 111,7 ] + [(89 ─ 119,3) 2 / 119,3 ] + [(254 ─ 284,3) 2 /284,3 ] +
[(334 ─ 303,7) 2 / 303,7 ] = 22,1
Gradi di libertà: (n° righe – 1) x (n° colonne – 1)
(2-1) x (2-1) = 1
Verifico il valore del chi-quadrato nella tavola di distribuzione e osservo che è < 0,0001
La relazione tra le due variabili esaminate è significativa (l’ipotesi nulla – secondo la quale non esiste
una relazione fra la variabili – è falsa)
Scarica

Cenni di analisi monovariata e bivariata