Analisi monovariata: valori caratteristici
• Spesso, per motivi di tempo o per convenienza, non si ha la possibilità di
confrontare le distribuzioni di frequenze. Per questo motivo è spesso più
conveniente confrontare alcuni elementi informatici sintetici, che sintetizzano
appunto alcuni aspetti della distribuzione.
• le caratteristiche fondamentali di una distribuzione di frequenza sono due:
la tendenza centrale e la variabilità
• la tendenza centrale indica, genericamente, verso quale modalità della
variabile i valori tendono a concentrarsi
• la variabilità, invece, ci informa su come i valori della variabile tendono a
disperdersi lontano dai valori di tendenza centrale
Per conoscere con correttezza la distribuzione
di una variabile è necessario conoscere il
comportamento sia della tendenza centrale
sia della variabilità, altrimenti si rischia di
fare degli errori di interpretazione.
Analisi monovariata: tendenza centrale
Come già visto in precedenza, anche le misure di tendenza centrale
dipendono dal tipo di variabile che si ha a disposizione
Variabile nominale = moda
La moda è la modalità della variabile alla quale è
associata la maggiore frequenza
50
Moda
40
30
20
10
0
Mus ul ma no Ca ttol i co Protes ta nte Buddi s ta
• è un valore molto povero, poiché ci dice solo
la modalità con la più alta frequenza e nulla più
• è possibile che oltre alla moda si possano
individuare delle sottomode, ossia modalità
diverse dalla moda ma con frequenze
relativamente alte (es. modalità protestante)
• se è possibile individuare una sola moda, la
distribuzione si definisce unimodale; se è
presente una sottomoda, si definisce bimodale
e così via
Analisi monovariata: tendenza centrale - 2
Oltre alla moda, per le variabili ordinali è possibile rilevare un altro valore
caratteristico:
Variabile ordinale = mediana
La mediana è la modalità del caso che occupa il posto «di mezzo»
nella distribuzione ordinata dei casi secondo quella variabile
Titolo di
studio
Freq.
Nessun titolo
mediana
%
%
cum.
30
2,5
2,5
Lic.
Elementare
509
42,4
44,7
Lic. Media
342
28,5
73,4
Diploma
264
22,0
95,4
Laurea
55
4,6
100,0
Totale
1.200
100,0
• Se N è dispari, c’è un solo caso centrale (N+1
/2). Se N è pari, i casi centrali sono due: N/2 e
N/2+1. Se entrambi i casi presentano la stessa
modalità, la variabile ha una sola mediana;
altrimenti le mediane sono due (se la variabile è
cardinale, la mediana è uguale alla media dei
valori assunti dai due casi)
• Se sono disponibili le frequenze cumulate, la
mediana
corrisponde
alla
modalità
in
corrispondenza della quale le frequenze
cumulate superano la soglia del 50%
Analisi monovariata: tendenza centrale - 3
Oltre alla moda ed alla mediana, per le variabili cardinali è possibile rilevare
un altro valore caratteristico, molto conosciuto:
Variabile cardinale = media aritmetica
La media è data dalla somma dei valori assunti dalla variabile su
tutti i casi, divisa per il numero di casi
N
X = X1 + X2 +…+ Xn =  Xi
i =1
N
N
poiché per calcolare la media
sono necessarie operazioni di
addizione, moltiplicazione e
divisione, è possibile calcolare
la media solo per le variabili
cardinali
• La formula a sx è la definizione formale di
media aritmetica e si legge «sommatoria di X
con i, per i che va da 1 a N, fratto N»
• è possibile calcolare la media anche se
abbiamo
a
disposizione
solo
la
rappresentazione tabulare con le frequenze
assolute. La formula diventa:
N
 X i × fi
i =1
N
Analisi monovariata: tendenza centrale - 5
Esercizio 1:
Ripartizione geografica
%
Italia Nord-occidentale
22,9
Italia Nord-orientale
22,5
Italia Centrale
18,7
Italia Meridionale
26,6
Italia Insulare
9,3
Totale
Tipo di comune
100,0
(N=60.000)
%
Comuni fino a 2.000 ab.
12,4
Comuni con 2.001 – 10.000 ab.
34,7
Comuni con 10.001 – 50.000 ab
30,9
Comuni con oltre 50.000 ab.
22,0
Totale
100,0
(N=48.664)
Che tipo di variabili
sono e che valori
caratteristici di
tendenza centrale
posso calcolare?
Analisi monovariata: tendenza centrale - 6
Esercizio 2:
N. di furti subìti
%
1
50,0
2
25,0
3
25,0
Totale
Che tipo di variabili
sono e che valori
caratteristici di
tendenza centrale
posso calcolare?
100,0
(N=200)
Settore economico intervistato
%
% cum.
Agricoltura
8,7
8,7
Attività manifatturiere
27,3
36,0
Servizi – terziario
38,7
74,7
Pubblica amministrazione e istruzione
25,3
100,0
Totale
100,0
(N=46.349)
Analisi monovariata: tendenza centrale - 4
• Ricapitolando:
• variabili nominali = moda
• variabili ordinali = moda, mediana
• variabili cardinali = moda, mediana, media aritmetica
• Nel caso sia possibili calcolare tutti i valori di tendenza centrale, non è
detto che questi coincidano tra loro. In genere è più opportuno utilizzare la
media, poiché riflette il comportamento di tutti i valori della variabile
• La media, tuttavia, risente molto dei valori estremi; quindi, in caso di
variabili cardinali che assumono valori molto alti o bassi rispetto alla media,
è più opportuno utilizzare la mediana
Analisi monovariata: variabilità - 1
• I valori caratteristici di tendenza centrale ci indicano il “baricentro” della
distribuzione, ma non ci dicono nulla sul modo di collocarsi delle altre
modalità intorno a questo baricentro
Xi
Yi
18
3
20
6
20
9
20
16
21
20
23
30
25
63
Xi = 21
Yi = 21
• Se osserviamo, ad esempio, le due distribuzioni della
variabile “età” a lato, possiamo notare che esse hanno la
stessa media, pari a 21, ma anche con uno sguardo
“rapido” possiamo notare che le modalità sono
estremamente differenti. Questa differenza viene
computata attraverso i valori caratteristici di variabilità.
• Come per la tendenza centrale, i valori caratteristici di
variabilità si differenziano a seconda del tipo di variabile
sottoposta ad analisi.
Analisi monovariata: variabilità - 2
VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI NOMINALI
•
Per una variabile nominale possiamo ipotizzare due condizioni:
1. Se tutti i casi si addensano in una sola modalità (che sarà la moda di
quella variabile), avremo una situazione di scarsa variabilità, ossia di
massima omogeneità (o squilibrio, o concentrazione)
2. Se tutti i casi sono, invece, equidistribuiti fra le modalità, ossia quando
ogni modalità raccoglie lo stesso numero di casi, si ha una situazione di
forte variabilità, quindi massima eterogeneità (o equilibrio, o
dispersione)
Modalità
Omogeneità
Eterogeneità
Ateo
0
25
Cattolico
100
25
Protestante
0
25
Buddista
0
25
Totale
100
100
E’ quindi necessario individuare
un indice che possa sintetizzare
la variabilità della distribuzione di
una variabile nominale.
Analisi monovariata: variabilità - 3
VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI NOMINALI
• Il valore caratteristico di variabilità per le nominali è l’indice di omogeneità (O)
O=
p2
1 +
p2
2 + … +
p2
k
2
=

p
k
i
i =1
L’indice di omogeneità è dato dalla somma dei quadrati delle
frequenze proporzionali (o proporzioni)
• L’indice assume valore massimo quando una sola proporzione
assume valore 1 (ossia tutti i casi si concentrano in quella modalità) e
tutte le altre hanno valore 0 (ossia nessun caso si concentra in queste
modalità). Per tali motivi il valore massimo dell’indice sarà 1
• Il valore minimo dell’indice dipende, invece, dal numero di modalità,
ed è pari a 1/k (dove k è il numero di modalità della variabile)
Analisi monovariata: variabilità - 4
VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI NOMINALI
Modalità
Prop. 1
Prop. 2
Prop. 3
Ateo
0,25
0
0,33
Cattolico
0,25
1
0,33
Protestante
0,25
0
0,33
Buddista
0,25
0
1
1
1
0,252 + 0,252 + 0,252 + 0,252 = 0,25
02 + 1 2 + 02 + 02 = 1
Totale
Ind. omogeneità
0,332 + 0,332 + 0,332 = 0,33
Se si confrontano le distribuzioni in colonna 1 e 3 si noterà che entrambe sono
completamente omogenee (ad ogni modalità è assegnato lo stesso numero di
casi), ma il risultato dell’indice di omogeneità sarà diverso: nel primo caso è
uguale a 0,25 (1/4 modalità), nel secondo è pari a 0,33 (1/3 modalità). Questo
perché, come abbiamo già detto, il valore minimo assunto dall’indice dipende dal
numero di modalità della variabile. E’ quindi opportuno modificare l’indice affinché
il suo campo di variazione sia uguale per tutte le variabili, indipendentemente dalle
modalità.
Indice di omogeneità relativa Orel
Campo di variazione: 0 ÷ 1
O – 1/k
X – Vmin
1 – 1/k
Vmax - Vmin
Analisi monovariata: variabilità - 5
VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI NOMINALI
Modalità
Distribuzione A
Distribuzione B
%
p
p2
%
p
p2
Ateo
55,0
0,550
0,3025
89,5
0,895
0,8010
Cattolico
32,7
0,327
0,1069
3,5
0,035
0,0012
Protestante
7,6
0,076
0,0058
3,5
0,035
0,0012
Buddista
4,7
0,047
0,0022
3,5
0,035
0,0012
100,0
1
100,0
1
Totale
O = 0,3025 + 0,1069 + 0,0058 + 0,0022 = 0,42
O = 0,8010 + 0,0012 + 0,0012 + 0,0012 = 0,80
Orel = 0,42 – 1/4 = 0,23
Orel = 0,80 – 1/4 = 0,73
1 – 1/4
1 – 1/4
Analisi monovariata: variabilità - 6
VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI ORDINALI
• Abbiamo già visto il ruolo della mediana, ossia quello di dividere in due parti
uguali la distribuzione di una variabile almeno ordinale
• E’ utile suddividere la distribuzione anche in quattro parti, dalla numerosità
uguale. Le modalità che segnano il confine di ogni parte sono dette quartili.
• primo quartile: valore al di sotto del quale si trova il 25% dei casi, e al di
sopra del quale si trova il 75%
• terzo quartile: valore al di sotto del quale si trova il 75% dei casi, e al di
sopra il 25%
• Se il primo quartile corrisponde alla modalità più “bassa”, secondo l’ordine della
variabile, ed il terzo quartile alla modalità più “alta”, è possibile che la variabile sia
eterogenea
• Se la distanza tra il primo ed il terzo quartile è minore (ossia le modalità
individuate sono vicine tra loro), allora è possibile che la variabile sia più
omogenea
Analisi monovariata: variabilità - 7
VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI ORDINALI
Modalità
%
% cum.
%
% cum
Estrema sinistra
2,2
2,2
10,1
10,1
Sinistra
19,0
21,2
16,8
26,9
Centro-sinistra
32,8
54,0
12,0
38,9
Centro
14,0
68,0
25,1
64,0
Centro-destra
28,9
96,9
10,3
74,3
Destra
2,1
99,0
13,7
88,0
Estrema destra
1,0
100,0
12,0
100,0
Totale
100,0
100,0
• è possibile assumere come misura di variabilità la differenza tra il primo ed il terzo
quartile:
differenza interquartile
Q = Q3 – Q1
Analisi monovariata: variabilità - 8
VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI CARDINALI
• Per le variabili cardinali un primo valore che può fornirci un’indicazione della
variabilità della distribuzione è dato dal campo di variazione, ossia la differenza
tra il valore minimo ed il valore massimo.
Età
Xi
Xk
22
3
Se prendiamo, ad esempio, due distribuzione della variabile
“età”, possiamo calcolare il campo di variazione per
ciascuna distribuzione
23
15
• Xi  27 – 22 = 5
24
22
• Xk  67 – 3 = 64
25
25
26
56
27
67
L’informazione rilevata con il campo di variazione, tuttavia, è
abbastanza “grezza”, per il semplice motivo che tiene conto
esclusivamente del valore più alto e più basso della
distribuzione, e non ci dice nulla su ciò che accade al suo
interno.
Analisi monovariata: variabilità - 9
VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI CARDINALI
•
•
•
Altri valori caratteristici, invece, prendono come riferimento la media
aritmetica che, come abbiamo già detto, ci dà informazioni su quale valore i
casi della variabile tendono a concentrarsi.
Per questo motivo, un primo passaggio può essere quello di calcolare lo
scostamento di ogni valore dalla media della distribuzione (Xi – Xi),
seguendo questo ragionamento:
1. Più i casi si discostano dalla media, più la distribuzione di una
variabile cardinale risulta dispersa (poiché i casi tenderanno ad
assumere valori lontani dalla tendenza centrale);
2. Meno i casi, invece, si discostano dalla media, più la distribuzione
sarà concentrata (ossia i casi tenderanno a ruotare intorno alla
media)
Si potrebbe ipotizzare di calcolare la media di tutti gli scarti per creare un
valore che indichi la variabilità della distribuzione; tuttavia, per definizione la
somma degli scarti è pari a 0
N
(Xi – X) = 0
i
Analisi monovariata: variabilità - 10
VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI CARDINALI
•
La somma degli scarti è pari 0 per il semplice motivo che, all’interno di una
distribuzione, alcuni scarti saranno positivi (il valore è più alto del valore
della media), altri scarti saranno negativi (ossia il valore è più basso del
valore della media)
Media X = 24,5
Età
Xi
Xi - X
22
-2,5
23
-1,5
24
-0,5
25
0,5
26
1,5
27
2,5
(-2,5)+(-1,5)+(-0,5)+(0,5)+(1,5)+(2,5) = 0
• Una possibile soluzione a questo problema è
utilizzare i valori assoluti degli scarti della media (ossia
eliminare il “segno” dal numero – es. -2,5 diventa 2,5).
• La somma dei valori assoluti degli scarti dalla media,
divisa per N, è detta scostamento semplice medio. E’
un valore, tuttavia, che non viene usato per rilevare la
variabilità di una cardinale. Come è possibile, quindi,
risolvere il problema?
Analisi monovariata: variabilità - 11
VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI CARDINALI
•
•
La soluzione utilizzata consiste nell’elevare al quadrato gli scarti dalla media,
così da annullare il segno negativo dei valori.
Il vantaggio di questa soluzione, oltre ad eliminare il problema della somma
degli scarti pari a 0, consiste nel conferire un maggior peso agli scarti più
“forti” (elevandoli, appunto, al quadrato), accentuando così il carattere di
indicatore di variabilità allo scarto dalla media.
Età
Media X = 24,5
Xi
(Xi – X)2
22
6,25
23
2,25
24
0,25
25
0,25
• Ora è possibile calcolare un valore che ci permetta di
valutare la variabilità di una distribuzione cardinale. Il
primo valore caratteristico consiste nel dividere gli
scarti dalla media elevati al quadrato per N
26
2,25
S2
27
6,25
(6,25)+(2,25)+(0,25)+(0,25)+(2,25)+(6,25) = 17,5
VARIANZA
N
= (Xi – X)2 = 2,92
i
N
Analisi monovariata: variabilità - 12
VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI CARDINALI
•
La varianza, tuttavia, è una grandezza quadratica (infatti è costruita sugli
scarti dalla media elevati al quadrato) e per questo motivo non può essere
messa in relazione con altre grandezze (es. media). Perciò, nell’analisi
monovariata si utilizza più la radice della varianza:
DEVIAZIONE STANDARD
(o scarto quadratico medio)
S=
N
(Xi – X)2
i
N
La deviazione standard è il valore caratteristico di variabilità per le variabili
cardinali: esso ci permette di individuare il grado di dispersione di una
distribuzione:
- A valori bassi di S corrisponderà una bassa dispersione dei valori della
variabile tra le diverse modalità
- A valori altri di S, invece, corrisponderà un’alta dispersione dei valori della
variabile tra le diverse modalità
Analisi monovariata: variabilità - 13
VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI CARDINALI
Xi
(Xi – X)2
Yi
(Yi – Y)2
18
9
3
324
20
1
6
225
20
1
9
144
20
1
16
25
21
0
20
1
23
4
30
81
25
16
63
1.764
Poiché il valore della deviazione standard di
Yi è più alto di quello di Xi, possiamo
pensare che la prima vari più della seconda,
ma purtroppo questo non è sempre vero
perché:
• Le unità di conto o misura delle due
variabili possono essere diverse;
• pur avendo la stessa unità di misura/conto,
possono riferirsi a ordini di grandezza
diversi
(es.
una
distribuzione
con
vmax=18.000€, la seconda con vmax=50.000€)
Deviazione standard per le due distribuzioni:
(Xi – X)2 = 9+1+1+1+0+4+16 = 32
(Xi – X)2 = 32/7 = 4,57
N
(Xi – X)2 = 32/7 = 2,1
N
(Yi – Y)2 =324+225+…+1.764 = 2.564
(Yi – Y)2 = 2.564/7 = 366,29
N
(Yi – Y)2 = 2.564/7 = 19,1
N
Analisi monovariata: variabilità - 14
VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI CARDINALI
Xi
(Xi – X)2
Yi
(Yi – Y)2
18
9
3
324
20
1
6
225
20
1
9
144
20
1
16
25
21
0
20
1
23
4
30
81
25
16
63
1.764
X = 21
S = 2,1
Y = 21
S = 19,1
Poiché non è possibile confrontare
direttamente la deviazione standard di due
distribuzioni, è necessario costruire un nuovo
valore caratteristico
COEFFICIENTE DI VARIAZIONE
Cv = S
X
Più alto sarà il coefficiente di variazione,
più la distribuzione della variabile sarà
dispersa:
CvX = 2,1/21 = 0,10
CvY = 19,1/21 = 0,91
Contatti
Domingo Scisci
Università di Milano-Bicocca
Via Bicocca degli Arcimboldi 8 20126 Milano
Edificio U7/II Piano
Stanza 207
Telefono: 02 64487513
Mail: [email protected]
Quest'opera è stata rilasciata sotto la licenza Creative Commons Attribuzione-Non commerciale-Condividi allo stesso
modo 2.5 Italia. Per leggere una copia della licenza visita il sito web http://creativecommons.org/licenses/by-nc-sa/2.5/it/
o spedisci una lettera a Creative Commons, 171 Second Street, Suite 300, San Francisco, California, 94105, USA.
Scarica

lezione_20080520_stat_soc