Analisi monovariata: valori caratteristici
• Spesso, per motivi di tempo o per convenienza, non si ha la possibilità di
confrontare le distribuzioni di frequenze. Per questo motivo è spesso più
conveniente confrontare alcuni elementi informatici sintetici, che sintetizzano
appunto alcuni aspetti della distribuzione.
• le caratteristiche fondamentali di una distribuzione di frequenza sono due:
la tendenza centrale e la variabilità
• la tendenza centrale indica, genericamente, verso quale modalità della
variabile i valori tendono a concentrarsi
• la variabilità, invece, ci informa su come i valori della variabile tendono a
disperdersi lontano dai valori di tendenza centrale
Per conoscere con correttezza la distribuzione
di una variabile è necessario conoscere il
comportamento sia della tendenza centrale
sia della variabilità, altrimenti si rischia di
fare degli errori di interpretazione.
Analisi monovariata: tendenza centrale
Come già visto in precedenza, anche le misure di tendenza centrale
dipendono dal tipo di variabile che si ha a disposizione
Variabile nominale = moda
La moda è la modalità della variabile alla quale è
associata la maggiore frequenza
50
Moda
40
30
20
10
0
Mus ul ma no Ca ttol i co Protes ta nte Buddi s ta
• è un valore molto povero, poiché ci dice solo
la modalità con la più alta frequenza e nulla più
• è possibile che oltre alla moda si possano
individuare delle sottomode, ossia modalità
diverse dalla moda ma con frequenze
relativamente alte (es. modalità protestante)
• se è possibile individuare una sola moda, la
distribuzione si definisce unimodale; se è
presente una sottomoda, si definisce bimodale
e così via
Analisi monovariata: tendenza centrale - 2
Oltre alla moda, per le variabili ordinali è possibile rilevare un altro valore
caratteristico:
Variabile ordinale = mediana
La mediana è la modalità del caso che occupa il posto «di mezzo»
nella distribuzione ordinata dei casi secondo quella variabile
Titolo di
studio
Freq.
Nessun titolo
mediana
%
%
cum.
30
2,5
2,5
Lic.
Elementare
509
42,4
44,7
Lic. Media
342
28,5
73,4
Diploma
264
22,0
95,4
Laurea
55
4,6
100,0
Totale
1.200
100,0
• Se N è dispari, c’è un solo caso centrale (N+1
/2). Se N è pari, i casi centrali sono due: N/2 e
N/2+1. Se entrambi i casi presentano la stessa
modalità, la variabile ha una sola mediana;
altrimenti le mediane sono due (se la variabile è
cardinale, la mediana è uguale alla media dei
valori assunti dai due casi)
• Se sono disponibili le frequenze cumulate, la
mediana
corrisponde
alla
modalità
in
corrispondenza della quale le frequenze
cumulate superano la soglia del 50%
Analisi monovariata: tendenza centrale - 3
Oltre alla moda ed alla mediana, per le variabili cardinali è possibile rilevare
un altro valore caratteristico, molto conosciuto:
Variabile cardinale = media aritmetica
La media è data dalla somma dei valori assunti dalla variabile su
tutti i casi, divisa per il numero di casi
N
X = X1 + X2 +…+ Xn =  Xi
i =1
N
N
poiché per calcolare la media
sono necessarie operazioni di
addizione, moltiplicazione e
divisione, è possibile calcolare
la media solo per le variabili
cardinali
• La formula a sx è la definizione formale di
media aritmetica e si legge «sommatoria di X
con i, per i che va da 1 a N, fratto N»
• è possibile calcolare la media anche se
abbiamo
a
disposizione
solo
la
rappresentazione tabulare con le frequenze
assolute. La formula diventa:
N
 X i × fi
i =1
N
Analisi monovariata: tendenza centrale - 5
Esercizio 1:
Ripartizione geografica
%
Italia Nord-occidentale
22,9
Italia Nord-orientale
22,5
Italia Centrale
18,7
Italia Meridionale
26,6
Italia Insulare
9,3
Totale
Tipo di comune
100,0
(N=60.000)
%
Comuni fino a 2.000 ab.
12,4
Comuni con 2.001 – 10.000 ab.
34,7
Comuni con 10.001 – 50.000 ab
30,9
Comuni con oltre 50.000 ab.
22,0
Totale
100,0
(N=48.664)
Che tipo di variabili
sono e che valori
caratteristici di
tendenza centrale
posso calcolare?
Analisi monovariata: tendenza centrale - 6
Esercizio 2:
N. di furti subìti
%
1
50,0
2
25,0
3
25,0
Totale
Che tipo di variabili
sono e che valori
caratteristici di
tendenza centrale
posso calcolare?
100,0
(N=200)
Settore economico intervistato
%
% cum.
Agricoltura
8,7
8,7
Attività manifatturiere
27,3
36,0
Servizi – terziario
38,7
74,7
Pubblica amministrazione e istruzione
25,3
100,0
Totale
100,0
(N=46.349)
Analisi monovariata: tendenza centrale - 4
• Ricapitolando:
• variabili nominali = moda
• variabili ordinali = moda, mediana
• variabili cardinali = moda, mediana, media aritmetica
• Nel caso sia possibili calcolare tutti i valori di tendenza centrale, non è
detto che questi coincidano tra loro. In genere è più opportuno utilizzare la
media, poiché riflette il comportamento di tutti i valori della variabile
• La media, tuttavia, risente molto dei valori estremi; quindi, in caso di
variabili cardinali che assumono valori molto alti o bassi rispetto alla media,
è più opportuno utilizzare la mediana
Analisi monovariata: variabilità - 1
• I valori caratteristici di tendenza centrale ci indicano il “baricentro” della
distribuzione, ma non ci dicono nulla sul modo di collocarsi delle altre
modalità intorno a questo baricentro
Xi
Yi
18
3
20
6
20
9
20
16
21
20
23
30
25
63
Xi = 21
Yi = 21
• Se osserviamo, ad esempio, le due distribuzioni della
variabile “età” a lato, possiamo notare che esse hanno la
stessa media, pari a 21, ma anche con uno sguardo
“rapido” possiamo notare che le modalità sono
estremamente differenti. Questa differenza viene
computata attraverso i valori caratteristici di variabilità.
• Come per la tendenza centrale, i valori caratteristici di
variabilità si differenziano a seconda del tipo di variabile
sottoposta ad analisi.
Analisi monovariata: variabilità - 2
VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI NOMINALI
•
Per una variabile nominale possiamo ipotizzare due condizioni:
1. Se tutti i casi si addensano in una sola modalità (che sarà la moda di
quella variabile), avremo una situazione di scarsa variabilità, ossia di
massima omogeneità (o squilibrio, o concentrazione)
2. Se tutti i casi sono, invece, equidistribuiti fra le modalità, ossia quando
ogni modalità raccoglie lo stesso numero di casi, si ha una situazione di
forte variabilità, quindi massima eterogeneità (o equilibrio, o
dispersione)
Modalità
Omogeneità
Eterogeneità
Ateo
0
25
Cattolico
100
25
Protestante
0
25
Buddista
0
25
Totale
100
100
E’ quindi necessario individuare
un indice che possa sintetizzare
la variabilità della distribuzione di
una variabile nominale.
Analisi monovariata: variabilità - 3
VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI NOMINALI
• Il valore caratteristico di variabilità per le nominali è l’indice di omogeneità (O)
O=
p2
1 +
p2
2 + … +
p2
k
2
=

p
k
i
i =1
L’indice di omogeneità è dato dalla somma dei quadrati delle
frequenze proporzionali (o proporzioni)
• L’indice assume valore massimo quando una sola proporzione
assume valore 1 (ossia tutti i casi si concentrano in quella modalità) e
tutte le altre hanno valore 0 (ossia nessun caso si concentra in queste
modalità). Per tali motivi il valore massimo dell’indice sarà 1
• Il valore minimo dell’indice dipende, invece, dal numero di modalità,
ed è pari a 1/k (dove k è il numero di modalità della variabile)
Analisi monovariata: variabilità - 4
VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI NOMINALI
Modalità
Prop. 1
Prop. 2
Prop. 3
Ateo
0,25
0
0,33
Cattolico
0,25
1
0,33
Protestante
0,25
0
0,33
Buddista
0,25
0
1
1
1
0,252 + 0,252 + 0,252 + 0,252 = 0,25
02 + 1 2 + 02 + 02 = 1
Totale
Ind. omogeneità
0,332 + 0,332 + 0,332 = 0,33
Se si confrontano le distribuzioni in colonna 1 e 3 si noterà che entrambe sono
completamente omogenee (ad ogni modalità è assegnato lo stesso numero di
casi), ma il risultato dell’indice di omogeneità sarà diverso: nel primo caso è
uguale a 0,25 (1/4 modalità), nel secondo è pari a 0,33 (1/3 modalità). Questo
perché, come abbiamo già detto, il valore minimo assunto dall’indice dipende dal
numero di modalità della variabile. E’ quindi opportuno modificare l’indice affinché
il suo campo di variazione sia uguale per tutte le variabili, indipendentemente dalle
modalità.
Indice di omogeneità relativa Orel
Campo di variazione: 0 ÷ 1
O – 1/k
X – Vmin
1 – 1/k
Vmax - Vmin
Contatti
Domingo Scisci
Università di Milano-Bicocca
Via Bicocca degli Arcimboldi 8 20126 Milano
Edificio U7/II Piano
Stanza 207
Telefono: 02 64487513
Mail: [email protected]
Quest'opera è stata rilasciata sotto la licenza Creative Commons Attribuzione-Non commerciale-Condividi allo stesso
modo 2.5 Italia. Per leggere una copia della licenza visita il sito web http://creativecommons.org/licenses/by-nc-sa/2.5/it/
o spedisci una lettera a Creative Commons, 171 Second Street, Suite 300, San Francisco, California, 94105, USA.
Scarica

lezione_20080515_stat_soc