TQuArs – a.a. 2010/11
Tecniche quantitative per l’analisi nella ricerca sociale
Giuseppe A. Micheli
LEZIONE A.4
Modalità rappresentative
In questa lezione..
In questa lezione proseguiremo nella procedura di sintesi delle
informazioni.
Abbiamo già conosciuto i primi tre passi di sintesi:
La ricodifica in matrice;
La classificazione in forma di variabile statistica
La rappresentazione grafica.
Il quarto passo è quello della individuazione e calcolo di misure di
sintesi delle distribuzioni di frequenza. Esse sono come i tratti
identificativi di una carta d'identità.
In questa lezione acquisteremo familiarità con la media e la moda.
Ne vedremo le proprietà e le procedure di calcolo.
Infine calcoleremo tali misure per miscugli di popolazioni.
Tratti identificativi
Tratti identificativi:
Quanto è alto? __
Quanto pesa?___
Colore occhi____
………….. _____
Carta di identità di
NOTA: sintetizzando
perdiamo sempre
informazioni. Se di un
ricercato sappiamo solo che è
alto 1.70, pesa 63 kg. e ha
occhi castani, quanti di voi
potrebbero essere "vittime di
errore giudiziario"?
Pippo Superman
Come in una carta d'identità, non potendo descrivere la persona o variabile
statistica nei minimi dettagli, ci limiteremo a identificarla mediante alcune
misure sintetiche:
misure di posizione (centro)
misure di dispersione o variabilità
altre misure di forma (simmetria,...)
Tratti identificativi:
Quale è il reddito
medio? ________
Quanta è la
disuguaglianza?_
Carta di identità di
E’ asimmetrica?__
Distribuzione dei
redditi di XLand
………….. _____
Misure di posizione
Le misure di posizione misurano l'attitudine di un fenomeno X a localizzarsi
in un intorno delimitato dell'asse reale, che siamo indotti a ritenere il
centro di X.
Quale è il
partito di
maggioranza
?
A che età
avviene ‘di
regola’ l’andata
in pensione?
La lunghezza delle gonne
varia di anno in anno.
Qual è la moda di
quest’anno?
Qual è il numero medio di
figli per donna in Italia?
Possiamo chiamare queste misure genericamente "medie".
Due definizioni di media
Una media M = g(x1, x2,..., xm) è un indice sintetico di una distribuzione statistica, che alle diverse modalità del carattere ne
sostituisce una sola che, per il modo in cui è stata scelta, possa
ritenersi rappresentativa o tipica.
Se la v.s. è quantitativa la media indicherà l'ordine di grandezza del
carattere studiato. In caso di v.s. quantitative definiamo:
Media in senso stretto di una v.s. X è una qualsiasi funzione reale
M = (x1,.., xm; n1,.., nm) che soddisfi 3 proprietà:
Internalità [Cauchy]:
la media deve essere
compresa tra il minimo e il massimo valore assunto dalla variabile.
Monotonicità: date due
v.s. X e Y, con osservazioni identiche salvo (almeno) una per la quale
sia yi >xi, la media di Y
non può essere più piccola della media di X.
Moltiplicatività [o invarianza rispetto all’unità di misura]: se C è
una costante reale e ogni modalità xi è moltiplicata per C, anche la
media è moltiplicata per
C.
Medie analitiche, medie lasche
La definizione di media in senso stretto è restrittiva.
Può essere soddisfatta da medie calcolate su v.s. quantitative, che quindi
possono «coinvolgere in un'unica funzione  di sintesi matematica
tutti i termini della distribuzione, xi e ni». Una media calcolata in
questo modo si dice analitica.
Una media che non coinvolge nel calcolo tutti i termini della
distribuzione si dice media lasca.
Grazie alla loro procedura di costruzione, alcune medie lasche possono
essere calcolate anche per mutabili. In compenso potranno non godere
della terza proprietà (di monotonicità).
Medie lasche (o "medie in senso lato“) sono la moda e la mediana.
Di medie analitiche ce n’è una gran varietà. La più ‘naturale’ e di uso
comune è la media aritmetica ponderata.
In questa lezione faremo conoscenza della Media aritmetica e della Moda.
Medie come modalità
rappresentative
Di medie, s’è detto, sia generiche che in senso stretto, se ne possono definire molte. Noi ci fermeremo su alcune, a cui corrisponde un significato
logico comprensibile e utile. Medie che siano per noi davvero rappresentative della popolazione analizzata. In particolare definiremo medie che:
Corrispondono alla modalità più osservata (es. partito di maggioranza, abbigliamenti ‘in’ o di moda…).
Corrispondono alla modalità ‘di mezzo’ della popolazione, quella
che sta ‘al centro del plotone’ (vedi l’immagine oraziana dell’”in medio
stat virtus”, o ‘l’uomo medio’ di Quetelet o di Asimov).
Corrispondono a una modalità ‘virtuale’ che, se sostituita a tutte
le modalità di fatto osservate, lascia immutata una misura ‘di sintesi’ della popolazione (es.: il reddito medio è quello che sostituito
ai diversi redditi lascia inalterato il reddito complessivo della collettività; il tasso di incremento del costo della vita negli anni ’90 è
quello che, sostituito ai diversi tassi annui, lascia inalterato il tasso di
incremento sull’intero decennio..).
Medie e livelli di misurazione
I tre significati di media corrispondono a livelli diversi di misurazione.
Medie che
corrispondono..
Richiedono operazioni di ..
Livello di
misurazione
Alla modalità più
osservata
Spoglio delle modalità, di
qualunque tipo esse siano
Tutte
(nominali, ordinali, quantitat.)
Alla modalità ‘di
mezzo’
Ordinamento delle modalità in
una sequenza crescente o
decrescente
Ordinabili
(ordinali,
quantitative)
Alla modalità che,
sostituita alle xi,
lascia immutata una
misura di sintesi
Sintesi algebrica delle proprietà
Solo
individuali (somma, prodotto) per quantitative
determinare la corrispondente
proprietà collettiva
Medie e funzione obiettivo
Anche se si possono applicare solo a variabili quantitative, medie del
terzo tipo (le medie analitiche) corrispondono all’idea più diffusa e all’uso
comune delle medie. Esse implicano l’esistenza di una sintesi algebrica
delle proprietà individuali in una corrispondente proprietà del
collettivo, che abbia un significato utile e condiviso.
Media obiettivo (o secondo Chisini) rispetto a una data funzione obiettivo è quel valore numerico che, sostituito a ogni modalità osservata,
lascia inalterata la funzione obiettivo stessa. Una media analitica richiede:
la possibilità di maneggiare algebricamente le modalità individuali
osservate,
una scelta ragionata della misura di sintesi.
Dunque non esiste una media buona “per tutte le stagioni”, ma la
media giusta per ogni “funzione obiettivo”.
Intensità totale e media
aritmetica
La funzione obiettivo più diffusa è l’intensità totale del carattere
studiato, cioè la somma delle modalità osservate nelle N unità della
popolazione. L’intensità totale ripartita tra le N unità è la media
aritmetica.
m
m
x n
i 1
N
mx  M ( X )  E ( X )  m1   xi f i 
i 1
i i
Media aritmetica ‘ponderata’: le modalità sono ‘ponderate’ con le
rispettive frequenze
Carattere / popolazione
Intensità totale
Media aritmetica
Reddito annuo / cittadini
Prodotto interno
Reddito pro capite
Nascita di un figlio
nell’anno / donne
Totale nascite annue
Numero medio figli per
donna
Ore lezione / docenti
Monte ore
Numero medio ore/docente
Furti / province
Ammontare nazionale
microcriminalità
Media furti per provincia
Calcolo della media aritmetica
xi
ni
fi= ni /N
xi ni
xi fi
x1
n1
f1= n1/N
x1 n1
x1 f1
x2
n2
f2= n2/N
x2 n2
x2 f2
x3
n3
f3= n3/N
x3 n3
x3 f3
L’intensità totale del carattere studiato si ottiene
facendo la somma della
colonna delle intensità
specifiche:
x4
n4
f4= n4/N
x4 n4
x4 f4
T = xi ni
x5
n5
f5= n5/N
x5 n5
x5 f5
N
1
T
T/N
Per calcolare una media aritmetica useremo la rappresentazione incolonnata di una
v.s.. Alle colonne già note dovremo aggiungere quella delle intensità specifiche (xi
ni) o, equivalentemente, delle intensità
specifiche relative (xi fi).
La media aritmetica si ottiene dividendo T per N,
oppure facendo la somma
della colonna delle intensità specifiche relative:
m = xi fi
m = T/N
Un esempio su variabili
discrete (e 3 annotazioni)
10
35
0,7609
350
7,61
50
9
0,1956
450
9,78
100
2
0,0435
200
4,35
niente
46
1,00
m = xi fi = 21,74
m =T/N=1000/46
=21,74
1000
21,74
(II) L’uso di frazioni
come le frequenze
relative nel calcolo
richiede di portarsi
dietro un ‘congruo’
numero di decimali
40
30
20
10
0
ni
m=21,739
xi
10
0
xi f i
80
x i ni
60
fi
40
ni
20
xi
(I) Le intensità specifiche (assolute) hanno un significato concreto: 350 è il monte
totale di azioni possedute dai piccoli
azionisti (10 azioni a testa), mentre 200
è il monte azioni dei grandi azionisti.
0
Torniamo ai 46 azionisti e loro azioni
(III) La media aritmetica è una modalità ‘virtuale’! Essa può non corrispondere a
nessun valore osservato e nemmeno osservabile (cfr 2,1 figli per donna..)
Variabili per classi
Il calcolo della media aritmetica coinvolge nel conto tutte le modalità e
numerosità. Che fare, se una variabile è per classi? Quale valore
assumiamo per ogni intervallo? Il minimo? Il massimo? Uno a caso?
Anche se comporta rischi di errore, si sceglie di prendere il valore centrale
di ogni intervallo, cioè la semisomma degli estremi: vci = (xiINF + xiSUP)/2.
fi
20
0,077
0,770
16
12,5
0,317
3,963
12
63
16,5
0,444
7,326
8
23
22
0,162
3,564
4
1,000
15,623
0
xi-xi+1
ni
(xi+xi+1)/2
fi
9-11
11
10
11-14
45
14-19
19-25
142
vci
x
Pazienti anoressiche per età di insorgenza
hi
mx=15,6
xi
0
5
10
15
20
25
30
Nota: prendere il valore centrale delle classi non è solo una scelta
pragmatica. Abbiamo costruito l’istogramma con l’ipotesi di distribuzione
uniforme entro ogni intervallo, e la media di una distribuzione
rettangolare è proprio la semisomma.
Un secondo esempio
xi
hi
24
20
16
ni
|- xi+1
VCi
fi
vci
x
ni
vci
x
fi
0 |- 20
126
11,46
10
1260
1,146
20 |- 40
439
39,95
30
13170
11,985
40 |- 60
346
31,48
50
17300
15,740
60 |- 80
123
11,19
70
8610
7,833
80 |- 100
37
3,37
90
3330
3,033
100|-160
22
2,00
130
2860
2,600
160|-300
6
0,55
230
1380
1,265
47910
43,6
1099
12
100
Famiglie per reddito annuo (milioni lire)
8
mx=4,36
mx = T/N = 47910/1099 = 43,6 (il
grafico è espresso in decine di milioni)
4
xi
0
0
2
4
6
8
10
12
14
16
18
20
22
24
26
28
30
32
Un esempio riassuntivo
1,6
Possiamo ora fare
confronti tra medie:
0,4
7
2,8
1,0
1,0
mxM=381,2/114=3,34
1,0
9
9,0
7
1,4
9,8
1,4
55
77,0
1,6 |- 2,0
10
1,8
18,0
mxP=1760,0/628=2,80
1,8
103
185,4
2,0 |- 2,4
9
2,2
19,8
2,2
88
193,6
2,4 |- 2,8
23
2,6
59,8
2,6
123
319,8
2,8 |- 3,2
11
3,0
33,0
3,0
68
204,0
3,2 |- 3,6
15
3,4
51,0
3,4
50
170,0
3,6 |- 4,0
8
3,8
30,4
3,8
30
114,0
4,0 |- 4,4
6
4,2
25,2
4,2
41
172,2
4,4 |- 4,8
3
4,6
13,8
4,6
15
69,0
4,8 |- 5,2
3
5,0
15,0
5,0
11
55,0
5,2 |- 6,0
3
5,6
16,8
5,6
12
67,2
6,0 |- 8,0
8
7,0
56,0
7,0
13
91,0
8,0 |- 12
3
10,0
30,0
3
30,0
milano
114
628
1760,0
|- xi+1
ni
xi
xini
0,0 |- 0,8
4
0,4
0,8 |- 1,2
1
1,2 |- 1,6
xi
381,2
Il reddito medio di Milano è assai più elevato
di quello dei piccoli comuni della Regione
Una cosa da notare:
La classe di reddito a
cui corrisponde il
maggiore ammontare
di reddito non è per
forza l’ultima, quella
dei più ricchi: è quella
dei numerosi ceti medi
(2,4-2,8 milioni)
xi
10,0
piccoli
ni
xini
Proprietà della media
aritmetica
La media aritmetica rispetta le tre proprietà di base delle medie
analitiche.
Internalità: m=21,74 azioni sta in mezzo tra x1 (10) e xm (100)
Invarianza alle trasformazioni: se ogni azioni vale 1,5 euro, la
v.s. “Valore azionario posseduto in euro” è una trasformata
Y=1,5*X. La media di Y è effettivamente = 1,5*m(X)
Monotonicità: se i due grandi azionisti incrementano il loro pacchetto portandolo a 150 azioni ciascuno, il monte azioni totale diventa T=1100 e la media aritmetica diventa 23,9. La sperequazione del mercato cresce, ma la media procapite aumenta!
Ma essa possiede anche altre due proprietà assai importanti :
Baricentricità: la media a. è il ‘baricentro’ della distribuzione
Minimizzazione del danno: la media a. rende minima una
funzione di errore o di perdita di informazioni
Il concetto di baricentro
La rana è più grassa della gru: l’altalena non è in
equilibrio. Come fare per portarla in equilibrio?
A sinistra possono appollaiarsi più gru a diverse distanze: ora la somma dei pesi delle gru moltiplicate per le loro distanze dal cuneo che fa da punto di
appoggio è pari al prodotto del peso della rana per
la sua distanza dal cuneo. L’altalena è in equilibrio.
Più semplicemente, basta spostare il fulcro dell’altalena: ora la distanza della rana, moltiplicata per il
suo peso, pareggia il peso della gru moltiplicato per
la distanza dal fulcro. L’altalena è in equilibrio.
Il fulcro è il
baricentro
dell’altalena
Media aritmetica come
baricentro
La media aritmetica ponderata è il baricentro di una v.s.: essa cioè si situa
nel punto di equilibrio centrale della distribuzione, così che la somma delle
modalità (distanze dal fulcro) alla sua sinistra, ponderate per le rispettive
numerosità (pesi), pareggia la somma delle modalità alla sua destra,
ponderate per le rispettive numerosità.
Algebricamente questa proprietà si esprime così: "la somma degli scarti
semplici delle modalità osservate dalla media aritmetica, ponderati
per le rispettive frequenze (o numerosità) è zero"
p
 x
i
i 1
Infatti:
p
p
 mx   f i  0
p
 x  m   f   x  f   m  f 
i
i 1
x
i
i
i 1
i
x
i 1
i
p
 mx  mx   f i  mx  mx  1  0
i 1
C.V.D.
Un esempio
10
35
350
-11,739
-410,87
50
9
450
28,261
+254,35
100
2
200
78,261
+156,52
46
1000
1000
0
m=21,739
10
0
(xi-m)n i
80
(xi-m)
60
xi ni
40
ni
20
xi
40
30
20
10
0
0
Verifichiamo la proprietà della media
come baricentro con un esempio già
conosciuto:
Nota:
La proprietà è soddisfatta sia ponderando con le numerosità che
pe-sando con le frequenze relative.
La media aritmetica è l’unica media che possiede questa proprietà.
Il concetto di funzione di
perdita
Supponete che una grande azienda di abbigliamento basi la propria produzione di giacche sulle statistiche dell’ufficio Leva nazionale, da cui risulta che la taglia media dei giovani italiani è la 48.
L’azienda produca allora giacche ‘giovanili’ solo di taglia 48. I giovani di
taglia 46 ci staranno larghi, i ’50’ stretti e brontoleranno. Ma tutti gli
altri (i 44, i 52..) si incavoleranno proprio e cambieranno marca..
Data un v.s. X e un indice di posizione , misuro la
informazione con una "funzione di perdita":
L(Sk) = L(xk – )k > 0
perdita di
 k, per k = 1,...N
Ci sono tante "leggi di perdita“ secondo il valore di k. Per esempio:
scarti assoluti: L(Sk)=|xk–|;
o
scarti quadratici: L(Sk)=(xk–)²
Data una funzione di perdita definita per un k definiamo DANNO la media
aritmetica della perdita. Scegliamo la media  che minimizza il danno.
Media aritmetica come misura
di minimo danno
La media aritmetica è la misura di posizione che rende minima una funzione quadratica di
perdita di informazione.

 = i(xi -)2fi
m
 x
m
 x

i
    fi 
2
m
 x
i
i 1

m
La media m è il valore di  in cui
la funzione quadratica  perviene al suo minimo. In tal punto la
tangente alla curva (cioè la derivata) ha pendenza nulla. Quindi:
=min dove d/d =0
i
i 1
i 1
min
    f i  min SSE  = m x
2

m
 x
i 1
i
m
 x
i 1
i
 mx  mx     f i 
2
 m x   m x     f i 
2
m
 m x   f i  m x      f i 
2
2
i 1
m
 2  m x       xi  m x   f i 
i 1
 Kost  m x     1  2  mx     0 
2
 min SSE  = m x
c.v.d.
Medie di miscugli
Torniamo all’esempio delle province secondo il tasso di disoccupazione
xi|-xi+1
xi
niT
xi niT
xi
niN
xi niN
xi
0–5
2,5
15
37,5
2,5
15
37,5
5-10
7,5
44
330,0
7,5
36
270,0
10-15
12,5
25
312,5
12,5
4
50,0
15-25
20
16
320,0
20
0
0,0
55
357,5
Italia
100 1000,0
Nord
niS
xi niN
2,5
0
0,0
7,5
8
60,0
12,5
21
262,5
20
16
320,0
Sud
45
642,5
Nel nord le 55 province hanno un tasso medio mN(x)=357,5/55=6,5
Nel sud le 45 province hanno un tasso medio mS(x)=642,5/45= 14,278
In Italia le 100 province hanno un tasso medio mT(x)=1000/100= 10
Ma il tasso nazionale si ottiene anche come media ponderata dei tassi
delle due ripartizioni: mT(x)= [mN(x)nN . mS(x)nS]/N. In generale:
La media di un miscuglio è pari alla media delle medie delle singole
subpopolazioni, ponderate per le rispettive numerosità.
Variabili qualitative: la moda e
il suo calcolo
60
54
48
42
36
30
24
18
12
6
0
1
0,8
0,6
0,4
0,2
0
sx
csx
xi
cx
ni
cdx
fi
Sinistra
20
0,113
Centrosin.
45
0,254
Centro
39
0,220
Centrodes.
59
0,290
Destra
20
0,113
177
1,000
X=deputati
dx
Per variabili
qualitative la
Moda è la
modalità con
la massima
frequenza.
insuff 6m
xi
Sufficiente
insuff 3m
ni
sufficiente
fi
33679
0,667
Insuff. 3 mesi
6291
0,124
Insuff. 6 mesi
10574
0,209
X=acqua corr.
50544
1,000
Calcolo della moda per
variabili quantitative
11-14
45
15,00
14-19
63
12,60
19-25
23
3,83
142
Per v.s. per classi Moda è
la semisomma della classe con massima densità
di frequenza
20
Max hi = 15,00
16
Md = (11+14)/2
12
Mx=15,6
8
= 12,5
Md=12,5
4
0
5
10
15
20
25
30
fi
10
35
0,7609
50
9
0,1956
100
2
0,0435
46
1,00
m=21,74
40
30
20 Md=10
10
0
0
0
ni
10
0
5,50
xi
80
11
Per v.s. discrete la Moda
è il valore più frequentemente osservato.
60
9-11
hi=ni/i
40
ni
20
xi-xi+1
Proprietà della moda
La moda (Md) è la modalità a cui corrisponde
60
la massima frequenza (v.s. discrete) o la
54
48
massima densità di frequenza (v.s. per
42
36
classi)(si distingue una classe modale (max den30
24
sità) e un valore modale (valore centrale classe).
18
12
Un fenomeno può avere più di una moda; si dirà
6
0
bi-modale, tri-modale, amodale (tutte le modalità
sx
csx
cx
cdx
dx
con uguale frequenza).
La moda è data a ogni livello di misurazione.Ma
non soddisfa la proprietà di monotonicità.
Esempio: Nel tema in classe ci sono stati 10 quattro,
11 cinque, 6 sei, 2 sette, 1 otto. Md=5, M=5,1. Se il
prof alza due voti da 5 a 6, M=5,17 ma Md=4.
Il fatto è che la moda non coinvolge nel conto
tutte le modalità. Per lo stesso motivo la moda
di un miscuglio si comporta in modo imprevisto
(pensate a un corridore al Giro che vince la classifica
‘a punti’ senza vincere neanche una tappa)
Variabile bimodale
15
12
9
6
3
0
4
5
6
7
8
4
5
6
7
8
15
12
9
6
3
0
Scarica

TQA.A04.Sintetizzare