TQuArs – a.a. 2010/11
Tecniche quantitative per l’analisi nella ricerca sociale
Giuseppe A. Micheli
LEZIONE A.3
Rappresentazioni grafiche
In questa lezione..
In questa lezione acquisteremo familiarità con
La rappresentazione di una variabile statistica in forma tabellare
La rappresentazione di una distribuzione di frequenza nella forma
grafica più adatta al corrispondente livello di misurazione.
Introdurremo così i:
Diagrammi a barre
Diagrammi ad aste
Istogrammi
Infine, proprio perché la rappresentazione grafica di una variabi-le è
uno strumento molto potente e efficace, prenderemo spunto da questa
per introdurre il concetto di miscugli di popolazioni.
La rappresentazione tabellare
Abbiamo già visto che la forma ‘in
punta di forchetta’ di una v.s. è
quella (orizzontale) di una successione ordinata di coppie di va-lori
{xi, ni} univocamente associati
x1 x2 x3 x4 xk
X=
n1 n2 n3 n4 n k
D’ora in poi useremo questa rappresentazione tabellare ‘in verticale’.
xi
ni
fi= ni /N
xi ni
x1
n1
…
…
x2
n2
…
…
x3
n3
…
…
x4
n4
…
…
x5
n5
…
…
N
…
…
Essa consente di affiancare alle colonne di modalità e numerosità altre
colonne con elaborazioni successive dei dati (per esempio le frequenze
relative), e quindi ci permette di seguire passo passo i calcoli per ogni
misura di sintesi delle variabili.
Ripasso: una tipologia di
variabili
Anche la rappresentazione tabellare può essere troppo dettagliata.
Come ‘fotografare’ una distribuzione di frequenza?
Trascriviamo le modalità (xi) sull’asse delle ascisse di un piano
cartesiano, e le numerosità (ni)
sull’asse delle ordinate. Così facendo associamo ad ogni coppia
(xi, ni) un punto sul piano.
Ma c’è un problema: non tutte le modalità di una v.s. sono tranquillamente
associabili a punti su un piano.
Dovremo dare regole di costruzione dei
grafici diverse per tipo di variabile:
ni
n1
(xi, ni)
n1
n2
n3
n4
n5
x1
xi
x1
Qualitative nominali
Qualitative ordinali
x2
x3
Quantitative discrete
x4
Quantitative per classi
x5
Diagrammi a barre per
variabili nominali
Unica regola per la costruzione
dei diagrammi a barre: la lunghezza delle barre deve essere
proporzionale a ni oppure a fi.
1
Diagramma a ‘barre’
0,8
0,6
0,4
xi
ni
fi
Appartamento in condominio
34
0,667
Casa rurale
Villino mono-bifamiliare
6
0,117
11
0,216
51
1,000
Popolazione italiana secondo il tipo di abitazione
(dati di fantasia, numerosità in milioni)
0,2
0
villino
rurale
1
0,8
0,6
0,4
Nota: è del tutto arbitraria la scelta sia
dell’ordine tra le modalità, sia della
distanza tra barre
0,2
0
villino
appart.
rurale
appart.
Altri rappresentazioni
diagrammatiche
E’ talmente libera la scelta
della rappresentazione grafica, che essa può assumere
anche altre forme più o
meno accattivanti ..
Diagramma a torta
insuff 6m
21%
insuff 3m
12%
sufficiente
67%
Diagramma a nastri
Altre iconografie
1
insuff 6m
0,8
insuff 3m
0,6
0,4
sufficien
0,2
0
0
0,2
0,4
0,6
0,8
1
sufficien
insuff 3m insuff 6m
Diagrammi a barre, variabili
ordinali
Due regole per costruire diagrammi
a barre per variabili ordinali:
Lunghezza delle barre proporzionale a ni oppure a fi.
Ordine tra le modalità obbligato (non la distanza)
0,3
0,25
0,2
0,15
0,1
0,05
0
sx
csx
cx
cdx
dx
cdx
dx
Abacus Social Barometer 1996, Autocollocazione politica. Giovani di 25-34 anni, NordOvest
xi
ni
fi
Sinistra
20
0,113
Centrosin.
45
0,254
Centro
39
0,220
Centrodes.
59
0,290
Destra
20
0,113
177
1,000
NB:Che le ordinate del grafico siano proporzionali a
ni o a fi il risultato non cambia:
fi = ni * (1/N)
60
54
48
42
36
30
24
18
12
6
0
sx
csx
cx
Diagrammi ad aste, variabili
discrete
Numero di azionisti
per dimensione del
pacchetto azionario
xi
ni
10
35
50
9
100
2
10
0
80
xi
60
Ora anche la distanza tra le
modalità è obbligata!!!
40
30
20
10
0
40
Ordine tra le modalità obbligato.
ni
20
Lunghezza delle aste proporzionale a ni oppure a fi.
Diagramma ad ‘aste’
0
Per costruire grafici per variabili
discrete le regole diventano tre:
la v.s. quantitativa discreta assume solo tre valori; essa
non esiste, ad esempio, per x = 33,56 oppure per x = 0
il diagramma rappresenta davvero uno spazio bidimensionale, in cui ogni punto ha coordinate (xi, fi) o (xi, ni)
le modalità sono poste sull'asse delle ascisse e le
frequenze sull'asse delle ordinate per convenzione
Variabili per classi: il
diagramma sbagliato
Che fare, se una variabile è per
classi? In questo caso non possiamo associare a ogni coppia
(xi,ni) un punto sul piano poiché le
modalità non sono puntuali.
Pazienti anoressiche
per età di insorgenza (Selvini, 1998)
xi-xi+1
ni
9-11
11
11-14
45
14-19
63
19-25
23
142
Dovremo piuttosto alzare su ogni
segmento dell’ascisse, associato a una classe (xi-xi+1), un rettangolo di giusta altezza.
Ma quale altezza è giusta?
Qualcosa non quadra: usando le numerosità come ordinate, i 45
pazien-ti della
classe (11-14)
sembrano davvero pochi rispetto
ai 63 della classe
(14-19). Il grafico
non rispetta le
pro-porzioni tra
classi
ni
70
60
50
40
30
20
10
0
0
5
10
15
20
25
x30
i
Morale: meglio far sì che
siano le aree ad essere proporzionali alle numerosità
Variabili per classi:
l’istogramma giusto
Vogliamo che le aree dei rettangoli rispettino le proporzioni tra le numerosità.
Ora la terza classe (14-19) continua ad avere area più estesa,
ma la sua altezza è inferiore al-la
classe (11-14) dato che corrisponde a una classe più ampia
Poiché “Area rettangolo=basexaltezza” e
la base dei rettangoli è l’ampiezza delle
rispettive classi (i=xi+1-xi), l’altezza dei
rettangoli deve essere hi=ni/i. Questo
rapporto si chiama densità.
xi-xi+1
ni
i
hi=ni/i
9-11
11
2
5,50
11-14
45
3
15,00
14-19
63
5
12,60
19-25
23
6
3,83
142
hi
20
Densità:
16
hi=ni/i
12
Condizione
di area:
8
ihii=N
0
4
xi
0
5
10
15
20
25
30
Il diagramma con altezze proporzionali alle densità e basi alle
ampiezze delle classi si chiama ISTOGRAMMA
Due cose che è bene sapere
sull’istogramma/1
La prima cosa è che, come per i diagrammi a aste l’ordinata può essere
indifferentemente proporzionale a ni o a fi, anche l’istogramma può
calibrare le ordinate non alla densità assolute hi=ni/i ma alle densità
relative i=fi/i.
Le proporzioni del grafico non mutano. La condizione d’area diventa
iii=1 .
xi-xi+1
ni
fi
i
 i=fi/i
0,12
0,1
9-11
11
0,077
2
0,0385
11-14
45
0,317
3
0,1057
14-19
63
0,444
5
0,0888
0,04
19-25
23
O,162
6
0,0262
0,02
142
1,000
f
x
0,08
0,06
x
0
0
5
10
15
20
25
30
Due cose che è bene sapere
sull’istogramma/2
La seconda cosa è che, frammentando indefinitamente i segmenti di base,
le ampiezze i diventano differenziali (dx) e le variabili tendono a funzioni
di densità di frequenza continue per le quali vale la condizione d’area

f(x)dx = 1
Cioè l’area sottesa alla curva è =1.
Non preoccupatevi, comunque.
Nella prima e nella seconda parte
del corso useremo variabili continue
solo come forme idealtipiche per
cogliere l’essenza di una legge di
frequenza.
f
0,12
x
0,1
0,08
0,06
0,04
f(x)dx=1
0,02
0
0
5
10
15
20
25
30
x
Due esempi di leggi
matematiche di frequenza
Solo nell’analisi dell’inferenza ritroveremo ‘distribuzioni notevoli’, cioè
leggi teoriche che stimano il valore della densità di frequenza in funzione del valore delle modalità: y = f(x). Ci limitiamo a due esempi.
f
x
f
x
f
= 1 / (b-a)
a
1/
b
x
x
f
x
=  e- x
x
Distribuzione rettangolare o uni- Distribuzione esponenziale (negativa) (esempio: tempi di attesa)
forme. Ricordate l’istogramma?
i = fi / i
Un esempio per classi
hi 24
xi
Nota: la classe
(80-100) ha
numerosità che
è solo il 60%
superiore a
quella della
classe
seguente, ma la
densità è cinque
volte tanto!
20
16
12
ni
|- xi+1
fi
i
hi
i
0 |- 20
126
11,5
20
6,30
0,0057
20 |- 40
439
39,9
20
21,95
0,0199
40 |- 60
346
31,5
20
17,30
0,0157
60 |- 80
123
11,2
20
6,15
0,0056
80 |- 100
37
3,4
20
1,85
0,0017
100|-160
22
2,0
60
0,37
0,0003
160|-300
6
0,5
140
0,04
0,0001
1099
100
General Survey Lombarda 2000 Distribuzione
famiglie per reddito annuo (milioni lire)
8
4
0
0
2
4
6
8
10
12
14
16
18
20
22
24
26
28
30
xi
32
Nota: sull’asse orizzontale i
redditi sono stati divisi per
10 (cioè espressi in decine
di milioni) per pura
comodità, senza che ne
risenta la forma del grafico
Miscugli di popolazioni. Un
esempio
Spesso una popolazione non è omogenea al suo interno, rispetto a un carattere osservato. Facciamo il caso della struttura per età degli immigrati
presenti in Lombardia
Età
Totale
xi |-xi+1
fi
ampiez
za
densità
hi
15 |-25
15,7
10
1,57
25 |-35
49,7
10
4,97
35 |-45
27,3
10
2,73
45 |-65
7,3
20
0,37
100,0
60
55
50
45
40
35
30
25
20
15
10
5
0
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80
Subpopolazioni e distribuzioni
di frequenza
Ma popolazioni di diversa provenienza hanno diverse strutture per età. Per esempio:
Età
Peru
Albania
xi |-xi+1
fi
fi
15 |-25
9,7
29,5
25 |-35
45,5
41,1
35 |-45
30,8
23,8
45 |-65
14,0
5,6
100,0
100,0
Più giovane la
struttura per
età albanese
60
55
50
45
40
35
30
25
20
15
10
5
0
Più vecchia la struttura
per età dei peruviani
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80
Il numero di immigrati di 15-25 anni sarà pari alla somma delle numerosità di
immigrati 15-25 dei diversi paesi.
La corrispondente frequenza relativa f(15-25) sarà invece la media aritmetica
delle frequenze nei diversi gruppi nazionali, ciascuna ponderata per la
numerosità del corrispondente gruppo (un dato che non possediamo!).
Un secondo esempio
Abbiamo già imparato a
classificare le province italiane secondo il tasso di disoccupazione.
Miscuglio è un
aggregato di
subpopolazioni
rispetto a uno
Disegnando gli istogrammi stesso carattere.
possiamo capire cosa signi- La distribuzione
fica dire che una popola- di numerosità del
zione è un miscuglio.
miscuglio è la
xi|-xi+1
niN
niS
niT somma delle distribuzioni delle
0–5
15
0
15
singole subpopo5-10
36
8
44 lazioni. La distri10-15
4
21
25 buzione di frequenza (relativa)
15-25
0
16
16 è la loro media
55
45 100 ponderata.
15
12
9
6
3
0
15
0
5
10
0
5
10
15
20
25
30
12
9
6
3
0
15
20
25
Tornateci su quando
avremo introdotto il
concetto di media
ponderata..
30
Un terzo esempio
Il caso della curva dei decessi per età (Lexis)
dx
L’andamento standard della frequenza dei decessi
per età (dx) è quello riportato con linea spessa.
Un secolo fa W. Lexis ha ipotizzato che la legge di
frequenza dei decessi sia il risultato di un miscuglio
di due popolazioni.
x
La curva rossa indica la subpopolazione congenitamente debole, che
viene eliminata nei primi anni con andamento esponenziale negativo.
La curva blu indica la legge dei decessi per la popolazione ‘normale’,
simmetrica campanulare (la chiameremo curva Normale o di Gauss).
Un esempio riassuntivo
xi
|- xi+1
fi
ni
i
hi
i
0,0 |- 0,8
35
4
0,8
5,0
0,0437
0,8 |- 1,2
9
1
0,4
2,5
0,0225
1,2 |- 1,6
61
7
0,4
17,5
0,1525
1,6 |- 2,0
88
10
0,4
25,0
0,2200
2,0 |- 2,4
79
9
0,4
22,5
0,1975
2,4 |- 2,8
202
23
0,4
57,5
0,5050
2,8 |- 3,2
96
11
0,4
27,5
0,2400
3,2 |- 3,6
132
15
0,4
37,5
0,3300
3,6 |- 4,0
70
8
0,4
20,0
0,1750
4,0 |- 4,4
53
6
0,4
15,0
0,1325
4,4 |- 4,8
26
3
0,4
7,5
0,0650
4,8 |- 5,2
26
3
0,4
7,5
0,0650
5,2 |- 6,0
26
3
0,8
3,7
0,0325
6,0 |- 8,0
70
8
2,0
4,0
0,0350
8,0 |- 12
26
3
4,0
0,7
0,0065
1000
114
Esercitiamoci su dati di survey che ci consentono di sviluppare l’intera procedura di
calcolo di variabili per classi.
I dati riportati nelle prime
due colonne riguardano le
frequenze relative dei redditi
‘equivalenti’ delle 114 famiglie di Milano città incluse
nella General Social Survey.
Conoscendo le fi e N (114)
possiamo ricostruire le numerosità specifiche ni.
Date le ampiezze (i) calcoliamo anche le densità.
I redditi di Milano città
xi
|- xi+1
i
fi
0,0 |- 0,8
35
0,0437
0,8 |- 1,2
9
0,0225
1,2 |- 1,6
61
0,1525
45
1,6 |- 2,0
88
0,2200
40
2,0 |- 2,4
79
0,1975
35
2,4 |- 2,8
202
0,5050
50
Notate come la classe dei
ricchi (6-8) pur essendo
molto più numerosa delle
precedenti (70 contro 26)
ha ampiezza maggiore e
densità assai minore.
30
2,8 |- 3,2
96
0,2400
3,2 |- 3,6
132
0,3300
25
3,6 |- 4,0
70
0,1750
20
4,0 |- 4,4
53
0,1325
4,4 |- 4,8
26
0,0650
4,8 |- 5,2
26
0,0650
10
5,2 |- 6,0
26
0,0325
5
6,0 |- 8,0
70
0,0350
8,0 |- 12
26
0,0065
1000
Nota: sull’ordinata sono
riportate le densità relative
(verificate le proporzioni!)
ma moltiplicate per cento
per comodità (numeri più
compatti). Nessun danno
per il grafico!
i
55
15
0
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
I redditi dei piccoli comuni
xi
|- xi+1
i
fi
0,0 |- 0,8
11
0,0137
0,8 |- 1,2
14
0,0350
55
50
1,2 |- 1,6
88
0,2200
45
1,6 |- 2,0
164
0,4100
40
2,0 |- 2,4
140
0,3500
35
2,4 |- 2,8
196
0,4900
2,8 |- 3,2
108
0,2700
3,2 |- 3,6
80
0,2000
25
3,6 |- 4,0
48
0,1200
20
4,0 |- 4,4
65
0,1625
4,4 |- 4,8
24
0,0600
4,8 |- 5,2
17
0,0425
10
5,2 |- 6,0
19
0,0237
5
6,0 |- 8,0
21
0,0105
5
0,0012
8,0 |- 10
1000
Questa invece è la distribuzione di frequenza dei
redditi nei piccoli comuni
30
Anche sull’ascissa le
modalità sono modificate in
proporzione (moltipli-cate
per dieci) per como-dità,
senza danni per una
corretta lettura del grafico
15
0
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
L’utilità del confronto
55
50
Rosso = Milano
45
Blu = Paesi
Più redditi mediobassi nei paesi
40
35
30
Più poveri in città
25
20
La sovrapposizione tra le
due distribuzioni
consente di cogliere
minuziosamente alcune
importanti differenze
Più redditi alti in città
15
10
5
0
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
Miscugli: una porta verso
l’analisi a 2 variabili
Acqua
potabile
(dati 1996)
Nord e
Centro
ni
Sud e
Isole
ni
Totale
(x1000)
Acqua
potabile
Nord e
Centro
fi
Sud e
Isole
fi
Totale
Suff
88,3%
29,9%
66,6%
Insuff
3 mesi
7,5%
20,8%
12,5%
fi
Sufficiente
sempre
28069
5610
33679
Insufficien
te 3 mesi
2391
3900
6291
Insufficien
te 6+ mesi
1317
9257
10574
Insuff
6+ mesi
4,2%
49,3%
20,9%
31777
18767
50544
Totale
31777
18767
50544
Totale
Popolazione italiana secondo l’accesso all’acqua potabile e la ripartizione geografica
Le distribuzioni di frequenze relative del Nord e del Sud corrispondono (se moltiplicate per le rispettive
numerosità complessive) alla tabella delle numerosità congiunte per
‘Accesso all’acqua’ e ‘Ripartizione’.
Miscugli si hanno anche per variabili qualitative. Per esempio, hanno acqua a sufficienza 2 italiani su 3, ma solo 3 su 10 al
Sud, e 9 su 10 al Nord.
Il confronto tra subpopolazioni di un
miscuglio è una porta di passaggio
dell’analisi da una a due variabili!!
Scarica

TQA.A03.Rappresentare - Dipartimento di Sociologia