TQuArs – a.a. 2010/11
Tecniche quantitative per l’analisi nella ricerca sociale
Giuseppe A. Micheli
LEZIONE A.11
La concentrazione
In questa lezione..
In questa lezione facciamo la conoscenza con l’ultimo, diffuso, concetto
utilizzato per descrivere la variabilità di un carattere: la concentrazione.
Approderemo allo stesso concetto per due strade assai differenti:
Da una parte formuleremo un nuovo criterio di misura della variabilità
non come dispersione intorno a un polo centrale, ma come media delle
differenze tra tutte le osservazioni prese a due a due. Di questa misura:
Impareremo una procedura rapida di calcolo.
Effettueremo la normalizzazione di questa misura.
Introdurremo poi un nuovo tipo di grafico, che collega proporzioni via
via cumulate di una popolazione con le corrispondenti proporzioni
dell’intensità totale del carattere da esse possedute. In particolare:
Esamineremo le proprietà di questa curva ben nota in Economia.
Svolgeremo degli esempi, alcuni semplici altri più articolati.
Infine introdurremo il concetto di ‘dominanza’ tra due curve.
La differenza media
Un diverso modo per studiare la "diversità di valori osservati" consiste nel
considerare gli informatori elementari [distanze] dij=|xi–xj|  i,j.
Si possono costruire indici di mutua variabilità, considerando una qualche
funzione D(x) di sintesi di una v.s. X che soddisfi le proprietà canoniche (mai negativa, pari a zero SSE xi=xj  i,j, dotata delle proprietà di invarianza rispetto alle
traslazioni e monotonicità). Come per la funzione di perdita, sintetizziamo le
q q
distanze in una media ponderata.
1
In particolare definiamo Differenza me-  

xi  x j  ni  n j
dia semplice senza ripetizione:
N  N  1 i 1 j 1

 
Il calcolo di , come si può immaginare, è lungo e macchinoso, richiedendo di
conteggiare le differenze tra tutte le modalità osservate a due a due. Ma per v.s.
discrete esiste, ed è equivalente, una procedura rapida di calcolo.
Indicate con qi=xini le già note intensità specifiche e definite (per analogia
alle cumulate Ni) Qi=k=1..iqk le corrispondenti intensità cumulate, la differenza media semplice è pari a:
m
2
m


  qi  N i   Qi  ni 
N  N  1  i 1
i 1

Un esempio ‘all’osso’
xi
ni
Ni
qi=xini
Qi
qiNi
Qi ni
0
4
4
0
0
0
0
4
2
6
8
8
48
16
8
4
10
32
40
320
160
A=368
B=176
N=10
T=40
L’esempio è stupido, come
è stupida la procedura di
calcolo.
Si tratta di conteggiare le
due colonne aggiuntive
delle qiNi e delle Qini,
senza
pretendere
che
abbiano alcun significato!
A questo punto il calcolo di  richiede solo i tre parametri cerchiati
m
2
2
m


  qi  N i   Qi  ni  
 368  176  4.2
N  N  1  i 1
i 1
 10  9
Rapporto di concentrazione di
Gini
E’ possibile normalizzare , è cioè possibile trovarne un massimo? La
risposta è la stessa data per la varianza. La differenza media cresce con
l’ordine di grandezza del fenomeno studiato, ma per una particolare
categoria di caratteri, che abbiamo definito trasferibili, si può trovare un
massimo a parità di intensità totale T, che è quello della distribuzione
massimante di X:
0
N m  T

X" 
N  1
1
Per questa distribuzione la differenza media semplice senza ripetizione è:
 max 
1
1
  N  m  0  N  1  1  0  N  m  N  1  1 
 2  N  m  N  1  2  m
N  N  1
N  N  1
Si può perciò definire un  normalizzato:
* 
R si chiama rapporto di concentrazione di Gini.

 max


R
2m
Eterogeneità dispersione
concentrazione
Confrontiamo i concetti di eterogeneità, dispersione e concentrazione. I
tre concetti sembrano avere consistenti punti di sovrapposizione; ma per
coglierne le differenze la cosa migliore è confrontare le situazioni definite
come ‘di minimo’ e (nel caso di caratteri trasferibili) ‘di massimo’:
La situazione di mutabilità (o eterogeneità) nulla (un unica modalità
osservata N volte) coincide con quella di concentrazione nulla e con
quella di dispersione nulla.
La distribuzione di massima eterogeneità (tante modalità equifrequenti) è invece per definizione diversa dalla distribuzione
massimante [massima concentrazione o massima varianza per
caratteri trasferibili]. La differenza è lampante!
Max eterogeneità:
C

 1A B
1 1
X*  

3 3 3
Max concentrazione e dispersione:
T
 0
X*  
N  1 1
Confrontare frequenze e
intensità cumulate
Nel calcolo rapido di abbiamo introdotto, accanto al concetto di frequenza
cumulata, quello di intensità cumulata.
Come per la prima, possiamo definire un'intensità cumulata relativa:
i
i
N i   nk
k 1

nk 
Fi   f k  
 k 1
k 1
k 1 N
i
i
nk
m
n
k 1
i
i
i
k 1
k 1
xk  nk

T
k 1
i
Qi   x k  n k  S i   s k  
k
x
k
 nk
x
k
 nk
k 1
m
k 1
Il confronto tra le due successioni Fi e Si, per ogni modalità i, è di uso
comune e prezioso per valutare la mutua variabilità (o la concentrazione)
di un carattere trasferibile in una popolazione.
Il senso del confronto
Quando diciamo che in certi paesi del Sud del Mondo "il 90 % della popolazione possiede solo il 5 % delle risorse" facciamo riferimento ad
una variabile X = risorse disponibili che ha, per esempio, una distribuzione
così fatta (numerosità espressa in milioni):
Dunque la concentrazione di
un carattere trasferibile è un
modo alternativo ma molto
evocativo per descrivere la
mutua variabilità di un fenomeno.
come rappresentarla
graficamente
xi
ni
Ni
Fi
qi
Qi
Si
1
90
90
0,90
90
90
0,05
100
9
99
0,99
900
990
0,55
810
1
100
1
810
1800
1
100
Ci poniamo allora
due domande sulla
Concentrazione:
1800
come misurarla
sinteticamente
Dieci monete e cinque persone
Dieci monete siano divise non equamente tra 5 individui:X = {1,1,1,2,5}.
Ognuno dei 5 individui costituisce il 20 % della popolazione. Posti (per
convenzione) in ordine crescente di carattere posseduto, il primo individuo
(20 % della popolazione) possiede solo il 10 % del carattere, l’ultimo il
50% dell’intero capitale. C'è quindi una certa concentrazione del carattere.
Viceversa nella seriazione Y={2,2,2,2,2} a ogni 20 % della popolazione
spetta la stessa quota (20 %) del carattere. Formalizziamo i due casi in
termini di frequenze e intensità cumulate.
xi
ni
Ni
Fi
qi
Qi
Si
yi
ni
Ni
Fi
qi
Qi
Si
1
1
1
0,2
1
1
0,1
2
1
1
0,2
2
2
0,2
1
1
2
0,4
1
2
0,2
2
1
2
0,4
2
4
0,4
1
1
3
0,6
1
3
0,3
2
1
3
0,6
2
6
0,5
2
1
4
0,8
2
5
0,5
2
1
4
0,8
2
8
0,8
5
1
5
1
5
10
1
2
1
5
1
2
10
1
5
10
5
10
La curva di Lorenz-Gini
La curva di Lorenz–Gini è la spezzata, posta nel primo quadrante,
ottenuta congiungendo i punti di
1
coordinate (Fi,Si) [frequenze cumulate relative e intensità cumu- 0,9
late relative], inscritta nel quadra- 0,8
to compreso tra O (0,0) e P (1,1).
0,7
0,6
La curva può essere costruita con dati
disaggregati (serie) o aggregati. Per 0,5
es. la v.s. X delle 10 monete è 0,4
0,3
rappresentabile anche così:
0,2
xi
ni
Ni
Fi
qi
Qi
Si
0,1
1
3
3
0,6
3
3
0,3
0
2
1
4
0,8
2
5
0,5
5
1
5
1
5
10
1
5
10
Curva di Lorenz - Gini
Si
Fi
0
0,2
0,4
0,6
0,8
1
Proprietà della curva di
Lorenz-Gini / 1
La spezzata giace sempre nella parte
inferiore del dominio (Fi,Si): quella cioè
sottostante alla bisettrice del quadrante
che corrisponde al caso di concentrazione
nulla o equiripartizione (Fi = Si per ogni i).
Ciò significa che ogni punto della spezzata
(tranne il primo e l'ultimo) ha ordinata
inferiore all’ascissa e ciò per costruzione,
in quanto le modalità xi sono disposte in
ordine crescente.
i
xk  nk
nk
Si  

F
T
k 1
k 1 N
i
Curva di Lorenz - Gini
Qi
10
9
8
7
6
5
4
3
2
1
0
Ni
0
1
2
3
4
5
Come per frequenze e frequenze cumulate, anche nella rappresentazione grafica
della concentrazione possiamo sostituire le coordinate assolute (Ni, Qi) a
quelle relative (Fi, Si), mantenendo inalterate le proporzioni interne.
Solamente, il massimo delle coordinate sarà P (N, T) invece che (1, 1).
Proprietà della curva di
Lorenz-Gini / 2
Inoltre la spezzata ha concavità sempre
rivolta verso l'alto, cioè i segmenti
hanno pendenza sempre crescente.
Curva di Lorenz - Gini
Qi
10
9
8
La pendenza di una retta è data dal rap7
porto tra i due cateti del triangolo ret6
tangolo (è la ‘tangente’ dell’angolo). Ma:
5
Q  Qi 1 xi  ni
4
tg i  i

 xi i
3
N i  N i 1
ni
2
1
Poiché per costruzione le modalità sono 0

messe in ordine crescente, tgi–1<tgi  i.
Ni
0
1
2
3
4
5
La spezzata corrispondente al caso di concentrazione nulla (equiripartizione) è la bisettrice del quadrante, per la quale Fi = Si  i.
Misurare la concentrazione
con Lorenz-Gini
Il grado di concentrazione di una
v.s. è tanto più alto quanto più la
concavità della spezzata si allontana dalla bisettrice e si avvicina
alla forma limite della distribuzione massimante, corrispondente alla spezzata OCP, dove C=(N–1;0)
Perfetta
equiripartizione
N m  T
 0
X*  
1
N  1
Si può allora definire geometricamente una misura di
concentrazione come rapporto tra l'area (A) compresa tra la bisettrice [situazione di equiripartizione] e
la spezzata (area a tratteggio verticale) e l'area Amax
compresa tra la bisettrice e la spezzata di massima
concentrazione (a tratteggio orizzontale).
Max
concentrazione
A
R
Amax
Il rapporto di concentrazione
di Gini
Il rapporto tra le 2 aree è un indice standardizzato e si chiama Rapporto
di Concentrazione di Gini.
Ci sono molte procedure per calcolare R. Ma una di queste usa misure a
noi già familiari. Si può dimostrare che R è proprio equivalente alla
differenza media senza ripetizioni normalizzata.
Per il calcolo di R dunque la procedura rapida di calcolo di , già vista, è la
più conveniente.
R
A


Amax 2  m x
m
2
2
m


 ( A  B) 
  qi  N i   Qi  ni 
N  N  1
N  N  1  i 1
i 1

Vediamo qualche esempio.
Un primo esempio
xi
ni
qi
Ni
Qi
339
qiNi
1
339
1
339
339
461
1
461
2
800
697
1
697
3
1320
1
1320
1524
1
1798
Qini
Fi
Si
339
0,11
0,03
922
800
0,22
0,07
1497
2091
1497
0.33
0,13
4
2817
5280
2817
0,44
0,24
1524
5
4341
7620
4341
0,55
0,37
1
1798
6
6139
10788
6139
0,67
0,52
1857
1
1857
7
7996
12999
7996
0,78
0,67
1889
1
1889
8
9885
15112
9885
0,89
0,83
1994
1
1994
9
11879
17946
11879
1
1
9
11879
73097
45693
=2(A-B)/(N.(N-1))=
=54808/(9.8)=761,22
max=2(T/N)=23758/9=
=2639,78
R = /max= 0,288
Concentrazione degli introiti pubblicitari (milioni
di euro) tra nove emittenti radiofoniche.
(in questo caso le numerosità specifiche sono
tutte unitarie)
1
P(0.55,0.37)
0,5
Ricordatevi: il
grafico si costruisce
individuando i punti
blu, e collegandoli
poi tra loro
0
0
0,5
1
Un secondo esempio
xi
ni
Ni
Qi
qiNi
Qini
10
115
1150
115
1150
132250
132250
0,115
0,026
30
399
11970
514
13120
6152580
5234880
0,514
0,301
50
315
15750
829
28870
13056750
9094050
0,829
0,663
70
112
7840
941
36710
7377440
4111520
0,941
0,844
90
34
3060
975
39770
2983500
1352180
0,975
0,914
130
20
2600
995
42370
2587000
847400
0,995
0,974
230
5
1150
1000
43520
1150000
217600
1
1
1000
43520
33439520
20989880

qi=xini
2
24899280
 (33439520  20989880) 
 24,924
1000  999
999000
 max  2  mx  2  ( 43,52)  87
R

24,924

 0,2865
 max
87
Questa area è il
28,65% dell’intera area triangolare
sottesa alla bisettrice
Fi
Si
Distribuzione dei
redditi
familiari
in Lombardia
m=43,52
1
0,8
0,6
0,4
0,2
0
0
0,2
0,4
0,6
0,8
1
Distribuzione gaussiana e
curva di Lorenz
xi
ni
qi=xini
Ni
Fi
Qi
Si
10
6
60
6
0,006
60
0,001
30
60
1800
66
0,066
1860
0,026
50
242
12100
308
0,308
13960
0,199
70
384
26880
692
0,692
40840
0,583
90
242
21780
934
0,934
62620
0,895
110
60
6600
994
0,994
69220
0,989
130
6
780
1000
1
70000
1
Distribuzione redditi N(70; 20,7)
20
18
16
14
12
10
8
6
4
2
0
0
20
40
La distribuzione osservata dei redditi è skew. Ma qual
è la concentrazione (e la curva di Lorenz) se, a parità
di intensità totale, la distribuzione è gaussiana?
In questo caso i dati distribuiti secondo una N(m,)
mostrano minore concentrazione (curva di Lorenz più
vicina alla bisettrice). Ma non c’è una regola.
Simmetria e concentrazione di una v.s. sono due
proprietà distinte: ognuna va per la sua strada.
60
1
80
100
120
140
Blu distr.gaussiana
0,8
Rosso osservata
0,6
0,5
0,4
0,2
0
0
0,2
0,4 0,5 0,6
0,8
1
Distribuzione uniforme e
curva di Lorenz
xi
ni
qi=xini
Ni
Fi
Qi
Si
10
143
1430
143
0,143
1430
0,020
30
143
4290
286
0,286
5720
0,082
50
143
7150
429
0,429
12870
0,184
70
142
9940
571
0,571
22810
0,326
90
143
12870
714
0,714
35680
0,510
110
143
15730
857
0,857
51410
0,734
130
143
18590
1000
1
70000
1
20
18
16
14
12
10
8
6
4
2
0
Distribuzione uniforme (m=70)
0
20
40
Ecco subito una riprova. A parità di intensità totale,
una distribuzione uniforme (più dispersa della N)
mostra concentrazione maggiore di quella osservata.
Ma attenzione. La distribuzione skew osservata ha
curva di Lorenz più vicina alla bisettrice per le cumulate basse della popolazione (i poveri) ma poi interseca quella della distribuzione uniforme, e per i più ricchi (coda a destra della curva) essa rivela più sperequazione. Per capir meglio ci vuole un terzo esempio.
60
1
80
100
120
140
Blu distrib.uniforme
0,8
Rosso osservata
0,6
0,5
0,4
0,2
0
0
0,2
0,4 0,5 0,6
0,8
1
Un terzo esempio
Xi
(000)
ni
(000)
qi ante
(10M)
Fi
Siante
0-2
2778
463
.088
.020
2-4
8560
2703
.361
.134
4-6
5592
2785
.539
.252
6-8
3964
2763
.665
.369
8-10
2985
2666
.760
.481
10-15
4544
5511
.905
.715
15-20
1746
2986
.961
.841
20-30
887
2108
.989
.930
30-40
201
682
.995
.959
40-99
158
965
1
1
A sinistra: distribuzione dei redditi tra i
titolari di codice fiscale in UK, 1984.
m=7,52; R=0,397
(molto superiore
quella Lombarda!)
a
A destra: redistribuzione dei redditi dopo tassazione progressiva.
T=tax
(10M)
qi post
(10M)
%T/
qipost
Sipost
0
463
-
.023
52
2651
2%
.156
254
2531
9%
.283
400
2363
14%
.402
426
2240
16%
.514
932
4579
17%
.744
583
2403
20%
.865
489
1619
23%
.946
198
484
29%
.971
381
584
39%
1
m=6,34; R=0,352
3715 19917 16%
Osserviamo su dati reali (Economic Trends del Central Statistical Office)
l’effetto di una tassazione sui redditi. A parità di proporzione di
popolazione, la proporzione di reddito è sempre superiore, cioè più vicina
alla bisettrice che esprime la situazione di perfetta equiripartizione.
31415
23632
Trasferimenti equiparativi e
concetrativi
Essendo calcolata su caratteri trasferibili la misura di concentrazione è
sensibile a trasferimenti "paretiani":
trasferimenti equiparativi: tolgono unità di conto a qualche individuo
attribuendole ad altri che possiedono
una quota del carattere totale pari o
inferiore a quella posseduta dall‘
individuo depauperato (per es. una
imposta progressiva che si traduce in
servizi per i meno abbienti)
1
Proporzione di redditi
Rosso = prima dell’imposta
Blu = dopo l’imposta
(più di rado) trasferimenti concentrativi (per es. fissare per il buoProporzione di popolazione
no-scuola una soglia minima rimbor- 0
sabile di 150-200 euro e nel frat- La manovra inglese del 1984 è un e0
tempo derubricare i falsi in bilancio). sempio
di trasferimento equiparativo. 1
Dominanza secondo Lorenz
Eccoci tornati, in conclusione, allo strano caso di due curve di Lorenz
(redditi osservati e redditi con distribuzione uniforme) intersecate tra loro.
Non è un caso eccezionale!
Date due curve di Lorenz A e B, diciamo che A è Lorenz-dominante
rispetto a B se la curva di A più vicina alla bisettrice in ogni punto, cioè:
S iA > S iB
 Fi
Ovvio che una curva dominante su un’altra corrisponde a una situazione di
maggiore perequazione, quindi
Se SiA>SiB Fi
 RA < RB
Le due curve inglesi sono un buon esempio.
Ma possiamo pensare a situazioni meno nette, in cui le scelte si rivelano
più complesse. Per esempio…
Equità e polarizzazione..
Supponiamo che la distribuzione dei redditi nella società A, per effetto di
una certa politica, assuma la forma B, con lo stesso ammontare
complessivo di risorse (per es. stesso Pil), ma una diversa configurazione.
1
20
20
20
20
400
400
0,20
0,05
A=2(32816-17808)/(100.99)=
=3,03
3
52
156
72
176
11232
9152
0,72
0,44
maxA =2(400/100)=8
5
16
80
88
256
7040
4096
0,88
0,64
8
8
64
96
320
6144
2560
0,96
0,80
RA = /max= 0,379
20
4
80
100
400
8000
1600
1
1
100
400
32816
17808
RB = 0,354 < 0,379 = RA
La società in B è più perequata
niB
qi
qiNi
Qini
B=2(38500-24500)/(100.99)=
=2,83
xiA
xiB
niA
qi
Ni
Ni
Qi
qiNi
Qi
Qini
Fi
Si
Fi
Si
0
20
0
20
0
0
0
0,20
0
4
75
300
95
300
28500
22500
0,95
0,75
5
100
100
400
10000
2000
1
1
100
400
38500
24500
20
maxB =2(400/100)=8
RB = /max= 0,354
La società in B è più ‘perequata’.. Eppure sembra più polarizzata che mai!
Cosa si può dire in più confrontando le due curve di Lorenz?
Se due curve di Lorenz si
intersecano
Le politiche attuate hanno prodotto
in B una scomparsa dei ceti medioalti (X=8) e un addensamento della
maggior parte della popolazione (75
su 100) su valori medio bassi.
1
Rosso = società B
Blu = società A
In compenso il restante 25% è polarizzato tra un 20% di nullatenenti
e un 5% di benestanti.
R di Gini suggerisce sinteticamente
un’accresciuta perequazione: ma
non agli estremi della scala sociale.
E’ meglio allora una società (B) con
un ceto medio omogeneo ma con
forti sperequazioni verso il basso, o
una società (A) più perequata là
dove ci sono meno risorse?
0
R di
0 Gini sintetizza una situazione. Ma se1
vogliamo interpretarla in funzione di diversi
obiettivi alternativi, meglio leggere il grafico!
Scarica

TQA.A11.Concentrazione