Appunti sulla concentrazione
a.a. 2013-2014
[email protected]
Indice
•
•
•
•
•
Che cos’è la concentrazione?
La curva di concentrazione di Lorenz
L’indice di concentrazione di Gini
Confrontare la concentrazione di due caratteri
Riferimenti
2
Che cos’è la concentrazione
“There may be wide difference of opinion as to the significance
of a very unequal distribution of wealth,
but there can be no doubt as to the importance of knowing
whether the present distribution is becoming more or less unequal.”
C. Lorenz
3
Che cos’è la concentrazione
Intuitivamente un carattere statistico (si pensi ad esempio al reddito) è
tanto più concentrato quanto più risulta suddiviso tra poche unità della
popolazione.
Ogni situazione reale sarà intermedia tra due situazioni estreme che
chiameremo di concentrazione massima e di equiripartizione. Si ha
massima concentrazione quando una sola unità statistica possiede la
totalità del carattere. Si parla invece di equiripartizione quando tutte le
unità della popolazione possiedono la stessa quantità di carattere.
Per lo studio della concentrazione sono utili:
-La curva di concentrazione di Lorenz
-L’indice di concentrazione di Gini
4
Che cos’è la concentrazione
La concentrazione può essere studiata per caratteri trasferibili,
ovvero caratteri quantitativi che, almeno in linea di principio,
possono essere trasferiti tra le unità considerate.
Es: l’età non è un carattere trasferibile (tra gli individui) e non lo è neppure
l’intensità delle precipitazioni (tra le località considerate).
Es: il reddito e il patrimonio sono carattere trasferibili (tra gli individui). Il
numero di azioni di una certa azienda è trasferibile (ad esempio tra gli
azionisti). I finanziamenti ricevuti dalle regioni italiane sono trasferibili (ad
esempio tra le regioni o altri enti dello stato).
5
Curva di concentrazione
Consideriamo una popolazione di N individui e ordiniamo le quantità
del carattere (intensità) possedute dalle unità statistiche in senso non
decrescente: 0 ≤ x1 … ≤ xN. Definiamo, per i=1…N :
i
Fi = F(xi ) =
N
(frequenze cumulate)
i
åX
i
Qi = Q(xi ) =
åX
åX
j=1
j
=
j=1
N
j
N
m
(intensità cumulate)
j
j=1
6
Curva di concentrazione
Poniamo (F0,Q0)=(0,0). Definiamo curva di Lorenz la spezzata che
si ottiene congiungendo le coppie (Fi,Qi) sul piano cartesiano.
Il generico punto (Fi,Qi) si può interpretare in questo modo: l’ Fi per
cento più povero della popolazione possiede il Qi per cento del
carattere totale.
•Vale sempre (FN,QN) = (1,1) quindi la curva congiunge l’origine degli
assi con il punto (1,1).
•La curva è convessa essendo Qi ≤ Fi per ogni i. Quest’ultima
diseguaglianza segue dal fatto che:
å
i
x
j=1 i
i
£
å
N
x
j=1 i
N
essendo le x ordinate
7
Curva di concentrazione
La curva di concentrazione è sempre compresa,
eventualmente coincidere, tra le due curve seguenti:
potendo
•La bisettrice di equazione Q=F. Lungo la bisettrice Fi=Qi per ogni i,
da cui segue che ogni unità possiede una quantità di carattere pari
alla media dello stesso nella popolazione. La bisettrice rappresenta
quindi la situazione di equiripartizione.
• La curva passante per i punti (Fi,0), i=1,…,N-1. In tal caso tutto il
carattere è concentrato in una sola unità statistica (l’N-esima) e la
curva rappresenta quindi la situazione di massima concentrazione.
8
Esempio: curva di Lorenz
Dati i redditi di 7 individui:
80
90
21
23
32
16
62
per ricavare la curva di concentrazione organizziamo le osservazioni in tabella,
(avendo cura di ordinarle in base ai valori di x; ad esempio X1=16 perché
l’individuo più povero possiede 16), calcoliamo le coordinate dei punti (Fi,Qi) e le
congiungiamo. Nel caso in esame la curva è più vicina alla bisettrice.
i
x_i
0
F_i
Q_i
0
0
1
16
0.1429
0.0494
2
21
0.2857
0.1142
3
23
0.4286
0.1852
4
32
0.5714
0.2840
5
62
0.7143
0.4753
6
80
0.8571
0.7222
7
90
1
1
9
Indice di concentrazione di Gini
Intuitivamente, quanto più la bisettrice si discosta dalla curva di
concentrazione tanto maggiore è la concentrazione del carattere. E’
naturale quindi costruire un indice di concentrazione basato sullo
“scostamento” della curva dalla bisettrice. Come misura dello
scostamento si può utilizzare:
•la distanza verticale tra la curva di concentrazione e la bisettrice
•l’area compresa tra la curva di concentrazione e la bisettrice
Come vedremo le due misure danno luogo allo stesso indice…
10
Calcolo dell’indice di Gini - 1
Definiamo indice di concentrazione di Gini il rapporto tra la somma
delle distanze verticali tra la curva di concentrazione e la bisettrice e il
valore massimo di tale somma:
N-1
å(F - Q )
i
R=
1
i
N -1
åF
(1)
i
i=1
• R = 0 nel caso di equiripartizione (ovvero quando Fi - Qi = ?)
• R = 1 nel caso di massima concentrazione (ovvero quando un solo
individuo possiede tutto il carattere: Fi - Qi = Fi , i=1,2,…,N-1)
11
Area di concentrazione
Si definisce area di concentrazione l’area compresa tra la curva di
concentrazione e la retta di equidistribuzione.
1
0,9
Area del trapezio:
0,8
qi
½ x Somma delle basi x
altezza
0,7
Qi
0,6
Qi-1
0,5
0,4
A
0,3
Fi-1
0,2
Fi
0,1
0
0
0,2
0,4
pi
0,6
0,8
1
1
(Fi - Fi-1 ) (Qi + Qi-1 )
2
ALTEZZA
B.MAGG+B.MINORE
Nella figura è indicata con A. E’ pari all’area del triangolo di coordinate (0,0) (1,0)
(1,1) meno l’area dai trapezi di altezza Fi-Fi-1 e base Qi e Qi-1
12
Calcolo dell’indice di Gini - 2
L’indice di Gini si può calcolare anche dividendo l’area di concentrazione
per il suo valore massimo:
N
A
R=
=
Amax
1 2 -1 2 å(Fi - Fi-1 )(Qi + Qi-1 )
i=1
(N -1) / 2N
(2)
•R=0 nel caso di equiripartizione (A =?)
•R=1 nel caso di massima concentrazione (A=Amax). L’area di
concentrazione è massima quando un solo individuo, l’N-esimo,
possiede tutto il carattere: x1 =…= xN-1 =0, xN=Nμ e quindi Amax =(N-1)/2N.
13
Calcolo dell’indice di Gini - 3
L’are di concentrazione non può superare il valore 0.5. Si può quindi
ottenre un’approssimazione (che indichiamo con Ř) dell’indice di Gini
dividendo l’area di concentrazione per 0.5:
N
⌣
R=
1 2 -1 2 å(Fi - Fi-1)(Qi +Qi-1)
i=1
12
= 2A
(3)
•L’indice Ř è pari a due volte l’area di concentrazione.
• Si ha Ř < R (perché?) con i due indici che tendono a coincidere per
N grande.
14
Esempio: indice di Gini
Dati i redditi di 7 individui:
80
90
21
23
32
16
62
per ricavare l’indice di concentrazione organizziamo le osservazioni in tabella,
avendo cura di ordinarle in base ai valori di x, (ad esempio X1=16 perché
l’individuo più povero possiede 16 e così via…)
i
x_i
F_i
Q_i
(Fi-Qi)
Utilizzando la formula (1) abbiamo:
1
16 0.1429
0.0494
0.0935
2
21 0.2857
0.1142
0.1715
3
23 0.4286
0.1852
0.2434
4
32 0.5714
0.2840
0.2875
5
62 0.7143
0.4753
0.2390
6
80 0.8571
0.7222
0.1349
7
90 1
1
Totale
324 3
N-1
åF - Q
i
R=
i
i=1
N-1
åF
=
1.1698
= 0.3899
3
i
i=1
1.1698
15
Esempio: indice di Gini (continua)
Data i redditi di 7 individui:
80
90
21
23
32
16
62
Per calcolare R con la formula (2) usiamo una tabella simile alla precedente per
ricavare il numeratore. L’area massima che compare a denominatore è pari
all’area massima teorica meno l’area del triangolo di base F7-F6 e a altezza 1. Il
calcolo di Ř è del tutto analogo: è sufficiente porre il denominatore pari ½.
i
x_i
F_i
Q_i
1
16
0.1429
0.0494
0.0070
2
21
0.2857
0.1142
0.0233
3
23
0.4286
0.1852
0.0427
4
32
0.5714
0.2840
0.0670
5
62
0.7143
0.4753
0.1085
6
80
0.8571
0.7222
0.1710
7
90
1
1
0.2461
Totale
(Fi-Fi-1)(Qi+Qi-1)
0.6658
N
1 1
- å (Fi - Fi-1 )(Qi + Qi-1 )
2 2 i=1
R=
Amax
1 1
- 0.6658
2
2
=
= 0.3899
6
14
1 1
- 0.6658
2
2
R=
= 0.3342
1
2
16
Come calcolare l’indice per variabili statistiche discrete
Finora abbiamo considerato N osservazioni non raggruppate.
Per ricavare l’indice o la curva di concentrazione a partire da una
distribuzione di frequenza possiamo usare le seguenti versioni “ponderate” di
Fi e Qi:
Fi* =
n1 +... + ni
= p1 +... + pi
N
i
ån x
j
Q*i =
j=1
k
(4)
i
j
ån j x j
ån x
j
=
j=1
Nx
j
=
p1 x1 +... + pi xi
x
(5)
j=1
dove x1,…,xk sono k valori distinti ordinati in modo non decrescente con
numerosità n1 ,…,nk.
17
Come calcolare l’indice per variabili statistiche discrete
•Unendo le coppie (Fi* ,Qi*) si ottiene la stessa curva di concentrazione che si
otterrebbe utilizzando i dati non raggruppati (infatti si può dimostrare che la
pendenza della curva non cambia passando tra individui che hanno lo stesso
ammontare di carattere. L’unica differenza è che ora per ottenere la spezzata
si devono congiungere k<N punti)
•Possiamo usare le coppie (Fi* ,Qi*)per calcolare l’indice di Gini:
k 1
R* 
*
*
(
F

Q
 i i)
i 1
k 1
*
F
 i
i 1
In generale R ≠ R* sugli stessi dati. Infatti con R* la situazione di
massima concentrazione si ha quando tutto il carattere appartiene
alla k-esima classe (e non all’ N-esimo individuo come nel caso di R).
18
Come calcolare l’indice per variabili continue per
intervallo
Se si desidera ricavare la curva di concentrazione e l’indice di
Gini per una variabile continua per intervallo, il modo più
semplice di procedere consiste nel “discretizzare” la variabile
considerando le frequenze “concentrate” nei punti medi degli
intervalli. Si può poi procedere come nel caso di v.s discreta.
Nota: Nel caso in cui si disponga dell’informazione sull’ammontare
totale di carattere in un intervallo si possono discretizzare gli intervalli in
modo “coerente” con tale informazione.
Esempio: se nell’intervallo [5,15) di numerosità Ni=10 il carattere totale è pari a
60 è preferibile discretizzare l’intervallo assumendo come punto “medio” il valore
6 e non il valore 10 (al quale corrisponderebbe un reddito totale di 100 e non di
60). Si noti che devono essere note le numerosità degli intervalli per poter
procedere in questo modo.
19
Come calcolare l’indice
per variabili statistiche continue
Se X è una variabile statistica continua non negativa con densità f(x) e media
finita μ le espressioni delle frequenze e delle intensità cumulate sono:
F(x) =
ò
ò
Q(x) =
ò
x
0
x
0
¥
0
f (u) du
uf (u) du
uf (u) du
(4')
ò
=
x
0
uf (u) du
m
(5')
20
Come calcolare l’indice
per variabili statistiche continue
Solitamente nel caso continuo si esprime Q direttamente in funzione
della frequenza cumulata r. Ponendo F(x) = r si ottengono le due nuove
variabili:
r
e
ò
Q(r) =
F -1 (r)
0
uf (u) du
m
r Î [0,1]
dove Q(r) è interpretabile per ogni r in [0,1] come la proporzione di
carattere posseduta dal 100r % più povero della popolazione.
21
Come calcolare l’indice
per variabili statistiche continue
Nel caso continuo l’area di concentrazione massima è pari ad ½ e
quindi il l’indice di Gini è: R = A/Amax = 2A =1-2B.
Per ricavare R si può adattare la formula (3) già vista nel caso discreto:
R =1- 2B =1- 2 ò Q(r)dr = 2 ò (r -Q(r))dr
1
1
0
0
La share density
E’ possibile associare ad ogni curva di Lorenz un numero aleatorio
(Farris, 2010). Per farlo riscriviamo la (5) usando i quantili:
j
xi
Q(rj ) = å ( rj - rj-1 ) =
i=1 x
ò
rj
0
s(r)dr
rj-1 < r £ rj
• Dalla prima uguaglianza s(r) = xi / x è detta share density perché esprime la
quota di carattere posseduta dalle unità che cadono tra i quantili rj-1 ed rj.
• Dalla seconda uguaglianza si ricava s(r) =d/dr[Q(r)]. Essendo
s(r) > 0 e ∫ s(r)dr=Q(1)=1 la share density è una funzione di densità di
probabilità.
• Quale esperimento genera un numero casuale con densità s(r)? Ad esempio il
seguente: si estrae un euro a caso del reddito totale e gli si associa il
percentile R di reddito dell’unità a cui appartiene. Allora R ha densità di
probabilità s(r).
23
Confronti
Può essere interessante confrontare la concentrazione di due caratteri
oppure dello stesso carattere ma in due istanti diversi o in due ambiti
territoriali diversi.
Esempio 1: il reddito è più concentrato in Italia o in Francia?
Esempio 2: la concentrazione del reddito in Italia è maggiore adesso
oppure era più alta 10 anni fa?
Un modo intuitivo per stabilire quale carattere è maggiormente
concentrato è quello di confrontare graficamente le curve di
concentrazione nei due ambiti territoriali (o temporali) e stabilire
quale si trova al di sopra.
24
Confronti
• Non è detto che una delle due curve sia al di sopra dell’altra: le
curve si possono intersecare. Si può tuttavia mostrare che se il
carattere varia linearmente tra gli ambiti considerati allora le curve
non si intersecano.
• Si può sempre effettuare il confronto usando l’indice di Gini.
• Poiché
G=2A=1-2*Area_sotto_la_curva_Lorenz
il
confronto
attraverso l’indice di Gini equivale al confronto tra le aree al di sotto
delle curve di Lorenz dei due caratteri. Occorre quindi una certa
cautela prima di confrontare, ad esempio, la concentrazione del
reddito in due paesi con l’indice di Gini: infatti le aree al di sotto della
curva possono essere le stesse anche in presenza di distribuzioni
del carattere completamente diverse ! (Atkinson)
Confronti
La concentrazione del reddito nel mondo usando l’indice di Gini.
Fonte: CIA, The world Factbook 2009 (dati 1989-2009)
26
Esempio di Confronto Tra Distribuzioni
Si riportano di seguito le distribuzioni dei finanziamenti concessi
da un istituto bancario per l’acquisto della prima casa a giovani
coppie residenti in Campania ed in Sardegna:
Sardegna
Finanziamenti
(migliaia di Euro)
ni
0-50
50-100
100-150
150-200
200-250
Totale
57
3
7
8
25
100
Campania
Finanziamenti
ni
(migliaia di Euro)
0-50
50-100
100-150
150-200
200-250
Totale
10
25
37
22
6
100
a)
In quale regione risulta più elevata la concentrazione dei
finanziamenti concessi?
b)
Confrontare graficamente i diversi livelli di concentrazione dei
finanziamenti nelle due regioni
27
Concentrazione dei finanziamenti in Sardegna
Sardegna
Finanziamenti
(migliaia di Euro)
ni
Ni
pi
xi
xi ni
Xi
qi
pi+1- pi
qi+1+ qi
(pi+1- pi)(qi+1+ qi)
0
0
0
0.000
0
0
0
0.000
0.570
0.149
0.085
0-50
57
57
0.570
25
1425
1425
0.149
0.030
0.322
0.010
50-100
3
60
0.600
75
225
1650
0.173
0.070
0.437
0.031
100-150
7
67
0.670
125
875
2525
0.264
0.080
0.675
0.054
150-200
8
75
0.750
175
1400
3925
0.411
0.250
1.411
0.353
200-250
25
100
1.000
225
5625
9550
1.000
-
-
-
Totale
100
9550
0.532
k-1
R =1- å(Fi+1 - Fi )(Qi+1 + Qi ) =1- 0.532 = 0.468
i=0
28
Concentrazione dei finanziamenti in Campania
Campania
Finanziamenti
(migliaia di Euro)
ni
Ni
pi
xi
xi ni
Xi
qi
pi+1- pi
qi+1+ qi
(pi+1- pi)(qi+1+ qi)
0
0
0
0.000
0
0
0
0.000
0.100
0.021
0.002
0-50
10
10
0.100
25
250
250
0.021
0.250
0.199
0.050
50-100
25
35
0.350
75
1875
2125
0.178
0.370
0.743
0.275
100-150
37
72
0.720
125
4625
6750
0.565
0.220
1.452
0.319
150-200
22
94
0.940
175
3850
10600
0.887
0.060
1.887
0.113
200-250
6
100
1.000
225
1350
11950
1.000
-
-
-
Totale
100
11950
0.759
k-1
R =1- å(Fi+1 - Fi )(Qi+1 + Qi ) =1- 0.759 = 0.241
i=0
29
~
Rsar  0.468
~
Rcam  0.241
La concentrazione è più
elevata in Sardegna
1.0
0.9
0.8
0.7
0.6
qi 0.5
0.4
0.3
0.2
0.1
0.0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
pi
Equidistribuzione
Sardegna
Campania
La curva di Lorenz conferma questo risultato
30
Inferenza
Finora abbiamo assunto di avere a disposizione i dati relativi
all’intera popolazione di N unità.
Supponiamo di voler fare inferenza sulla curva e sull’indice di
concentrazione della popolazione utilizzando un campione di n
unità.
•Una stima della curva di concentrazione si ottiene
rappresentando graficamente le coppie (Fi,Qi) campionarie come
nel caso discreto.
•Dalla curva si può ricavare facilmente una stima dell’indice di
Gini usando le formule (1) o (2). Il valore così ricavato è però una
sottostima di R perché l’area di concentrazione della curva stimata
è minore o uguale a quella effettiva.
31
Inferenza
Uno stimatore non distorto dell’indice di Gini si può ricavare
sfruttando la relazione:
R=Δ/2μ
dove:
Δ = differenza media semplice tra le osservazioni
μ = media delle osservazioni
che possono essere stimate rispettivamente con:
Δ^ = 1/[n(n-1)] ΣiΣj|xi-xj|
x^ = 1/n Σixi
32
Esercizi
1) I redditi dei top 10 giocatori NBA (il campionato di basket professionistico americano)
nell’anno 2014 sono stati i seguenti (in milioni di $ ):
Bryant
Nowitz
ky
Stoude
mir
John
son
Antony
Howard
Gasol
Bosh
James
Wade
30,459
22,721
22,629
21,466
21,388
20,513
19,285
19,067
19,067
18,677
Disegnate la curva di concentrazione e interpretate il punto (F3,Q3). Calcolate l’indice di Gini
usando la formula (1) e commentate il risultato ottenuto.
2) Un piccolo aereo da turismo ha effettuato otto voli trasportando questo numero di
passeggeri: 12, 26, 13, 31, 34, 34, 17, 17 . La concentrazione dei passeggeri è bassa o
alta? Redistribuire i passeggeri tra i voli (lasciando invariato il totale) in modo che l’indice
di Gini sia pari ad uno.
3) La curva di concentrazione del reddito del paese A ha equazione Q(r) = r2 . Quale
proporzione di abitanti possiede il 30% del reddito totale? Ricavare il valore dell’indice di
Gini e la share function s( r). Come si può interpretare s (0.5) ?
5) Nell’esercizio 1 i risultati cambierebbero se gli stipendi fossero espressi in euro?
Spiegare intuitivamente e mostrare che l’indice di Gini è invariante a cambi
dell’unità di misura.
33
Per approfondire
• C. Gini (1912) Variabilità e mutabilità. Contributo allo studio delle
distribuzioni e relazioni statistiche, Studi economici-giuridici dela Regia
Università di Cagliari, anno III.
• Lorenz, M. O. (1905). Methods of measuring the concentration of wealth.
Publications of the American Statistical Association, Vol. 9, No. 70) 9 (70):
209–219.
• Atkinson A.B. (1970). On the Measurement of Inequality, Journal of
Economic Theory, 2, 244-263.
• Farris F.A. (2010) The Gini Index and Measures of Inequality, The
American Mathematical Monthly, 117.
34
Scarica

i=1 - I blog di Unica