Appunti sulla concentrazione a.a. 2013-2014 [email protected] Indice • • • • • Che cos’è la concentrazione? La curva di concentrazione di Lorenz L’indice di concentrazione di Gini Confrontare la concentrazione di due caratteri Riferimenti 2 Che cos’è la concentrazione “There may be wide difference of opinion as to the significance of a very unequal distribution of wealth, but there can be no doubt as to the importance of knowing whether the present distribution is becoming more or less unequal.” C. Lorenz 3 Che cos’è la concentrazione Intuitivamente un carattere statistico (si pensi ad esempio al reddito) è tanto più concentrato quanto più risulta suddiviso tra poche unità della popolazione. Ogni situazione reale sarà intermedia tra due situazioni estreme che chiameremo di concentrazione massima e di equiripartizione. Si ha massima concentrazione quando una sola unità statistica possiede la totalità del carattere. Si parla invece di equiripartizione quando tutte le unità della popolazione possiedono la stessa quantità di carattere. Per lo studio della concentrazione sono utili: -La curva di concentrazione di Lorenz -L’indice di concentrazione di Gini 4 Che cos’è la concentrazione La concentrazione può essere studiata per caratteri trasferibili, ovvero caratteri quantitativi che, almeno in linea di principio, possono essere trasferiti tra le unità considerate. Es: l’età non è un carattere trasferibile (tra gli individui) e non lo è neppure l’intensità delle precipitazioni (tra le località considerate). Es: il reddito e il patrimonio sono carattere trasferibili (tra gli individui). Il numero di azioni di una certa azienda è trasferibile (ad esempio tra gli azionisti). I finanziamenti ricevuti dalle regioni italiane sono trasferibili (ad esempio tra le regioni o altri enti dello stato). 5 Curva di concentrazione Consideriamo una popolazione di N individui e ordiniamo le quantità del carattere (intensità) possedute dalle unità statistiche in senso non decrescente: 0 ≤ x1 … ≤ xN. Definiamo, per i=1…N : i Fi = F(xi ) = N (frequenze cumulate) i åX i Qi = Q(xi ) = åX åX j=1 j = j=1 N j N m (intensità cumulate) j j=1 6 Curva di concentrazione Poniamo (F0,Q0)=(0,0). Definiamo curva di Lorenz la spezzata che si ottiene congiungendo le coppie (Fi,Qi) sul piano cartesiano. Il generico punto (Fi,Qi) si può interpretare in questo modo: l’ Fi per cento più povero della popolazione possiede il Qi per cento del carattere totale. •Vale sempre (FN,QN) = (1,1) quindi la curva congiunge l’origine degli assi con il punto (1,1). •La curva è convessa essendo Qi ≤ Fi per ogni i. Quest’ultima diseguaglianza segue dal fatto che: å i x j=1 i i £ å N x j=1 i N essendo le x ordinate 7 Curva di concentrazione La curva di concentrazione è sempre compresa, eventualmente coincidere, tra le due curve seguenti: potendo •La bisettrice di equazione Q=F. Lungo la bisettrice Fi=Qi per ogni i, da cui segue che ogni unità possiede una quantità di carattere pari alla media dello stesso nella popolazione. La bisettrice rappresenta quindi la situazione di equiripartizione. • La curva passante per i punti (Fi,0), i=1,…,N-1. In tal caso tutto il carattere è concentrato in una sola unità statistica (l’N-esima) e la curva rappresenta quindi la situazione di massima concentrazione. 8 Esempio: curva di Lorenz Dati i redditi di 7 individui: 80 90 21 23 32 16 62 per ricavare la curva di concentrazione organizziamo le osservazioni in tabella, (avendo cura di ordinarle in base ai valori di x; ad esempio X1=16 perché l’individuo più povero possiede 16), calcoliamo le coordinate dei punti (Fi,Qi) e le congiungiamo. Nel caso in esame la curva è più vicina alla bisettrice. i x_i 0 F_i Q_i 0 0 1 16 0.1429 0.0494 2 21 0.2857 0.1142 3 23 0.4286 0.1852 4 32 0.5714 0.2840 5 62 0.7143 0.4753 6 80 0.8571 0.7222 7 90 1 1 9 Indice di concentrazione di Gini Intuitivamente, quanto più la bisettrice si discosta dalla curva di concentrazione tanto maggiore è la concentrazione del carattere. E’ naturale quindi costruire un indice di concentrazione basato sullo “scostamento” della curva dalla bisettrice. Come misura dello scostamento si può utilizzare: •la distanza verticale tra la curva di concentrazione e la bisettrice •l’area compresa tra la curva di concentrazione e la bisettrice Come vedremo le due misure danno luogo allo stesso indice… 10 Calcolo dell’indice di Gini - 1 Definiamo indice di concentrazione di Gini il rapporto tra la somma delle distanze verticali tra la curva di concentrazione e la bisettrice e il valore massimo di tale somma: N-1 å(F - Q ) i R= 1 i N -1 åF (1) i i=1 • R = 0 nel caso di equiripartizione (ovvero quando Fi - Qi = ?) • R = 1 nel caso di massima concentrazione (ovvero quando un solo individuo possiede tutto il carattere: Fi - Qi = Fi , i=1,2,…,N-1) 11 Area di concentrazione Si definisce area di concentrazione l’area compresa tra la curva di concentrazione e la retta di equidistribuzione. 1 0,9 Area del trapezio: 0,8 qi ½ x Somma delle basi x altezza 0,7 Qi 0,6 Qi-1 0,5 0,4 A 0,3 Fi-1 0,2 Fi 0,1 0 0 0,2 0,4 pi 0,6 0,8 1 1 (Fi - Fi-1 ) (Qi + Qi-1 ) 2 ALTEZZA B.MAGG+B.MINORE Nella figura è indicata con A. E’ pari all’area del triangolo di coordinate (0,0) (1,0) (1,1) meno l’area dai trapezi di altezza Fi-Fi-1 e base Qi e Qi-1 12 Calcolo dell’indice di Gini - 2 L’indice di Gini si può calcolare anche dividendo l’area di concentrazione per il suo valore massimo: N A R= = Amax 1 2 -1 2 å(Fi - Fi-1 )(Qi + Qi-1 ) i=1 (N -1) / 2N (2) •R=0 nel caso di equiripartizione (A =?) •R=1 nel caso di massima concentrazione (A=Amax). L’area di concentrazione è massima quando un solo individuo, l’N-esimo, possiede tutto il carattere: x1 =…= xN-1 =0, xN=Nμ e quindi Amax =(N-1)/2N. 13 Calcolo dell’indice di Gini - 3 L’are di concentrazione non può superare il valore 0.5. Si può quindi ottenre un’approssimazione (che indichiamo con Ř) dell’indice di Gini dividendo l’area di concentrazione per 0.5: N ⌣ R= 1 2 -1 2 å(Fi - Fi-1)(Qi +Qi-1) i=1 12 = 2A (3) •L’indice Ř è pari a due volte l’area di concentrazione. • Si ha Ř < R (perché?) con i due indici che tendono a coincidere per N grande. 14 Esempio: indice di Gini Dati i redditi di 7 individui: 80 90 21 23 32 16 62 per ricavare l’indice di concentrazione organizziamo le osservazioni in tabella, avendo cura di ordinarle in base ai valori di x, (ad esempio X1=16 perché l’individuo più povero possiede 16 e così via…) i x_i F_i Q_i (Fi-Qi) Utilizzando la formula (1) abbiamo: 1 16 0.1429 0.0494 0.0935 2 21 0.2857 0.1142 0.1715 3 23 0.4286 0.1852 0.2434 4 32 0.5714 0.2840 0.2875 5 62 0.7143 0.4753 0.2390 6 80 0.8571 0.7222 0.1349 7 90 1 1 Totale 324 3 N-1 åF - Q i R= i i=1 N-1 åF = 1.1698 = 0.3899 3 i i=1 1.1698 15 Esempio: indice di Gini (continua) Data i redditi di 7 individui: 80 90 21 23 32 16 62 Per calcolare R con la formula (2) usiamo una tabella simile alla precedente per ricavare il numeratore. L’area massima che compare a denominatore è pari all’area massima teorica meno l’area del triangolo di base F7-F6 e a altezza 1. Il calcolo di Ř è del tutto analogo: è sufficiente porre il denominatore pari ½. i x_i F_i Q_i 1 16 0.1429 0.0494 0.0070 2 21 0.2857 0.1142 0.0233 3 23 0.4286 0.1852 0.0427 4 32 0.5714 0.2840 0.0670 5 62 0.7143 0.4753 0.1085 6 80 0.8571 0.7222 0.1710 7 90 1 1 0.2461 Totale (Fi-Fi-1)(Qi+Qi-1) 0.6658 N 1 1 - å (Fi - Fi-1 )(Qi + Qi-1 ) 2 2 i=1 R= Amax 1 1 - 0.6658 2 2 = = 0.3899 6 14 1 1 - 0.6658 2 2 R= = 0.3342 1 2 16 Come calcolare l’indice per variabili statistiche discrete Finora abbiamo considerato N osservazioni non raggruppate. Per ricavare l’indice o la curva di concentrazione a partire da una distribuzione di frequenza possiamo usare le seguenti versioni “ponderate” di Fi e Qi: Fi* = n1 +... + ni = p1 +... + pi N i ån x j Q*i = j=1 k (4) i j ån j x j ån x j = j=1 Nx j = p1 x1 +... + pi xi x (5) j=1 dove x1,…,xk sono k valori distinti ordinati in modo non decrescente con numerosità n1 ,…,nk. 17 Come calcolare l’indice per variabili statistiche discrete •Unendo le coppie (Fi* ,Qi*) si ottiene la stessa curva di concentrazione che si otterrebbe utilizzando i dati non raggruppati (infatti si può dimostrare che la pendenza della curva non cambia passando tra individui che hanno lo stesso ammontare di carattere. L’unica differenza è che ora per ottenere la spezzata si devono congiungere k<N punti) •Possiamo usare le coppie (Fi* ,Qi*)per calcolare l’indice di Gini: k 1 R* * * ( F Q i i) i 1 k 1 * F i i 1 In generale R ≠ R* sugli stessi dati. Infatti con R* la situazione di massima concentrazione si ha quando tutto il carattere appartiene alla k-esima classe (e non all’ N-esimo individuo come nel caso di R). 18 Come calcolare l’indice per variabili continue per intervallo Se si desidera ricavare la curva di concentrazione e l’indice di Gini per una variabile continua per intervallo, il modo più semplice di procedere consiste nel “discretizzare” la variabile considerando le frequenze “concentrate” nei punti medi degli intervalli. Si può poi procedere come nel caso di v.s discreta. Nota: Nel caso in cui si disponga dell’informazione sull’ammontare totale di carattere in un intervallo si possono discretizzare gli intervalli in modo “coerente” con tale informazione. Esempio: se nell’intervallo [5,15) di numerosità Ni=10 il carattere totale è pari a 60 è preferibile discretizzare l’intervallo assumendo come punto “medio” il valore 6 e non il valore 10 (al quale corrisponderebbe un reddito totale di 100 e non di 60). Si noti che devono essere note le numerosità degli intervalli per poter procedere in questo modo. 19 Come calcolare l’indice per variabili statistiche continue Se X è una variabile statistica continua non negativa con densità f(x) e media finita μ le espressioni delle frequenze e delle intensità cumulate sono: F(x) = ò ò Q(x) = ò x 0 x 0 ¥ 0 f (u) du uf (u) du uf (u) du (4') ò = x 0 uf (u) du m (5') 20 Come calcolare l’indice per variabili statistiche continue Solitamente nel caso continuo si esprime Q direttamente in funzione della frequenza cumulata r. Ponendo F(x) = r si ottengono le due nuove variabili: r e ò Q(r) = F -1 (r) 0 uf (u) du m r Î [0,1] dove Q(r) è interpretabile per ogni r in [0,1] come la proporzione di carattere posseduta dal 100r % più povero della popolazione. 21 Come calcolare l’indice per variabili statistiche continue Nel caso continuo l’area di concentrazione massima è pari ad ½ e quindi il l’indice di Gini è: R = A/Amax = 2A =1-2B. Per ricavare R si può adattare la formula (3) già vista nel caso discreto: R =1- 2B =1- 2 ò Q(r)dr = 2 ò (r -Q(r))dr 1 1 0 0 La share density E’ possibile associare ad ogni curva di Lorenz un numero aleatorio (Farris, 2010). Per farlo riscriviamo la (5) usando i quantili: j xi Q(rj ) = å ( rj - rj-1 ) = i=1 x ò rj 0 s(r)dr rj-1 < r £ rj • Dalla prima uguaglianza s(r) = xi / x è detta share density perché esprime la quota di carattere posseduta dalle unità che cadono tra i quantili rj-1 ed rj. • Dalla seconda uguaglianza si ricava s(r) =d/dr[Q(r)]. Essendo s(r) > 0 e ∫ s(r)dr=Q(1)=1 la share density è una funzione di densità di probabilità. • Quale esperimento genera un numero casuale con densità s(r)? Ad esempio il seguente: si estrae un euro a caso del reddito totale e gli si associa il percentile R di reddito dell’unità a cui appartiene. Allora R ha densità di probabilità s(r). 23 Confronti Può essere interessante confrontare la concentrazione di due caratteri oppure dello stesso carattere ma in due istanti diversi o in due ambiti territoriali diversi. Esempio 1: il reddito è più concentrato in Italia o in Francia? Esempio 2: la concentrazione del reddito in Italia è maggiore adesso oppure era più alta 10 anni fa? Un modo intuitivo per stabilire quale carattere è maggiormente concentrato è quello di confrontare graficamente le curve di concentrazione nei due ambiti territoriali (o temporali) e stabilire quale si trova al di sopra. 24 Confronti • Non è detto che una delle due curve sia al di sopra dell’altra: le curve si possono intersecare. Si può tuttavia mostrare che se il carattere varia linearmente tra gli ambiti considerati allora le curve non si intersecano. • Si può sempre effettuare il confronto usando l’indice di Gini. • Poiché G=2A=1-2*Area_sotto_la_curva_Lorenz il confronto attraverso l’indice di Gini equivale al confronto tra le aree al di sotto delle curve di Lorenz dei due caratteri. Occorre quindi una certa cautela prima di confrontare, ad esempio, la concentrazione del reddito in due paesi con l’indice di Gini: infatti le aree al di sotto della curva possono essere le stesse anche in presenza di distribuzioni del carattere completamente diverse ! (Atkinson) Confronti La concentrazione del reddito nel mondo usando l’indice di Gini. Fonte: CIA, The world Factbook 2009 (dati 1989-2009) 26 Esempio di Confronto Tra Distribuzioni Si riportano di seguito le distribuzioni dei finanziamenti concessi da un istituto bancario per l’acquisto della prima casa a giovani coppie residenti in Campania ed in Sardegna: Sardegna Finanziamenti (migliaia di Euro) ni 0-50 50-100 100-150 150-200 200-250 Totale 57 3 7 8 25 100 Campania Finanziamenti ni (migliaia di Euro) 0-50 50-100 100-150 150-200 200-250 Totale 10 25 37 22 6 100 a) In quale regione risulta più elevata la concentrazione dei finanziamenti concessi? b) Confrontare graficamente i diversi livelli di concentrazione dei finanziamenti nelle due regioni 27 Concentrazione dei finanziamenti in Sardegna Sardegna Finanziamenti (migliaia di Euro) ni Ni pi xi xi ni Xi qi pi+1- pi qi+1+ qi (pi+1- pi)(qi+1+ qi) 0 0 0 0.000 0 0 0 0.000 0.570 0.149 0.085 0-50 57 57 0.570 25 1425 1425 0.149 0.030 0.322 0.010 50-100 3 60 0.600 75 225 1650 0.173 0.070 0.437 0.031 100-150 7 67 0.670 125 875 2525 0.264 0.080 0.675 0.054 150-200 8 75 0.750 175 1400 3925 0.411 0.250 1.411 0.353 200-250 25 100 1.000 225 5625 9550 1.000 - - - Totale 100 9550 0.532 k-1 R =1- å(Fi+1 - Fi )(Qi+1 + Qi ) =1- 0.532 = 0.468 i=0 28 Concentrazione dei finanziamenti in Campania Campania Finanziamenti (migliaia di Euro) ni Ni pi xi xi ni Xi qi pi+1- pi qi+1+ qi (pi+1- pi)(qi+1+ qi) 0 0 0 0.000 0 0 0 0.000 0.100 0.021 0.002 0-50 10 10 0.100 25 250 250 0.021 0.250 0.199 0.050 50-100 25 35 0.350 75 1875 2125 0.178 0.370 0.743 0.275 100-150 37 72 0.720 125 4625 6750 0.565 0.220 1.452 0.319 150-200 22 94 0.940 175 3850 10600 0.887 0.060 1.887 0.113 200-250 6 100 1.000 225 1350 11950 1.000 - - - Totale 100 11950 0.759 k-1 R =1- å(Fi+1 - Fi )(Qi+1 + Qi ) =1- 0.759 = 0.241 i=0 29 ~ Rsar 0.468 ~ Rcam 0.241 La concentrazione è più elevata in Sardegna 1.0 0.9 0.8 0.7 0.6 qi 0.5 0.4 0.3 0.2 0.1 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 pi Equidistribuzione Sardegna Campania La curva di Lorenz conferma questo risultato 30 Inferenza Finora abbiamo assunto di avere a disposizione i dati relativi all’intera popolazione di N unità. Supponiamo di voler fare inferenza sulla curva e sull’indice di concentrazione della popolazione utilizzando un campione di n unità. •Una stima della curva di concentrazione si ottiene rappresentando graficamente le coppie (Fi,Qi) campionarie come nel caso discreto. •Dalla curva si può ricavare facilmente una stima dell’indice di Gini usando le formule (1) o (2). Il valore così ricavato è però una sottostima di R perché l’area di concentrazione della curva stimata è minore o uguale a quella effettiva. 31 Inferenza Uno stimatore non distorto dell’indice di Gini si può ricavare sfruttando la relazione: R=Δ/2μ dove: Δ = differenza media semplice tra le osservazioni μ = media delle osservazioni che possono essere stimate rispettivamente con: Δ^ = 1/[n(n-1)] ΣiΣj|xi-xj| x^ = 1/n Σixi 32 Esercizi 1) I redditi dei top 10 giocatori NBA (il campionato di basket professionistico americano) nell’anno 2014 sono stati i seguenti (in milioni di $ ): Bryant Nowitz ky Stoude mir John son Antony Howard Gasol Bosh James Wade 30,459 22,721 22,629 21,466 21,388 20,513 19,285 19,067 19,067 18,677 Disegnate la curva di concentrazione e interpretate il punto (F3,Q3). Calcolate l’indice di Gini usando la formula (1) e commentate il risultato ottenuto. 2) Un piccolo aereo da turismo ha effettuato otto voli trasportando questo numero di passeggeri: 12, 26, 13, 31, 34, 34, 17, 17 . La concentrazione dei passeggeri è bassa o alta? Redistribuire i passeggeri tra i voli (lasciando invariato il totale) in modo che l’indice di Gini sia pari ad uno. 3) La curva di concentrazione del reddito del paese A ha equazione Q(r) = r2 . Quale proporzione di abitanti possiede il 30% del reddito totale? Ricavare il valore dell’indice di Gini e la share function s( r). Come si può interpretare s (0.5) ? 5) Nell’esercizio 1 i risultati cambierebbero se gli stipendi fossero espressi in euro? Spiegare intuitivamente e mostrare che l’indice di Gini è invariante a cambi dell’unità di misura. 33 Per approfondire • C. Gini (1912) Variabilità e mutabilità. Contributo allo studio delle distribuzioni e relazioni statistiche, Studi economici-giuridici dela Regia Università di Cagliari, anno III. • Lorenz, M. O. (1905). Methods of measuring the concentration of wealth. Publications of the American Statistical Association, Vol. 9, No. 70) 9 (70): 209–219. • Atkinson A.B. (1970). On the Measurement of Inequality, Journal of Economic Theory, 2, 244-263. • Farris F.A. (2010) The Gini Index and Measures of Inequality, The American Mathematical Monthly, 117. 34