Laboratorio di Didattica di elaborazione dati – 2A
Misure di concentrazione
Oggi ci occupiamo con la concentrazione e le sue misure. La concentrazione ha significato pratico
solamente nel caso di distribuzioni di caratteri trasferibili – quelli per cui l'ammontare totale del
carattere può essere posseduto da una sola unità statistica, mentre tutte le altre ne sono sprovviste,
oppure può essere distribuito tra tutte le unità. Caratteri trasferibili includono: il reddito delle
persone, la superficie coltivata dalle aziende agricole, il numero di voti ottenuti dai partiti politici
alle elezioni, e così via. Sono invece caratteri non trasferibili quelli che sono propri di ogni singola
unità, e non possono essere trasferiti come ad esempio età o peso delle persone.
Nel caso dei caratteri trasferibili si può valutare se tali caratteri sono equamente distribuiti tra tutte
le unità statistiche mediante le misure di concentrazione. La concentrazione risulta tanto maggiore
quanto più l'ammontare totale del carattere è concentrato in poche unità; se il carattere è
equidistribuito la concentrazione e nulla.
Il coefficiente di Gini è una misura di concentrazione, o della diseguaglianza della distribuzione di
caratteri trasferibili. Lo conosceremo presto lavorando con un esempio sotto.
Nel quartiere "Tranquillità" abitano 156 famiglie, i cui redditi sono mostrati dalla tabella
sotto.
Classe di reddito Numero delle famiglie Reddito di tutta la classe
fino a 500 €
21
8400 €
da 501 a 700 €
24
14400 €
da 701 a 1000 €
46
39100 €
da 1001 a 1500 €
36
45000 €
da 1501 a 2000 €
19
33250 €
da 2001 a 3000 €
7
17500 €
da 3001 a 4000 €
2
7000 €
oltre 4000 €
1
6000 €
In questo esercizio creeremo un grafico di concentrazione dei redditi, e poi calcoleremo il
coefficiente di Gini per valutare la diseguaglianza dei redditi.
1. Digita nel foglio di lavoro la tabella sopra. I valori nella prima colonna vengono utilizzati
solo come etichette, con i valori nelle colonne seconda e terza, invece, effetueremo i calcoli e,
perciò, digitali senza il simbolo €.
2. Aggiungi una riga sotto la tabella titolata “SOMMA”. Utilizza la funzione SOMMA() e calcola
il numero totale delle famiglie ed il reddito totale del quartiere.
Laboratorio di Didattica di elaborazione dati
2008-2009, Jacek Dziedzic
3. Aggiungi una colonna a destra, in cui calcolerai il relativo numero delle famigle per tutte le
classe. Per esempio nella prima riga ci troverà 21/156, nella seconda riga – 24/156 e così via.
Usa le formule, non digitare tutte le frazione in modo manuale. Il numeratore contiene un
valore preso dalla stessa riga, il denominatore – sempre lo stesso valore. Usa sempre la stessa
formula, bloccando la cella nel numeratore. Usando CTRL-1 arrotonda i valori a 4 cifre
decimali. Verifica se hai fatto un sbaglio e calcola la somma dei valori nella questa colonna –
naturalmente deve ammontare a 1.
Quando si copia ed incolla le celle, Excel automaticamente
traduce (cambia) gli indirizzi delle celle, dove necessario:
Qua una copia della colonna D è incollata come colonna E.
La formula per la somma cambia automaticamente
(non riferisce alla colonna D più, ma alla E)
A volte non abbiamo voglia di cambiare gli indirizzi. In questo caso
possiamo precedere la lettera della colonna o il numero della riga col
simbolo del dollaro. La colonna (riga) è detta bloccata nella formula
– il suo indirizzo non cambia mai. Quando blocchiamo entrambe, la
colonna e la riga, è detta bloccata la cella.
Qua la cella D2 è bloccata nella prima parte della formula è nonbloccata nella seconda parte. Quando si incolla una copia della
formula nella cella E4, la prima parte della formula non cambia,
la seconda, invece, sì.
Gli indirizzi sono detti assoluti se non usano
il simbolo $ e relativi se lo usano.
4. Fa' lo stesso per i redditi, nella quinta colonna.
5. Per ottenere il grafico di concentrazione dei redditi, dobbiamo visualizzare il reddito relativo
cumulato come una funzione del numero relativo cumulato delle famiglie. Quindi, nella
colonna seguente calcola il numero relativo cumulato delle famiglie. In ogni riga ci sarà una
somma dei valori della quarta colonna – dalla prima riga alla riga corrente, incluso. Usa
l'indirizzo relativo (senza “$”) e assoluto (usando “$”), dove necessario.
6. Fa' lo stesso per i redditi relativi, nella seguente colonna.
Laboratorio di Didattica di elaborazione dati
2008-2009, Jacek Dziedzic
7. La tabella dovrebbe apparire come sopra.
8. Possiamo inserire il grafico. Naturalmente vogliamo ottenere un grafico dei valori nella
ultima colonna come una funzione dei valori nella penultima colonna.
9. Normalmente vogliamo adombrare l'area tra la spezzata di concentrazione (cioè il nostro
grafico) e la retta di equidistribuzione (cioè y=x). Usando Excel è, purtroppo, practicalmente
impossibile1 (!). La causa è una limitazione di Excel che permette l'adombratura solo con i
tipi di grafici (per esempio il tipo Area) in cui, purtroppo, la variabile indipendente deve
assumere valori equidistanti, mentre (vedi la tabella) i nostri valori non sono affatto
equidistanti... L'unico tipo di grafico, con cui possiamo avere i valori non equidistanti sull'
asse X è il grafico del tipo XY, in cui, invece, non è possibile nè adombare l'area nè
aggiungere etichette ai valori alla asse X... Tuttavia, dobbiamo usare il grafico del tipo XY.
Inseriscilo: Inserisci/Grafico/XY/Il grafico con punti connessi da tratti di
retta. Scegli il proprio intervallo dati e preme “Avanti”.
10. Già. Nota che Excel non ha notato, che sul grafico del conzentrazione le due assi sono definiti
per intervalli <0, 1> e ha scelto i valori fino a 1.2. Correggilo.
11. Sul nostro grafico manca sempre il punto (0, 0) – infatti non appaia nella tabella. Bisogna
aggiungere questo punto – aggiungi una riga e mettelo all'inizio della tabella, poi dici Excel
che il raggio di valori è cambiato.
12. Se vuoi vedere come i redditi nel quartiere "Tranquillità" sono diversi dalla situazione ideale,
aggiungi al grafico la linea y=x. Il modo più facile è creazione di una serie nuova, costituita
da due punti (Dati di origine/Serie/Aggiungi) (0, 0) e (1, 1), digitali in un spazio
vuoto.
la retta di
equidistribuzione
la spezzata di
concentrazione
Quando cresce la superficie A, cresce la diseguaglianza (conzentrazione).
A=0 significa diseguaglianza nulla (tutti redditi sono equdistribuiti).
1 A dire la verità è possibile, ma in modo molto complesso. Si usa un “hack”, in cui si sovrappone un grafico del tipo
Area, con l'asse riscalata, misurata in giorni (!), su un grafico del tipo XY, e poi si elimina l'asse X. Se vuoi, vedi su:
http://peltiertech.com/Excel/Charts/XYAreaChart2.html
Laboratorio di Didattica di elaborazione dati
2008-2009, Jacek Dziedzic
13. Ora calcoliamo il coefficiente di Gini, il quale è una misura di diseguaglianza della
distribuzione dei redditi. Vedi il grafico. Il coefficiente di Gini è il rapporto tra la superficie
A e l'area (A+B): G=A/(A+B), assumendo la notazione del grafico precedente. La superficie
sotto la retta di equidistribuzione è A+B = ½, e quindi G = 2A = 2(½ – B) = 1–2B. Allora,
avendo la superficie sotto la spezzata di concentrazione, B, è facile da calcolare il coefficiente
di Gini. Nota che questa superficie è una somma delle superfici dei trapezi. i-esimo trapezio
ha la base xi –xi-1 lunga e i lati verticali uguali yi-1 (sinistro) i yi (destro). Quindi, la superficie
del i-esimo trapezio è:
Si = ½∙(xi –xi-1)∙(yi +yi-1).
Aggiungi alla tabella due colonne – nella prima colonna calcola (xi – xi-1), nella seconda
calcola (yi +yi-1). Con il ½ non ti preoccupare, perchè vogliamo ottenere 2B, non B proprio.
14. Nella seguente colonna calcola un prodotto delle colonne precedenti e sotto la somma dei
valori della colonna – hai proprio calcolato 2B. Calcolare 1 – 2B sarà facile, hai ottenuto il
coefficiente di Gini. Io ho ottenuto 0.30, il che significa una moderata diseguaglianza dei
redditi. Usando, per esempio, Wikipedia (http://tiny.pl/d1hd) puoi vedere che è un livello
della diseguaglianza un poco minore del livello tipico per Italia.
Laboratorio di Didattica di elaborazione dati
2008-2009, Jacek Dziedzic
Scarica

Esercizio 2A (25.02.2009, circa 1.5 ore)