Laboratorio di Didattica di elaborazione dati – 2A Misure di concentrazione Oggi ci occupiamo con la concentrazione e le sue misure. La concentrazione ha significato pratico solamente nel caso di distribuzioni di caratteri trasferibili – quelli per cui l'ammontare totale del carattere può essere posseduto da una sola unità statistica, mentre tutte le altre ne sono sprovviste, oppure può essere distribuito tra tutte le unità. Caratteri trasferibili includono: il reddito delle persone, la superficie coltivata dalle aziende agricole, il numero di voti ottenuti dai partiti politici alle elezioni, e così via. Sono invece caratteri non trasferibili quelli che sono propri di ogni singola unità, e non possono essere trasferiti come ad esempio età o peso delle persone. Nel caso dei caratteri trasferibili si può valutare se tali caratteri sono equamente distribuiti tra tutte le unità statistiche mediante le misure di concentrazione. La concentrazione risulta tanto maggiore quanto più l'ammontare totale del carattere è concentrato in poche unità; se il carattere è equidistribuito la concentrazione e nulla. Il coefficiente di Gini è una misura di concentrazione, o della diseguaglianza della distribuzione di caratteri trasferibili. Lo conosceremo presto lavorando con un esempio sotto. Nel quartiere "Tranquillità" abitano 156 famiglie, i cui redditi sono mostrati dalla tabella sotto. Classe di reddito Numero delle famiglie Reddito di tutta la classe fino a 500 € 21 8400 € da 501 a 700 € 24 14400 € da 701 a 1000 € 46 39100 € da 1001 a 1500 € 36 45000 € da 1501 a 2000 € 19 33250 € da 2001 a 3000 € 7 17500 € da 3001 a 4000 € 2 7000 € oltre 4000 € 1 6000 € In questo esercizio creeremo un grafico di concentrazione dei redditi, e poi calcoleremo il coefficiente di Gini per valutare la diseguaglianza dei redditi. 1. Digita nel foglio di lavoro la tabella sopra. I valori nella prima colonna vengono utilizzati solo come etichette, con i valori nelle colonne seconda e terza, invece, effetueremo i calcoli e, perciò, digitali senza il simbolo €. 2. Aggiungi una riga sotto la tabella titolata “SOMMA”. Utilizza la funzione SOMMA() e calcola il numero totale delle famiglie ed il reddito totale del quartiere. Laboratorio di Didattica di elaborazione dati 2008-2009, Jacek Dziedzic 3. Aggiungi una colonna a destra, in cui calcolerai il relativo numero delle famigle per tutte le classe. Per esempio nella prima riga ci troverà 21/156, nella seconda riga – 24/156 e così via. Usa le formule, non digitare tutte le frazione in modo manuale. Il numeratore contiene un valore preso dalla stessa riga, il denominatore – sempre lo stesso valore. Usa sempre la stessa formula, bloccando la cella nel numeratore. Usando CTRL-1 arrotonda i valori a 4 cifre decimali. Verifica se hai fatto un sbaglio e calcola la somma dei valori nella questa colonna – naturalmente deve ammontare a 1. Quando si copia ed incolla le celle, Excel automaticamente traduce (cambia) gli indirizzi delle celle, dove necessario: Qua una copia della colonna D è incollata come colonna E. La formula per la somma cambia automaticamente (non riferisce alla colonna D più, ma alla E) A volte non abbiamo voglia di cambiare gli indirizzi. In questo caso possiamo precedere la lettera della colonna o il numero della riga col simbolo del dollaro. La colonna (riga) è detta bloccata nella formula – il suo indirizzo non cambia mai. Quando blocchiamo entrambe, la colonna e la riga, è detta bloccata la cella. Qua la cella D2 è bloccata nella prima parte della formula è nonbloccata nella seconda parte. Quando si incolla una copia della formula nella cella E4, la prima parte della formula non cambia, la seconda, invece, sì. Gli indirizzi sono detti assoluti se non usano il simbolo $ e relativi se lo usano. 4. Fa' lo stesso per i redditi, nella quinta colonna. 5. Per ottenere il grafico di concentrazione dei redditi, dobbiamo visualizzare il reddito relativo cumulato come una funzione del numero relativo cumulato delle famiglie. Quindi, nella colonna seguente calcola il numero relativo cumulato delle famiglie. In ogni riga ci sarà una somma dei valori della quarta colonna – dalla prima riga alla riga corrente, incluso. Usa l'indirizzo relativo (senza “$”) e assoluto (usando “$”), dove necessario. 6. Fa' lo stesso per i redditi relativi, nella seguente colonna. Laboratorio di Didattica di elaborazione dati 2008-2009, Jacek Dziedzic 7. La tabella dovrebbe apparire come sopra. 8. Possiamo inserire il grafico. Naturalmente vogliamo ottenere un grafico dei valori nella ultima colonna come una funzione dei valori nella penultima colonna. 9. Normalmente vogliamo adombrare l'area tra la spezzata di concentrazione (cioè il nostro grafico) e la retta di equidistribuzione (cioè y=x). Usando Excel è, purtroppo, practicalmente impossibile1 (!). La causa è una limitazione di Excel che permette l'adombratura solo con i tipi di grafici (per esempio il tipo Area) in cui, purtroppo, la variabile indipendente deve assumere valori equidistanti, mentre (vedi la tabella) i nostri valori non sono affatto equidistanti... L'unico tipo di grafico, con cui possiamo avere i valori non equidistanti sull' asse X è il grafico del tipo XY, in cui, invece, non è possibile nè adombare l'area nè aggiungere etichette ai valori alla asse X... Tuttavia, dobbiamo usare il grafico del tipo XY. Inseriscilo: Inserisci/Grafico/XY/Il grafico con punti connessi da tratti di retta. Scegli il proprio intervallo dati e preme “Avanti”. 10. Già. Nota che Excel non ha notato, che sul grafico del conzentrazione le due assi sono definiti per intervalli <0, 1> e ha scelto i valori fino a 1.2. Correggilo. 11. Sul nostro grafico manca sempre il punto (0, 0) – infatti non appaia nella tabella. Bisogna aggiungere questo punto – aggiungi una riga e mettelo all'inizio della tabella, poi dici Excel che il raggio di valori è cambiato. 12. Se vuoi vedere come i redditi nel quartiere "Tranquillità" sono diversi dalla situazione ideale, aggiungi al grafico la linea y=x. Il modo più facile è creazione di una serie nuova, costituita da due punti (Dati di origine/Serie/Aggiungi) (0, 0) e (1, 1), digitali in un spazio vuoto. la retta di equidistribuzione la spezzata di concentrazione Quando cresce la superficie A, cresce la diseguaglianza (conzentrazione). A=0 significa diseguaglianza nulla (tutti redditi sono equdistribuiti). 1 A dire la verità è possibile, ma in modo molto complesso. Si usa un “hack”, in cui si sovrappone un grafico del tipo Area, con l'asse riscalata, misurata in giorni (!), su un grafico del tipo XY, e poi si elimina l'asse X. Se vuoi, vedi su: http://peltiertech.com/Excel/Charts/XYAreaChart2.html Laboratorio di Didattica di elaborazione dati 2008-2009, Jacek Dziedzic 13. Ora calcoliamo il coefficiente di Gini, il quale è una misura di diseguaglianza della distribuzione dei redditi. Vedi il grafico. Il coefficiente di Gini è il rapporto tra la superficie A e l'area (A+B): G=A/(A+B), assumendo la notazione del grafico precedente. La superficie sotto la retta di equidistribuzione è A+B = ½, e quindi G = 2A = 2(½ – B) = 1–2B. Allora, avendo la superficie sotto la spezzata di concentrazione, B, è facile da calcolare il coefficiente di Gini. Nota che questa superficie è una somma delle superfici dei trapezi. i-esimo trapezio ha la base xi –xi-1 lunga e i lati verticali uguali yi-1 (sinistro) i yi (destro). Quindi, la superficie del i-esimo trapezio è: Si = ½∙(xi –xi-1)∙(yi +yi-1). Aggiungi alla tabella due colonne – nella prima colonna calcola (xi – xi-1), nella seconda calcola (yi +yi-1). Con il ½ non ti preoccupare, perchè vogliamo ottenere 2B, non B proprio. 14. Nella seguente colonna calcola un prodotto delle colonne precedenti e sotto la somma dei valori della colonna – hai proprio calcolato 2B. Calcolare 1 – 2B sarà facile, hai ottenuto il coefficiente di Gini. Io ho ottenuto 0.30, il che significa una moderata diseguaglianza dei redditi. Usando, per esempio, Wikipedia (http://tiny.pl/d1hd) puoi vedere che è un livello della diseguaglianza un poco minore del livello tipico per Italia. Laboratorio di Didattica di elaborazione dati 2008-2009, Jacek Dziedzic