INDICI DI SINTESI DI UNA DISTRIBUZIONE STATISTICA L’insieme delle informazioni sul fenomeno oggetto di analisi, ognuna riferita ad una unità statistica, contiene tutte le informazioni disponibili sul collettivo statistico. Tuttavia, poiché il numero n dei soggetti coinvolti nell’analisi è, generalmente, elevato, l’esame diretto delle n misure non consente di cogliere appieno gli aspetti salienti del fenomeno. A tale scopo possono essere costruiti opportuni indici statistici di sintesi atti, appunto, a sintetizzare la variabilità delle osservazioni individuali (la distribuzione statistica) in un singolo valore numerico o in una sola modalità, che delineano alcuni aspetti essenziali della distribuzione in esame. Questi indici consentono un confronto tra le caratteristiche di distribuzioni diverse. Possiamo individuare tre famiglie principali di “indici”: indici di tendenza centrale indici di variabilità o dispersione indici di forma La sintesi effettuata mediante un solo valore, comporta una perdita di informazioni. 79 I VALORI MEDI I valori medi sono strumenti di sintesi che descrivono l’ordine di grandezza del carattere nell’insieme delle unità osservate (si parla anche di “tendenza centrale”…) Nella famiglia delle medie si distinguono: medie analitiche calcolate con operazioni algebriche sui valori del carattere (caratteri quantitativi) medie lasche o di posizione (moda, mediana, quantili), determinate in base alla loro frequenza o alla posizione occupata nella graduatoria delle osservazioni individuali. (mediana e quantili: caratteri espressi almeno in scala ordinale) (moda: tutti i caratteri) 80 Media aritmetica (o,semplicemente, media) La media aritmetica di un insieme di n valori x1 ,..., xn di un carattere quantitativo X è pari alla somma dei valori divisa per la loro numerosità ossia risulta dalla ripartizione equa dell’ammontare complessivo del carattere fra le unità osservate. Pertanto, la media aritmetica di n osservazioni è: Esempio 1 Valore delle entrate proprie di 5 enti locali collocati nel centro nord EL 1 2 3 4 5 Totale migl. di € 378698 428832 216197 228132 335070 1586929 Media aritmetica= 378698 428832+...+335070 5 317386 82 Risponde alla domanda: Qual è la dimensione media dell’ammontare delle entrate negli enti del centro nord? (generale) Qual è quell’ammontare delle entrate che a) se fosse assegnato a tutti gli enti non altererebbe la dimensione totale del bilancio, OPPURE b) sarebbe assegnato ad ogni ente, nel caso in cui l’ammontare totale delle entrate fosse equidistribuito? (dettaglio) x1 x2 . . . xn 1n xi . xa n n i1 Formalizziamo… : n Si noti che xi è l’ammontare complessivo del carattere i 1 83 La media aritmetica soddisfa entrambi i criteri che abbiamo introdotto: 1) xmin x xmax 2) f n n n x , infatti x x nx i i 1 i 1 i i 1 Attenzione!!! Il valore assunto dalla media aritmetica non è un numero puro ma è espresso nell’unità di misura del fenomeno oggetto di studio La media aritmetica può essere calcolata solo per fenomeni di tipo quantitativo 84 La media aritmetica è uno strumento di sintesi adatto in due situazioni fondamentali: 1. quando le modalità del carattere possono essere pensate come la redistribuzione di un unico ammontare all’interno del collettivo Esempio 1 Bilancio dell’UE (anno 1996): capitoli di spesa Capitoli di spesa Agricoltura Ricerca Azioni strutturali Altre politiche interne Azione esterne Amministrazione Fondo di sviluppo Totale milioni di € 40564 3380 26197 2536 5070 4225 2536 84508 Volendo calcolare una misura della dimensione “media” dei capitoli di spesa è naturale pensare a quel valore che se fosse assegnato a tutti i capitoli di spesa non altererebbe la dimensione totale del bilancio. (40564 3380 26197 2536 5070 4225 2536) 7 x 12072.6 x 85 2. quando i valori osservati del fenomeno possono essere pensati come approssimazioni di un unico “valore vero” Esempio 2 Misurazioni di Paul Newcombe (1879) sulla velocità della luce. 28 24 27 30 29 24 22 26 36 30 27 25 36 21 34 29 32 27 16 28 31 26 28 24 28 32 25 29 40 37 20 24 24 28 19 29 26 25 26 22 27 32 27 30 25 26 23 28 32 25 36 21 31 -2 23 28 23 16 29 39 27 33 32 33 36 Le misurazioni rappresentano 65 tentativi (con errore) di misurare una stesso fenomeno, il tempo impiegato dalla luce (in millesimi di sec.) a percorrere la distanza di 7400 metri. La media aritmetica è quell’indice di posizione coerente con l’ipotesi di errori non sistematici (ossia che sommano a 0) n x xi / n 1774 / 65 27,29 j1 86 Proprietà della media aritmetica 1. La somma dei valori assunti da un insieme di n unità statistiche è uguale alla media aritmetica moltiplicata per n n xi nx i1 2. La media aritmetica è il baricentro della distribuzione, ossia la somma degli scarti dalla media aritmetica è 0 xi x n 0 i1 3. La somma dei quadrati degli scarti dei valori assunti da un insieme di n unità statistiche dalla loro media aritmetica è minima xi n c 2 min se c=x i1 87 4. Se un collettivo di n unità statistiche è suddiviso in L sottoinsiemi disgiunti di numerosità n1 , n2 ,..., nh ,..., nL x1 , x2 ,..., xh ,..., xL per cui L nh n e aventi media aritmetica h1 allora 1 L x xh nh n h1 5. La media aritmetica è un operatore lineare 1 M aX b ax b con b numero reale qualsiasi e a diverso da 0 M a bX cY a bx cy 1 Si noti che se la media è espressa in una certa unità di misura, la proprietà 5 consente di ottenere la media in un’unità di misura diversa 88 Esempio (impiego della propr. 5) Supponiamo di aver rilevato, qualche anno addietro, il prezzo in lire (X) di un certo bene in corrispondenza di 4 punti vendita: 1000 1100 1250 x 1075 950 Vorremmo ora conoscere la media degli stessi prezzi in euro (Y) anziché in lire. Sfruttando la proprietà 5: si noti che Y=X / 1936,27 (a= 1/1936,27 e b= 0) valor medio in Euro = 1075 / 1936,27 = 0,56 89 Media aritmetica – Popolazione divisa in gruppi (impiego della propr. 4) Regione Piemonte Valle d'Aosta Lombardia Trentino A.A. Veneto Friuli V.G. Liguria Emilia Romagna Toscana Umbria Marche Lazio Abruzzo Molise Campania Puglia Basilicata Calabria Sicilia Sardegna totale Prod. Frumento 6838 0 3748 5 3942 335 30 16818 6153 5069 8430 4416 3799 3056 2593 8813 3379 1136 9268 1576 89404 Produzione di Frumento (in Quintalix1000) nelle Regioni italiane nel 1992 (Fonte: ISTAT) 90 Calcolo della media aritmetica 1 20 89404 x xi 4470.2 n i1 20 Calcoliamo la produzione media per regione di frumento distintamente per Nord, Centro, Sud e Isole. Regioni Nord Piemonte Valle d'Aosta Lombardia Trentino A.A. Veneto Friuli V.G. Liguria Emilia Romagna Totale Prod. Frumento 6838 0 3748 5 3942 335 30 16818 31716 xnord 1 8 31716 xi 3965.5 8 i1 8 91 Regioni Centro Toscana Umbria Marche Lazio Abruzzo Molise Somma Prod. Frumento 6153 5069 8430 4416 3799 3056 30923 xcentro 6 x 6 i i1 xsudIsole Analogamente per il Sud e le Isole 1 30923 6 5154.8 1 6 26765 x 4460.8 i 6 i1 6 E’ facile verificare che la media delle medie pesate con le diverse numerosità (media ponderata) coincide con la media calcolata sul collettivo di tutte le regioni: 3965.58 5154.86 4461.86 20 4470.2 92 Media geometrica La media geometrica di n valori distinti è data dalla radice n-esima del loro prodotto xg n n x i x0 , xi 0; i 1 Per osservazioni raggruppate in una distribuzione di frequenze assolute, la media geometrica è così definita: xg k n xj nj x0 , xj 0. j 1 Media utilizzata soprattutto per “mediare” valori positivi generati da rapporti 103 Alcune proprietà della media geometrica 1. Il prodotto dei valori assunti da un insieme di n unità statistiche è uguale alla media geometrica elevata alla potenza n-esima n x i n x1 x2 ... xn xg i1 è opportuno utilizzare la Mg nel caso in cui si debba effettuare la media di rapporti 2. Il logaritmo della media geometrica è uguale alla media aritmetica dei logaritmi delle osservazioni 1 n log xi log x g n i1 Questa proprietà è molto importante a fini calcolatori. Dopo averla impiegata, per ottenere il valore della media geometrica è sufficiente effettuare l’antilogaritmo del log xg 104 ES. 1 - Applicazione della media geometrica: calcolo del rendimento medio di un investimento. Supponiamo di aver investito 2 (milioni di €) nel ’99 e che l’investimento abbia avuto tassi di rendimento variabili i99 , i00 , i01 , i02 nel corso di questi anni. Il suo valore al 31/12/02 (il “montante”) sarà dato da M (1 i99 )(1 i00 )(1 i01 )(1 i02 ) Calcolando il tasso di rendimento “medio” è chiaro che penso a quel tasso che, se fosse rimasto costante nei 4 anni mi darebbe lo stesso importo (investimento iniziale+interessi) che ho oggi. Questo tasso medio si ottiene calcolando la media geometrica dei fattori di capitalizzazione 1 i Supponiamo che i tassi siano stati: i99 0.12, i00 0.09, i01 0.05, i02 0.02 105 Il montante relativo all’intero periodo considerato è M (1.12)(1.09)(1.05)(1.02) 1.307 Calcoliamo il fattore di capitalizzazione medio geometrico: xg 4 1 0.12 1 0.09 1 0.051 0.02 1.069 sostituendolo nella formula del calcolo del montante: M * (1.069)4 1.307 Se invece avessi calcolato un tasso medio aritmetico 1.12 1.09 1.05 1.02 1.07 1 M (1 i) 4 una volta inserito nella formula del montante non avrei ritrovato il montante del periodo: M * (1.07)4 1.311 106 Esempio 2 Un certo prodotto acquistato in anni consecutivi è stato venduto ai seguenti prezzi (£): anno (t) 1 2 3 4 prezzo 1300 2600 3200 4500 t-1it =2600/1300=2 =3200/2600=1,231 =4500/3200=1,406 1300 (2) (1,231) (1,406) = 4500 Si vuole determinare di quanto è aumentato in media il prezzo nei tre anni: x Ma = ( 2 + 1,231 + 1,406 ) / 3 = 1,546 ??? 1300 (1,546) (1,546) (1,546) = 4803,655 no xg 3 2 1, 2311, 1,513 406 1300 (1,513) (1,513) (1,513) = 4502,567 OK! ….a meno dell’approssimazione… 107 Esempio 3 I tassi annui di sviluppo della popolazione italiana dal 1981 al 1984 sono risultati pari a: 1981-1982 1982-1983 1983-1984 3,64% 3,29% 2,66% si vuole determinare il tasso medio annuo di incremento della popolazione italiana nel periodo 1981-1984 p1981 : popolazione italiana al 1981 p1981 (1+i)3 = p1981(1+0,0364)(1+0,0329)(1+0,0266) p1981 (1+i)3 = p1981 (1,0990) =(i+1) x mg = 3 1,0990 =1,0320 (1+i) è la media geometrica dei tre fattori 1,0364, 1,0329 e 1,0266: valore che riproduce la variazione totale della popolazione nell’arco di tempo considerato. Quindi nel triennio 1981-1984 la popolazione italiana è aumentata mediamente del 3,2%. 108 LE MEDIE LASCHE O DI POSIZIONE Utilizzano alcuni valori specifici della distribuzione, non coinvolgono tutte le modalità di X Moda La moda è la modalità che nell’insieme delle osservazioni si presenta con la frequenza più alta (freq. Assoluta, relativa, percentuale). Esempio Distribuzione delle famiglie secondo la spesa settimanale per pasti fuori casa spesa 0-|10 10-|20 20-|30 30-|40 40-|50 Tot nj 60 20 20 30 20 150 fj 0.40 0.13 0.13 0.20 0.13 1.00 Moda o valore modale Risponde alla domanda: Qual è la classe di spesa che caratterizza il maggior numero di famiglie nel collettivo delle 150? 109 Può essere calcolata per qualsiasi tipo di carattere (qualitativo o quantitativo), ma… per caratteri qualitativi sconnessi possiamo calcolare solo la moda. Può accadere che non identifichi un valore unico (distribuzioni pluri-modali) o che non esista affatto. Se i dati non sono raggruppati in classi, oppure se le classi hanno la stessa ampiezza, il calcolo della moda è immediato: è semplicemente la modalità più frequente. Si noti, dunque, che, nella individuazione della moda, si considera solo una modalità, quella più frequente Se i dati sono raggruppati in classi di ampiezza disuguale è necessario fare la seguente riflessione: se una classe è molto ampia, la sua frequenza potrebbe risultare alta non tanto perché le modalità che la compongono sono “tipiche” del fenomeno in esame ma semplicemente perché contiene molte unità. 110 La moda dovrà allora essere definita come la classe di modalità con massima densità di frequenza fj fj hj a j x j1 x j Esempio Torniamo alla distribuzione della spesa settimanale per pasti fuori casa, relativa a 150 famiglie: spesa 0 --| 10 10 --| 40 40 --| 50 tot nj aj hj 60 70 20 150 10 30 10 0,040 0,016 0,013 La classe con frequenza più elevata è 10-|40. Tuttavia, sarebbe errato affermare che tale classe è quella modale. Passando dalle frequenze (ass. o rel.) alle densità di freq. hi troviamo che la classe modale è 0-|10 111 Mediana La mediana è la modalità che occupa il posto centrale nella successione ordinata delle n osservazioni individuali. Si considerino, ad esempio, cinque enti locali (EL) con riferimento ai quali osserviamo il valore dell’indice che misura l’incidenza degli Interessi passivi sulle entrate correnti Interessi pass. su Entr. correnti EL1 EL2 Ente locale EL3 11,1 10,2 12 8,2 9,9 EL4 EL5 Ente locale EL2 EL1 EL3 8,2 9,9 10,2 11,2 12 EL4 EL5 Ordiniamo gli enti in base al valore dell’indice: Interessi passivi su Entr. correnti Valore mediano 112 La mediana suddivide a metà la distribuzione ordinata delle modalità la quota di osservazioni in cui il carattere assume valore maggiore (successivo) o uguale alla mediana è almeno pari al 50% del totale delle osservazioni la quota di osservazioni in cui il carattere assume valore minore (precedente) o uguale alla mediana è almeno pari al 50% del totale delle osservazioni Con riferimento all’esempio precedente, risponde alla domanda: Qual è quel valore x dell’indice rispetto al quale il 50% degli enti presenta un valore più piccolo di x? -- Qual è quel valore che bipartisce in due il collettivo? Presuppone che il carattere sia ordinabile (non è necessario che sia quantitativo) Con riferimento a caratteri qualitativi ordinabili è possibile calcolare moda e mediana (non, ad es., la media aritmetica) 113 Calcolo della mediana su un protocollo elementare 1. Si ordinano le unità rispetto alle modalità del carattere 2. Si verifica se il collettivo è formato da un numero n di unità dispari o pari 3. Si individua la posizione in graduatoria dell’unità centrale. Se n è dispari la posizione è n 1 2 Se n è pari la posizioni centrali sono due: n 4. Se n è dispari la mediana è 2 n 1 2 e M e xn1 2 Se n è pari si hanno due mediane: xn 2 e xn 2 1 1 Per caratteri quantitativi si considera la mediana: M e xn xn 1 2 2 2 114 Esempio Al fine di proporre ai consumatori una campagna pubblicitaria altamente informativa sul contenuto nutrizionale di alcuni tipi di frutta, un’azienda ha commissionato una ricerca per individuare il contenuto di vitamina C in g. per etto di alcuni dei frutti di più largo consumo: Frutto Albicocca Ananas Anguria Arancia Banana Ciliegia Fico Fragola VitC 13 17 8 50 16 11 7 50 Frutto Kiwi Lampone Melone Mirtillo Mora Pesca Prugna VitC 85 251 35 15 19 4 5 Calcoliamo il contenuto mediano di vitamina C rispetto al collettivo di frutti. 115 rank 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 frutto Pesca Prugna Fico Anguria Ciliegia Albicocca Mirtillo Banana Ananas Mora Melone Arancia Fragola Kiwi Lampone VitC 4 5 7 8 11 13 15 16 17 19 35 50 50 85 251 Abbiamo ordinato le osservazioni (che sono in numero dispari): la mediana è uguale a 16 e corrisponde alla posizione 8 nell’insieme ordinato dei valori. Il 50% dei tipi di frutta considerati ha un contenuto di vitamina C inferiore a quello della banana (16) ed il 50% ha un contenuto superiore 116 Consideriamo dati analoghi anche per la vitamina A; in questo caso però non disponiamo del valore relativo al kiwi: in questo caso le osservazioni sono 14 (pari) Rank 1 2 3 4 Frutto Mora Fragola Ananas Lampone VitA 2 5 8 13 5 6 7 8 9 10 11 12 13 14 Mirtillo Fico Prugna Ciliegia Pesca Anguria Banana Arancia Melone Albicocca 13 15 16 19 34 37 45 70 190 360 Abbiamo 2 posizioni centrali (7 e 8) e due valori “mediani” (16 e 19). In questo caso ha senso proporre la loro semisomma come valore “puntuale” della mediana: Me( X ) 16 19 17.5 2 117 Una proprietà importante della mediana: la robustezza Calcoliamo le medie aritmetiche per i contenuti di Vitamina A e C e confrontiamoli con le mediane Vitamina A Vitamina C x Me 59.07 39.07 17.5 16.0 In entrambi i casi i valori sono molto diversi. La mediana è poco sensibile (in statistica si dice “robusta”) alla presenza di pochi valori lontani dal “grosso” della distribuzione (albicocca e lampone) mentre la media aritmetica ne è influenzata. Nei casi in cui poche unità hanno valori molto più grandi della maggioranza delle altre, la mediana è un indicatore di posizione più sensato e “equo”. 118