TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli LEZIONE A.4 Modalità rappresentative In questa lezione.. In questa lezione proseguiremo nella procedura di sintesi delle informazioni. Abbiamo già conosciuto i primi tre passi di sintesi: La ricodifica in matrice; La classificazione in forma di variabile statistica La rappresentazione grafica. Il quarto passo è quello della individuazione e calcolo di misure di sintesi delle distribuzioni di frequenza. Esse sono come i tratti identificativi di una carta d'identità. In questa lezione acquisteremo familiarità con la media e la moda. Ne vedremo le proprietà e le procedure di calcolo. Infine calcoleremo tali misure per miscugli di popolazioni. Tratti identificativi Tratti identificativi: Quanto è alto? __ Quanto pesa?___ Colore occhi____ ………….. _____ Carta di identità di NOTA: sintetizzando perdiamo sempre informazioni. Se di un ricercato sappiamo solo che è alto 1.70, pesa 63 kg. e ha occhi castani, quanti di voi potrebbero essere "vittime di errore giudiziario"? Pippo Superman Come in una carta d'identità, non potendo descrivere la persona o variabile statistica nei minimi dettagli, ci limiteremo a identificarla mediante alcune misure sintetiche: misure di posizione (centro) misure di dispersione o variabilità altre misure di forma (simmetria,...) Tratti identificativi: Quale è il reddito medio? ________ Quanta è la disuguaglianza?_ Carta di identità di E’ asimmetrica?__ Distribuzione dei redditi di XLand ………….. _____ Misure di posizione Le misure di posizione misurano l'attitudine di un fenomeno X a localizzarsi in un intorno delimitato dell'asse reale, che siamo indotti a ritenere il centro di X. Quale è il partito di maggioranza ? A che età avviene ‘di regola’ l’andata in pensione? La lunghezza delle gonne varia di anno in anno. Qual è la moda di quest’anno? Qual è il numero medio di figli per donna in Italia? Possiamo chiamare queste misure genericamente "medie". Due definizioni di media Una media M = g(x1, x2,..., xm) è un indice sintetico di una distribuzione statistica, che alle diverse modalità del carattere ne sostituisce una sola che, per il modo in cui è stata scelta, possa ritenersi rappresentativa o tipica. Se la v.s. è quantitativa la media indicherà l'ordine di grandezza del carattere studiato. In caso di v.s. quantitative definiamo: Media in senso stretto di una v.s. X è una qualsiasi funzione reale M = (x1,.., xm; n1,.., nm) che soddisfi 3 proprietà: Internalità [Cauchy]: la media deve essere compresa tra il minimo e il massimo valore assunto dalla variabile. Monotonicità: date due v.s. X e Y, con osservazioni identiche salvo (almeno) una per la quale sia yi >xi, la media di Y non può essere più piccola della media di X. Moltiplicatività [o invarianza rispetto all’unità di misura]: se C è una costante reale e ogni modalità xi è moltiplicata per C, anche la media è moltiplicata per C. Medie analitiche, medie lasche La definizione di media in senso stretto è restrittiva. Può essere soddisfatta da medie calcolate su v.s. quantitative, che quindi possono «coinvolgere in un'unica funzione di sintesi matematica tutti i termini della distribuzione, xi e ni». Una media calcolata in questo modo si dice analitica. Una media che non coinvolge nel calcolo tutti i termini della distribuzione si dice media lasca. Grazie alla loro procedura di costruzione, alcune medie lasche possono essere calcolate anche per mutabili. In compenso potranno non godere della terza proprietà (di monotonicità). Medie lasche (o "medie in senso lato“) sono la moda e la mediana. Di medie analitiche ce n’è una gran varietà. La più ‘naturale’ e di uso comune è la media aritmetica ponderata. In questa lezione faremo conoscenza della Media aritmetica e della Moda. Medie come modalità rappresentative Di medie, s’è detto, sia generiche che in senso stretto, se ne possono definire molte. Noi ci fermeremo su alcune, a cui corrisponde un significato logico comprensibile e utile. Medie che siano per noi davvero rappresentative della popolazione analizzata. In particolare definiremo medie che: Corrispondono alla modalità più osservata (es. partito di maggioranza, abbigliamenti ‘in’ o di moda…). Corrispondono alla modalità ‘di mezzo’ della popolazione, quella che sta ‘al centro del plotone’ (vedi l’immagine oraziana dell’”in medio stat virtus”, o ‘l’uomo medio’ di Quetelet o di Asimov). Corrispondono a una modalità ‘virtuale’ che, se sostituita a tutte le modalità di fatto osservate, lascia immutata una misura ‘di sintesi’ della popolazione (es.: il reddito medio è quello che sostituito ai diversi redditi lascia inalterato il reddito complessivo della collettività; il tasso di incremento del costo della vita negli anni ’90 è quello che, sostituito ai diversi tassi annui, lascia inalterato il tasso di incremento sull’intero decennio..). Medie e livelli di misurazione I tre significati di media corrispondono a livelli diversi di misurazione. Medie che corrispondono.. Richiedono operazioni di .. Livello di misurazione Alla modalità più osservata Spoglio delle modalità, di qualunque tipo esse siano Tutte (nominali, ordinali, quantitat.) Alla modalità ‘di mezzo’ Ordinamento delle modalità in una sequenza crescente o decrescente Ordinabili (ordinali, quantitative) Alla modalità che, sostituita alle xi, lascia immutata una misura di sintesi Sintesi algebrica delle proprietà Solo individuali (somma, prodotto) per quantitative determinare la corrispondente proprietà collettiva Medie e funzione obiettivo Anche se si possono applicare solo a variabili quantitative, medie del terzo tipo (le medie analitiche) corrispondono all’idea più diffusa e all’uso comune delle medie. Esse implicano l’esistenza di una sintesi algebrica delle proprietà individuali in una corrispondente proprietà del collettivo, che abbia un significato utile e condiviso. Media obiettivo (o secondo Chisini) rispetto a una data funzione obiettivo è quel valore numerico che, sostituito a ogni modalità osservata, lascia inalterata la funzione obiettivo stessa. Una media analitica richiede: la possibilità di maneggiare algebricamente le modalità individuali osservate, una scelta ragionata della misura di sintesi. Dunque non esiste una media buona “per tutte le stagioni”, ma la media giusta per ogni “funzione obiettivo”. Intensità totale e media aritmetica La funzione obiettivo più diffusa è l’intensità totale del carattere studiato, cioè la somma delle modalità osservate nelle N unità della popolazione. L’intensità totale ripartita tra le N unità è la media aritmetica. m m x n i 1 N mx M ( X ) E ( X ) m1 xi f i i 1 i i Media aritmetica ‘ponderata’: le modalità sono ‘ponderate’ con le rispettive frequenze Carattere / popolazione Intensità totale Media aritmetica Reddito annuo / cittadini Prodotto interno Reddito pro capite Nascita di un figlio nell’anno / donne Totale nascite annue Numero medio figli per donna Ore lezione / docenti Monte ore Numero medio ore/docente Furti / province Ammontare nazionale microcriminalità Media furti per provincia Calcolo della media aritmetica xi ni fi= ni /N xi ni xi fi x1 n1 f1= n1/N x1 n1 x1 f1 x2 n2 f2= n2/N x2 n2 x2 f2 x3 n3 f3= n3/N x3 n3 x3 f3 L’intensità totale del carattere studiato si ottiene facendo la somma della colonna delle intensità specifiche: x4 n4 f4= n4/N x4 n4 x4 f4 T = xi ni x5 n5 f5= n5/N x5 n5 x5 f5 N 1 T T/N Per calcolare una media aritmetica useremo la rappresentazione incolonnata di una v.s.. Alle colonne già note dovremo aggiungere quella delle intensità specifiche (xi ni) o, equivalentemente, delle intensità specifiche relative (xi fi). La media aritmetica si ottiene dividendo T per N, oppure facendo la somma della colonna delle intensità specifiche relative: m = xi fi m = T/N Un esempio su variabili discrete (e 3 annotazioni) 10 35 0,7609 350 7,61 50 9 0,1956 450 9,78 100 2 0,0435 200 4,35 niente 46 1,00 m = xi fi = 21,74 m =T/N=1000/46 =21,74 1000 21,74 (II) L’uso di frazioni come le frequenze relative nel calcolo richiede di portarsi dietro un ‘congruo’ numero di decimali 40 30 20 10 0 ni m=21,739 xi 10 0 xi f i 80 x i ni 60 fi 40 ni 20 xi (I) Le intensità specifiche (assolute) hanno un significato concreto: 350 è il monte totale di azioni possedute dai piccoli azionisti (10 azioni a testa), mentre 200 è il monte azioni dei grandi azionisti. 0 Torniamo ai 46 azionisti e loro azioni (III) La media aritmetica è una modalità ‘virtuale’! Essa può non corrispondere a nessun valore osservato e nemmeno osservabile (cfr 2,1 figli per donna..) Variabili per classi Il calcolo della media aritmetica coinvolge nel conto tutte le modalità e numerosità. Che fare, se una variabile è per classi? Quale valore assumiamo per ogni intervallo? Il minimo? Il massimo? Uno a caso? Anche se comporta rischi di errore, si sceglie di prendere il valore centrale di ogni intervallo, cioè la semisomma degli estremi: vci = (xiINF + xiSUP)/2. fi 20 0,077 0,770 16 12,5 0,317 3,963 12 63 16,5 0,444 7,326 8 23 22 0,162 3,564 4 1,000 15,623 0 xi-xi+1 ni (xi+xi+1)/2 fi 9-11 11 10 11-14 45 14-19 19-25 142 vci x Pazienti anoressiche per età di insorgenza hi mx=15,6 xi 0 5 10 15 20 25 30 Nota: prendere il valore centrale delle classi non è solo una scelta pragmatica. Abbiamo costruito l’istogramma con l’ipotesi di distribuzione uniforme entro ogni intervallo, e la media di una distribuzione rettangolare è proprio la semisomma. Un secondo esempio xi hi 24 20 16 ni |- xi+1 VCi fi vci x ni vci x fi 0 |- 20 126 11,46 10 1260 1,146 20 |- 40 439 39,95 30 13170 11,985 40 |- 60 346 31,48 50 17300 15,740 60 |- 80 123 11,19 70 8610 7,833 80 |- 100 37 3,37 90 3330 3,033 100|-160 22 2,00 130 2860 2,600 160|-300 6 0,55 230 1380 1,265 47910 43,6 1099 12 100 Famiglie per reddito annuo (milioni lire) 8 mx=4,36 mx = T/N = 47910/1099 = 43,6 (il grafico è espresso in decine di milioni) 4 xi 0 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 Un esempio riassuntivo 1,6 Possiamo ora fare confronti tra medie: 0,4 7 2,8 1,0 1,0 mxM=381,2/114=3,34 1,0 9 9,0 7 1,4 9,8 1,4 55 77,0 1,6 |- 2,0 10 1,8 18,0 mxP=1760,0/628=2,80 1,8 103 185,4 2,0 |- 2,4 9 2,2 19,8 2,2 88 193,6 2,4 |- 2,8 23 2,6 59,8 2,6 123 319,8 2,8 |- 3,2 11 3,0 33,0 3,0 68 204,0 3,2 |- 3,6 15 3,4 51,0 3,4 50 170,0 3,6 |- 4,0 8 3,8 30,4 3,8 30 114,0 4,0 |- 4,4 6 4,2 25,2 4,2 41 172,2 4,4 |- 4,8 3 4,6 13,8 4,6 15 69,0 4,8 |- 5,2 3 5,0 15,0 5,0 11 55,0 5,2 |- 6,0 3 5,6 16,8 5,6 12 67,2 6,0 |- 8,0 8 7,0 56,0 7,0 13 91,0 8,0 |- 12 3 10,0 30,0 3 30,0 milano 114 628 1760,0 |- xi+1 ni xi xini 0,0 |- 0,8 4 0,4 0,8 |- 1,2 1 1,2 |- 1,6 xi 381,2 Il reddito medio di Milano è assai più elevato di quello dei piccoli comuni della Regione Una cosa da notare: La classe di reddito a cui corrisponde il maggiore ammontare di reddito non è per forza l’ultima, quella dei più ricchi: è quella dei numerosi ceti medi (2,4-2,8 milioni) xi 10,0 piccoli ni xini Proprietà della media aritmetica La media aritmetica rispetta le tre proprietà di base delle medie analitiche. Internalità: m=21,74 azioni sta in mezzo tra x1 (10) e xm (100) Invarianza alle trasformazioni: se ogni azioni vale 1,5 euro, la v.s. “Valore azionario posseduto in euro” è una trasformata Y=1,5*X. La media di Y è effettivamente = 1,5*m(X) Monotonicità: se i due grandi azionisti incrementano il loro pacchetto portandolo a 150 azioni ciascuno, il monte azioni totale diventa T=1100 e la media aritmetica diventa 23,9. La sperequazione del mercato cresce, ma la media procapite aumenta! Ma essa possiede anche altre due proprietà assai importanti : Baricentricità: la media a. è il ‘baricentro’ della distribuzione Minimizzazione del danno: la media a. rende minima una funzione di errore o di perdita di informazioni Il concetto di baricentro La rana è più grassa della gru: l’altalena non è in equilibrio. Come fare per portarla in equilibrio? A sinistra possono appollaiarsi più gru a diverse distanze: ora la somma dei pesi delle gru moltiplicate per le loro distanze dal cuneo che fa da punto di appoggio è pari al prodotto del peso della rana per la sua distanza dal cuneo. L’altalena è in equilibrio. Più semplicemente, basta spostare il fulcro dell’altalena: ora la distanza della rana, moltiplicata per il suo peso, pareggia il peso della gru moltiplicato per la distanza dal fulcro. L’altalena è in equilibrio. Il fulcro è il baricentro dell’altalena Media aritmetica come baricentro La media aritmetica ponderata è il baricentro di una v.s.: essa cioè si situa nel punto di equilibrio centrale della distribuzione, così che la somma delle modalità (distanze dal fulcro) alla sua sinistra, ponderate per le rispettive numerosità (pesi), pareggia la somma delle modalità alla sua destra, ponderate per le rispettive numerosità. Algebricamente questa proprietà si esprime così: "la somma degli scarti semplici delle modalità osservate dalla media aritmetica, ponderati per le rispettive frequenze (o numerosità) è zero" p x i i 1 Infatti: p p mx f i 0 p x m f x f m f i i 1 x i i i 1 i x i 1 i p mx mx f i mx mx 1 0 i 1 C.V.D. Un esempio 10 35 350 -11,739 -410,87 50 9 450 28,261 +254,35 100 2 200 78,261 +156,52 46 1000 1000 0 m=21,739 10 0 (xi-m)n i 80 (xi-m) 60 xi ni 40 ni 20 xi 40 30 20 10 0 0 Verifichiamo la proprietà della media come baricentro con un esempio già conosciuto: Nota: La proprietà è soddisfatta sia ponderando con le numerosità che pe-sando con le frequenze relative. La media aritmetica è l’unica media che possiede questa proprietà. Il concetto di funzione di perdita Supponete che una grande azienda di abbigliamento basi la propria produzione di giacche sulle statistiche dell’ufficio Leva nazionale, da cui risulta che la taglia media dei giovani italiani è la 48. L’azienda produca allora giacche ‘giovanili’ solo di taglia 48. I giovani di taglia 46 ci staranno larghi, i ’50’ stretti e brontoleranno. Ma tutti gli altri (i 44, i 52..) si incavoleranno proprio e cambieranno marca.. Data un v.s. X e un indice di posizione , misuro la informazione con una "funzione di perdita": L(Sk) = L(xk – )k > 0 perdita di k, per k = 1,...N Ci sono tante "leggi di perdita“ secondo il valore di k. Per esempio: scarti assoluti: L(Sk)=|xk–|; o scarti quadratici: L(Sk)=(xk–)² Data una funzione di perdita definita per un k definiamo DANNO la media aritmetica della perdita. Scegliamo la media che minimizza il danno. Media aritmetica come misura di minimo danno La media aritmetica è la misura di posizione che rende minima una funzione quadratica di perdita di informazione. = i(xi -)2fi m x m x i fi 2 m x i i 1 m La media m è il valore di in cui la funzione quadratica perviene al suo minimo. In tal punto la tangente alla curva (cioè la derivata) ha pendenza nulla. Quindi: =min dove d/d =0 i i 1 i 1 min f i min SSE = m x 2 m x i 1 i m x i 1 i mx mx f i 2 m x m x f i 2 m m x f i m x f i 2 2 i 1 m 2 m x xi m x f i i 1 Kost m x 1 2 mx 0 2 min SSE = m x c.v.d. Medie di miscugli Torniamo all’esempio delle province secondo il tasso di disoccupazione xi|-xi+1 xi niT xi niT xi niN xi niN xi 0–5 2,5 15 37,5 2,5 15 37,5 5-10 7,5 44 330,0 7,5 36 270,0 10-15 12,5 25 312,5 12,5 4 50,0 15-25 20 16 320,0 20 0 0,0 55 357,5 Italia 100 1000,0 Nord niS xi niN 2,5 0 0,0 7,5 8 60,0 12,5 21 262,5 20 16 320,0 Sud 45 642,5 Nel nord le 55 province hanno un tasso medio mN(x)=357,5/55=6,5 Nel sud le 45 province hanno un tasso medio mS(x)=642,5/45= 14,278 In Italia le 100 province hanno un tasso medio mT(x)=1000/100= 10 Ma il tasso nazionale si ottiene anche come media ponderata dei tassi delle due ripartizioni: mT(x)= [mN(x)nN . mS(x)nS]/N. In generale: La media di un miscuglio è pari alla media delle medie delle singole subpopolazioni, ponderate per le rispettive numerosità. Variabili qualitative: la moda e il suo calcolo 60 54 48 42 36 30 24 18 12 6 0 1 0,8 0,6 0,4 0,2 0 sx csx xi cx ni cdx fi Sinistra 20 0,113 Centrosin. 45 0,254 Centro 39 0,220 Centrodes. 59 0,290 Destra 20 0,113 177 1,000 X=deputati dx Per variabili qualitative la Moda è la modalità con la massima frequenza. insuff 6m xi Sufficiente insuff 3m ni sufficiente fi 33679 0,667 Insuff. 3 mesi 6291 0,124 Insuff. 6 mesi 10574 0,209 X=acqua corr. 50544 1,000 Calcolo della moda per variabili quantitative 11-14 45 15,00 14-19 63 12,60 19-25 23 3,83 142 Per v.s. per classi Moda è la semisomma della classe con massima densità di frequenza 20 Max hi = 15,00 16 Md = (11+14)/2 12 Mx=15,6 8 = 12,5 Md=12,5 4 0 5 10 15 20 25 30 fi 10 35 0,7609 50 9 0,1956 100 2 0,0435 46 1,00 m=21,74 40 30 20 Md=10 10 0 0 0 ni 10 0 5,50 xi 80 11 Per v.s. discrete la Moda è il valore più frequentemente osservato. 60 9-11 hi=ni/i 40 ni 20 xi-xi+1 Proprietà della moda La moda (Md) è la modalità a cui corrisponde 60 la massima frequenza (v.s. discrete) o la 54 48 massima densità di frequenza (v.s. per 42 36 classi)(si distingue una classe modale (max den30 24 sità) e un valore modale (valore centrale classe). 18 12 Un fenomeno può avere più di una moda; si dirà 6 0 bi-modale, tri-modale, amodale (tutte le modalità sx csx cx cdx dx con uguale frequenza). La moda è data a ogni livello di misurazione.Ma non soddisfa la proprietà di monotonicità. Esempio: Nel tema in classe ci sono stati 10 quattro, 11 cinque, 6 sei, 2 sette, 1 otto. Md=5, M=5,1. Se il prof alza due voti da 5 a 6, M=5,17 ma Md=4. Il fatto è che la moda non coinvolge nel conto tutte le modalità. Per lo stesso motivo la moda di un miscuglio si comporta in modo imprevisto (pensate a un corridore al Giro che vince la classifica ‘a punti’ senza vincere neanche una tappa) Variabile bimodale 15 12 9 6 3 0 4 5 6 7 8 4 5 6 7 8 15 12 9 6 3 0