Valori Medi LE MEDIE La media aritmetica La media geometrica La mediana La moda I percentili 2/3 Introduzione Medie di posizione non richiedono operazioni algebriche sulle modalitàModa- Mediana- Quantili calcolate con operazioni Medie analitiche algebriche sulle modalità, richiedono dei caratteri quantitativi Media aritmetica- Media armonica Media geometrica - Media quadratica 3/3 La media aritmetica è quel valore che sostituito alle singole osservazioni ne lascia inalterata la SOMMA x1 x2 ... xk M M... M k * M k M xi i 1 k 5/3 La Media Aritmetica Tempo impiegato per raggiungere il posto di lavoro tempo impiegato (min.) tempo impiegato (min.) giorno auto metro giorno auto metro 1 23 22 7 28 24 2 32 24 8 33 28 3 44 22 9 45 32 4 21 33 10 34 31 5 36 26 11 29 37 6 30 31 12 31 24 x a ( auto ) (23+32+44+21+36+30+28+33+45+34+29+31)/12 = =386/12 = 32,17 x a ( metro) (22+24+22+33+26+31+24+28+32+31+37+24)/12 = 334/12 = 27,83 Media aritmetica La media aritmetica di un insieme di n valori x1, x2, … xn di un carattere quantitativo X è data da: 1 1n xa x1 x2 ... xn xi n n i 1 Se il carattere X è quantitativo discreto e conosciamo la sua distribuzione di frequenza: 6/3 1K xa x j n j n j 1 K xa x j f j j 1 Esempio Esempio 1. In un campione di 30 studenti si rileva il voto di maturità. Si riporta la distribuzione di frequenze assolute: xi ni xi*ni 62 66 70 73 75 76 79 81 83 86 92 94 Totale Media aritmetica 2 2 3 3 4 4 1 2 3 2 1 3 30 xi 124 132 210 219 300 304 79 162 249 172 92 282 2325 77.5 ni 62 66 70 73 75 76 79 81 83 86 92 94 Totale fi 2 2 3 3 4 4 1 2 3 2 1 3 30 fi% 0.067 0.067 0.100 0.100 0.133 0.133 0.033 0.067 0.100 0.067 0.033 0.100 1.000 xi*fi 6.7 6.7 10.0 10.0 13.3 13.3 3.3 6.7 10.0 6.7 3.3 10.0 100.0 4.13 4.40 7.00 7.30 10.00 10.13 2.63 5.40 8.30 5.73 3.07 9.40 77.50 xi*fi% 413.3333 440 700 730 1000 1013.333 263.3333 540 830 573.3333 306.6667 940 7750.00 k M x i * ni i 1 k ni i 1 2325 : 30 77.5 M k k xi * fi 77.5 i 1 M xi * fi % i 1 100 7750 77.5 100 Valore centrale della classe Nel caso di una distribuzione di frequenze per un carattere X suddiviso in classi, possiamo approssimare la media utilizzando il valore centrale della classe cj xa 8/3 1K c jn j n j 1 Esempio Prezzi di farmaci e quantità acquistate da un ospedale 9/3 xa v.c. Prezzo a confezione (€) Numero Confezioni (migliaia) Ammontare carattere (costo) ml. (€) 25 20 – 30 11 25*11= 32.5 30 – 35 5 32.5*5= 162.5 37.5 35 – 40 15 37.5*15= 562.5 45 40 – 50 9 45*9 = Totale 40 275.0 405.0 1405 = 1405/40 = 35.72 € (a confezione) (approssimato) Media aritmetica ponderata La media aritmetica ponderata di un insieme di n valori osservati di un carattere quantitativo X con pesi non negativi, è data da: k x1p1 x2 p2 xk pk xa p1 p2 pk x j pj j 1 k pj j 1 10/3 Considerazioni La Media aritmetica dipende da tutti i valori osservati e quindi risente dei valori estremi (valori anomali); La Media aritmetica sintetizza la distribuzione di un carattere con un solo valore; 11/3 Proprietà della media aritmetica 1) La somma dei valori osservati è uguale al valore medio moltiplicato per il numero di unità ; k xi ni x i 1 2) La somma delle differenze tra i valori e la loro media aritmetica, è k k pari a zero; x i i 1 x 0 x x n i 1 i i 0 3) La somma degli scarti al quadrato dei valori da una costante c è minima quando c è uguale alla media aritmetica; x x x c k i 1 2 i k i 1 2 i 4) Se un collettivo viene suddiviso in L sottoinsiemi disgiunti, allora la media aritmetica generale si può ottenere come media ponderata delle medie dei sottoinsiemi con pesi uguali alle loro numerosità. Proprietà della media aritmetica 5) E’ associativa x1+ (x2+x3)=(x1+x2).+x3 7) È invariante per traslazioni, cioè per cambiamenti dell’origine: x1, x2….xk M= x1+b, x2+b,….xk+b M= + b 8) È invariante per cambiamenti dell’unità di misura: x1, x2….xk M= x1b, x2b,….xkb M= b 9) la media è sempe un valore compreso tra il valore minimo e massimo della distribuzione; La media geometrica è quel valore che sostituito alle singole osservazioni ne lascia inalterato il PRODOTTO x1 * x2 *... * xn X g * X g *... * X g X g n La media geometrica calcolo sulla distribuzione unitaria xg n x1 x2 xn calcolo sulla distribuzione di frequenze xg n n1 n2 x1 x2 ... nK xK oppure xg 15/3 f1 f2 x1 x2 .... fK xK Proprietà della media geometrica 1) 2) x1 x2 xn xg n 1 n log x g log (xi ) n i 1 Un modo semplice per calcolare la media geometrica si ottiene dalla proprietà 2) 16/3 Valori medi La media geometrica può essere anche calcolata anche ricorrendo ai logaritmi, essendo equivalente alla quantità: n1 log x1 n2 log x2 ...nk log xk log M g N PROPRIETA’ a) La media geometrica è non superiore alla media aritmetica (Mg≤M) b) E’ non esterna all’intervallo (x1, xk), ossia compresa tra il valore minimo e massimo della distribuzione c) Non è invariante per le traslazioni d) E’ invariante per cambiamenti dell’unità di misura: x1, x2….xk x1b, x2b,….xkb Mg= Mg= b con b>0 Esempio: i numeri Indice A base fissa: consentono di confrontare tutte le osservazioni di una serie storica ( o geografica) con un’unica osservazione di riferimento La variazione relativa= I-1 2000 2001 2002 2003 2004 2005 2006 2007 2008 xt I 100 x0 R.O. Indice Variazione % 123 1143 1.162601626 16.26 143 1.162601626 16.26 134 1.089430894 8.94 115 0.93495935 -6.50 162 1.317073171 31.71 140 1.138211382 13.82 132 1.073170732 7.32 139 1.130081301 13.01 Media geometrica 1.121523041 Varizione media 12.2 Per calcolare la variazione media nel periodo 2000-2008 occorre calcolare la Mg degli 8 indici a base fissa Esempio: i numeri Indice A base mobile: consentono di confrontare ciascuna osservazione di una serie storica ( o geografica) con la precedente, assunta come osservazione di riferimento xt I 100 xt 1 La variazione relativa= I-1 2000 2001 2002 2003 2004 2005 2006 2007 2008 R.O. 123 143 143 134 115 162 140 132 139 Indice 1.1626 1 0.9371 0.8582 1.4087 0.8642 0.9429 1.053 media geometrica Variazione % 0.162601626 0 -0.06293706 -0.14179104 0.408695652 -0.13580247 -0.05714286 0.053030303 1.015403629 1.13 Per calcolare la variazione annuale media nel periodo 2000-2008 occorre calcolare la Mg degli 8 indici a base mobile La Mediana E’ la modalità presentata dall’unità centrale del collettivo. Essa divide il collettivo in due sottoinsiemi di uguale numerosità: uno con modalità di ordine più basso e l’altro con modalità di ordine più alto. Il calcolo della mediana è possibile solo per caratteri quantitativi o qualitativi ordinabili. 20/3 Esempio Esempio 2. Distribuzione secondo la spesa delle Unità sanitarie. Calcolare la spesa media Si ipotizza che tutte le unità di Classe di (valore N. Unità xi *ni ogni classe siano spesa (in centrale sanitarie ni equidistribuite migliaia di classe) xi al’interno della euro) classe 0-3 1,5 7.976 11.964 3-6 4,5 8.763 39.433,5 6-9 7,5 4.130 30.975 9-15 12 1.176 14.112 15-25 20 297 5.940 25-50 37,5 105 3.937,5 50-100 75 18 1.350 Oltre 100 125 3 325 22.468 108.087 Totale M = 108.087 : 22.468 = 4,81 mila Tuttavia si perde informazione reddito medio Esempio Esempio 2 bis. Distribuzione secondo il reddito dei dichiaranti dei redditi percepiti. Calcolare il reddito medio Classe di spesa (in N. Unità ni migliaia di euro) Ammontare spesa Xi (in migliaia di euro) Reddito medio xi X i ni 0-3 7.976 12.792 1,60 3-6 8.763 40.650 4,64 6-9 4.130 29.320 7,10 9-15 1.176 12.932 11,0 15-25 297 5.580 18,79 25-50 105 3.405 32,43 50-100 18 1.172 65,11 Oltre 100 3 532 177,33 Totale 22.468 106.383 M= 106.383 : 22.468 = 4,73 mila Non è necessaria nessuna ipotesi, perché si conosce l’ammontare totale della classe Il valore del reddito medio è più preciso diverso dal reddito medio calcolato nell’es. 2 Esempio Carattere - Frequenz Frequenza Frequenza Voto a assoluta cum ulata relativa 62 2 2 0.067 66 2 4 0.067 70 3 7 0.100 73 3 10 0.100 75 4 14 0.133 76 4 18 0.133 79 1 19 0.033 81 2 21 0.067 83 3 24 0.100 86 2 26 0.067 92 1 27 0.033 94 3 30 0.100 Totale 30 1.000 Mediana = 76 Frequenza relativa cum ulata 0.067 0.133 0.233 0.333 0.467 0.600 0.633 0.700 0.800 0.867 0.900 1.000 Distribuzione per classi di valori Mediana Distribuzione per classi di valori del carattere osservato (classi della stessa ampiezza). Si può individuare la classe mediana oppure ipotizzando la distribuzione uniforme all’interno dell’intervallo si calcola il valore puntuale della mediana. Quindi: Me x( r ) x( r 1) xr N 1 r 1 ni nr i 1 2 Dove x(r) e x(r+1) sono gli estremi inferiore e superiore della classe mediana ed nr la frequenza assoluta della classe mediana. Se N è pari, si deve sostituire a (N+1)/2 una volta N/2 e una volta (N/2+1) e poi fare la semisomma dei due valori mediani. L’ultimo termine della formula rappresenta la frequenza cumulata della classe che precede la classe mediana. Distribuzione per classi di valori Voto x i 60-|70 70-|80 80-|90 90-|100 fi ni Fi 7 12 7 4 30 0.233 0.400 0.233 0.133 1.000 0.233 0.633 0.867 1.000 Con la proporzione: .23 70 Equivale alla formula: .50 Me .63 80 Me 70 80 70 0.5 0.23 0.4 80 70 : Me 70 .63 .23 : (.50 .23) Moda La moda di un collettivo è quella modalità del carattere alla quale è associata la massima frequenza. Se la distribuzione è per classi di valori del carattere osservato (tutte della stessa ampiezza) la classe modale è quella con la maggiore frequenza. Se le classi hanno diversa ampiezza, si divide la frequenza per l’ampiezza della classe e si sceglie il valore massimo dei quozienti ottenuti, detti densità di frequenza Se la distribuzione presenta una sola moda, è detta unimodale. Se vi sono due mode è detta bimodale, se ve sono tre è trimodale,… La moda può essere individuata anche graficamente. Ad es.: in un grafico a colonne o a nastri, la colonna più alta o il nastro più lungo individua la moda della distribuzione. Considerazioni sulla moda La moda fornisce informazioni solo su una modalità del carattere; La moda dipende solo dalle frequenze; La moda acquista validità solo se vi è una netta prevalenza di una modalità/intensità; La moda si calcola su tutti i tipi di caratteri; 27/3 La moda Tipologia di farmaco 28/3 Numero reparti Frequenze % Antidolorifico 100 25 Antibiotico 200 50 Antiblastico 80 20 Altro 20 5 Totale 400 100 Consumi ml.(€) N. reparti 10 20 Consumi ml.(€) 12 80 5 – 25 31 90 40 N. reparti La moda è la modalità prevalente del carattere Ampiezza classe Densità frequenza 100 20 100/20 = 5 25 – 35 90 10 90/10 = 9 140 35 – 60 210 25 210/25 = 8.4 52 70 Totale 400 Totale 400 Distribuzione uni-modale 25 20 15 10 5 0 Distribuzione bi-modale 30 25 20 15 10 5 0 Calcolo della moda ES. Distribuzione per classi Classi) Frequenze Densità di frequenza <3 3138 1046 3-6 4084 1361 6-10 5740 1435 10-20 10269 1027 20-30 6302 630 30 e oltre 3237 324 Si sceglierà il valore max tra le densità di frequenza. La classe modale è 6-10 anni Quantili Quantili Un quantile-p, dove p[0,1] è quel valore che divide una distribuzione statistica in p parti uguali, ognuna delle quali contiene la p-esima parte della numerosità della distribuzione totale E’ un numero più grande del 100 x p % dei valori osservati e più piccolo del restante 100 (1-p) %. Es. Un quantile di 0,1 deve essere un valore che lascia a sinistra il 10% delle osservazioni e a destra il rimanente 90% Quantili Se p= 4 Se p=10 Se p=100 Quartili: dividono la distribuzione in quattro parti uguali Decili: dividono la distribuzione in dieci parti uguali Percentili: dividono la distribuzione in cento parti uguali In generale si definisce -percentile quel valore a destra del quale cade (1- )% dei casi e a sinistra l’ % dei casi. (p=0,01, 0,02…..0,99) La mediana si può considerare il 2° quartile e il 50° percentile. Quartili Le quattro distribuzioni individuate dai quartili contengono ognuna il 25% della numerosità totale. Così il 1° quartile contiene il 25% e la distribuzione rimanente è il 75% del totale Capacità di informazione delle medie Tutte le medie sono capaci di fornire la stessa quantità di informazione sulla distribuzione o la capacità informativa è diversa da una media all’altra? Scala di misura del Carattere Misura di tendenza Nominale Moda Ordinale Mediana Intervallo/ Rapporti Media Capacità di informazione Robustezza Cautela nell’utilizzo della mediana Studente X Y Z W 18 18 30 18 18 18 30 18 18 18 30 18 18 18 30 18 18 18 30 18 18 18 30 18 18 18 30 18 18 18 30 18 18 18 30 18 18 30 30 18 30 30 30 18 30 30 30 18 30 30 30 18 30 30 30 18 30 30 30 18 30 30 30 18 30 30 30 18 30 30 30 18 M Me 23.65 18 24.35 30 30 30 18 18 La mediana non va bene quando la differenza tra due popolazioni è rilevante proprio nel centro della distribuzione ordinata delle modalità Il box plot Q3+1.5IR 3° quartile mediana 1° quartile Q1-1.5IR Il box plot è un grafico caratterizzato da tre elementi principali: 1. Una linea o un punto, che indicano la posizione del centro della distribuzione (mediana); 2. Un rettangolo (box) la cui altezza indica la variabilità dei valori “prossimi” alla media (IR= terzo quartile-primo quartile); 3. Due segmenti (baffi) che partono dai lati minori del rettangolo e che terminano in corrispondenza del più piccolo e del più grande valore non outlier. 4. Dei punti, detti outliers, che giacciono 1,5*IR al di sotto del primo quartile e 1,5*IR al di sopra del terzo quartile Rapporti statistici 1. di composizione: esprimono il rapporto tra la quantità relativa ad una modalità e l’ammontare complessivo. Si applica alle distribuzioni di quantità 2. di coesistenza: esprime il rapporto tra la frequenza (quantità) relativa ad una modalità e la frequenza (quantità) relativa ad una altra modalità. Esempio: rapporto di mascolinità Pm/Pf*100; indice di vecchiaia P>=65/P<=14*100 3. di derivazione o tasso: numero di casi di un evento che si verifica in un determinato periodo di tempo rapportato alla popolazione totale di quel periodo. Esempi: tasso di mortalità M/P*1000; quoziente di natalità N/P*1000; tasso di abortività ab/P*1000; tasso di mortalità infantile M0-365/NV*1000