Elementi di Statistica descrittiva Lez. 2 - Misure di tendenza centrale - le Medie - la Moda - la Mediana ____________________ Anno scolastico 2001/2002 Prof. Biasco 1 Valori MEDI (o indici di posizione) Nello studio dei fenomeni collettivi è importante calcolare dei valori sintetici che siano rappresentativi dell’insieme dei dati, che diano una visione d’insieme del fenomeno. Tali valori si dicono MEDIE Si possono definire diversi tipi di medie, tra le più comuni si hanno: la media aritmetica, la mediana, la moda, la media geometrica, la media armonica, la media quadratica. 2 Esempio Si vogliono confrontare le stature di 3 gruppi: • Un gruppo di bambini • Un gruppo di giocatori di pallacanestro • Un gruppo di clienti di un supermercato 3 15 5 0 10 8 4 2 11 14 14 12 10 19 820 0 20 12 19 619 8 10 19 419 6 5 19 219 4 25 19 019 2 25 18 819 0 30 18 618 8 18 418 6 frequenze 35 frequenze Poligono di frequenza - Statura Bambini 15 816 0 16 016 2 16 216 4 16 416 6 16 616 8 16 817 0 17 017 2 17 217 4 17 417 6 17 617 8 17 818 0 18 018 2 10 16 016 2 20 15 816 0 30 15 615 8 15 15 415 6 10 15 215 4 15 015 2 5 14 815 0 14 614 8 frequenze Poligoni di frequenza dei tre gruppi Poligono di frequenza dei giocatori 30 25 27 20 15 10 5 7 3 0 8 10 Clienti di un supermercato 2 16 14 12 13 10 7 8 6 4 5 2 0 1 4 Elementi per cui le tre distribuzioni differiscono • Valore attorno al quale si distribuiscono i dati • Diversa distribuzione dei dati attorno al centro • Presenza più o meno accentuata di code a destra o sinistra • Distribuzione più o meno appuntita. 5 Confronto delle tre distribuzioni Confronto tre distribuzioni 35 bambini clienti supermercato giocatori basket 30 25 20 15 10 5 14 614 15 8 015 15 2 415 15 6 816 16 0 216 16 4 616 17 8 017 17 2 417 17 6 818 18 0 218 18 4 618 19 8 019 19 2 419 19 6 820 0 0 6 Le misure che permettono di valutare sinteticamente tali caratteristiche sono: • Misure di tendenza centrale: MEDIE • Misure di variabilità o dispersione • Misure di forma (asimmetria, curtosi) • Misure di concentrazione. 7 Le misure di tendenza centrale possono essere distinte in due gruppi: 1° gruppo Medie ferme o analitiche 2° gruppo Medie lasche o di posizione Media aritmetica Media geometrica Media armonica Media quadratica Moda Mediana 8 Quali di queste è la Media “più giusta”? Non esiste la “media migliore”, ma la media da utilizzare deve essere scelta in relazione al problema che si sta risolvendo. La media più adatta, “più giusta”, va scelta a seconda dei DATI e degli SCOPI dell’elaborazione statistica. 9 Noi vedremo le seguenti medie: La Media aritmetica (semplicemente Media) La Media geometrica La Media Armonica La Media quadratica La Moda La Mediana 10 Partiamo da un esempio: Esempio 1 Una società di ricerca statistica deve determinare la ricchezza degli abitanti di alcuni paesi al fine di decidere dove aprire alcuni punti vendita per una ditta operante nel settore commerciale. I dati raccolti sono riportati nella seguente tabella 11 Esempio 1 - Tabella . dei redditi rilevati reddito in milioni freq. 1° paese freq. 2° paese 0 5 10 15 20 30 40 50 11 8 13 24 16 32 12 4 4 16 34 46 24 12 10 4 totali 120 150 12 Esempio 1 - Diagramma delle frequenze dei redditi Diagramma delle frequenze 50 frequenze 40 30 1° paese 20 2° paese 10 0 0 10 20 30 40 50 60 reddito (milioni) 13 Vogliamo calcolare dei valori numerici che siano indicativi del grado di ricchezza/povertà della popolazione del paese considerato. Gli indici più utili potrebbero essere: – il reddito medio – il reddito più diffuso – il reddito rispetto al quale la popolazione risulta divisa in due parti uguali. 14 La Media Aritmetica La media aritmetica rappresenta il reddito che ogni abitante avrebbe se il reddito totale del paese venisse equamente suddiviso tra tutti gli abitanti cioè nel caso in cui 1- ciascun abitante versa al sindaco tutto il suo reddito (reddito totale non cambia), 2- Il sindaco divide in parti uguali il reddito totale della città e lo ridistribuisce ai singoli cittadini. 15 Vediamo come calcolarlo. Se x1, x2, … xn sono i redditi degli n abitanti il Reddito medio (la MEDIA dei redditi) viene calcolata nel modo seguente: 1. Calcoliamo il reddito totale della popolazione: n Reddito totale x 1 x 2 ... x n x i i 1 16 2. Dividiamolo per il numero degli abitanti n Reddito totale x1 x 2 ... x n Reddito pro capite num. abitanti n x i 1 i n Quindi la media dei redditi è: n x1 x2 ... xn Reddito medio Media dei redditi n x i 1 n 17 i Tornando all’esempio 1 Reddito relativo al 1° paese. Reddito totale 0 11 5 8 10 13 ... 50 4 2490milioni 2490mil Media dei redditi 20,75mil 120 18 In generale, se x1, x2, … xn sono n dati numerici, la loro Media aritmetica (media aritmetica semplice) si ottiene sommando tutti i dati numerici e dividendo la somma per il numero dei dati: n x1 x2 ... xn Media M x n x i 1 i n 19 Dalla formula precedente avremo: x1 x2 ... x N x N 20 In particolare se gli n dati numerici sono tali che: il dato x1 compare f1 volte, x2 f2 volte,…. xk fk volte, la Media Aritmetica (Media aritmetica ponderata) è data da: k x1 f1 x 2 f 2 ... x k f k M f1 f 2 ... f k x i 1 i fi n 21 Proprietà della media aritmetica 1. La media aritmetica è sempre compresa tra il valore minimo e il valore massimo x min media xmax 2. La somma degli scarti dalla media è sempre zero posto xi = xi – media = xi – M (scarto dalla media) si ha che: n Somma scarti dalla media x i 0 i 1 22 3. La somma dei quadrati degli scarti dalla media è minore della somma dei quadrati degli scarti da qualsiasi altro valore numerico n Somma scarti x i M ha valore minimo 2 2 i 1 Cioè se M è la media e A un qualsiasi altro numero allora n x i 1 M x i A 2 i n 2 i 1 23 La Media Geometrica Def. Siano x1, x2, … xn gli n valori, tutti >0, assunti da una variabile numerica La media geometrica G di questi valori è: G n x1 x2 ......... xn Vediamo qualche esempio: 1- Se x1 e x2 sono i due lati di un rettangolo, la media geometrica rappresenta il lato del quadrato equivalente al rettangolo. 24 1- Se x1 e x2 sono i due lati di un rettangolo, la media geometrica rappresenta il lato del quadrato equivalente al rettangolo. G x2 x1 G · G = x 1 · x2 G G 2 x1 x2 25 Esempio 2 Se x1, x2. x3 sono i tre lati di un parallelepipedo rettangolo allora G è il lato di un cubo avente lo stesso volume. G · G · G = x 1 · x2 · x3 G 3 x1 x2 x3 26 • se gli n dati numerici positivi sono tali che: il dato x1 compare f1 volte, x2 f2 volte,…. xk fk volte, la Media Geometrica è data da: G N x1 x2 f1 f2 .......... xk fk 27 Esempio 3 Un capitale iniziale di 5.000 euro viene investito ad interesse composto. Sapendo che il tasso d’interesse il primo anno è del 2%, del 4% il secondo anno e del 6% il terzo anno, calcolare il tasso medio relativo ai tre anni. C0 = 5000 capitale iniziale: C1 = C0 + C0 *r1 = C0(1 + r1) = 5000(1 + r1) capitale alla fine del 1°anno C2 = C1 + C1*r2 = C1(1 + r2) = C0(1 + r1)(1 + r2) capitale alla fine del 2° anno C3 = C2 + C2*r3 = C2(1 + r3) = C0(1 + r1)(1 + r2) (1 + r3) capitale alla fine del 3° anno 28 se indichiamo con r il tasso medio annuo costante deve risultare: C3 = C0(1 + r)3 Per cui da C3 = C0(1 + r1)(1 + r2) (1 + r3)= C0(1 + r)3 avremo che (1+r) è la media geometrica (1 + r) = 3(1 + r1)(1 + r2) (1 + r3) quindi (1 + r)3 = 5622,24/5000 1 + r = 31,124 da cui r 3,9 % diversa dalla media aritmetica dei tassi = 4% 29 Esempio 4 Il numero di microrganismi di una certa coltura è aumentato da 2000 a 9000 in 3 giorni. Calcolare l’incremento medio giornaliero. n0 = 2000 numero iniziale batteri: n1 = n0 + n0 *r = n0(1 + r) = 2000(1 + r) batteri alla fine del 1°giorno n2 = n1 + n1*r = n1(1 + r) = n0(1 + r)2= 2000(1 + r)2 batteri alla fine del 2° giorno n3 = n2 + n2*r = n2(1 + r) = n0(1 + r)3 = 2000(1 + r)3 batteri alla fine del 3° giorno 30 Esempio 4 E poiché alla fine del 3° giorno ci sono 9000 batteri 2000(1 + r)3 = 9000 (1 + r)3 = 9000/2000 1 + r = 34,5 r = 65,1 % 31 La Media Armonica Def. Siano x1, x2, … xn gli n valori, tutti >0, assunti da una variabile numerica La media armonica H di questi valori è: 1 N H 1 1 1 1 1 ... xi xN N x1 x2 32 La Media Quadratica Def. Siano x1, x2, … xn gli n valori assunti da una variabile numerica La media quadratica Q di questi valori è: x1 x2 ... x N N 2 Q 2 2 33 ) x La Moda (o valore modale) La moda è uguale al dato che, nella distribuzione, compare con frequenza più elevata, cioè è il dato più rilevante, il dato più diffuso. Nel caso dell’ Esempio 1 - 2° paese Moda= x̂ = 15 milioni infatti 15 milioni è il reddito più diffuso Cioè il gruppo di abitanti con un reddito di 15 mil. è il più numeroso. 34 L’ortogramma dei redditi del secondo paese mostra chiaramente un valore modale frequenze Diagramma a colonne 50 45 40 35 30 25 20 15 10 5 0 46 34 24 16 12 10 4 0 4 5 Moda = 15 mil. 10 15 20 30 40 50 reddito (milioni) 35 Osservazioni La MODA è un valore medio interessante Se la moda è un reddito basso allora c’è un gruppo consistente di cittadini poveri Se la moda è un valore alto c’è un gruppo consistente di cittadini ricchi. Se il reddito è legato al tipo di attività potrebbe indicare che in quel paese una certa attività è la più diffusa, o indicare il ceto sociale prevalente. 36 Esempio: Se in 100 lanci di un dado otteniamo come valore modale “significativo” il numero 5 allora con molta probabilità il dado è truccato. 37 x% xˆ La Mediana La Mediana è una media di posizione, è uguale al valore che si trova al centro di una distribuzione ordinata in modo crescente (o decrescente) La Mediana ~ x divide i dati in due parti tali che : • il numero di osservazioni della Mediana è uguale al • numero di osservazioni della Mediana 38 Esempio 1 - Tabella dei voti . voti conseguiti freq. 1° prova freq. 2° prova 2 3 4 5 6 7 8 9 1 1 2 4 3 2 2 0 0 5 3 2 5 3 4 4 totali 15 26 39 Esempio: 2 3 4 4 5 5 5 5 6 6 6 8 8 9 9 6 6 8 8 9 9 Mediana 2 3 4 4 5 5 5 5 6 9 Madiana = 5 + 6 = 5,5 2 40 Io sono il valore MEDIANO 41 Fine lezione 42