Elementi di Statistica descrittiva Lez. 3 - Gli Indici di VARIABILITA’ - Campo di variazione Scarto dalla media Varianza Scarto quadratico medio Coefficiente di variazione 1 Indici di Variabilità I valori medi sono indici importanti per la descrizione sintetica di un fenomeno statistico Hanno però il limite di non darci alcuna informazione sulla distribuzione dei dati 2 Esempio In tre differenti prove di matematica 4 studenti hanno riportato le seguenti valutazioni 1° studente 2° studente 3° studente 4° studente media 1a Prova 3 5 8 9 6,25 2a Prova 5 7 6 7 6,25 3a Prova 6 7 6 6 6,25 In tutte e tre le prove la media è 6,25 ma i dati sono chiaramente distribuiti in modo diverso 3 Diagramma di distribuzione delle tre prove valutazioni Diagramma dispersione dati 10 9 8 7 6 5 4 3 2 1 0 1 studente media 2 sttudente 3 studente 4 studente 0 1 2 3 4 num prova 4 valutazioni Diagramma dispersione dati 10 9 8 7 6 5 4 3 2 1 0 1 studente media 2 sttudente 3 studente 4 studente 0 1 2 3 4 num prova • nel caso della 1a prova e 2a prova sarà opportuno fare un recupero per alcuni studenti • nel caso della 3a prova l’insegnante può ritenere che gli obiettivi siano stati raggiunti dalla classe, anche se ad un livello solo sufficiente 5 In statistica è possibile valutare in modo sintetico la distribuzione dei dati mediante gli indici di variabilità (o dispersione) Vedremo i seguenti indici • • • • Campo di variazione (Range) Scarto medio dalla media Varianza e scarto quadratico medio Coefficiente di variazione 6 Campo di variazione E’ il più semplice degli indici di variazione: Si calcola facendo la differenza tra il dato più grande e il dato più piccolo Campo variazione = x max – x min Rappresenta l’ampiezza dell’intervallo dei dati 7 Esempio Consideriamo le valutazioni della prima prova 1° studente 2° studente 3° studente 4° studente media 1a Prova 3 5 8 9 6,25 Xmax = 9; Xmin = 3 Range = 9 – 3 = 6 8 Calcoliamo il Range per tutte le tre prove 1a Prova 1° studente 2° studente 3° studente 4° studente media range Range 1a prova = 6 Range 3a prova = 1 2a Prova 3a Prova 3 5 8 9 2 7 8 8 6 7 6 6 6,25 6 6,25 6 6,25 1 dati più dispersi, risultati più eterogenei dati più concentrati, risultati più omogenei Range 2a prova = Range 1a prova = 6 Stessa Distribuzione? 9 Vediamo graficamente valutazioni Campo di variazione delle tre prove 10 9 8 7 6 5 4 3 2 1 0 1 studente 2 sttudente 3 studente 4 studente 0 1 2 num prova 3 4 range 10 Osservazioni: 1. Il campo di variazione dà informazioni sulla distribuzione dei dati: • più R è piccolo più i dati sono concentrati; • più R è grande più i dati sono dispersi. 2. R è espresso nella stessa unità di misura dei dati 3. Tuttavia R tiene conto solo dei dati estremi della distribuzione e non di tutti i dati, pertanto distribuzioni diverse ma con gli stessi valori estremi hanno range uguali Es. Range 1aprova = Range 2a prova. ma distribuzione 1a prova Distribuzione 2a prova 11 Scarto medio dalla media aritmetica Un altro modo per calcolare la variabilità dei dati (tenendo conto di tutti i dati) consiste nel calcolare la distanza di tutti i dati dalla media e fare la media aritmetica di tali distanze Scarto medio Sm x1 x x2 x ..... xn x n Scarto medio = Distanza media dei dati dalla media 12 Esempio Consideriamo le valutazioni della prima prova 1° studente 2° studente 3° studente 4° studente media 1a Prova 3 5 8 9 6,25 x1 = 3 – 6,25 = 3,25; x2 = 5 – 6,25 = 1,25; x3 = 8 – 6,25 = 1,75; x4 = 9 – 6,25 = 2,75; Sm = 3,25 + 1,25 + 1,75 + 2,75 = 2,25 4 13 Calcoliamo lo Scarto medio per tutte le tre prove 1a Prova 1° studente 2° studente 3° studente 4° studente media scarto medio Scarto 1a prova = 2,25 Scarto 3a prova = 0,38 2a Prova 3a Prova 3 5 8 9 2 7 8 8 6 7 6 6 6,25 2,25 6,25 2,13 6,25 0,38 dati più dispersi, risultati più eterogenei dati più concentrati, risultati più omogenei Scarto 2a pr. Scarto 1a pr. “Le Distribuzioni Differiscono” 14 Diagramma degli scarti dalla media Scarto dalla media Diagramma degli scarti dalla media 4,00 3,00 2,00 1,00 0,00 -1,00 -2,00 -3,00 -4,00 -5,00 stud.1 stud.2 1 2 3 stud.3 stud.4 num. prova 15 Osservazioni: 1. Lo scarto medio dalla media dà informazioni sulla distribuzione dei dati: • più SM è piccolo più i dati sono concentrati; • più SM è grande più i dati sono dispersi. 2. SM è espresso nella stessa unità di misura dei dati 3. Non ha l'inconveniente del “Campo di variazione” in quanto SM tiene conto di tutti i dati della distribuzione 16 Varianza e Scarto quadratico medio Sono gli indici di variabilità più utilizzati, e tengono conto della distribuzione di tutti i dati. Varianza Rappresenta la media aritmetica dei quadrati delle distanze dei dati dalla media M Varianza 2 x 1 2 2 x x2 x ..... xn x n 2 17 x n Varianza i x 1 n x n 2 2 i 1 n 18 Esempio - Varianza Consideriamo le valutazioni della prima prova 1° studente 2° studente 3° studente 4° studente media 1a Prova 3 5 8 9 6,25 (x1)2 = (3 – 6,25 )2 = 10,5625; (x2)2 = (5 – 6,25 )2 = 1,5625; (x3)2 = (8 – 6,25 )2 = 3,0625; (x4)2 = (9 – 6,25 )2 = 7,5625; 2 = 10,5625+1,5625+3,0625+7,5625 = 5,6875 4 19 Calcoliamo la Varianza per tutte le tre prove 1a Prova 1° studente 2° studente 3° studente 4° studente media varianza 2a Prova 3a Prova 3 5 8 9 2 7 8 8 6 7 6 6 6,25 5,69 6,25 6,19 6,25 0,19 Varianza 1aprova = 5,69 Varianza 3a prova = 0,19 Varianza 2a pr. Varianza 1a pr dati più dispersi, risultati più eterogenei dati più concentrati, risultati più omogenei “Le Distribuzioni Differiscono” 20 Scarto quadratico medio o Deviazione standard È uguale alla radice quadrata della varianza x x x 2 Scarto quadr. medio 1 2 x x n Scarto quadr medio x ..... xn x n 1 n 2 n 2 i 2 2 x i 1 n 21 Esempio - Scarto quadratico medio Riprendiamo le valutazioni della prima prova 1a Prova 1° studente 2° studente 3° studente 4° studente media n x i 1 n 3 5 8 9 scarti da M -3,25 -1,25 1,75 2,75 6,25 0,00 scarti2 10,5625 1,5625 3,0625 7,5625 5,6875 2 2 5,6875 2,3848 22 Calcoliamo lo Scarto quadratico medio per tutte le prove 1a Prova 1° studente 2° studente 3° studente 4° studente media scarto quadratico 2a Prova 3a Prova 3 5 8 9 2 7 8 8 6 7 6 6 6,25 2,38 6,25 2,49 6,25 0,43 Scarto q. 1aprova = 2,38 Scarto q. 3aprova = 0,43 Scarto q. 2a pr. Scarto q. 1a pr dati più dispersi, risultati più eterogenei dati più concentrati, risultati più omogenei “Le Distribuzioni Differiscono” 23 Osservazioni: 1. La varianza 2 e lo scarto quadratico medio danno informazioni sulla distribuzione dei dati: • più 2 e sono piccoli più i dati sono concentrati; • più 2 e sono grandi più i dati sono dispersi. 2. Entrambi gli indici tengono conto di tutti i dati della distribuzione 24 3. Entrambi si basano sulla proprietà della media per cui la somma dei quadrati degli scarti dalla media è minima 4. La varianza è espressa mediante il quadrato dell’unità di misura dei dati 5. Lo scarto quadratico nella stessa unità di misura dei dati e pertanto viene preferito alla varianza 25 Il coefficiente di variazione CV Il CV è una misura relativa di dispersione (le precedenti sono misure assolute) ed è una grandezza adimensionale. E’ particolarmente utile quando si devono confrontare le distribuzioni di due gruppi con medie molto diverse o con dati espressi in scale differenti (es. confronto tra variazione del peso e variazione dell’altezza). CV 100 % x 26 In natura il coeff. di variazione tende a rimanere costante per ogni fenomeno: i valori normalmente variano dal 5% al 15% Se i valori di CV sono esterni a quelli indicati o si è in presenza di errori di rilevazione, oppure il fenomeno presenta aspetti particolari. • se CV è molto basso (2 – 3 %) bisogna sospettare l’esistenza di fattori limitanti la variabilità, • se CV è molto alto (intorno al 40% o più) è molto probabile l’esistenza di fattori che aumentano la variabilità 27 Calcoliamo il Coeff. di variazione delle tre prove 1a Prova 1° studente 2° studente 3° studente 4° studente 2a Prova 3a Prova 3 5 8 9 2 7 8 8 6 7 6 6 media 6,25 scarto quadratico 2,38 coeff. variazione 38,16% 6,25 2,49 39,80% 6,25 0,43 6,93% CV 1a prova = 38,16% CV 3a prova = 6,93% CV 2a pr. CV 1a pr “Le Distribuzioni Differiscono” dati più dispersi, risultati più eterogenei dati più concentrati, risultati più omogenei 28 Un esempio: la distribuzione normale 29 Le misure di Forma Sono indici sintetici utilizzati per evidenziare particolarità nella forma della distribuzione. Noi esamineremo: • l’asimmetria • la curtosi 30 Asimmetria Una distribuzione è simmetrica quando la sua curva di frequenza presenta un asse di simmetria In una distribuzione simmetrica media, mediana e moda sono coincidenti. e proprio la differenza (distanza) tra la media e la moda può essere considerata una misura della asimmetria 1° distrib. normale 0,25 media = mediana = moda 0,2 frequenza In una distribuzione asimmetrica media, mediana e moda non sono più coincidenti Confronto di distrib. norm ali 0,15 0,1 0,05 0 0 2 4 6 8 10 12 14 16 valori della variabile 31 Sono state proposte diverse misure dell’ asimmetria, per esempio le più semplici sono: asimmetria asimmetria mediaaritmetica moda x moda scarto quadratico medio 3(mediaaritmetica mediana ) 3( x mediana) scarto quadratico medio Dette rispettivamente: primo e secondo coeff. di asimmetria di Pearson Un altro coeff di asimmetria è il Coeff. di asimmetria (di Fisher) = scarto quadratico medio Se a = 0 distribuzione simmetrica Se a > 0 asimmetria destra Se a < 0 asimmetria sinistra 3 xi x f i 1 a 3 i f i i 32 Asimmetria positiva (as. Destra) La distribuzione è asimmetrica quando non presenta nessun asse di simmetria. Si ha un’asimmetria positiva o destra quando il ramo destro della curva è più lungo di quello sinistro Asimmetria positiva o destra 12 In questo caso si ha: 10 moda < mediana < media frequenza 8 6 4 2 0 0 20 40 60 80 valori 100 120 140 media=63,65 moda = 48 mediana =58 33 160 Asimmetria negativa (as. Sinistra) Si ha un’asimmetria negativa o sinistra quando il ramo sinistro della curva è più lungo di quello destro Asimmetria negativa o as. sinistra 14 12 In questo caso si ha: frequenza 10 8 6 4 media < mediana < moda 2 0 0 20 40 media = 85,24 mediana = 90 60 80 100 120 140 valori moda = 100 34 Curtosi Se una distribuzione è simmetrica o quasi simmetrica allora può esser più o meno appuntita o più o meno appiattita rispetto alla distribuzione normale (o di Gauss) Se la curva è • più appuntita si dice curva Leptocurtica • più appiattita si dice curva Platicurtica Coeff. di curtosi di Pearson = scarto quadratico medio 0 K < + inf Se K = 3 distribuzione normale se K > 3 curva leptocurtica Se K < 3 curva platicurtica. 4 x x f i 1 i i K 4 f i i 35 Curtosi Confronto delle Curtosi 0,45 0,4 leptocurtosi K = 8,57 0,35 frequenza 0,3 curva normale K=3 0,25 0,2 0,15 platicurtosi K = 2,8 0,1 0,05 0 -0,05 0 2 4 6 8 10 12 14 16 valori della variabile 36 Curtosi Spesso il coeff. di curtosi viene indicato con b2 che, come visto, nel caso della distribuzione normale è = 3 pertanto, talvolta, la curtosi viene indicata con (b2 – 3) Allora: se la distribuzione è normale (b2 – 3 ) = 0 se la distribuzione è leptocurtica (b2 – 3 ) > 0 se la distribuzione è platicurtica (b2 – 3 ) < 0 37 38