Corso di Analisi Statistica per le Imprese Indici di variabilita’ ed eterogeneita’ Prof. L. Neri a.a. 2014-2015 1 Variabilità • La variabilità di una distribuzione esprime la tendenza delle unità di un collettivo ad assumere diverse modalità del carattere. • Per misurare la variabilità di una distribuzione si ricorre agli indici di variabilità che devono rispettare le seguenti caratteristiche: -assumere valore minimo se tutte le unità della distribuzione presentano la stessa modalità del carattere -aumentare al crescere della “diversità” tra le modalità assunte dalle varie unità 2 Variabilità • Il calcolo di una media non esaurisce la descrizione sintetica di un fenomeno osservato in un collettivo • Due insiemi di valori o due distribuzioni di frequenza, pur avendo lo stesso valore medio, possono essere molto differenti tra di loro • Gli indici di variabilità forniscono informazioni complementari a quelle degli indici medi 3 Punti vendita Ricavi Costi addetti ubicazione Genere respons. Vendita R.O On-line 1 350 205 5 centro maschio si 145 2 200 100 3 periferia maschio si 100 3 600 350 10 semicentro femmina no 250 4 500 270 10 periferia femmina no 230 5 270 200 6 centro maschio no 70 6 180 120 3 centro maschio no 60 7 205 105 3 periferia maschio no 100 8 340 210 5 semicentro femmina no 120 9 280 140 4 centro femmina si 140 4 Variabilità Distribuzioni teoriche Ricavi Ricavi (A) Ricavi (C) 325 Ricavi (B) 300 350 200 325 350 270 600 325 400 830 500 325 200 605 270 325 300 120 180 325 325 200 205 325 300 190 340 325 400 200 280 325 350 370 140 Le 3 distribuzioni teoriche hanno la stessa media della distribuzione osservata x 325 La sintesi con la media aritmetica porta allo stesso risultato Eppure le distribuzioni sono molto diverse tra di loro Distribuzione osservata 5 Alcuni indici di variabilità Il range (o campo di variazione) range xmax xmin è l’ampiezza dell’intervallo che contiene tutti i valori della distribuzione La differenza interquartile dQ Q3 Q1 è l’ampiezza dell’intervallo che contiene il 50% dei valori (quelli centrali) 6 Esempio Ricavi Ricavi (A) Ricavi (C) 325 Ricavi (B) 300 350 200 325 350 270 600 325 400 830 500 325 200 605 270 325 300 120 180 325 325 200 205 325 300 190 340 325 400 200 280 325 350 370 xmin 180 325 200 120 xmax 600 325 400 830 Range=xmax-xmin 420 0 200 710 140 Distr. A Variabilità nulla Tutti i valori uguali Passando da AaB e da B a C, aumenta la variabilità perché i valori cadono in un range sempre più ampio 7 Indici basati sullo scostamento dalla media La varianza σ2 è funzione delle differenze (scarti) tra ogni valore xi e la media x 1 n 2 xi x n 11 2 0 2 La devianza è il numeratore della varianza Dev(X) n xi x i1 2 8 Indici basati sullo scostamento dalla media La deviazione standard (o scarto quadratico medio) è la radice quadrata della varianza 1 n 2 x x i n i1 Il coefficiente di variazione CV è il rapporto tra la dev. standard e la media moltiplicato per 100 CV x 100 x0 9 Confronto tra due distribuzioni in termini di variabilità CV si calcola per confrontare la variabilità della distribuzione del carattere X con quella del carattere Y quando sono espressi o con diversa unità di misura o con diverso ordine di grandezza Se CVX>CVy allora la variabilità del carattere X è maggiore di quella del carattere Y 10 Esempio di calcolo Ricavi xj 350 Scarti dalla media (xj-μ) 25 Quadrato degli scarti (xj-μ)2 625 200 -125 15625 600 275 75625 500 175 30625 270 -55 3025 180 -145 21025 205 -120 14400 340 15 225 280 -45 2025 media x 325 n xi x 0 i1 n 2 x x i i1 Per la proprietà della media Dev(X) 163200 Devianza=163200 1 n Dev(X) 2 2 x x i n i1 n 163200 18133 ,3 9 Varianza=18133,3 1 n 2 x x i n i1 Dev.std.=134,7 11 18133,3 134,7 11 Variabilità dei ricavi dei punti vendita • Un basso grado di variabilità indica che i punti vendita realizzano performance simili (i ricavi si discostano poco tra di loro) • Viceversa un alto grado di variabilità fa capire che c’è una certa eterogeneità nei risultati delle vendite ottenuti nei diversi negozi 12 Varianza di una distribuzione di frequenza Addetti (xj) Numero punti vendita 3 2 19,34 4 1 4,45 6 3 0,04 7 1 0,79 10 2 30,26 (nj) (xj-μ)2*nj x 6,11 1 K 54,88 2 x j x nj 6,10 n j1 9 2,47 CV 100 40,43% 6,10 2,47 6,11 2 13 Box plot L’altezza del box indica la dispersione del 50% delle osservazioni centrali intorno alla mediana. Si evidenzia una certa simmetria nella parte centrale, dato che la differenza Q2-Q1 non è molto diversa da Q3-Q2 max Q3 Q2 Ricavi min Q1 I segmenti esterni al box indicano la dispersione dei valori estremi. Si nota una maggiore dispersione del 25% dei valori più grandi, dato che la differenza max-Q3 è molto maggiore di Q1-min 14 Calcolo dei valori standardizzati Se il carattere quantitativo X ha media x e deviazione standard σ allora è possibile sempre ottenere i suoi valori standardizzati yi xi x / i 1...n La distribuzione del carattere Y avrà allora media zero e deviazione standard uguale ad 1 Confronto del rendimento di due investimenti (uguale media) F1 F2 2003 7,7 6,4 2004 6,1 5,9 2005 0,4 3,2 2006 9,8 7,1 2007 3,5 4,9 media 5,5 5,5 var 10,7 1,8 Negli ultimi cinque anni, due fondi di investimento F1 e F2 hanno avuto lo stesso rendimento medio annuo, ma le varianze sono molto diverse Var(F1)>Var(F2) Una varianza maggiore indica che rendimenti molto diversi dalla media sono più frequenti Maggiore volatilità Maggior rischio A parità di rendimento medio, il cliente che è disposto ad accettare un rischio più alto sceglierà di investire in F1 16 Confronto del rendimento di due investimenti (media diversa) F1 F2 2003 9,7 1,4 2004 7,1 1,9 2005 0,9 2,2 2006 9,9 2,1 2007 7,5 4,9 media 7,0 2,5 var 10,6 1,5 CV 46,5 49,3 Il rendimento di F1 ha registrato una media e una varianza superiore a quello di F2 Si può concludere che F1 rappresenta un investimento più rischioso rispetto a F2? Le due medie hanno un ordine di grandezza diverso la variabilità si confronta con CV A F1 è associata una variabilità (volatilità) più bassa 17 Omogeneità ed eterogeneità Sono aspetti della variabilità di un carattere qualitativo • Eterogeneità nulla (o massima omogeneità) → Il carattere assume un’unica modalità (tutte le unità del collettivo presentano quella modalità) • Eterogeneità massima (o minima omogeneità) → Il carattere presenta tutte le modalità e a ciascuna di esse è associata la stessa frequenza 18 Eterogeneità Eterogeneità nulla (tutte le unità hanno la stessa modalità) Eterogeneità massima (a ciascuna modalità è associata la stessa frequenza) Mod. Freq. rel. a 1 Mod. Freq. rel. a1 1/k a2 1/k … ak 1/k 19 Indice di eterogeneità Mod. Freq. Freq. rel. a1 n1 f1 a2 n2 … … aj nj f2 .. fj aK nK fK Indice di eterogeneità di Gini K E1 1 fj2 j1 0 E1 K 1 K Indice relativo di eterogeneità di Gini E1 K e1 E1 K 1 K 1 K 0 e1 1 20 Eterogeneità dell’ubicazione dei punti vendita Ubicazione del p.v. Centro F. ass. (nj) 4 F. rel. (fj) 0,45 0,20 Semicentro Periferia Totale 2 3 9 0,22 0,33 1,00 0,05 0,11 0,36 K E1 1 fj2 1 0,36 0,64 j1 e1 0,64 0,96 0,67 fj2 K 1 2 0 E1 0,67 K 3 21 Eterogeneità dell’ubicazione dei punti vendita C’è un elevato grado di eterogeneità La distribuzione osservata si avvicina a quella che si avrebbe nella situazione di massima eterogeneità Distr. osservata Ubicazione del p.v. Distr. con la max eterog. F. ass. (nj) F. rel. (fj) F. ass. (nj) F. rel. (fj) Centro 4 0,45 3 0,33 Semicentro 2 0,22 3 0,33 Periferia 3 0,33 3 0,33 Totale 9 1,00 9 1,00 22