Campus di Arcavacata Università della Calabria Corso di statistica ARCAVACATA a.a 2009-2010 1 IL CONCETTO DI MEDIA I) Criterio di internalità (Chisini) La media di una variabile X è qualunque valore reale M intermedio tra il minimo x(1) ed il massimo x(n) di una distribuzione. x M x 1 n II) Logica della trasferibilità di una variabile (Chisini) La media di una variabile X è quel valore M, intermedio tra il minimo x(1) ed il massimo x(n) di una distribuzione che, rispetto ad una funzione sintetica delle osservazioni, ne lascia inalterato il valore. f x1 , , xn f M , ,M n volte Il valore della funzione f(•) non cambia se si sostituisce ad ogni intensità di X il valore M. III) Minimizzazione della perdita globale (Wald) La media di una variabile X è quel valore M che minimizza la funzione di perdita complessiva che si ottiene quando alle singole osservazioni (x1,………,xn) si sostituisce M. d xi , min d xi , se M Perdita subita nel sottrarre da xi, per i=1,2,……..,n Funzione che sintetizza le singole perdite in un unico valore IV) Principio della equiripartizione (Naguno-Kolmogorov-De Finetti) La media di una variabile X è quel valore M che realizza l’equiripartizione rispetto ad una funzione x1 x2 xn n M x n M i i 1 M M LA MEDIA ARITMETICA La sua individuazione deriva dalla logica della trasferibilità di una variabile (Chisini). f x1 , , xn , f , n volte Se la funzione f(•) corrisponde alla somma: x1 x2 xn n volte n n i 1 xi n X = x i i 1 n x1 x2 n xn Media aritmetica: modalità di calcolo Successione di n intensità X = n x i i 1 n Distribuzione di frequenze Frequenze assolute k X = x i Frequenze relative k X = xi f i ni i 1 i 1 n Distribuzioni in classi k X = ˆi ni x i 1 n ˆi x x i 1 xi 2 per i 1, 2, ,n Valore centrale dell’i-esima classe Il calcolo dei valori centrali introduce un’approssimazione perché equivale ad attribuire una ripartizione uniforme delle frequenze all’interno di ciascuna classe. Carattere NUMERO DI BOTTIGLIE 1 3 5 5 1 3 5 5 1 4 5 6 2 4 5 6 2 4 5 6 2 4 5 6 2 4 5 3 5 5 n xi i 1 n 1 1 6 30 119 30 N. bottiglie n i 1 xini n 1 0 ,10 n xifi i 1 3 0 ,10 6 ni fi 1 3 0,10 2 4 0,13 3 3 0,10 4 5 0,17 5 11 0,37 6 4 0,13 30 1 Totale 2 0 ,13 3 , 97 0 ,13 3 , 97 Carattere PREZZO CH, classi equiampie (primi 20 consumatori) Classe ci ni 1,69 |—| 1,77 1,73 3 0,15 1,77 —| 1,85 1,81 0 0 1,85 —| 1,93 1,89 3 0,15 1,93 —| 2,01 1,97 5 0,25 2,01 —| 2,09 2,05 9 0,45 20 1 Totale c1 ci xi 1 xi ck k x0 x1 c2 2 cini i 1 n 2 x1 x2 2 1, 69 1, 77 2 1, 77 1, 85 2 1, 73 1, 81 xk 1 xk 2 1, 73 3 1, 958 fi 1, 81 0 20 2 , 05 9 Proprietà della media aritmetica x1 X x n I) Internalità x1 x i x n per i 1, Dim: n x i 1 1 n x i 1 n x n x1 i 1 n x1 II) x i 1 i i 1 x i 1 X xi n n x n X x n n n x i i 1 n x i i 1 n x n x1 n i 1 i n x Proprietà Baricentrica Dim: n xi n i ,n i X 0 i 1 n X i 1 n x i n X i 1 n x i i 1 n n x i i 1 0 Y X III) Linearità Dim: , trasformazione lineare X Y Y X x1 , Y , xn y1 1 n n xi i 1 1 = n n Corollari: , xn y1 a) x1 , 1 n x1 , 1 n n i 1 n , yn i 1 1 n xi x1 , xn n x i i 1 X , yn xn Y X b) x1 , , xn y1 x1 , Y X , yn xn Per i soli succhi di frutta MM considerare il carattere PREZZO MM. La casa produttrice decide di cambiare il prezzo di vendita del prodotto: per ogni acquirente il nuovo prezzo sarà pari al prezzo di vendita mediano attuale più il 18.75% del prezzo attuale. Qual è la 9 media dei nuovi prezzi di vendita? Scelta Prezzo MM MM 1,99 MM 1,99 MM 1,99 MM 2,09 MM 2,09 MM 2,09 MM 2,09 MM 2,09 MM 2,13 p i 1 9 i Me x 9 1 x5 2 , 09 2 La nuova serie dei prezzi p* sarà dunque ottenuta dalla trasformazione lineare: p* = 2,09 + 0,1875 p * * * p1 =p2 =p3 = 2,09 + 0,1875 p* 4= * 1 9 18 ,55 2 ,06 9 1,99=2,46 =p* 8 = 2,09 + 0,1875 2,09=2,48 p* 9 = 2,09 + 0,1875 2,13=2,49 p* i 2 , 46 2 , 46 2 , 49 2 , 47 9 i1 9 * 2 , 09 0 ,1875 2 , 09 0 ,1875 2 , 06 2 , 47 X IV) Associatività 1 n G jnj j 1 G = numero di gruppi nj = numerosità del j-esimo gruppo (j=1,….,G) Dim: n1 n2 nj nG n suddivisione delle intensità in G gruppi di numerosità n j nj n G x i i 1 x j 1 i 1 1 1 n1 x 1i ; ; j i 1 j 1, ,G xij = j-esima intensità dell’i-esimo gruppo ij somma delle intensità n1 1 nj nj x ij ;G ; i 1 1 nG nG x Gi i 1 medie dei gruppi X 1 n n x 1 n i i 1 1 j 1 n j G 1 n G x ij j 1 nj x ij i 1 nj i 1 1 nj n Scomposizione della media generale G j 1 Media aritmetica j n j delle medie dei gruppi nj Bar 6 Bar 6 Bar 5 Bar 5 Bar 6 Bar 3 Bar 5 Bar 4 Bar 5 Coloniali 3 Coloniali 6 Coloniali 4 Coloniali 5 Coloniali 3 Coloniali 4 Coloniali 5 Coloniali 2 Coloniali 4 D. Automatico 2 D. Automatico 5 D. Automatico 3 D. Automatico 6 S.market 4 S.market 6 S.market 5 S.market 2 9 9 4 bar 8 30 n.bottiglie bis Rivenditore 9 S.market S.market col 3 6 S.market 5 S.market 1 129 1 xi n i 45 36 16 32 bar col da sm 129 30 1 nbar 1 ncol 1 4,3 xbar bar xcol col xda nda da 1 nsm xsm sm 30 xi i 1 9 30 da 4 sm 8 nj nj Gruppi/modalità G xi j = 1, …, G i 1 Bar 9 45 Coloniali 9 36 D. Automatico 4 16 Supermarket 8 32 30 129 Totali bar nbar bar 1 col xbar ncol 1 da nda sm nsm n 45 5 9 1 col xcol 36 4 ncol col 9 1 1 da x 16 4 da nda da 4 1 1 sm x 32 4 sm nsm sm 8 nbar 1 5 9 bar 4 9 4 30 4 4 8 129 30 4,3 V) Minimizzazione della somma degli scarti al quadrato n xi 2 min se e solo se X i 1 Dim: se n xi X n xi 2 i 1 2 i 1 n xi n xi i 1 X X 2 n xi X 2 n X 2 i 1 n xi 2X X i 1 xi X 2 i 1 n 2 i 1 n xi Termine nullo per la II proprie-tà della media aritmetica X 2 n X 2 i 1 n xi i 1 2 n xi i 1 X 2 Quale indice di posizione scegliere? La mediana è un indice robusto: non subisce l’influenza di valori anomali La mediana minimizza la somma degli scarti in valore assoluto: n i 1 xi c min c Me esempio: Scelta del luogo in cui situare il deposito di n punti vendita, in modo da minimizzare le distanze complessive (quindi i costi): il luogo che soddisfa tale condizione è la mediana dei punti vendita CRITERIO: Se occorre un indice che tenga conto di tutti i valori, si utilizza la media. Se non si vuole che i valori estremi alterino il valore dell’indice, allora si utilizza la mediana INDICI STATISTICI DI VARIABILITA’ Variabilità: Attitudine di un fenomeno ad assumere diverse intensità • Dispersione rispetto ad un centro Come si misura la variabilità? • Mutua variabilità • Mutevolezza delle frequenze (Concentrazione per caratteri trasferibili) Caratteristiche di un indice di variabilità V(): Indice di variabilità; c: costante nota x1 , , xn 0 ii ) V c, , c 0 iii ) V x1 c, xn c V x1 , , xn iv ) Se V x1 , xn V y1 , , yn X i) V è più variabile di Y N.B. Un indice di variabilità è sempre maggiore o uguale a zero. Variabilità e funzione di ripartizione empirica Una funzione di ripartizione empirica molto ripida (che subito raggiunge 1) indica scarsa variabilità. Viceversa, una funzione di ripartizione empirica che raggiunge 1 molto lentamente indica elevata variabilità. Campo di Variazione Range X xmax xmin È molto sensibile alla presenza di valori anomali Differenza Interquantile q qr qs r>s Differenza tra due quantili equidistanti dagli estremi della distribuzione Via via meno sensibile alla presenza di valori anomali, ma mano che r ed s si avvicinano. Differenza Interquartile IQR Q3 Q1 È un indice più robusto del campo di variazione Coefficiente di Variazione Interquartile CQV Q3 Q1 Q1 Q3 2 2 Q3 Q1 Q1 Q3 Non dipende dall’unità di misura del carattere osservato (come il Range e l’IQR) ma solo dal rapporto tra quartili Se Me 0 allora CQV Variabilità rispetto ad un centro Obiettivo: Sintetizzare una opportuna funzione degli scarti delle singole intensità dall’indice di posizione M prescelto Successione degli scarti: x1 M , x2 M , , xi M , , xn M Ogni scarto esprime la distanza di ciascuna intensità dall’indice M. La variabilità rispetto ad un centro può essere definita specificando in diversi modi M. n Ricordiamo che: xi 0 i 1 Se M n 2 x min i i 1 n Se M Me xi Me min i 1 VARIANZA Misura la dispersione media intorno alla media aritmetica. Si calcola come media aritmetica dei quadrati degli scarti. 1. Per una successione di 1 n 2 X = xi valori: n i 1 2. Per una frequenza: distribuzione di 3. Per una distribuzione in classi di frequenza: 2 X 1 = n 1 X2 = n k 2 xi ni 2 i 1 k ci i 1 ni 2 N. bottiglie ni fi 1 3 0,10 2 4 0,13 3 3 0,10 4 5 0,17 5 11 0,37 4 0,13 30 1 6 n Totale 2 i 1 xi 2 ni n k 1 3, 97 2 3 2 3, 97 2 4 30 72, 97 i 1 Formula alternativa: n 2 x i 1 ni n 1 2 2 i 3 2 2 2 4 30 545 30 15, 73 2, 41 6 2 4 n 119 30 3, 97 2 6 3, 97 4 2, 41 30 xi ni 3, 972 Classe ci ni fi 1,69 |—| 1,77 1,73 3 0,15 1,77 —| 1,85 1,81 0 0 1,85 —| 1,93 1,89 3 0,15 1,93 —| 2,01 1,97 5 0,25 2,01 —| 2,09 2,05 9 0,45 20 1 Totale n cini i 1 n cifi 1, 73 0 ,15 2 ci ni k 2 i 1 ci i 1 k 2 n n 1, 73 i 1 1, 96 fi 1, 81 1, 96 2 0,15 2 0, 45 0, 004 2, 05 1, 96 2 , 05 0 , 45 2 Formula alternativa: n 2 c i 1 n 1, 73 2 2 i ni 2 0,15 n c i 1 2 i 1, 962 0, 004 2, 052 0, 45 1, 81 fi 2 2 0 0 1 , 96 Proprietà della varianza I) 2 0 X II) Esprime la variabilità nella stessa unità di misura del carattere osservato, ma elevata al quadrato X2 2 2 III) n Dim: X2 = 1 xi n 2 i 1 1 n 1 n n xi 2 i 1 n x i 1 2 i 1 n Formula alternativa per il calcolo della varianza 1 2 n 2 n n i 1 xi i 1 2 xi 1 n 2 2 n i 1 2 IV) trasformazione lineare X Y Y X , Dim: Y2 2 X2 yi xi Y X e quindi: 1 n yi Y n i 1 n 2 1 xi X n i 1 2 Y 2 2 1 n n i 1 2 X2 xi X 2 Esempio Nuovo prezzo = prezzo mediano attuale + 18.75% del prezzo attuale. Qual è la varianza del nuovo prezzo? Scelta Prezzo MM MM 1,99 MM 1,99 MM 1,99 MM MM 2,09 Me 2,09 MM 2,09 MM 2,09 MM 2,09 MM 2,13 9 i 1 pi 9 2, 06 9 2 p i 1 2 i 9 = 2,09; 0 ,002 = 0,1875 Trasformazione lineare: p* = 2,09 + 0,1875 p Calcolo della nuova varianza: 2* 2 2 2* 0,18752 2 0, 035 0, 002 0, 000075 Decomposizione della varianza V) La varianza di X è data dalla somma della media delle varianze di gruppo (varianza interna) e dalla varianza delle medie di gruppo (varianza esterna). Se: G = numero di gruppi; j: media dell’i-esimo gruppo; nj = numerosità dell’j-esimo gruppo (j = 1,….,G); allora: 2 X 1 n G j 1 2 j nj VARIANZA INTERNA ossia: 1 n G j 1 j X 2 VARIANZA ESTERNA 2 2 2 TOT INT E XT nj Dim: n1 n2 nj nG n suddivisione delle intensità in G gruppi di numerosità n j j 1, ,G 1 nj j 2 X 1 n n xi x ij i 1 X i 1 Media aritmetica delle intensità appartenenti all’iesimo gruppo. nj 2 1 n ni G x j 1 i 1 ij X 2 Varianza della partizione in gruppi 1 n 1 n G ni xij j j X j 1 i 1 ni G x j 1 i 1 1 2 n G ij j ni x j 1 i 1 ij j 2 1 n j G 2 ni j 1 i 1 X j X 2 1° Addendo 1 n ni G x j 1 i 1 1 n G j 1 ij 1 nj j 2 nj x i 1 ij j 2 1 nj n G j 1 2 j nj 2 INT Varianza dell'i-esimo gruppo 2° Addendo 1 n ni G j X j 1 i 1 2 1 n G j X j 1 2 2 EXT nj Varianza delle medie di gruppo 3° Addendo 1 2 n G ni x j 1 i 1 ij j j X 2 n G j 1 Quindi: 2 X 1 n n xi i 1 X 2 1 n X j G x i 1 j 1 i 1 ij j è uguale a zero per la I proprietà di ni x 2 2 INT EXT ni ij X 2 0 Esempio 2 tot scelta CH bottiglie 2, 43 3, 97 G = 2 (1 = CH; 2 = MM) 1 CH 1 1 i 1 xCHi ni 1 2 3 2 2 2 4 3 2 1 3 4 5 0 5 5 7 4 11 6 4 0 4 21 9 30 2 2 6 4 21 6 2 MM 21 1 2 i 1 xMMi ni 9 Totale 1 Totale 6 MM 2 2 9 4, 28 5 4 3, 22 6 2 1 1 2 CH xCHi i 1 4, 28 2 1 6 xMMi i 1 1 3, 22 2 4, 28 2 MM 2 ni 4 9 2 6 2 EST 1 n G 2j n j 3, 22 2 1, 92 21 n G j X j 1 3, 97 2 40, 29 21 0 25,56 9 2, 83 9 30 j 1 1 4, 28 2 1, 92 9 2 INT ni 21 2 2 2 MM 2 21 6 CH 2, 83 2,19 nj 21 30 3, 22 3, 97 2 9 0, 24 2 2 2 TOT INT E 2,19 0, 24 2, 43 XT SCARTO QUADRATICO MEDIO (o scostamento quadratico medio, deviazione standard) o E’ uguale alla radice quadrata della varianza. Esprime la variabilità nella stessa unità di misura del carattere osservato. X = 1 n distribuzione di X = 1 n X = 1 n 1. Per una successione di valori: 2. Per una frequenza: 3. Per una distribuzione in classi di frequenza: n xi i 1 k xi i 1 k ci i 1 2 ni 2 ni 2 è interpretabile come scarto medio intorno alla media; la maggior parte dei valori sono compresi nell’intervallo: [ - ; + ] MASSIMA VARIABILITA’ Nella situazione 2 = 2(n-1) di e xi 0 per i 1, massima variabilità n 1 x n n ,n 1 situazione di massima variabilità 2 1 n x i n i 1 2 2 1 0 n 1 n 1 n 1 2 2 2 2 2 n 1 n 2 n n 1 n 2 2 n2 2 2 2n 2 n n 2 n 1 1 2 2 2 2 n n n 1 n n 2 2 2 n 1 n 1 Quindi: 0 2 n 1 n 1 2 0 INDICI DI VARIABILITA’ RELATIVA CV Coefficiente di variazione X X E’ un indice indipendente dall’unità di misura (è un numero puro) e può essere utilizzato per confrontare distribuzioni diverse Poiché: 0 2 2 n 1 e 0 0 n 1 n 1 INDICE DI VARIABILITA’ RELATIVI NORMALIZZATI (compresi tra 0 ed 1) Scarto quadratico medio relativo Si ottiene come rapporto tra il valore assunto dallo scarto ed il valore massimo che esso può assumere per la distribuzione: rel X max X X X n 1 Esempio N. bottiglie ni fi 1 3 0,10 2 4 0,13 3 3 0,10 4 5 0,17 5 11 6 4 0,13 30 1 Totale k i 1 n k 0,37 2 x i ni xi i 1 3, 97 2 ni n 2, 43 Scarto quadratico medio: 2 2 ,43 1,56 Scarto quadratico medio relativo: rel n 1 1,56 3 ,97 29 0 ,07 Coefficiente di variazione: CV 1,56 0 ,39 3 ,97 INDICI DI MUTUA VARIABILITÀ Misurano quanto le unità statistiche differiscono tra di loro (non più rispetto ad un punto fisso). Il calcolo si basa sulle differenze tra tutte le coppie di unità statistiche. DIFFERENZE MEDIE Differenza Media Semplice (senza ripetizione) n n i 1 j 1 k xi x j n n 1 Successione di valori k i 1 j 1 xi x j nn i j n n 1 Distribuzione di frequenza Differenza Media Quadratica n 2 n xi i 1 j 1 xj n n 1 Successione di valori k 2 2 k xi i 1 j1 xj 2 nn i j n n 1 Distribuzione di frequenza Impresa Addetti A 3 B 6 C 5 D 10 E 3 F 6 G 7 totale n xi i 1 n 40 7 5 , 71 Calcolo della Differenza Media Semplice: 40 Scarti semplici in valore assoluto A xi 3 B C D E F G 6 5 10 3 6 7 3 2 7 0 3 4 1 4 3 0 1 5 2 1 2 7 4 3 3 4 A 3 B 6 3 C 5 2 1 D 10 7 4 5 E 3 0 3 2 7 F 6 3 0 1 4 3 G 7 4 1 2 3 4 n i j 1 1 1 xi x j n n 1 120 76 2 , 86 Equidistribuzione degli addetti Impresa Addetti Impresa Addetti A 5,71 A 0 B 5,71 B 0 C 5,71 C 0 D 5,71 D 0 E 5,71 E 0 F 5,71 F 0 G 5,71 G 40 totale xi = xj Massima concentrazione di addetti 40 A 0 B C D E 0 0 0 40 0 0 0 0 0 40 0 0 0 0 40 0 0 0 40 0 0 40 0 40 B 0 0 C 0 0 0 D 0 0 0 0 E 0 0 0 0 0 F 0 0 0 0 0 0 G 40 40 40 40 40 40 G 0 0 i j 1 F 0 A n 40 = 2 =0 i,j xi totale 40 n xi x j n n 1 40 2 n 1 xi i 1 n n 1 2 INDICE DI CONCENTRAZIONE R max 2 0R1 R = 0 se = 0 Caso di equidistribuzione del carattere R = 1 se = 2 Caso di massima concentrazione del carattere Se: max 2 2 5 , 71 11, 42 2 , 86 R 2 2 , 86 11, 42 0 , 25 Caso di distribuzione di frequenza X = NUMERO DI AUTO POSSEDUTE relativo ad un collettivo di 20 famiglie auto ni 1 3 2 8 3 nj 3 8 6 2 1 ni auto 1 2 3 4 5 6 3 1 24 36 18 12 4 2 8 2 24 48 32 24 5 1 6 3 36 48 12 12 tot 20 2 4 18 32 12 1 5 12 24 12 K Scarti semplici in valore assoluto i j 1 1 2 xi x j ni n j N N 2 1 3 8 2 1 3 3 6 5 4 1 2 20 19 M A X 2 2 2,5 5 R max 1,16 0 ,23 5 440 380 1,16 INDICI DI ETEROGENEITÀ ED OMOGENEITÀ Mutabilità: Attitudine diverse modalità di un fenomeno ad Distribuzione Massimamente Omogenea: le statistiche presentano tutte la stessa modalità assumere n unità Distribuzione Massimamente Eterogenea: nella distribuzione di frequenza appaiono tutte le k modalità, e ad ognuna di esse è associata la medesima frequenza. Caratteristiche di un indice di mutabilità M(): Indice di mutabilità i) M x1 , , x n min M massima omogeneità ii ) M x1 , , x n max M massima eterogeneità iii ) min M M x1 , , x n max M omog./eterog. intermedia INDICI DI ETEROGENEITA’ ED OMOGENEITA’ INDICE DI GINI X: carattere qualitativo con k modalità G k f 1 i 1 i fi Gmax f i Gmax 1 k f i i 1 1 k k 1 i 1 k2 k f i 1 i 2 1 k f i 1 i 1, 2, , k 1 k k2 1 1 k INDICE DI GINI NORMALIZZATO G* G Gmax 1 1 1 k f i2 1 f i2 0 G* 1 k k 1 G k k 1 i 2 Massima eterogeneità (minima omogeneità) Modalità G 1 fi fi2 i 1 x1 0,2 x2 0,2 x3 0,2 x4 0,2 x5 0,2 Totale K 1 5 0,2 1 5 0 , 04 fi 1 k 2 , 0,8 i 1, 1 Minima eterogeneità (massima omogeneità) Modalità fi x1 0 x2 0 x3 1 x4 0 x5 0 Totale 1 G 1 K fi2 i 1 11 0 ,k Esempio 1 SCELTA ni CH MM Totale fi 21 0,7 9 0,3 30 1 Indice di eterogeneità di Gini G 1 K fi2 i 1 1 Gmax 0,7 2 1 0,32 1 0 , 49 0 , 09 0 , 42 1 1 1 0 ,5 K 2 Indice di eterogeneità normalizzato di Gini (0 ≤ G* ≤1) G* G Gmax 0 ,42 0 ,84 0 ,5 Conclusione G* è abbastanza elevato la distribuzione è abbastanza eterogenea: entrambe le modalità sono presenti, ma con frequenze non equilibrate tra loro. Esempio 2 Negozio ni Bar 9 0,30 Coloniali 9 0,30 D. automatico 4 0,13 Supermarket 8 0,27 30 1 Totale G 1 4 f i 1 Gmax 2 i 1 0,3 1 0, 09 1 fi 2 0,32 0,132 0, 272 0, 09 0, 02 0, 07 0, 73 1 1 1 0 ,75 K 4 G* G Gmax 0 ,73 0 ,97 0 ,75 Conclusione G* molto prossimo ad 1 la distribuzione è molto eterogenea: tutte le modalità sono presenti e con frequenze molto simili tra loro. FORMA DI UNA DISTRIBUZIONE Due distribuzioni che presentano gli stessi valori degli indici di posizione e degli indici di variabilità possono differire per il peso dei valori più grandi e/o più piccoli rispetto al valore centrale a causa del comportamento differenziato nelle code della distribuzione. La forma di una distribuzione è importante proprio per valutare l’effetto delle intensità posizionate sulle code della distribuzione. Obiettivo dello studio della forma di una distribuzione è misurare se una distribuzione è simmetrica oppure di quanto essa si discosta dalla situazione di simmetria. In una distribuzione simmetrica le intensità posizionate alla stessa distanza da un indice di posizione (ad es. la media aritmetica) ma in posizione opposta rispetto a tale indice presentano la stessa frequenza (o densità di frequenza). Una distribuzione che non risulta simmetrica si dice asimmetrica SIMMETRIA E ASIMMETRIA 1000 0 500 Densità di frequenza 1500 Distribuzione simmetrica -2 0 2 4 Intensi tà Proprietà: i ) X Me ii ) X Me Mo iii ) (per ditribuzioni unimodali) Q1 Me Q3 Me (Q1 e Q3 sono equidistanti da Me) N.B. Queste proprietà valgono in una sola direzione Distribuzioni asimmetriche Asimmetria positiva 1000 500 • Per distribuzioni unimo-dali: 0 -30 -20 -10 0 Intensi tà X Me Mo Asimmetria negativa 1000 500 Densità di frequenza 1500 • Le intensità si attardano sulla coda di sinistra della distribuzione • Per distribuzioni unimo-dali: 0 Densità di frequenza 1500 • Le intensità si attardano sulla coda di destra della distribuzione 0 10 20 Intensi tà 30 Mo Me X INDICI DI FORMA Forniscono informazioni sulla forma di una distribuzione (simmetria, asimmetria positiva o negativa). X Me X Indice di Hotelling e Solomon AHS Poiché vale la seguente relazione: 1 AHS 1 allora: X Me X AHS 0 1 AHS 0 0 AHS 1 Simmetria Asimmetria Positiva Asimmetria Negativa N.B. Nel caso in cui AHS = 0 la distribuzione non è necessariamente simmetrica Indice di Yule e Bowley AYB Me Me AYB 0 AYB 0 AYB 0 Q1 Q1 Q3 Q3 Me Me Simmetria Asimmetria Positiva Asimmetria Negativa 2Me Q1 Q3 Q3 Q1 INDICI DI FORMA BASATI SULLA STANDARDIZZAZIONE Tale indici neutralizzano l’effetto di qualunque indice di posizione e di variabilità attraverso una operazione di standardizzazione del tipo: X Z Z X X zi X xi X X per i 1, Z è la variabile standardizzata. Essa, oltre a non dipendere dall’unità di misura del carattere osservato, presenta sempre media pari a zero e varianza pari ad uno. Infatti: z1 Z x1 X X 1 n n i 1 1 X , , zi xi X X , , zn xn X X xi X i 1 X 1 n 1 1 xi X 0 0 n i 1 X n zi 1 n n ,n 2 Z 1 n n z i 1 1 n n Z i z i2 i 1 2 1 n n z i 1 0 2 i 2 xi X X2 i 1 1 n n 1 2 X 1 2 X Indice di Fisher 1 AF = n n z 3 i i 1 1 = n 3 xi X i 1 n Successione di valori 1 AF = n k z i 1 3 i 1 ni = n 3 xi X i 1 k ni Distribuzione di frequenza AF AF 0 AF 0 AF 0 Simmetria Asimmetria positiva Asimmetria negativa Indici di curtosi • Misurano la maggiore o minore frequenza delle osservazioni situate nelle code della distribuzione, ossia di quelle che presentano gli scarti dalla media più elevati. • Sono basati su un confronto tra la distribuzione empirica ed un modello teorico di riferimento quale la distribuzione Normale. 0.2 0.0 0.1 Densità di frequenza 0.3 Distribuzione Normale (Gauss-Laplace) -4 -2 0 2 4 Intensi tà • E’ utilizzata come modello teorico di riferimento perché frequentemente presente come distribuzione di fenomeni naturali • E’ una distribuzione simmetrica unimodale Indice di curtosi di Pearson 1 AK = n n z 4 i i 1 1 = n xi X i 1 n 4 Successione di valori 1 AK = n k z i 1 4 i 1 ni = n xi X i 1 k 4 ni Distribuzione di frequenza Per la distribuzione Normale: AK = 3 K = AK – 3 è un indice di disnormalità basato sul confronto tra la distribuzione empirica ed il modello della distribuzione Normale K AK 3 K 0 K 0 K 0 Distribuzione Normale Distribuzione leptocurtica Distribuzione platicurtica K>0 0.2 K<0 0.0 0.1 Densità di frequenza 0.3 K=0 -4 -2 0 2 4 Intensi tà Distribuzione leptocurtica: i valori si accentrano intorno alla media più di quanto accade per la distribuzione Normale Distribuzione platicurtica: presenta delle densità di frequenza nella coda della distribuzione più di quanto accade per la distribuzione Normale. ni N. bottiglie CH fi Fi N. bottiglie MM ni fi Fi 1 1 0,05 0,05 1 2 0,22 0,22 2 2 0,09 0,14 2 2 0,22 0,44 3 2 0,09 0,23 3 1 0,11 0,55 4 5 0,25 0,48 4 0 0 0,55 5 7 0,33 0,81 5 4 0,45 1 6 4 0,19 1 6 0 0 1 21 1 9 1 Totale Totale MM = 3,22 MM = 1,69 CH = 4,29 CH = 1,39 AFCH 1 nCH nCH i 1 x CH i CH CH 3 ni 3 3 3 2 4, 29 3 4, 29 1 1 4, 29 2 2 21 1, 39 1, 39 1, 39 3 4 4, 29 1, 39 1 21 13, 35 15, 44 21 3 5 4, 29 5 1, 39 3 6 4, 29 7 1, 39 4 8, 99 1, 6 0, 04 0, 96 7,58 0, 74 AFMM 1 nMM nMM i 1 x MMi MM MM 3 ni 3 3 2 3, 22 1 1 3, 22 2 2 9 1, 69 1, 69 3 3 3, 22 1, 69 1 9 4, 59 3 5 3, 22 1, 69 4 0, 76 0, 002 4, 7 0, 66 21 0, 07 Dal confronto risulta che entrambe le distribuzioni presentano un valore negativo dell’indice di Fisher, quindi un’asimmetria negativa, che è leggermente più accentuata per i consumatori CH. IL BOXPLOT Permette di studiare graficamente la forma di una distribuzione Costruzione del boxplot: 1. Si determinano i quantili: x(1), Q1, Q2 = Me, Q3, x(n) 2. Si disegna una scatola di estremi Q1 e Q3 tagliata sulla mediana Q 1 Me Q 3 3. Si calcolano i valori a e b: a Q1 1,5 Q3 Q1 ; b Q3 1,5 Q3 Q1 4. Si calcolano i valori e : = minimo dei valori maggiore di a = massimo dei valori minori di b 5. Si disegnano i baffi sui valori e Q Me 1 Q 3 5. I valori oltre a e b sono disegnati con dei puntini (valori anomali) Q 1 Me Q 3 Caratteristiche del boxplot: • Permette di visualizzare le informazioni sulla forma e la variabilità di una distribuzione • Consente di confrontare graficamente la forma di più distribuzioni Esempi Distribuzione simmetrica 3.5 4.0 4.5 5.0 5.5 6.0 6.5 Distribuzione asimmetrica positiva 5 10 15 20 25 Distribuzione asimmetrica negativa -25 -20 -15 -10 -5 Q1 = 4 Q2 = Me = 5 Q3 = 5 a Q1 1,5Q3 Q1 2 ,5 b Q3 1,5Q3 Q1 6 ,5 6 5 n. bottiglie succhi CH Distribuzione CH ESEMPI maxxi b 6 1 Distribuzione MM b Q3 1,5Q3 Q1 9 ,5 5 4 n. bottiglie succhi MM a Q1 1,5Q3 Q1 2 ,5 3 2 minxi a 3 Q1 = 2 Q2 = Me = 3 Q3 = 5 4 3 2 minxi a 1 max xi b 5 1 Boxplot Numero di stabilimenti (n=49) 0 0 2 2 4 4 6 8 6 10 8 Boxplot Numero di stabilimenti (n=50) Caso a) n=50: Q1 = 1; Me = 2; Q3 = 4 a Q1 1, 5 Q3 Q1 1 4, 5 3, 5 0 b Q3 1, 5 Q3 Q1 4 4, 5 8, 5 8 Caso b) n=49: a Q1 Q1 = 1; Me = 2; Q3 = 4 1, 5 Q3 Q1 1 4, 5 3, 5 0 b Q3 1, 5 Q3 Q1 4 4, 5 8, 5 8 Relazioni statistiche Le relazioni statistiche per distribuzioni doppie possono essere di due tipi: • Connessione: esistenza di una relazione reciproca tra i due caratteri –Dipendenza assoluta • Dipendenza: esistenza di una relazione di causaeffetto tra i due caratteri –Dipendenza lineare –Dipendenza in media • Correlazione (o intedipendenza): esistenza di una relazione di dipendenza reciproca tra i due caratteri. INDICI DI CONNESSIONE Indice Chi-quadro di Pearson (2) ˆij n ni n j n = frequenze teoriche Per misurare la connessione bisogna considerare le differenze tra le frequenze teoriche e le frequenze osservate. n k i 1 h ij j 1 1 n n n ˆij n k h j 1 i h n i 1 n i 1 k n j j 1 ij k h i 1 j 1 ˆij n h 1 k n n j ni n i 1 j 1 1 nn n n 0 n L’indice chi-quadro è pari alla somma dei quadrati delle differenze tra le frequenze teoriche e le frequenze osservate. 2 k h i 1 j 1 n ij ˆij n 2 ˆij n 0 2 2 0 2 0 Non esiste connessione (esiste indipendenza) tra X ed Y. Ogni frequenza congiunta è pari alla rispettiva frequenza teorica. Esiste connessione (non esiste indipendenza) tra X ed Y. Almeno una frequenza congiunta è diversa dalla rispettiva frequenza teorica. Formulazione alternativa 2 i j i j i j 2 nij ˆij n 2 nij ˆi n j n i i 2 2 ˆij n ˆij n j j n 2 i ˆij n i 2 ˆij n n n ˆij nij n j 2 nij ni n j k j ˆij nij n ˆij n 2 i nij j n 2n h n i 1 j 1 ni n j 2 ij 1 Indice Phi-quadro di Fisher ( 2) 2 2 n 0 2 min k 1, h 1 Perfetta dipendenza bilaterale in tabelle quadrate 2 h 1 k 1 nij n j ni Perfetta dipendenza di Y da X in tabelle rettangolari 2 h 1 nij ni h<k Perfetta dipendenza di X da Y in tabelle rettangolari 2 k 1 nij n j k<h negozio scelta Bar Coloniali D. Autom. S.market Totale CH 9 8 1 3 21 MM 0 1 3 5 9 Totale 9 9 4 8 30 Metodo A. 2 k h n ij ˆ nij i 1 j 1 n̂ij Frequenze teoriche scelta negozio Bar Coloniali D. Autom. S.market Totale CH 6,3 6,3 2,8 5,6 21 MM 2,7 2,7 1,2 2,4 9 9 9 4 8 30 Totale ˆ nij 2 2 9 6, 3 2 6, 3 0 2, 7 2 2, 7 8 6, 3 2 6, 3 1 2, 7 2 1,16 0, 46 2, 7 3 1 2, 8 2 2, 8 1, 2 2 1, 2 2, 82 13, 27 5 3 5, 6 2 5, 6 2, 4 2 2, 4 Metodo B. scelta 2 h k nij n i 1 j 1 ni. n.j 1 2 nij Frequenze teoriche negozio 2 Bar CH Coloniali D. Autom. S.market 81 64 1 9 0 1 9 25 MM ni. n.j scelta negozio CH Bar 81 189 D. Autom. S.market 189 189 84 168 81 81 36 72 MM 2 30 Coloniali 64 189 1 84 9 168 1 81 9 36 30 1, 44 1 13, 27 2 1 2 13 ,27 0 ,44 n 30 0 2 1 25 1 72 Esempi di perfetta dipendenza unilaterale Massima dipendenza unilaterale del carattere SCELTA (X) dal carattere NEGOZIO (Y) nij n.j negozio scelta Bar Coloniali D. Autom S.market Totale CH 9 0 4 0 13 MM 0 9 0 8 17 Totale 9 9 4 8 30 Massima dipendenza unilaterale del carattere NEGOZIO (Y) dal carattere SCELTA (X) nij ni. negozio scelta CH MM Totale Bar Coloniali D. Autom S.market Totale 21 0 0 0 21 0 0 9 0 9 21 0 9 8 30 DIPENDENZA IN MEDIA Y quantitativo X qualitativo Indipendenza in media di Y da X: al variare delle modalità di X le medie delle distribuzioni condizionate di Y rimangono costanti. X quantitativo Y qualitativo Indipendenza in media di X da Y: al variare delle modalità di Y le medie delle distribuzioni condizionate di X rimangono costanti. Rapporto di correlazione di Pearson X x0 – x1 x1 – x2 … xh-1 - xh tot y1 n11 n12 … n1h n1. y2 n21 n22 … n2h n2. Y nij ni. yk nk1 nk2 … nkh nk. tot n.1 n.2 n.j n.h n k X |Y 2 EXT 2 X X i 1 X |Y yi h ˆ x j 1 j 2 x X ni 2 n j Se y è quantitativo: h Y |X 2 EXT Y2 Y Y |X x j j 1 k y i 1 i Y Y 2 n j 2 ni Proprietà: I) X|Y 0 X|Y 1 II) 0 X|Y 1 Perfetta indipendenza in media: le medie delle distribuzioni condizionate di X sono tutte uguali tra loro ed uguali alla media generale (μX) Perfetta dipendenza in media: le varianze delle distribuzioni condizionate di X sono nulle. Ad ogni modalità di Y corrisponde una sola intensità di X che presenta frequenza non nulla 0 Y|X 1 III) L’indice non è simmetrico Y |X X|Y Y |X X |Y IV) Y |X X |Y = XY ESEMPIO Settore merceologico (X) Alimentare Bevande Health Care I. Packaging Totale Fatturato (Y) 200 200|300 300|400 400|500 >500 Totale 11 1 6 7 25 1 1 1 2 5 5 0 1 1 7 1 1 2 1 5 3 0 2 3 7 21 3 12 14 50 k Y |X 2 EXT Y2 Y Y |X xi i 1 h y j 1 Y |X x 1 1 n1 h ˆ y j 1 j j Y ni 2 n j n1 j 150 11 250 1 350 5 348, 48 Y 2 21 450 1 1256 3 1 n2 Y |X x 2 Y |X x 3 ˆ y j j 1 n2 j 150 1 250 1 450 1 3 1 n3 150 6 h h ˆ y j j 1 266, 67 n3 j 250 1 350 1 450 2 1256 2 12 Y |X x 4 Y 1 n4 h ˆ y j 1 j n4 j 150 7 250 2 350 1 450 1 1256 3 14 1 n h ˆ y j 1 j 384, 33 412 n j 150 25 250 5 350 7 50 450 5 1256 7 344, 84 Le medie delle distribuzioni condizionate sono tutte diverse dalla media di Y per cui esiste dipendenza in media k Y |X x i i 1 Y 2 ni 348, 48 344, 84 384, 33 344, 84 2 2 h ˆ y j 1 j Y 21 12 266, 67 344, 84 412 344, 84 14 2 2 3 100.474,1 2 n j 150 344, 84 25 250 344, 84 5 350 344, 84 7 450 344, 84 5 1.256 344, 84 7 7.410.606 2 2 2 2 2 k Y |X 2 EXT Y2 Y Y |X x i i 1 h y j 1 j Y Y 2 ni 2 n j 100.474,1 0,116 7.410.606 La dipendenza in media del carattere FATTURATO dal carattere SETTORE MERCEOLOGICO è piuttosto debole. CORRELAZIONE Misura del grado di interdipendeza (dipendenza reciproca) tra due caratteri quantitativi (variabili). Coefficiente di correlazione di Bravais-Pearson ( ) X x1 x2 xn Y y1 y2 yn 1 XY n XY xi XY X Y XY = covarianza tra X ed Y x yi Y X Y La covarianza ci fornisce informazioni su come variano (co-variano) simultaneamente le due variabili considerate. XY XY 0 XY 0 XY 0 Indipendenza Interdipendenza positiva Interdipendenza negativa 1 1 Il segno di 0 0 0 1 1 XY dipende da XY Incorrelazione Correlazione positiva Correlazione pegativa Massima correlazione positiva Massima correlazione negativa INTERPRETAZIONE GRAFICA -3 -2 -1 Yi 0 1 2 3 Incorrelazione -3 -2 -1 0 1 2 3 Xi Correlazione diretta Correlazione diretta 2 0,3 2 3 Correlazione diretta Yi 0 1 1 -1 Yi 0 0 -2 -3 -3 -2 -2 -1 -1 Yi 1 1 2 0,8 -3 -2 -1 0 1 -2 2 -1 0 1 2 3 -3 -2 -1 Xi Xi Correlazione inversa 2 1 2 1 -2 0 2 Xi 4 Yi -2 -2 -3 0,8 -3 -1 0 Yi -3 -2 0,3 -2 -1 0 Yi 0 1 2 1 Correlazione inversa 2 Correlazione inversa 0 Xi -1 0 Xi 1 2 -2 -1 0 1 Xi 2 3 Formula alternativa per la covarianza 1 n XY 1 n n x i 1 n xy i 1 i i X yi Y X Y i Ricordando che: 2 X 1 n n x i 1 2 i X 2 e 2 Y 1 n n y i 1 2 i Y Correlazione per successione di valori XY 1 n n i 1 1 n xy 2 i X x n i 1 i 2 i X Y 1 n n i 1 y i2 Y 2 2 ESEMPIO Relativamente ai primi 10 consumatori misurare la correlazione tra i caratteri FEDELE CH e FEDELE MM. XY Cliente 1 n fedele CH (X) n i 1 1 n xy 2 i X x n i 1 i 2 i X Y 1 n n i 1 fedele MM (Y) y i2 Y 2 0,063 xi y i 2 x0,870 i y i20,004 0,180 0,148 0,672 0,032 0,978 0,022 0,022 0,956 0,000 5 0,795 0,205 0,163 0,632 0,042 6 0,384 0,616 0,237 0,147 0,379 7 0,986 0,014 0,014 0,972 0,000 8 0,993 0,007 0,007 0,986 0,000 9 0,994 0,006 0,006 0,988 0,000 10 1,000 0,000 0,000 1,000 0,000 Totale 8,283 1,717 0,898 7,385 0,819 1 0,933 0,067 2 0,400 0,600 3 0,820 4 0,240 0,160 0,360 n X x i 1 n i 8 ,283 0 ,83 10 n Y y i 1 i n 1,717 0 ,17 10 N XY xiyi i 1 N x y 0 , 898 10 0 , 83 0 ,17 0 , 052 n n i 1 xi2 n 7 , 385 10 yi2 i 1 0 , 738 n 0 , 819 10 0 , 052 0 , 738 0 , 83 0 , 082 0 ,17 2 Massima correlazione positiva 2 0 , 082 1 Correlazione per tabelle a doppia entrata XY 1 n 1 n k i 1 k h ˆy ˆn x i 1 i j 1 ˆ ni X x 2 i 2 i ij 1 n X Y k i 1 ˆi2 n j Y y 2 ESEMPIO Fatturato (X) 200 200 -| 300 300 -| 400 400 -| 500 >500 Totale Addetti (Y) 200 5 1 1 0 0 7 200-|300 300-|550 550-|950 >950 9 1 2 0 1 13 7 1 1 0 0 9 2 2 3 2 2 11 2 0 0 3 5 10 Totale 25 5 7 5 8 50 Per calcolare il termine costruire la tabella delle 100 250 350 450 1.256 100 50.000 25.000 35.000 0 0 250 225.000 62.500 175.000 0 314.000 ˆy ˆ n x , ossia: i j 425 297.500 106.250 148.750 0 0 i j ij è consigliabile ˆi y ˆ j nij x 750 3.608 150.000 721.600 375.000 0 787.500 0 675.000 4.870.800 1.884.000 22.658.240 La somma degli elementi all’interno di tale tabella è pari a: i j ˆi y ˆ j nij 33.561.140 x da cui i j ˆi y ˆj nij x n 33.561140 671.223 50 Per il calcolo gli altri termini: xˆ i yˆ j ni xˆi ni nj yˆ j n j xˆi2 xˆi2 ni yˆ 2j yˆ 2j n j 100 25 100 7 2.500 700 10.000 250.000 10.000 70.000 250 5 250 13 1.250 3.250 62.500 312.500 62.500 812.500 350 7 425 9 2.450 3.825 122.500 857.500 180.625 1.625.625 450 5 750 11 2.250 8.250 202.500 1.012.500 562.500 6.187.500 1.256 8 3.608 10 10.048 36.080 1.577.536 12.620.288 13.017.664 130.176.640 18.498 52.105 15.052.788 138.872.265 1 n 1 n X Y i ˆ y j 1 18.498 369, 96 50 1 52.105 1.042,1 50 ˆi ni x j nj XY 671.223 369, 96 1.042,1 285.687 k 1 n 1 n yˆ ˆ2 x i ni i 1 h 2 jn j j 1 XY 1 15.052.788 301.056 50 1 138.872.275 2.777.445 50 285.687 301.056 369, 96 2.777.445 1.042,1 0,542 Correlazione diretta 2 2