STATISTICHE DESCRITTIVE Parte II INDICI DI DISPERSIONE • Introduzione agli Indici di Dispersione • Gamma • Differenza Interquartilica • Varianza • Deviazione Standard • Coefficiente di Variazione 2 introduzione • Una distribuzione di dati contiene un insieme di informazioni complesse e di per se poco maneggevole. • Il ricorso ad un indice di tendenza centrale comporta una forte semplificazione, e da solo non fornisce informazioni esaurienti sulla distribuzione. • Occorre anche capire quanto i dati siano dispersi intorno all’indice di tendenza centrale. Esempio Consideriamo i risultati dei compiti di Psicometria di tre diverse Facoltà: Facoltà A = {18, 22, 24, 16, 19, 22 , 18, 21} Facoltà B = {10, 10, 12, 10, 30, 28 , 30, 30} Facoltà C = {20, 20, 20, 20, 20, 20 , 20, 20} In ogni Facoltà la media dei voti è pari a 20, ma è evidente una diversa dispersione intorno a tale valore. 3 gli indici di dispersione • Gli indici che vedremo servono a misurare la dispersione (o variabilità) di una data distribuzione di dati. Per questo motivo vengono definiti come indici di dispersione o indici di variabilità. • Gli indici di dispersione possono assumere solo valori positivi (non ha senso parlare di dispersione negativa) o nulli (nei casi in cui tutti i dati osservati sono uguali tra loro). 4 la gamma La gamma, detta anche campo di variazione, è la differenza fra il valore massimo e quello minimo dei dati. gamma X max X min Esempio I seguenti dati rappresentano le altezze in centimetri dei giocatori di una squadra di pallavolo. {188, 195, 198, 170, 185, 199} La gamma di tale distribuzione sarà: gamma 199 170 29 5 la differenza interquartilica La differenza interquartilica, o range interquartile, è data dalla differenza tra il terzo e il primo quartile (o equivalentemente tra il 75-esimo e il 25-esimo percentile) dei dati: Q Q75 Q25 Nota: La differenza interquartilica, non tiene conto dei valori estremi della distribuzione dei dati, evitando così di considerare valori anomali. Per questo motivo è considerata un indice “robusto”. 6 la varianza • La varianza σ2 di un insieme di dati è definita come la media degli scarti al quadrato tra i dati e la media dei dati stessi. • Essa assume il valore minimo di 0 quando i dati sono tutti uguali tra loro e aumenta al crescere della variabilità dei dati. • Le formule per il calcolo della varianza sono differenti a seconda che i dati siano o meno raggruppati in classi. 7 formula per il calcolo della varianza - dati non raggruppati – n 2 (x i 1 i x) 2 n dove: ( xi x ) è lo scarto tra l’i-esima unità statistica e la media dei dati. 8 formula ridotta per il calcolo della varianza - dati non raggruppati – La varianza può essere anche calcolata attraverso la seguente formula, che consente un calcolo più agevole e veloce: 2 varianza = x i i n 2 xi i n media dei quadrati - 2 quadrato della media 9 Esempio[1] Un ricercatore ha valutato la capacità linguistiche di 10 bambini in età prescolare ottenendo i dati sottoriportati. La capacità di linguistica è qui indagata come numero di parole non conosciute nella lettura di un testo [da Keppel, 1992]. Calcolare la varianza dei dati, sia con la formula generale che con quella ridotta. codice soggetto Numero parole non note 1 8 2 6 3 7 4 7 5 9 6 6 7 7 8 9 9 4 10 7 10 Esempio[2] Calcoliamo innanzi tutto la media dei dati: x 86 47 10 70 7 10 Utilizziamo ora la formula generale per il calcolo della varianza: 2 2 (8 7) (6 7) 2 10 (7 7)2 20 2 10 11 Esempio[3] Utilizziamo ora la formula ridotta. Per prima cosa calcoliamo la “media dei quadrati”: 8 6 7 510 x 10 10 51 2 2 2 2 Calcoliamo ora il “quadrato della media”: 2 x 7 49 2 Infine utilizzando la formula ridotta per il calcolo della varianza otteniamo: x x 51 49 2 2 2 2 12 formula per il calcolo della varianza - dati raggruppati – 2 (x i x ) fi 2 i n dove: fi è la frequenza relativa dell’i-esima modalità statistica. 13 Esempio[1] Calcolare la varianza dei dati dell’esempio precedente utilizzandoli in forma raggruppata. Per prima cosa rappresentiamo i dati in forma raggruppata: xi Parole sconosciute fi frequenze 4 1 6 2 7 4 8 1 9 2 14 Esempio[2] Ricordando che la media dei dati è pari a 7, applichiamo la formula per il calcolo della varianza per dati raggruppati: 2 2 (4 7) 1 (6 7) 2 2 10 (9 7) 2 2 20 2 10 15 formula per il calcolo della varianza - dati raggruppati in classi – 2 (x x ) fi 2 vci i n dove: xvci è il valore centrale dell’i-esima classe di frequenza. 16 Esempio[1] In un’azienda veronese che produce occhiali sono stati rilevati gli stipendi mensili dei 20 dipendenti: Stipendio mensile in Euro Frequenze 800 - 1200 10 1200 - 1600 5 1600 - 2000 3 2000 - 2400 2 Calcolare la media e la varianza di tali dati. Nota: gli intervalli di frequenza si intendono del tipo “primo valore incluso – secondo valore escluso”. 17 Esempio[2] Calcoliamo la media dei dati: 1000 10 1400 5 1800 3 2200 2 x 1340 20 Calcoliamo ora la varianza di tali dati: 2 2 (1000 1340) 10 (2200 1340) 2 2 164400 20 18 la deviazione standard La deviazione standard (o scarto quadratico medio) è la radice della varianza: Essa è molto utile in chiave interpretativa perché, a differenza della varianza, è espressa nella stessa unità di misura del fenomeno studiato. Esempio In campione di 20 soggetti è stata rilevata la variabile peso. In tale campione la media è pari a 70 Kg e la deviazione standard è pari a 10.7. Si potrà affermare che i soggetti differiscono mediamente di 10.7 Kg dal peso medio di 70 Kg. 19 il coefficiente di variazione[1] Il coefficiente di variazione è dato dal rapporto tra la deviazione standard e il valore assoluto della media dei dati: CV x Esso è un indice di variabilità relativa, che tiene conto oltre che della deviazione standard dei dati anche della media. Per questo motivo è molto utile per eseguire dei confronti in termini di variabilità tra fenomeni “diversi” tra loro. 20 il coefficiente di variazione[2] Esempio Nel reparto di ginecologia e ostetricia di un ospedale è stato rilevato il peso di un campione di 80 neonati maschi e contemporaneamente il peso dei rispettivi papà. I dati ottenuti sono espressi nella seguente tabella: gruppo media deviazione standard neonati 3.4 Kg 0.8 papà 82 Kg 15 Ci si chiede se, rispetto alla variabile peso, esiste più variabilità nel gruppo dei neonati o in quello dei papà. 21 il coefficiente di variazione[3] Naturalmente confrontare le deviazioni standard non è di grande aiuto. Esse dipendono fortemente dalle media dei dati su cui sono state calcolate. Per poter operare un confronto sulla variabilità dei due gruppi è opportuno calcolare i rispettivi coefficienti di variazione: CVbambini 0.8 0.24 3.4 CV papà 15 0.18 82 Osservando i risultati si può concludere che il gruppo dei bambini presenta una maggiore variabilità rispetto a quella del gruppo dei papà. 22 il coefficiente di variazione[3] In conclusione, vediamo alcuni valori particolari del CV che possono essere utili nello studio di una distribuzione di dati: • CV = 0 , in questo caso la deviazione standard è pari a 0. Tutti i dati sono uguali tra loro e la media può essere considerata come un indice perfetto per rappresentarli. • CV ≥ 0.5 , in questo caso la deviazione standard è più della metà della media. La media, in questo caso, non può essere considerata un buon indice per rappresentare i dati. • CV ≤ 0.5 , in questo caso la deviazione standard è meno della metà della media. La media, in questo caso, può essere considerata un buon indice per rappresentare i dati. 23