STATISTICHE
DESCRITTIVE
Parte II
INDICI DI
DISPERSIONE
• Introduzione agli Indici di Dispersione
• Gamma
• Differenza Interquartilica
• Varianza
• Deviazione Standard
• Coefficiente di Variazione
2
introduzione
• Una distribuzione di dati contiene un
insieme di informazioni complesse e di per se
poco maneggevole.
• Il ricorso ad un indice di tendenza centrale
comporta una forte semplificazione, e da
solo non fornisce informazioni esaurienti sulla
distribuzione.
• Occorre anche capire quanto i dati siano
dispersi intorno all’indice di tendenza
centrale.
Esempio
Consideriamo i risultati dei compiti di Psicometria di tre
diverse Facoltà:
Facoltà A = {18, 22, 24, 16, 19, 22 , 18, 21}
Facoltà B = {10, 10, 12, 10, 30, 28 , 30, 30}
Facoltà C = {20, 20, 20, 20, 20, 20 , 20, 20}
In ogni Facoltà la media dei voti è pari a 20, ma è evidente una
diversa dispersione intorno a tale valore.
3
gli indici di dispersione
• Gli indici che vedremo servono a
misurare la dispersione (o variabilità)
di una data distribuzione di dati. Per
questo motivo vengono definiti come
indici di dispersione o indici di
variabilità.
• Gli indici di dispersione possono
assumere solo valori positivi (non ha
senso parlare di dispersione negativa) o
nulli (nei casi in cui tutti i dati
osservati sono uguali tra loro).
4
la gamma
La gamma, detta anche campo di
variazione, è la differenza fra il valore
massimo e quello minimo dei dati.
gamma  X max  X min
Esempio
I seguenti dati rappresentano le altezze in
centimetri dei giocatori di una squadra di
pallavolo.
{188, 195, 198, 170, 185, 199}
La gamma di tale distribuzione sarà:
gamma  199  170  29
5
la differenza
interquartilica
La differenza interquartilica, o range
interquartile, è data dalla differenza tra il
terzo e il primo quartile (o equivalentemente
tra il 75-esimo e il 25-esimo percentile) dei
dati:
Q  Q75  Q25
Nota: La differenza interquartilica, non tiene
conto dei valori estremi della distribuzione dei
dati, evitando così di considerare valori
anomali. Per questo motivo è considerata un
indice “robusto”.
6
la varianza
• La varianza σ2 di un insieme di dati
è definita come la media degli scarti
al quadrato tra i dati e la media dei
dati stessi.
• Essa assume il valore minimo di 0
quando i dati sono tutti uguali tra loro
e aumenta al crescere della variabilità
dei dati.
• Le formule per il calcolo della
varianza sono differenti a seconda che
i dati siano o meno raggruppati in
classi.
7
formula per il calcolo della
varianza
- dati non raggruppati –
n
 
2
 (x
i 1
i
 x)
2
n
dove:
( xi  x )
è lo scarto tra l’i-esima unità
statistica e la media dei dati.
8
formula ridotta per il calcolo
della varianza
- dati non raggruppati –
La varianza può essere anche calcolata
attraverso la seguente formula, che consente un
calcolo più agevole e veloce:
 
2
varianza =
x
i
i
n
2
  xi

i

 n


media dei quadrati
-





2
quadrato della media
9
Esempio[1]
Un ricercatore ha valutato la capacità linguistiche
di 10 bambini in età prescolare ottenendo i dati
sottoriportati. La capacità di linguistica è qui
indagata come numero di parole non conosciute
nella lettura di un testo [da Keppel, 1992].
Calcolare la varianza dei dati, sia con la formula
generale che con quella ridotta.
codice soggetto
Numero parole non note
1
8
2
6
3
7
4
7
5
9
6
6
7
7
8
9
9
4
10
7
10
Esempio[2]
Calcoliamo innanzi tutto la media dei dati:
x
86
47
10
70
 7
10
Utilizziamo ora la formula generale per il calcolo
della varianza:
2
2
(8

7)

(6

7)

2
 
10
 (7  7)2
20
 2
10
11
Esempio[3]
Utilizziamo ora la formula ridotta. Per prima
cosa calcoliamo la “media dei quadrati”:
8  6  7 510
 x   10  10  51
2
2
2
2
Calcoliamo ora il “quadrato della media”:
2
x

7
 49
 
2
Infine utilizzando la formula ridotta per il
calcolo della varianza otteniamo:
   x    x   51  49  2
2
2
2
12
formula per il calcolo della
varianza
- dati raggruppati –
 
2
 (x
i
 x )  fi
2
i
n
dove:
fi
è la frequenza relativa dell’i-esima
modalità statistica.
13
Esempio[1]
Calcolare la varianza dei dati dell’esempio
precedente utilizzandoli in forma raggruppata.
Per prima cosa rappresentiamo i dati in forma
raggruppata:
xi
Parole sconosciute
fi
frequenze
4
1
6
2
7
4
8
1
9
2
14
Esempio[2]
Ricordando che la media dei dati è pari a 7,
applichiamo la formula per il calcolo della
varianza per dati raggruppati:
2
2
(4

7)

1

(6

7)
2 
2
 
10
 (9  7) 2  2 20
 2
10
15
formula per il calcolo della
varianza
- dati raggruppati in classi –
 
2
 (x
 x )  fi
2
vci
i
n
dove:
xvci
è il valore centrale dell’i-esima
classe di frequenza.
16
Esempio[1]
In un’azienda veronese che produce occhiali sono
stati rilevati gli stipendi mensili dei 20
dipendenti:
Stipendio mensile
in Euro
Frequenze
800 - 1200
10
1200 - 1600
5
1600 - 2000
3
2000 - 2400
2
Calcolare la media e la varianza di tali dati.
Nota: gli intervalli di frequenza si intendono del tipo “primo valore incluso –
secondo valore escluso”.
17
Esempio[2]
Calcoliamo la media dei dati:
1000 10  1400  5  1800  3  2200  2
x
 1340
20
Calcoliamo ora la varianza di tali dati:
2
2
(1000

1340)

10


(2200

1340)
2
2
 
 164400
20
18
la deviazione standard
La deviazione standard (o scarto
quadratico medio) è la radice della varianza:
 

Essa è molto utile in chiave interpretativa
perché, a differenza della varianza, è
espressa nella stessa unità di misura del
fenomeno studiato.
Esempio
In campione di 20 soggetti è stata rilevata la variabile
peso. In tale campione la media è pari a 70 Kg e la
deviazione standard è pari a 10.7.
Si potrà affermare che i soggetti differiscono
mediamente di 10.7 Kg dal peso medio di 70 Kg.
19
il coefficiente di variazione[1]
Il coefficiente di variazione è dato dal
rapporto tra la deviazione standard e il valore
assoluto della media dei dati:
CV 

x
Esso è un indice di variabilità relativa, che
tiene conto oltre che della deviazione standard
dei dati anche della media.
Per questo motivo è molto utile per eseguire
dei confronti in termini di variabilità tra
fenomeni “diversi” tra loro.
20
il coefficiente di variazione[2]
Esempio
Nel reparto di ginecologia e ostetricia di un
ospedale è stato rilevato il peso di un
campione di 80 neonati maschi e
contemporaneamente il peso dei rispettivi
papà. I dati ottenuti sono espressi nella
seguente tabella:
gruppo
media
deviazione
standard
neonati
3.4 Kg
0.8
papà
82 Kg
15
Ci si chiede se, rispetto alla variabile peso,
esiste più variabilità nel gruppo dei neonati o
in quello dei papà.
21
il coefficiente di variazione[3]
Naturalmente confrontare le deviazioni
standard non è di grande aiuto. Esse
dipendono fortemente dalle media dei dati su
cui sono state calcolate.
Per poter operare un confronto sulla
variabilità dei due gruppi è opportuno
calcolare i rispettivi coefficienti di variazione:
CVbambini
0.8

 0.24
3.4
CV papà
15

 0.18
82
Osservando i risultati si può concludere che il
gruppo dei bambini presenta una maggiore
variabilità rispetto a quella del gruppo dei
papà.
22
il coefficiente di variazione[3]
In conclusione, vediamo alcuni valori
particolari del CV che possono essere
utili nello studio di una distribuzione di
dati:
• CV = 0 , in questo caso la deviazione
standard è pari a 0. Tutti i dati sono uguali tra
loro e la media può essere considerata come
un indice perfetto per rappresentarli.
• CV ≥ 0.5 , in questo caso la deviazione
standard è più della metà della media. La
media, in questo caso, non può essere
considerata un buon indice per rappresentare i
dati.
• CV ≤ 0.5 , in questo caso la deviazione
standard è meno della metà della media. La
media, in questo caso, può essere considerata
un buon indice per rappresentare i dati.
23
Scarica

m02