Elementi di Statistica descrittiva
Lez. 3 - Gli Indici di VARIABILITA’
-
Campo di variazione
Scarto dalla media
Varianza
Scarto quadratico medio
Coefficiente di variazione
1
Indici di Variabilità
I valori medi sono indici importanti per la
descrizione sintetica di un fenomeno
statistico
Hanno però il limite di non darci alcuna
informazione sulla distribuzione dei dati
2
Esempio
In tre differenti prove di matematica 4 studenti hanno
riportato le seguenti valutazioni
1° studente
2° studente
3° studente
4° studente
media
1a Prova
3
5
8
9
6,25
2a Prova
5
7
6
7
6,25
3a Prova
6
7
6
6
6,25
In tutte e tre le prove la media è 6,25
ma i dati sono chiaramente distribuiti in modo diverso
3
Diagramma di distribuzione delle tre prove
valutazioni
Diagramma dispersione dati
10
9
8
7
6
5
4
3
2
1
0
1 studente
media
2 sttudente
3 studente
4 studente
0
1
2
3
4
num prova
4
valutazioni
Diagramma dispersione dati
10
9
8
7
6
5
4
3
2
1
0
1 studente
media
2 sttudente
3 studente
4 studente
0
1
2
3
4
num prova
• nel caso della 1a prova e 2a prova sarà opportuno
fare un recupero per alcuni studenti
• nel caso della 3a prova l’insegnante può ritenere
che gli obiettivi siano stati raggiunti dalla classe,
anche se ad un livello solo sufficiente
5
In statistica è possibile valutare in modo sintetico
la distribuzione dei dati mediante gli indici di
variabilità (o dispersione)
Vedremo i seguenti indici
•
•
•
•
Campo di variazione (Range)
Scarto medio dalla media
Varianza e scarto quadratico medio
Coefficiente di variazione
6
Campo di variazione
E’ il più semplice degli indici di variazione:
Si calcola facendo la differenza tra il dato più
grande e il dato più piccolo
Campo variazione = x max – x min
Rappresenta l’ampiezza dell’intervallo dei dati
7
Esempio
Consideriamo le valutazioni della prima prova
1° studente
2° studente
3° studente
4° studente
media
1a Prova
3
5
8
9
6,25
Xmax = 9;
Xmin = 3
Range = 9 – 3 = 6
8
Calcoliamo il Range per tutte le tre prove
1a Prova
1° studente
2° studente
3° studente
4° studente
media
range
Range 1a prova = 6

Range 3a prova = 1

2a Prova
3a Prova
3
5
8
9
2
7
8
8
6
7
6
6
6,25
6
6,25
6
6,25
1
dati più dispersi,
risultati più eterogenei
dati più concentrati,
risultati più omogenei
Range 2a prova = Range 1a prova = 6
Stessa Distribuzione?
9
Vediamo graficamente
valutazioni
Campo di variazione delle tre prove
10
9
8
7
6
5
4
3
2
1
0
1 studente
2 sttudente
3 studente
4 studente
0
1
2
num prova
3
4
range
10
Osservazioni:
1. Il campo di variazione dà informazioni sulla
distribuzione dei dati:
• più R è piccolo più i dati sono concentrati;
• più R è grande più i dati sono dispersi.
2. R è espresso nella stessa unità di misura dei dati
3. Tuttavia R tiene conto solo dei dati estremi della
distribuzione e non di tutti i dati, pertanto distribuzioni
diverse ma con gli stessi valori estremi hanno range
uguali
Es.
Range 1aprova = Range 2a prova.
ma distribuzione 1a prova  Distribuzione 2a prova
11
Scarto medio dalla media aritmetica
Un altro modo per calcolare la variabilità dei dati
(tenendo conto di tutti i dati) consiste nel
calcolare la distanza di tutti i dati dalla media e
fare la media aritmetica di tali distanze
Scarto medio  Sm 
x1  x  x2  x  .....  xn  x
n
Scarto medio = Distanza media dei dati dalla media
12
Esempio
Consideriamo le valutazioni della prima prova
1° studente
2° studente
3° studente
4° studente
media
1a Prova
3
5
8
9
6,25
x1 =  3 – 6,25  = 3,25;
x2 =  5 – 6,25  = 1,25;
x3 =  8 – 6,25  = 1,75;
x4 =  9 – 6,25  = 2,75;
Sm = 3,25 + 1,25 + 1,75 + 2,75 = 2,25
4
13
Calcoliamo lo Scarto medio per tutte le tre prove
1a Prova
1° studente
2° studente
3° studente
4° studente
media
scarto medio
Scarto 1a prova = 2,25 
Scarto 3a prova = 0,38 
2a Prova
3a Prova
3
5
8
9
2
7
8
8
6
7
6
6
6,25
2,25
6,25
2,13
6,25
0,38
dati più dispersi,
risultati più eterogenei
dati più concentrati,
risultati più omogenei
Scarto 2a pr.  Scarto 1a pr. “Le Distribuzioni Differiscono”
14
Diagramma degli scarti dalla media
Scarto dalla media
Diagramma degli scarti dalla media
4,00
3,00
2,00
1,00
0,00
-1,00
-2,00
-3,00
-4,00
-5,00
stud.1
stud.2
1
2
3
stud.3
stud.4
num. prova
15
Osservazioni:
1. Lo scarto medio dalla media dà informazioni sulla
distribuzione dei dati:
• più SM è piccolo più i dati sono concentrati;
• più SM è grande più i dati sono dispersi.
2. SM è espresso nella stessa unità di misura dei dati
3. Non ha l'inconveniente del “Campo di variazione” in
quanto SM tiene conto di tutti i dati della distribuzione
16
Varianza e Scarto quadratico medio
Sono gli indici di variabilità più utilizzati, e
tengono conto della distribuzione di tutti i dati.
Varianza
Rappresenta la media aritmetica dei quadrati
delle distanze dei dati dalla media M
Varianza  
2

x

1
 
2

2

 x  x2  x  .....  xn  x
n

2
17
 x
n
Varianza 
i
x
1
n
  x 
n
2

2
i
1
n
18
Esempio - Varianza
Consideriamo le valutazioni della prima prova
1° studente
2° studente
3° studente
4° studente
media
1a Prova
3
5
8
9
6,25
(x1)2 = (3 – 6,25 )2 = 10,5625;
(x2)2 = (5 – 6,25 )2 = 1,5625;
(x3)2 = (8 – 6,25 )2 = 3,0625;
(x4)2 = (9 – 6,25 )2 = 7,5625;
2 = 10,5625+1,5625+3,0625+7,5625 = 5,6875
4
19
Calcoliamo la Varianza per tutte le tre prove
1a Prova
1° studente
2° studente
3° studente
4° studente
media
varianza
2a Prova
3a Prova
3
5
8
9
2
7
8
8
6
7
6
6
6,25
5,69
6,25
6,19
6,25
0,19
Varianza 1aprova = 5,69

Varianza 3a prova = 0,19

Varianza 2a pr.  Varianza 1a pr
dati più dispersi,
risultati più eterogenei
dati più concentrati,
risultati più omogenei
“Le Distribuzioni Differiscono”
20
Scarto quadratico medio o
Deviazione standard
È uguale alla radice quadrata della varianza
x  x  x
2
Scarto quadr. medio   
1
2
 x  x 
n
Scarto quadr medio 

 x  .....  xn  x
n
1
n

2
n
2
i

2

2



x
 i
1
n
21
Esempio - Scarto quadratico medio
Riprendiamo le valutazioni della prima prova
1a Prova
1° studente
2° studente
3° studente
4° studente
media
n

 x 
i
1
n
3
5
8
9
scarti da M
-3,25
-1,25
1,75
2,75
6,25
0,00
scarti2
10,5625
1,5625
3,0625
7,5625
5,6875
2
  2  5,6875  2,3848
22
Calcoliamo lo Scarto quadratico medio per tutte le prove
1a Prova
1° studente
2° studente
3° studente
4° studente
media
scarto quadratico
2a Prova
3a Prova
3
5
8
9
2
7
8
8
6
7
6
6
6,25
2,38
6,25
2,49
6,25
0,43
Scarto q. 1aprova = 2,38

Scarto q. 3aprova = 0,43

Scarto q. 2a pr.  Scarto q. 1a pr
dati più dispersi,
risultati più eterogenei
dati più concentrati,
risultati più omogenei
“Le Distribuzioni Differiscono”
23
Osservazioni:
1. La varianza 2 e lo scarto quadratico medio  danno
informazioni sulla distribuzione dei dati:
• più 2 e  sono piccoli più i dati sono concentrati;
• più 2 e  sono grandi più i dati sono dispersi.
2. Entrambi gli indici tengono conto di tutti i dati della
distribuzione
24
3. Entrambi si basano sulla proprietà della media per cui
la somma dei quadrati degli scarti dalla media è minima
4. La varianza è espressa mediante il quadrato dell’unità
di misura dei dati
5. Lo scarto quadratico nella stessa unità di misura dei
dati e pertanto viene preferito alla varianza
25
Il coefficiente di variazione CV
Il CV è una misura relativa di dispersione (le precedenti
sono misure assolute) ed è una grandezza adimensionale.
E’ particolarmente utile quando si devono confrontare le
distribuzioni di due gruppi con medie molto diverse o
con dati espressi in scale differenti (es. confronto tra
variazione del peso e variazione dell’altezza).


CV    100 %
x

26
In natura il coeff. di variazione tende a rimanere costante per
ogni fenomeno:
i valori normalmente variano dal 5% al 15%
Se i valori di CV sono esterni a quelli indicati o si è in
presenza di errori di rilevazione, oppure il fenomeno presenta
aspetti particolari.
• se CV è molto basso (2 – 3 %) bisogna sospettare
l’esistenza di fattori limitanti la variabilità,
• se CV è molto alto (intorno al 40% o più) è molto
probabile l’esistenza di fattori che aumentano la variabilità
27
Calcoliamo il Coeff. di variazione delle tre prove
1a Prova
1° studente
2° studente
3° studente
4° studente
2a Prova
3a Prova
3
5
8
9
2
7
8
8
6
7
6
6
media
6,25
scarto quadratico
2,38
coeff. variazione
38,16%
6,25
2,49
39,80%
6,25
0,43
6,93%
CV 1a prova = 38,16%

CV 3a prova = 6,93%

CV 2a pr.  CV 1a pr
 “Le Distribuzioni Differiscono”
dati più dispersi,
risultati più eterogenei
dati più concentrati,
risultati più omogenei
28
Un esempio: la distribuzione normale
29
Le misure di Forma
Sono indici sintetici utilizzati per evidenziare
particolarità nella forma della distribuzione.
Noi esamineremo:
• l’asimmetria
• la curtosi
30
Asimmetria
Una distribuzione è simmetrica quando la sua curva
di frequenza presenta un asse di simmetria
In una distribuzione simmetrica media, mediana e
moda sono coincidenti.
e proprio la differenza
(distanza) tra la media e la
moda può essere considerata
una misura della asimmetria
1° distrib. normale
0,25
media = mediana
= moda
0,2
frequenza
In una distribuzione
asimmetrica media, mediana e
moda non sono più
coincidenti
Confronto di distrib. norm ali
0,15
0,1
0,05
0
0
2
4
6
8
10
12
14
16
valori della variabile
31
Sono state proposte diverse misure dell’ asimmetria, per
esempio le più semplici sono:
asimmetria 
asimmetria 
mediaaritmetica  moda x  moda

scarto quadratico medio

3(mediaaritmetica  mediana ) 3( x  mediana)

scarto quadratico medio

Dette rispettivamente: primo e secondo coeff. di asimmetria di Pearson
Un altro coeff di asimmetria è il
Coeff. di asimmetria (di Fisher)
 = scarto quadratico medio
Se a = 0
distribuzione simmetrica
Se a > 0
asimmetria destra
Se a < 0
asimmetria sinistra


3

xi  x f i 


1 
a 3 i

f
 

i

i


32
Asimmetria positiva (as. Destra)
La distribuzione è asimmetrica quando non presenta
nessun asse di simmetria.
Si ha un’asimmetria positiva o destra quando il ramo
destro della curva è più lungo di quello sinistro
Asimmetria positiva o destra
12
In questo caso si ha:
10
moda < mediana < media
frequenza
8
6
4
2
0
0
20
40
60
80
valori
100
120
140
media=63,65
moda = 48
mediana =58 33
160
Asimmetria negativa (as. Sinistra)
Si ha un’asimmetria negativa o sinistra quando il ramo
sinistro della curva è più lungo di quello destro
Asimmetria negativa o as. sinistra
14
12
In questo caso si ha:
frequenza
10
8
6
4
media < mediana < moda
2
0
0
20
40
media = 85,24
mediana = 90
60
80
100
120
140
valori
moda = 100
34
Curtosi
Se una distribuzione è simmetrica o quasi simmetrica
allora può esser più o meno appuntita o più o meno
appiattita rispetto alla distribuzione normale (o di
Gauss)
Se la curva è
• più appuntita si dice
curva Leptocurtica
• più appiattita si dice
curva Platicurtica
Coeff. di curtosi di Pearson
  = scarto quadratico medio
0  K < + inf
Se K = 3 distribuzione normale
se K > 3 curva leptocurtica
Se K < 3 curva platicurtica.


4


x

x
f

i

1  i i
K 4

f
 
i i 


35
Curtosi
Confronto delle Curtosi
0,45
0,4
leptocurtosi
K = 8,57
0,35
frequenza
0,3
curva normale
K=3
0,25
0,2
0,15
platicurtosi
K = 2,8
0,1
0,05
0
-0,05
0
2
4
6
8
10
12
14
16
valori della variabile
36
Curtosi
Spesso il coeff. di curtosi viene indicato con b2
che, come visto, nel caso della distribuzione
normale è = 3
pertanto, talvolta, la curtosi viene indicata con
(b2 – 3)
Allora:
se la distribuzione è normale
(b2 – 3 ) = 0
se la distribuzione è leptocurtica (b2 – 3 ) > 0
se la distribuzione è platicurtica (b2 – 3 ) < 0
37
38
Scarica

lezione 3 - Liceo Daniele Crespi