Corso di
Analisi Statistica per le Imprese
Indici di variabilita’ ed eterogeneita’
Prof. L. Neri
a.a. 2014-2015
1
Variabilità
• La variabilità di una distribuzione esprime la
tendenza delle unità di un collettivo ad
assumere diverse modalità del carattere.
• Per misurare la variabilità di una
distribuzione si ricorre agli indici di variabilità
che devono rispettare le seguenti
caratteristiche:
-assumere valore minimo se tutte le unità
della distribuzione presentano la stessa
modalità del carattere
-aumentare al crescere della “diversità” tra le
modalità assunte dalle varie unità
2
Variabilità
• Il calcolo di una media non esaurisce la
descrizione sintetica di un fenomeno
osservato in un collettivo
• Due insiemi di valori o due distribuzioni di
frequenza, pur avendo lo stesso valore
medio, possono essere molto differenti tra
di loro
• Gli indici di variabilità forniscono
informazioni complementari a quelle degli
indici medi
3
Punti
vendita
Ricavi
Costi
addetti
ubicazione
Genere
respons.
Vendita R.O
On-line
1
350
205
5
centro
maschio
si
145
2
200
100
3
periferia
maschio
si
100
3
600
350
10
semicentro
femmina
no
250
4
500
270
10
periferia
femmina
no
230
5
270
200
6
centro
maschio
no
70
6
180
120
3
centro
maschio
no
60
7
205
105
3
periferia
maschio
no
100
8
340
210
5
semicentro
femmina
no
120
9
280
140
4
centro
femmina
si
140
4
Variabilità
Distribuzioni teoriche
Ricavi
Ricavi
(A)
Ricavi
(C)
325
Ricavi
(B)
300
350
200
325
350
270
600
325
400
830
500
325
200
605
270
325
300
120
180
325
325
200
205
325
300
190
340
325
400
200
280
325
350
370
140
Le 3 distribuzioni
teoriche hanno la stessa
media della
distribuzione osservata
x  325
La sintesi con la media
aritmetica porta allo
stesso risultato
Eppure le distribuzioni
sono molto diverse tra
di loro
Distribuzione osservata
5
Alcuni indici di variabilità
Il range (o campo di variazione) range  xmax  xmin
è l’ampiezza dell’intervallo che contiene tutti i
valori della distribuzione
La differenza interquartile dQ  Q3  Q1
è l’ampiezza dell’intervallo che contiene il
50% dei valori (quelli centrali)
6
Esempio
Ricavi
Ricavi
(A)
Ricavi
(C)
325
Ricavi
(B)
300
350
200
325
350
270
600
325
400
830
500
325
200
605
270
325
300
120
180
325
325
200
205
325
300
190
340
325
400
200
280
325
350
370
xmin
180
325
200
120
xmax
600
325
400
830
Range=xmax-xmin
420
0
200
710
140
Distr. A
Variabilità
nulla
Tutti i valori
uguali
Passando da
AaB
e da B a C,
aumenta la
variabilità
perché i
valori cadono
in un range
sempre più
ampio
7
Indici basati sullo scostamento
dalla media
La varianza σ2 è funzione delle differenze
(scarti) tra ogni valore xi e la media x
1 n
2
   xi  x 
n 11
2
 0
2
La devianza è il numeratore della varianza
Dev(X) 
n
xi  x 

i1
2
8
Indici basati sullo scostamento
dalla media
La deviazione standard (o scarto quadratico
medio) è la radice quadrata della varianza
 
1 n
2


x

x
 i
n i1
Il coefficiente di variazione CV è il rapporto
tra la dev. standard e la media moltiplicato
per 100
CV 

x
100
x0
9
Confronto tra due distribuzioni
in termini di variabilità
CV si calcola per confrontare la variabilità
della distribuzione del carattere X con quella
del carattere Y quando sono espressi o con
diversa unità di misura o con diverso ordine
di grandezza
Se CVX>CVy allora la variabilità del carattere
X è maggiore di quella del carattere Y
10
Esempio di calcolo
Ricavi
xj
350
Scarti
dalla
media
(xj-μ)
25
Quadrato
degli
scarti
(xj-μ)2
625
200
-125
15625
600
275
75625
500
175
30625
270
-55
3025
180
-145
21025
205
-120
14400
340
15
225
280
-45
2025
media   x  325
n
 xi  x   0
i1
n
2


x

x
 i
i1
Per la proprietà
della media
 Dev(X)  163200
Devianza=163200
1 n
Dev(X)
2
2


x

x





i
n i1
n
163200

 18133 ,3
9
Varianza=18133,3
1 n
2


 
x

x


i
n i1
Dev.std.=134,7
11
 18133,3  134,7
11
Variabilità dei ricavi dei punti
vendita
• Un basso grado di variabilità indica che i
punti vendita realizzano performance
simili (i ricavi si discostano poco tra di
loro)
• Viceversa un alto grado di variabilità fa
capire che c’è una certa eterogeneità nei
risultati delle vendite ottenuti nei diversi
negozi
12
Varianza di una distribuzione di
frequenza
Addetti
(xj)
Numero
punti vendita
3
2
19,34
4
1
4,45
6
3
0,04
7
1
0,79
10
2
30,26
(nj)
(xj-μ)2*nj
  x  6,11
1 K
54,88
2
   x j  x  nj 
 6,10
n j1
9
2,47
CV 
100  40,43%
  6,10  2,47
6,11
2
13
Box plot
L’altezza del box indica la
dispersione del 50% delle
osservazioni centrali intorno
alla mediana.
Si evidenzia una certa
simmetria nella parte
centrale, dato che la
differenza Q2-Q1 non è molto
diversa da Q3-Q2
max
Q3
Q2
Ricavi
min
Q1
I segmenti esterni al box
indicano la dispersione dei
valori estremi.
Si nota una maggiore
dispersione del 25% dei valori
più grandi, dato che la
differenza max-Q3 è molto
maggiore di Q1-min
14
Calcolo dei valori standardizzati
Se il carattere quantitativo X ha media x
e deviazione standard σ allora è possibile
sempre ottenere i suoi valori
standardizzati
yi  xi  x  /  i  1...n
La distribuzione del carattere Y avrà allora media
zero e deviazione standard uguale ad 1
Confronto del rendimento di due
investimenti (uguale media)
F1
F2
2003
7,7
6,4
2004
6,1
5,9
2005
0,4
3,2
2006
9,8
7,1
2007
3,5
4,9
media
5,5
5,5
var
10,7
1,8
Negli ultimi cinque anni, due fondi
di investimento F1 e F2 hanno
avuto lo stesso rendimento medio
annuo, ma le varianze sono molto
diverse Var(F1)>Var(F2)
Una varianza maggiore indica che rendimenti molto
diversi dalla media sono più frequenti
Maggiore volatilità
Maggior rischio
A parità di rendimento medio, il cliente che è disposto ad
accettare un rischio più alto sceglierà di investire in F1
16
Confronto del rendimento di due
investimenti (media diversa)
F1
F2
2003
9,7
1,4
2004
7,1
1,9
2005
0,9
2,2
2006
9,9
2,1
2007
7,5
4,9
media
7,0
2,5
var
10,6
1,5
CV
46,5 49,3
Il rendimento di F1 ha registrato
una media e una varianza
superiore a quello di F2
Si può concludere che F1
rappresenta un investimento più
rischioso rispetto a F2?
Le due medie hanno un ordine di
grandezza diverso
la variabilità si confronta con CV
A F1 è associata una variabilità (volatilità) più bassa
17
Omogeneità ed eterogeneità
Sono aspetti della variabilità di un carattere
qualitativo
• Eterogeneità nulla (o massima
omogeneità) → Il carattere assume
un’unica modalità (tutte le unità del
collettivo presentano quella modalità)
• Eterogeneità massima (o minima
omogeneità) → Il carattere presenta tutte
le modalità e a ciascuna di esse è
associata la stessa frequenza
18
Eterogeneità
Eterogeneità nulla
(tutte le unità hanno la
stessa modalità)
Eterogeneità massima
(a ciascuna modalità è
associata la stessa
frequenza)
Mod.
Freq.
rel.
a
1
Mod.
Freq.
rel.
a1
1/k
a2
1/k
…
ak
1/k
19
Indice di eterogeneità
Mod. Freq.
Freq.
rel.
a1
n1
f1
a2
n2
…
…
aj
nj
f2
..
fj
aK
nK
fK
Indice di
eterogeneità di Gini
K
E1  1   fj2
j1
0  E1 
K 1
K
Indice relativo di
eterogeneità di Gini
E1
K
e1 
 E1
K 1
K 1
K
0  e1  1
20
Eterogeneità dell’ubicazione
dei punti vendita
Ubicazione
del p.v.
Centro
F. ass.
(nj)
4
F. rel.
(fj)
0,45
0,20
Semicentro
Periferia
Totale
2
3
9
0,22
0,33
1,00
0,05
0,11
0,36
K
E1  1   fj2  1  0,36  0,64
j1
e1 
0,64
 0,96
0,67
fj2
K 1 2
0  E1 
  0,67
K
3
21
Eterogeneità dell’ubicazione
dei punti vendita
C’è un elevato grado di eterogeneità
La distribuzione osservata si avvicina a quella che si
avrebbe nella situazione di massima eterogeneità
Distr. osservata
Ubicazione
del p.v.
Distr. con la max eterog.
F. ass.
(nj)
F. rel. (fj)
F. ass.
(nj)
F. rel.
(fj)
Centro
4
0,45
3
0,33
Semicentro
2
0,22
3
0,33
Periferia
3
0,33
3
0,33
Totale
9
1,00
9
1,00
22
Scarica

Rip4