Campus di Arcavacata
Università della
Calabria
Corso di statistica
ARCAVACATA a.a 2009-2010
1
IL CONCETTO DI MEDIA
I) Criterio di internalità (Chisini)
La media di una variabile X è qualunque valore reale M
intermedio tra il minimo x(1) ed il massimo x(n) di una
distribuzione. x   M  x 
1
n
II) Logica della trasferibilità di una variabile (Chisini)
La media di una variabile X è quel valore M, intermedio
tra il minimo x(1) ed il massimo x(n) di una distribuzione
che, rispetto ad una funzione sintetica delle osservazioni,
ne lascia inalterato il valore.
f
 x1 ,
, xn

 f
M ,
,M

n volte
Il valore della funzione f(•) non cambia se si sostituisce ad
ogni intensità di X il valore M.
III) Minimizzazione della perdita globale (Wald)
La media di una variabile X è quel valore M che minimizza
la funzione di perdita complessiva che si ottiene quando alle
singole osservazioni (x1,………,xn) si sostituisce M.
 d  xi ,    min
d
 xi , 
 


se
 M
Perdita subita nel sottrarre  da xi, per i=1,2,……..,n
Funzione che sintetizza le singole perdite in un unico valore
IV) Principio della equiripartizione (Naguno-Kolmogorov-De
Finetti)
La media di una variabile X è quel valore M che realizza
 
l’equiripartizione
rispetto ad una funzione
 x1  
 x2  

 xn 
n

M  
  x   n  M 
i
i 1
M  

M 
LA MEDIA ARITMETICA
La sua individuazione deriva dalla logica della trasferibilità
di una variabile (Chisini).
f
 x1 ,
, xn

 ,
 f
,
n volte
Se la funzione f(•) corrisponde alla somma:
x1  x2 
 xn 
  


n volte
n
n

i 1
xi  n

X =
x
i
i 1
n

x1  x2 
n
 xn
Media aritmetica: modalità di calcolo
Successione di n intensità
X =
n
x
i
i 1
n
Distribuzione di frequenze
Frequenze
assolute
k
X =
x
i
Frequenze relative
k
 X =  xi  f i
 ni
i 1
i 1
n
Distribuzioni
in classi
k
X =

ˆi  ni
x
i 1
n
ˆi 
x
x i 1  xi
2
per i  1, 2,
,n
Valore centrale dell’i-esima classe
Il calcolo dei valori centrali introduce un’approssimazione perché
equivale ad attribuire una ripartizione uniforme delle frequenze
all’interno di ciascuna classe.
Carattere NUMERO DI BOTTIGLIE
1
3
5
5
1
3
5
5
1
4
5
6
2
4
5
6
2
4
5
6
2
4
5
6
2
4
5
3
5
5
n
 
 xi
i 1
n

1 1 
 6
30

119
30
N. bottiglie
n
 


i 1
xini
n

1  0 ,10 
n
 xifi

i 1

  3  0 ,10  
6
ni
fi
1
3
0,10
2
4
0,13
3
3
0,10
4
5
0,17
5
11
0,37
6
4
0,13
30
1
Totale
2  0 ,13 

 3 , 97

 0 ,13   3 , 97
Carattere PREZZO CH, classi equiampie (primi 20
consumatori)
Classe
ci
ni
1,69 |—| 1,77
1,73
3
0,15
1,77 —| 1,85
1,81
0
0
1,85 —| 1,93
1,89
3
0,15
1,93 —| 2,01
1,97
5
0,25
2,01 —| 2,09
2,05
9
0,45
20
1
Totale
c1 
ci 
xi 1  xi
ck 
k
 

x0  x1
c2 
2
 cini
i 1
n
2
x1  x2

2
1, 69  1, 77

2
1, 77  1, 85
2
 1, 73
 1, 81
xk 1  xk
2

1, 73  3 
 1, 958
fi

1, 81  0 
20


2 , 05  9 

Proprietà della media aritmetica
x1   X  x n 
I) Internalità
x1  x i   x n 
per
i  1,
Dim:
n
 x
i 1

1
n
 x
i 1
n
 x
n  x1 
i 1
n
x1 
II)
 x
i 1
i

i 1
 x
i 1

X  

xi  n 

 n  x n 
 X  x n 
n
n
x
i
i 1
n
x
i
i 1
n
 x n   x1 
n
i 1

i

n
 x
Proprietà Baricentrica
Dim:
n
  xi
n
i
,n
i

X   0
i 1

n


X
i 1

n 

x
i
 n X 
i 1
n
x
i
i 1
n

n
x
i
i 1
 0
Y     X
III) Linearità
Dim:
 ,    
trasformazione lineare
X 
Y
Y    X
 x1 ,
Y
, xn    y1   
1

n
n
 

 xi 
i 1
1
=
n
 n



Corollari:
, xn    y1
a)  x1 ,
 1

 n
 x1 ,
1

n
n

i 1
n
, yn   

i 1
1

n

xi    

   x1 ,
 xn 
n
 x
i

i 1
 X
, yn    xn 
Y     X
b)  x1 ,
, xn    y1    x1 ,
Y    X
, yn    xn 
Per i soli succhi di frutta MM considerare il carattere PREZZO MM. La casa produttrice
decide di cambiare il prezzo di vendita del prodotto: per ogni acquirente il nuovo prezzo
sarà pari al prezzo di vendita mediano attuale più il 18.75% del prezzo attuale. Qual è la
9
media dei nuovi prezzi di vendita?
Scelta
Prezzo MM
MM
1,99
MM
1,99
MM
1,99
MM
2,09
MM
2,09
MM
2,09
MM
2,09
MM
2,09
MM
2,13
 
p
i 1
9
i

Me  x 9 1  x5  2 , 09
2
La nuova serie dei prezzi p* sarà
dunque ottenuta dalla
trasformazione lineare:
p* = 2,09 + 0,1875 p
*
*
*
p1
=p2
=p3
= 2,09 + 0,1875
p*
4=
* 
1
9
18 ,55
 2 ,06
9
 1,99=2,46
=p*
8 = 2,09 + 0,1875
 2,09=2,48
p*
9 = 2,09 + 0,1875
 2,13=2,49

 p*
i
2 , 46  2 , 46 
 2 , 49
 2 , 47
9 i1
9
*  2 , 09  0 ,1875    2 , 09  0 ,1875  2 , 06  2 , 47
X
IV) Associatività
1

n
G

jnj
j 1
G = numero di gruppi
nj = numerosità del j-esimo gruppo (j=1,….,G)
Dim:
n1  n2 
 nj 
 nG  n
suddivisione delle intensità in G gruppi di numerosità n j
nj
n
G
x
i

i 1
 x
j 1 i 1
1
1 
n1
x
1i ;
; j
i 1
j 1,
,G 
xij = j-esima intensità dell’i-esimo gruppo
ij
somma delle intensità
n1

1

nj
nj
x
ij
;G
;
i 1
1

nG
nG
x
Gi
i 1
medie dei gruppi
X
1

n
n
x
1

n
i

i 1
 1


j 1  n j
G

1
n
G
 x
ij
j 1
nj
x
ij
i 1
nj
i 1

1
nj 

n

Scomposizione della media
generale
G

j 1
Media aritmetica
 j n j delle medie dei
gruppi
nj
Bar
6
Bar
6
Bar
5
Bar
5
Bar
6
Bar
3
Bar
5
Bar
4
Bar
5
Coloniali
3
Coloniali
6
Coloniali
4
Coloniali
5
Coloniali
3
Coloniali
4
Coloniali
5
Coloniali
2
Coloniali
4
D. Automatico
2
D. Automatico
5
D. Automatico
3
D. Automatico
6
S.market
4
S.market
6
S.market
5
S.market
2
9
9
4
 bar
 
8
30
n.bottiglie
bis
Rivenditore
 9 
S.market
S.market
 col
3
6
S.market
5
S.market
1
129
1
xi

n
 
i
45
36
16
32
bar 
col 
da 
sm 

129
30
1
nbar
1
ncol
1
 4,3
 xbar
bar
 xcol
col
 xda
nda
da
1
nsm
 xsm
sm
30
 xi
i 1
 9 
30
 da
 4 
 sm
 8
nj
nj
Gruppi/modalità
G
 xi
j = 1, …, G
i 1
Bar
9
45
Coloniali
9
36
D. Automatico
4
16
Supermarket
8
32
30
129
Totali
 

 bar
 nbar
bar 
1

 col
 xbar
 ncol  

1
 da
 nda  
 sm
 nsm 
n
 45  5
9
1
col 
xcol 
 36  4

ncol col
9
1
1
da 
x

 16  4
 da
nda da
4
1
1
sm 
x

32  4

sm
nsm sm
8
 
nbar
1

5  9 
bar

 4  9

4 
30
4 
 4  8

129
30
 4,3
V) Minimizzazione della somma degli scarti al quadrato
n
  xi

2
 min
se e solo se
  X
i 1
Dim:
se
n
  xi
  X 
n
  xi


2

i 1

2

i 1
n
  xi

n
  xi
i 1
 X   X   2 
n
  xi

 X 2  n   X   2 
i 1
n
   xi
 2X  

X 
i 1
  xi
 X 2
i 1

n



2
i 1

n
  xi

Termine nullo
per la II
proprie-tà della
media aritmetica
 X 2  n   X   2
i 1

n
  xi
i 1


2

n
  xi
i 1

 X 2
Quale indice di posizione scegliere?
La mediana è un indice robusto: non subisce
l’influenza di valori anomali
La mediana minimizza la somma degli scarti in
valore assoluto:
n

i 1
xi  c  min  c  Me
esempio:
Scelta del luogo in cui situare il deposito di n punti vendita,
in modo da minimizzare le distanze complessive (quindi i
costi):
il luogo che soddisfa tale condizione è la mediana dei punti
vendita
CRITERIO:
 Se occorre un indice che tenga conto di tutti i
valori, si utilizza la media.
 Se non si vuole che i valori estremi alterino il
valore dell’indice, allora si utilizza la mediana
INDICI STATISTICI DI VARIABILITA’
Variabilità: Attitudine di un fenomeno ad assumere
diverse intensità
• Dispersione rispetto ad un centro
Come si misura la
variabilità?
• Mutua variabilità
• Mutevolezza
delle
frequenze
(Concentrazione per caratteri trasferibili)
Caratteristiche di un indice di variabilità
V(): Indice di variabilità; c: costante nota
 x1 , , xn   0
ii ) V  c,
, c  0
iii ) V  x1  c,
xn  c   V  x1 ,
, xn 
iv ) Se V  x1 ,
xn   V  y1 ,
, yn   X
i) V
è più variabile di Y
N.B. Un indice di variabilità è sempre maggiore o uguale a
zero.
Variabilità e funzione di ripartizione empirica
Una funzione di ripartizione empirica molto ripida (che subito
raggiunge 1) indica scarsa variabilità. Viceversa, una
funzione di ripartizione empirica che raggiunge 1 molto
lentamente indica elevata variabilità.
Campo di Variazione
Range  X   xmax  xmin
È molto sensibile alla presenza di valori anomali
Differenza Interquantile
q  qr  qs
r>s
Differenza tra due quantili equidistanti dagli estremi della
distribuzione
Via via meno sensibile alla presenza di valori anomali, ma
mano che r ed s si avvicinano.
Differenza Interquartile
IQR  Q3  Q1
È un indice più robusto del campo di variazione
Coefficiente di Variazione Interquartile
CQV 
 Q3  Q1 
 Q1  Q3 
2
2

Q3  Q1
Q1  Q3
 Non dipende dall’unità di misura del carattere osservato
(come il Range e l’IQR) ma solo dal rapporto tra quartili
 Se Me 0 allora CQV  
Variabilità rispetto ad un centro
Obiettivo: Sintetizzare una opportuna funzione degli scarti
delle singole intensità dall’indice di posizione M prescelto
Successione degli scarti:
 x1  M  ,  x2
M
,
,  xi  M
,
,  xn  M

Ogni scarto esprime la distanza di ciascuna intensità dall’indice
M.
La variabilità rispetto ad un centro può essere definita
specificando in diversi modi M.
n

Ricordiamo che:
   xi     0

i 1
Se M     n
2

x


 min



i

 i 1
 n
Se M  Me   xi  Me  min
 i 1
VARIANZA
 Misura la dispersione media intorno alla media
aritmetica.
 Si calcola come media aritmetica dei quadrati degli
scarti.
1. Per una successione di
1 n
2
X =
xi 
valori:
n

i 1
2. Per una
frequenza:
distribuzione di
3. Per una distribuzione in
classi di frequenza:

2
X
1
=
n
1
 X2 =
n
k

2
  xi    ni
2
i 1
k
  ci
i 1
   ni
2
N. bottiglie
ni
fi
1
3
0,10
2
4
0,13
3
3
0,10
4
5
0,17
5
11
0,37
4
0,13
30
1
6
n


Totale
2
i 1
 
xi   
2
ni

n
k
 
1  3, 97 2  3  2  3, 97 2  4  



 
30

72, 97

i 1
Formula alternativa:
n

2

x
i 1

ni
n
1
2

2
i
3

 2 

2
2
 4


30
545
30
 15, 73  2, 41

6
2
 4

n

119
30
 3, 97
2
  6  3, 97   4 

 
 2, 41
30
xi ni
 3, 972 
Classe
ci
ni
fi
1,69 |—| 1,77
1,73
3
0,15
1,77 —| 1,85
1,81
0
0
1,85 —| 1,93
1,89
3
0,15
1,93 —| 2,01
1,97
5
0,25
2,01 —| 2,09
2,05
9
0,45
20
1
Totale
n
 
 cini
i 1
n

 cifi  1, 73  0 ,15  
2
 ci    ni

k
2
i 1
   ci   

i 1
k
2 

n
n
1, 73
i 1
 1, 96 
fi 
1, 81  1, 96 
2
 0,15 
2
 0, 45  0, 004
 2, 05  1, 96 
2 , 05  0 , 45 
2
Formula alternativa:
n


2

c
i 1
n
1, 73
2

2
i
ni
 2 
 0,15
n
c
i 1
2
i



 1, 962  0, 004
 2, 052  0, 45
1, 81
fi   2 
2
0



0 

 1 , 96
Proprietà della varianza
I)
2
0  X
 
II) Esprime la variabilità nella stessa unità di misura
del carattere osservato, ma elevata al quadrato
 X2  2    
2
III)
n
Dim:  X2 = 1 
xi

n
 
2
i 1
1

n
1

n
n
  xi 
2
i 1
n
 x 
i 1
2
i
1

n
Formula alternativa per il calcolo della
varianza
1
 2
n
 2
n
n

i 1
 
  xi 
i 1

2
xi

1

n
 
 2
2
n
  
i 1

2

IV)
trasformazione lineare
X 

Y
Y    X
 ,    
Dim:
 Y2   2 X2
yi     xi
Y    X
e
quindi:
1 n
 
  yi  Y
n i 1
n
2 1
 
 xi   X

n i 1
2
Y


2
2
1

n
n
 
i 1
 2 X2
  xi     X

2

Esempio
Nuovo prezzo = prezzo mediano attuale + 18.75% del prezzo attuale.
Qual è la varianza del nuovo prezzo?
Scelta
Prezzo MM
MM
1,99
MM
1,99
MM
1,99
MM
MM
2,09
Me 
2,09
MM
2,09
MM
2,09
MM
2,09
MM
2,13
9
 

i 1
pi
9
 2, 06
9
2 
 p
i 1
 
2
i
9
 = 2,09;
 0 ,002
 = 0,1875
Trasformazione lineare:
p* = 2,09 + 0,1875 p
Calcolo della nuova varianza:
 2*   2 2
 2*  0,18752   2  0, 035  0, 002  0, 000075
Decomposizione della varianza
V)
La varianza di X è data dalla somma della media
delle varianze di gruppo (varianza interna) e dalla
varianza delle medie di gruppo (varianza esterna).
Se:
G = numero di gruppi;
j: media dell’i-esimo gruppo;
nj = numerosità dell’j-esimo gruppo (j = 1,….,G);
allora:

2
X

1
n
G

j 1
2
j
nj
VARIANZA INTERNA
ossia:
1

n
G
 
j 1
j
 X

2
VARIANZA ESTERNA
2
2
2
 TOT
  INT
 E
XT
nj
Dim:
n1  n2 
 nj 
 nG  n
suddivisione delle intensità in G gruppi di numerosità n j
 j  1, ,G 
1

nj
j

2
X
1

n
n
  xi
x
ij
i 1
 X
i 1
Media aritmetica delle
intensità appartenenti all’iesimo gruppo.
nj

2
1
n

ni
G
  x
j 1 i 1
ij
 X

2
Varianza della partizione in gruppi
1

n
1

n
G

ni
  xij   j   j   X
j 1 i 1
ni
G
  x
j 1 i 1
1
2
n
G
ij
 j
ni
  x
j 1 i 1
ij

 j
2
1

n
 
j
G

2

ni
  
j 1 i 1
 X

j
 X

2


1° Addendo
1
n
ni
G
  x
j 1 i 1
1

n
G

j 1
ij
 1

 nj

 j

2
nj
 x
i 1
ij

 j

2

1
 nj 
n


G

j 1
2
j
nj   2
INT
Varianza dell'i-esimo gruppo
2° Addendo
1
n
ni
G
    j  X
j 1 i 1

2
1
n

G
   j  X
j 1

2
 2
EXT
nj
Varianza delle medie di gruppo
3° Addendo
1
2
n
G
ni
  x
j 1 i 1
ij
 j
 
j
 X

2

n
G

j 1
Quindi:

2
X
1

n
n
  xi
i 1
 X

2
1

n


   
X
 j



G
  x
i 1
j 1 i 1
ij
 j

è uguale a zero per
la I proprietà di 
ni
  x
2
2
  INT
  EXT
ni
ij
 X

2



  0




Esempio

2
tot
scelta
CH
bottiglie
 2, 43
  3, 97
G = 2 (1 = CH; 2 =
MM)
1  CH 

1  1

i 1
xCHi ni
1
2
3
2
2
2
4
3
2
1
3
4
5
0
5
5
7
4
11
6
4
0
4
21
9
30
2  2 


6 
4
21
6
2  MM 


21

1  2 

i 1
xMMi ni
9

Totale
1
Totale
6
MM
2  2 
9
 4, 28



5 
4
 3, 22
6

2
1

 
1 
2
CH

  xCHi
i 1
4, 28 
2
1 

6

  xMMi
i 1
1  3, 22 2

 4, 28 
2
 MM

2
ni
 4
9
2 

6
2
EST

1
n

G
  2j n j
 3, 22 
2
1, 92  21
n
G
  j
 X
j 1
 3, 97 
2
40, 29
21

0

25,56
9
2, 83  9 
30
j 1
1
 4, 28



2
 1, 92

9
2
INT

ni
21
2
2
2
  MM


2
21
6


 CH
 2, 83
 2,19
nj 
 21 
30
3, 22
 3, 97 
2
9
 0, 24
2
2
2
 TOT
  INT
 E
 2,19  0, 24  2, 43
XT
SCARTO QUADRATICO MEDIO
(o scostamento quadratico medio,
deviazione standard)
o
 E’ uguale alla radice quadrata della varianza.
 Esprime la variabilità nella stessa unità di misura del
carattere osservato.
X =
1
n
distribuzione di  X =
1
n
X =
1
n
1. Per una successione di
valori:
2. Per una
frequenza:
3. Per una distribuzione in
classi di frequenza:
n
  xi
i 1
k
  xi
i 1
k
  ci
i 1
 
2
   ni
2
   ni
2
 è interpretabile come scarto medio intorno alla media; la
maggior parte dei valori sono compresi nell’intervallo:
[ - ;  + ]
MASSIMA VARIABILITA’
Nella
situazione
 2 =  2(n-1)
di
e
xi  0 per i  1,
massima
 
variabilità
n 1
x n  n
,n  1
situazione di massima variabilità





2
1 n

x





 i
n i 1
2
2
1 
0     n  1   n     1 


n 
1
2
2
2
2
2



n

1

n




2
n



 
n 
1

n 2   2  n2  2   2  2n 2 

 
n
n 2  n  1
1
2
2
2
2


n


n




n  1



n
n
2
 
2 
 2  n  1  
 n  1
Quindi:
0 
2
 n  1
  n  1
 2
0  
INDICI DI VARIABILITA’ RELATIVA
CV 
Coefficiente di variazione
X
X
E’ un indice indipendente dall’unità di misura (è un numero
puro) e può essere utilizzato per confrontare distribuzioni
diverse
Poiché:
0   2  2
n
 1
e
0    
0    
n
 1
n 1
INDICE DI VARIABILITA’ RELATIVI NORMALIZZATI (compresi tra 0
ed 1)
Scarto quadratico medio relativo
Si ottiene come rapporto tra il valore assunto dallo scarto ed il valore
massimo che esso può assumere per la distribuzione:
 rel 
X
max  X


X
X
n 1
Esempio
N. bottiglie
ni
fi
1
3
0,10
2
4
0,13
3
3
0,10
4
5
0,17
5
11
6
4
0,13
30
1
Totale
k
 

i 1
n
k
0,37 
2

x i ni
  xi
i 1
 3, 97
 
2
ni
n
 2, 43
Scarto quadratico medio:
 
2

2 ,43  1,56
Scarto quadratico medio relativo:
 rel 


n 1

1,56
3 ,97
29
 0 ,07
Coefficiente di variazione:
CV 

1,56

 0 ,39

3 ,97
INDICI DI MUTUA VARIABILITÀ
Misurano quanto le unità statistiche differiscono tra di loro
(non più rispetto ad un punto fisso).
Il calcolo si basa sulle differenze tra tutte le coppie di unità
statistiche.
DIFFERENZE MEDIE
Differenza Media Semplice (senza
ripetizione)
n
 
n

i 1 j 1
k
xi  x j
 
n  n  1
Successione di valori
k

i 1 j 1
xi  x j nn
i
j
n n  1
Distribuzione di frequenza
Differenza Media Quadratica
n
2 
n
   xi
i 1 j 1
 xj 
n n  1
Successione di valori
k
2
2 
k
   xi
i 1 j1
 xj 
2
nn
i
j
n n  1
Distribuzione di frequenza
Impresa
Addetti
A
3
B
6
C
5
D
10
E
3
F
6
G
7
totale
n
 
 xi
i 1
n

40
7
 5 , 71
Calcolo della Differenza Media
Semplice:
40
Scarti semplici in valore assoluto
A
xi
3
B
C
D
E
F
G
6
5
10
3
6
7
3
2
7
0
3
4
1
4
3
0
1
5
2
1
2
7
4
3
3
4
A
3
B
6
3
C
5
2
1
D
10
7
4
5
E
3
0
3
2
7
F
6
3
0
1
4
3
G
7
4
1
2
3
4
n
 

i  j 1
1
1
xi  x j
n n  1

120
76
 2 , 86
Equidistribuzione degli addetti
Impresa
Addetti
Impresa
Addetti
A
5,71
A
0
B
5,71
B
0
C
5,71
C
0
D
5,71
D
0
E
5,71
E
0
F
5,71
F
0
G
5,71
G
40
totale
xi = xj
Massima concentrazione di addetti
40
A
0
B
C
D
E
0
0
0
40
0
0
0
0
0
40
0
0
0
0
40
0
0
0
40
0
0
40
0
40
B
0
0
C
0
0
0
D
0
0
0
0
E
0
0
0
0
0
F
0
0
0
0
0
0
G
40
40
40
40
40
40
 

G
0
0
i  j 1
F
0
A
n
40
 = 2
=0
 i,j
xi
totale
40
n
xi  x j
n n  1
40

2 n  1  xi
i 1
n n  1
 2
INDICE DI CONCENTRAZIONE
R 

 max


2
0R1
R = 0 se  = 0
Caso di equidistribuzione del carattere
R = 1 se  = 2
Caso di massima concentrazione del carattere
Se:
 max  2  2  5 , 71  11, 42
  2 , 86
R 

2

2 , 86
11, 42
 0 , 25
Caso di distribuzione di frequenza
X = NUMERO DI AUTO POSSEDUTE relativo ad un collettivo
di 20 famiglie
auto
ni
1
3
2
8
3
nj
3
8
6
2
1
ni
auto
1
2
3
4
5
6
3
1
24
36
18
12
4
2
8
2
24
48
32
24
5
1
6
3
36
48
12
12
tot
20
2
4
18
32
12
1
5
12
24
12
K
 
Scarti semplici in valore assoluto

i  j 1
1  2
xi  x j ni  n j
N
N
2

 1
 3  8 
2
1  3
 3  6 

5 
4  1  2
20  19
M A X  2  2  2,5  5
R 

 max

1,16
 0 ,23
5

440
380
 1,16
INDICI DI
ETEROGENEITÀ ED OMOGENEITÀ
Mutabilità: Attitudine
diverse modalità
di
un
fenomeno
ad
Distribuzione Massimamente Omogenea: le
statistiche presentano tutte la stessa modalità
assumere
n
unità
Distribuzione
Massimamente
Eterogenea:
nella
distribuzione di frequenza appaiono tutte le k modalità, e
ad ognuna di esse è associata la medesima frequenza.
Caratteristiche di un indice di mutabilità
M(): Indice di mutabilità
i) M
 x1 ,
, x n   min  M 
massima omogeneità
ii ) M
 x1 ,
, x n   max
M 
massima eterogeneità
iii ) min  M   M
 x1 ,
, x n   max
M 
omog./eterog. intermedia
INDICI DI ETEROGENEITA’ ED OMOGENEITA’
INDICE DI GINI
X: carattere qualitativo con k modalità
G 
k
 f 1 
i 1
i
fi

Gmax  f i
 Gmax  1 

k
f
i
i 1
1

k
k
1
i 1
k2


k
f
i 1
i
2
 1
k
f
i 1
i  1, 2,  , k
 1
k
k2
 1
1
k
INDICE DI GINI NORMALIZZATO
G*
G

Gmax

1

1
1
k
f i2

 1

f i2
0  G*  1
 k k 1  G k k 1
i
2
Massima eterogeneità (minima omogeneità)
Modalità
G  1
fi
 fi2

i 1
x1
0,2
x2
0,2
x3
0,2
x4
0,2
x5
0,2
Totale
K
 1
5  0,2 
 1
5  0 , 04 
fi 
1
k
2
,
 0,8
i  1,
1
Minima eterogeneità (massima omogeneità)
Modalità
fi
x1
0
x2
0
x3
1
x4
0
x5
0
Totale
1
G  1
K
 fi2
i 1
 11  0

,k
Esempio 1
SCELTA
ni
CH
MM
Totale
fi
21
0,7
9
0,3
30
1
Indice di eterogeneità di Gini
G  1
K
 fi2

i 1
 1
Gmax
 0,7
2
 1 
 0,32

 1
 0 , 49
 0 , 09   0 , 42
1
1
 1 
 0 ,5
K
2
Indice di eterogeneità normalizzato di Gini
(0 ≤ G* ≤1)
G* 
G
Gmax

0 ,42
 0 ,84
0 ,5
Conclusione
G* è abbastanza elevato  la distribuzione è abbastanza
eterogenea: entrambe le modalità sono presenti, ma con
frequenze non equilibrate tra loro.
Esempio 2
Negozio
ni
Bar
9
0,30
Coloniali
9
0,30
D. automatico
4
0,13
Supermarket
8
0,27
30
1
Totale
G  1
4
f
i 1
Gmax
2
i

 1
 0,3
 1
 0, 09
 1 
fi
2
 0,32  0,132  0, 272


 0, 09  0, 02  0, 07   0, 73
1
1
 1 
 0 ,75
K
4
G* 
G
Gmax

0 ,73
 0 ,97
0 ,75
Conclusione
G* molto prossimo ad 1  la distribuzione è molto
eterogenea: tutte le modalità sono presenti e con frequenze
molto simili tra loro.
FORMA DI UNA DISTRIBUZIONE
Due distribuzioni che presentano gli stessi valori degli
indici di posizione e degli indici di variabilità possono
differire per il peso dei valori più grandi e/o più piccoli
rispetto al valore centrale a causa del comportamento
differenziato nelle code della distribuzione.
La forma di una distribuzione è importante proprio per
valutare l’effetto delle intensità posizionate sulle code
della distribuzione.
Obiettivo dello studio della forma di una distribuzione è
misurare se una distribuzione è simmetrica oppure di
quanto essa si discosta dalla situazione di simmetria.
In una distribuzione simmetrica le intensità posizionate
alla stessa distanza da un indice di posizione (ad es. la
media aritmetica) ma in posizione opposta rispetto a tale
indice presentano la stessa frequenza (o densità di
frequenza).
Una distribuzione che non risulta simmetrica si dice
asimmetrica
SIMMETRIA E ASIMMETRIA
1000
0
500
Densità di frequenza
1500
Distribuzione simmetrica
-2
0
2
4
Intensi tà
Proprietà:
i ) X  Me
ii )  X  Me  Mo
iii )
(per ditribuzioni unimodali)
Q1  Me  Q3  Me
(Q1 e Q3 sono equidistanti da Me)
N.B. Queste proprietà valgono in una sola direzione
Distribuzioni asimmetriche
Asimmetria positiva
1000
500
• Per distribuzioni unimo-dali:
0
-30
-20
-10
0
Intensi tà
X  Me  Mo
Asimmetria negativa
1000
500
Densità di frequenza
1500
• Le intensità si attardano sulla
coda
di
sinistra
della
distribuzione
• Per distribuzioni unimo-dali:
0
Densità di frequenza
1500
• Le intensità si attardano sulla
coda
di
destra
della
distribuzione
0
10
20
Intensi tà
30
Mo  Me   X
INDICI DI FORMA
Forniscono informazioni sulla forma di una
distribuzione (simmetria, asimmetria positiva o
negativa).
 X  Me
X
Indice di Hotelling e Solomon
AHS 
Poiché vale la seguente relazione:
1  AHS  1
allora:
 X  Me   X
AHS  0
1  AHS  0
0  AHS  1
Simmetria
Asimmetria Positiva
Asimmetria Negativa
N.B. Nel caso in cui
AHS = 0 la
distribuzione non è
necessariamente
simmetrica
Indice di Yule e Bowley
AYB 
 Me
 Me
AYB  0
AYB  0
AYB  0
 Q1  
 Q1  
Q3
 Q3
 Me 
 Me 

Simmetria
Asimmetria Positiva
Asimmetria Negativa
2Me  Q1  Q3
Q3  Q1
INDICI DI FORMA BASATI SULLA
STANDARDIZZAZIONE
Tale indici neutralizzano l’effetto di qualunque indice di
posizione e di variabilità attraverso una operazione di
standardizzazione del tipo:
X  Z
Z 
X  X
zi 
X
xi   X
X
per i  1,
Z è la variabile standardizzata. Essa, oltre a non dipendere
dall’unità di misura del carattere osservato, presenta sempre
media pari a zero e varianza pari ad uno. Infatti:
z1 
Z
x1   X
X
1

n

n

i 1
1
X
,
, zi 
xi   X
X
,
, zn 
xn   X
X
 xi   X 

 


i 1 
X

1 n
1
1
xi   X  

0  0


n i 1
X
n
zi
1

n
n
,n

2
Z
1

n
n
 z
i 1
1

n
n

 Z
i
z i2
i 1

2
1

n
n
 z
i 1
 0
2
i
2
 xi   X 



 X2
i 1 

1

n
n


1

2
 X
 1
2
X
Indice di Fisher
1
AF =
n
n
 z 
3
i
i 1
1
=
n
3
 xi   



X
i 1 

n
Successione di valori
1
AF =
n
k
 z 
i 1
3
i
1
ni =
n
3
 xi   



X
i 1 

k
ni
Distribuzione di frequenza
  AF  
AF  0
AF  0
AF  0
Simmetria
Asimmetria positiva
Asimmetria negativa
Indici di curtosi
• Misurano la maggiore o minore frequenza delle
osservazioni situate nelle code della distribuzione, ossia di
quelle che presentano gli scarti dalla media più elevati.
• Sono basati su un confronto tra la distribuzione empirica
ed un modello teorico di riferimento quale la distribuzione
Normale.
0.2
0.0
0.1
Densità di frequenza
0.3
Distribuzione Normale (Gauss-Laplace)
-4
-2
0
2
4
Intensi tà
• E’ utilizzata come modello teorico di riferimento perché
frequentemente presente come distribuzione di fenomeni
naturali
• E’ una distribuzione simmetrica unimodale
Indice di curtosi di Pearson
1
AK =
n
n
 z 
4
i
i 1
1
=
n
 xi   



X
i 1 

n
4
Successione di valori
1
AK =
n
k
 z 
i 1
4
i
1
ni =
n
 xi   



X
i 1 

k
4
ni
Distribuzione di frequenza
Per la distribuzione Normale:
AK = 3
K = AK – 3
è un indice di disnormalità basato sul confronto tra la
distribuzione empirica ed il modello della distribuzione
Normale
K  AK  3
K  0

K  0
K  0

Distribuzione Normale
Distribuzione leptocurtica
Distribuzione platicurtica
K>0
0.2
K<0
0.0
0.1
Densità di frequenza
0.3
K=0
-4
-2
0
2
4
Intensi tà
Distribuzione leptocurtica: i valori si accentrano intorno
alla media più di quanto accade per la distribuzione
Normale
Distribuzione platicurtica: presenta delle densità di
frequenza nella coda della distribuzione più di quanto
accade per la distribuzione Normale.
ni
N. bottiglie CH
fi
Fi
N. bottiglie MM
ni
fi
Fi
1
1
0,05
0,05
1
2
0,22
0,22
2
2
0,09
0,14
2
2
0,22
0,44
3
2
0,09
0,23
3
1
0,11
0,55
4
5
0,25
0,48
4
0
0
0,55
5
7
0,33
0,81
5
4
0,45
1
6
4
0,19
1
6
0
0
1
21
1
9
1
Totale
Totale
MM = 3,22
MM = 1,69
CH = 4,29
CH = 1,39
AFCH 
1
nCH
 nCH
 
 i 1

 x CH  i  CH


 CH

3





 ni  


3
3
3
 2  4, 29 
 3  4, 29 
1  1  4, 29 

  
 2  
 2 
21 
1,
39
1,
39
1,
39







3
 4  4, 29 


1,
39



1
21
 
 13, 35
15, 44
21
3
 5  4, 29 
5  

1,
39


3
 6  4, 29 
7  

1,
39



 4 


 8, 99  1, 6  0, 04  0, 96  7,58  
 0, 74
AFMM 
1
nMM
nMM
 
 i 1

 x MMi  MM


MM

3





 ni  


3
3
 2  3, 22 
1  1  3, 22 


 2  
 2 

9 
1, 69
1, 69



3
 3  3, 22 


1, 69



1
9
 4, 59
3
 5  3, 22 
 

1, 69



 4 


 0, 76  0, 002  4, 7   
0, 66
21
 0, 07
Dal confronto risulta che entrambe le distribuzioni presentano
un valore negativo dell’indice di Fisher, quindi un’asimmetria
negativa, che è leggermente più accentuata per i consumatori
CH.
IL BOXPLOT
Permette di studiare graficamente la forma di una
distribuzione
Costruzione del boxplot:
1. Si determinano i quantili: x(1), Q1, Q2 = Me, Q3, x(n)
2. Si disegna una scatola di estremi Q1 e Q3 tagliata
sulla mediana
Q
1
Me
Q
3
3. Si calcolano i valori a e b:
a  Q1  1,5 Q3  Q1  ;
b  Q3  1,5 Q3  Q1 
4. Si calcolano i valori  e :
 = minimo dei valori maggiore di a
 = massimo dei valori minori di b
5. Si disegnano i baffi sui valori  e 

Q
Me
1
Q

3
5. I valori oltre a e b sono disegnati con dei puntini
(valori anomali)

Q
1
Me
Q
3

Caratteristiche del boxplot:
• Permette di visualizzare le informazioni sulla
forma e la variabilità di una distribuzione
• Consente di confrontare graficamente la forma di
più distribuzioni
Esempi
Distribuzione
simmetrica
3.5
4.0
4.5
5.0
5.5
6.0
6.5
Distribuzione
asimmetrica
positiva
5
10
15
20
25
Distribuzione
asimmetrica
negativa
-25
-20
-15
-10
-5
Q1 = 4
Q2 = Me = 5
Q3 = 5
a  Q1  1,5Q3  Q1   2 ,5
b  Q3  1,5Q3  Q1   6 ,5
6
5
n. bottiglie succhi CH
Distribuzione CH
ESEMPI
  maxxi  b  6
1
Distribuzione MM
b  Q3  1,5Q3  Q1   9 ,5
5
4
n. bottiglie succhi MM
a  Q1  1,5Q3  Q1   2 ,5
3
2
  minxi  a  3
Q1 = 2
Q2 = Me = 3
Q3 = 5
4
3
2
  minxi  a  1
  max xi  b  5
1
Boxplot Numero di stabilimenti (n=49)
0
0
2
2
4
4
6
8
6
10
8
Boxplot Numero di stabilimenti (n=50)
Caso a) n=50:
Q1 = 1;
Me = 2; Q3 = 4
a  Q1  1, 5  Q3  Q1   1  4, 5  3, 5    0
b  Q3  1, 5  Q3  Q1   4  4, 5  8, 5    8
Caso b) n=49:
a  Q1
Q1 = 1; Me = 2; Q3 = 4
 1, 5  Q3  Q1   1  4, 5  3, 5
   0
b  Q3  1, 5  Q3  Q1   4  4, 5  8, 5    8
Relazioni statistiche
Le relazioni statistiche per distribuzioni doppie
possono essere di due tipi:
• Connessione: esistenza di una relazione reciproca
tra i due caratteri
–Dipendenza assoluta
• Dipendenza: esistenza di una relazione di causaeffetto tra i due caratteri
–Dipendenza lineare
–Dipendenza in media
• Correlazione (o intedipendenza): esistenza di una
relazione di dipendenza reciproca tra i due caratteri.
INDICI DI CONNESSIONE
Indice Chi-quadro di Pearson (2)
ˆij 
n
ni  n j
n
= frequenze teoriche
Per misurare la connessione bisogna considerare le
differenze tra le frequenze teoriche e le frequenze
osservate.
  n
k
i 1
h
ij
j 1
1
 n 
n
 n 
ˆij
 n
k


h
j 1
i
h
n
i 1
n
i 1
k
n j
j 1
ij
k
h
i 1
j 1
ˆij 
  n
h
1 k
 n 
n j 
 ni  
n i 1
j 1
1
nn  n  n  0
n
L’indice chi-quadro è pari alla somma dei quadrati delle
differenze tra le frequenze teoriche e le frequenze
osservate.

2

k
h
i 1
j 1

n
ij
ˆij
n

2
ˆij
n
0  2  
2  0
2  0
Non esiste connessione (esiste indipendenza)
tra X ed Y. Ogni frequenza congiunta è pari alla
rispettiva frequenza teorica.
Esiste connessione (non esiste indipendenza)
tra X ed Y. Almeno una frequenza congiunta è
diversa dalla rispettiva frequenza teorica.
Formulazione alternativa
 2  i  j


i

j

i
j
2
nij
ˆij
n

2
nij
ˆi  n j
n
i

i
2
2
ˆij
n
ˆij
n
j
j


 n




2
i
ˆij
n
i


2
ˆij
n

n
 n
ˆij
 nij  n
j
2
nij
ni  n j
k

j
ˆij
nij n
ˆij
n
 2
i

 nij
j
 n  2n 
h
n
i 1 j 1
ni  n j
2
ij


 1





Indice Phi-quadro di Fisher ( 2)
2 
2
n
0   2  min k  1, h  1
Perfetta dipendenza bilaterale in tabelle quadrate
 2  h  1  k  1  nij  n j  ni 
Perfetta dipendenza di Y da X in tabelle rettangolari
 2  h  1  nij  ni 
h<k
Perfetta dipendenza di X da Y in tabelle rettangolari
 2  k  1  nij  n j
k<h
negozio
scelta
Bar
Coloniali
D. Autom.
S.market
Totale
CH
9
8
1
3
21
MM
0
1
3
5
9
Totale
9
9
4
8
30

Metodo A.
2

k
h

n
ij
ˆ
nij
i 1 j 1
n̂ij
Frequenze teoriche
scelta
negozio
Bar

Coloniali
D. Autom.
S.market
Totale
CH
6,3
6,3
2,8
5,6
21
MM
2,7
2,7
1,2
2,4
9
9
9
4
8
30
Totale

ˆ
nij 
2
2
  9  6, 3 2
 


6,
3

0
 2, 7 
2
2, 7

8
 6, 3 
2
6, 3
1  2, 7 2
 1,16  0, 46 
2, 7

3

1  2, 8 2
2, 8
 1, 2 
2
1, 2
2, 82  13, 27

5

3
 5, 6 
2
5, 6
 2, 4 
2
2, 4

 




Metodo B.
scelta
2
h
 k
nij
 n  


 i  1 j  1 ni.  n.j


  1




2
nij
Frequenze teoriche
negozio
2
Bar
CH
Coloniali
D. Autom.
S.market
81
64
1
9
0
1
9
25
MM
ni.  n.j
scelta
negozio
CH
Bar
 81
 189
D. Autom.
S.market
189
189
84
168
81
81
36
72
MM
 2  30  
Coloniali

64
189

1
84

9
168

1
81

9
36

 30  1, 44  1  13, 27
2 
1 2
13 ,27


 0 ,44
n
30
0  2  1
25 


1
 

72 

Esempi di perfetta dipendenza unilaterale
Massima dipendenza unilaterale del carattere
SCELTA (X) dal carattere NEGOZIO (Y)
nij  n.j
negozio
scelta
Bar
Coloniali
D. Autom
S.market
Totale
CH
9
0
4
0
13
MM
0
9
0
8
17
Totale
9
9
4
8
30
Massima dipendenza unilaterale del carattere
NEGOZIO (Y) dal carattere SCELTA (X)
nij  ni.
negozio
scelta
CH
MM
Totale
Bar
Coloniali
D. Autom
S.market
Totale
21
0
0
0
21
0
0
9
0
9
21
0
9
8
30
DIPENDENZA IN MEDIA
Y quantitativo
X qualitativo
Indipendenza in media di Y da X:
al variare delle modalità di X le medie delle
distribuzioni condizionate di Y rimangono costanti.
X quantitativo
Y qualitativo
Indipendenza in media di X da Y:
al variare delle modalità di Y le medie delle
distribuzioni condizionate di X rimangono costanti.
Rapporto di correlazione di Pearson
X
x0 – x1
x1 – x2
…
xh-1 - xh
tot
y1
n11
n12
…
n1h
n1.
y2
n21
n22
…
n2h
n2.
Y
nij
ni.
yk
nk1
nk2
…
nkh
nk.
tot
n.1
n.2
n.j
n.h
n
k
 X |Y 
2
 EXT
2
X
X

 
i 1
X |Y  yi
h
ˆ
x
j 1
j
2

 x
 X
ni 
2

n j
Se y è quantitativo:
 
h
Y |X 
2
 EXT
 Y2
Y

Y |X  x j
j 1
k
 y
i 1
i
 Y
 Y
2

n j
2

ni 
Proprietà:
I)
X|Y  0
 X|Y  1
II)
0  X|Y  1
Perfetta indipendenza in media: le medie
delle distribuzioni condizionate di X sono
tutte uguali tra loro ed uguali alla media
generale (μX)
Perfetta dipendenza in media: le varianze
delle distribuzioni condizionate di X sono
nulle. Ad ogni modalità di Y corrisponde
una sola intensità di X che presenta
frequenza non nulla
0  Y|X  1
III) L’indice non è simmetrico
Y |X  X|Y
Y |X   X |Y
IV)
Y |X   X |Y =  XY

ESEMPIO
Settore
merceologico
(X)
Alimentare
Bevande
Health Care
I. Packaging
Totale
Fatturato (Y)
200
200|300
300|400
400|500
>500
Totale
11
1
6
7
25
1
1
1
2
5
5
0
1
1
7
1
1
2
1
5
3
0
2
3
7
21
3
12
14
50
k
Y |X 
2
 EXT
 Y2

Y
 
Y |X  xi
i 1
h
 y
j 1
Y |X  x
1

1

n1
h
ˆ
y
j 1
j
j
 Y

ni 
2

n j
n1 j 
150  11  250  1  350  5 
 348, 48
 Y
2
21
450  1  1256  3 

1

n2 
Y |X  x
2

Y |X  x
3
ˆ
y
j
j 1
n2 j 
150  1  250  1 
450  1
3
1

n3 
150  6

h
h
ˆ
y
j
j 1
 266, 67
n3 j 
 250  1  350  1  450  2  1256  2 
12
Y |X  x
4

Y

1

n4 
h
ˆ
y
j 1
j
n4 j 
150  7  250  2  350  1 
450  1  1256  3 
14
1

n
h
ˆ
y
j 1
j
 384, 33
 412
n j 
150  25  250  5  350  7 
50
450  5  1256  7 
 344, 84
Le medie delle distribuzioni condizionate sono
tutte diverse dalla media di Y per cui esiste
dipendenza in media
k
 
Y |X  x i
i 1
 Y
2

ni  
348, 48  344, 84 
 384, 33  344, 84 
2

2
h
ˆ
 y
j 1
j
 Y
21 
12 
266, 67  344, 84 
 412  344, 84  14
2
2
3 
 100.474,1
2

n j 
150  344, 84  25  250  344, 84  5
  350  344, 84  7   450  344, 84  5
 1.256  344, 84  7  7.410.606

2
2
2
2
2

k
Y |X 
2
 EXT
 Y2
Y

 
Y |X  x i
i 1
h
 y
j 1

j
 Y
 Y
2

ni 
2

n j
100.474,1
 0,116
7.410.606
La dipendenza in media del carattere FATTURATO
dal carattere SETTORE MERCEOLOGICO è piuttosto
debole.

CORRELAZIONE
Misura del grado di interdipendeza (dipendenza
reciproca) tra due caratteri quantitativi (variabili).
Coefficiente di correlazione di Bravais-Pearson
( )
X
x1
x2
xn
Y
y1
y2
yn
1
XY  n
XY 
  xi
 XY
X  Y
XY = covarianza tra X ed Y
  x   yi   Y
X  Y

La covarianza ci fornisce informazioni su come
variano (co-variano) simultaneamente le due
variabili considerate.
   XY  
 XY  0
 XY  0
 XY  0
Indipendenza
Interdipendenza positiva
Interdipendenza negativa
1    1
Il segno di
  0
  0
  0
 1
  1
 XY
dipende da
 XY
Incorrelazione
Correlazione positiva
Correlazione pegativa
Massima correlazione positiva
Massima correlazione negativa
INTERPRETAZIONE GRAFICA
-3
-2
-1
Yi
0
1
2
3
Incorrelazione
-3
-2
-1
0
1
2
3
Xi
Correlazione diretta
Correlazione diretta
2
0,3
2
3
Correlazione diretta
Yi
0
1
1
-1
Yi
0
0
-2
-3
-3
-2
-2
-1
-1
Yi
1
1
2
0,8
-3
-2
-1
0
1
-2
2
-1
0
1
2
3
-3
-2
-1
Xi
Xi
Correlazione inversa
2
1
2
1
-2
0
2
Xi
4
Yi
-2
-2
-3
0,8
-3
-1
0
Yi
-3
-2
0,3
-2
-1
0
Yi
0
1
2
1
Correlazione inversa
2
Correlazione inversa
0
Xi
-1
0
Xi
1
2
-2
-1
0
1
Xi
2
3
Formula alternativa per la covarianza
1

n
 XY
1

n
n
 x
i 1
n
xy
i 1
i
i
 X
  yi
 Y


 X Y
i
Ricordando che:

2
X
1

n
n
x
i 1
2
i
 X
2

e
2
Y
1

n
n
y
i 1
2
i
 Y
Correlazione per successione di valori
 XY 
1
n

n

i 1
1
n
xy
2
i
 X
x
n
i 1
i
2
i
 X Y
1
n

n

i 1
y i2  Y
2



2
ESEMPIO
Relativamente ai primi 10 consumatori misurare la
correlazione tra i caratteri FEDELE CH e FEDELE MM.
 XY 
Cliente
1
n

fedele CH
(X)
n

i 1
1
n
xy
2
i
 X
x
n
i 1
i
2
i
 X Y
1
n

n

i 1
fedele MM
(Y)
y i2  Y
2



0,063
xi y
i
2
x0,870
i
y i20,004
0,180
0,148
0,672
0,032
0,978
0,022
0,022
0,956
0,000
5
0,795
0,205
0,163
0,632
0,042
6
0,384
0,616
0,237
0,147
0,379
7
0,986
0,014
0,014
0,972
0,000
8
0,993
0,007
0,007
0,986
0,000
9
0,994
0,006
0,006
0,988
0,000
10
1,000
0,000
0,000
1,000
0,000
Totale
8,283
1,717
0,898
7,385
0,819
1
0,933
0,067
2
0,400
0,600
3
0,820
4
0,240
0,160
0,360
n
X 
x
i 1
n
i

8 ,283
 0 ,83
10
n
Y 
y
i 1
i

n
1,717
 0 ,17
10
N
 XY 
 xiyi
i 1
N
  x y 
0 , 898
10

 0 , 83  0 ,17 
 0 , 052
n
n

i 1
xi2
n

 
7 , 385
10
 yi2
i 1
 0 , 738
n

0 , 819
10
0 , 052
 0 , 738  0 , 83   0 , 082  0 ,17 
2
Massima correlazione positiva
2
 0 , 082
 1
Correlazione per tabelle a doppia entrata
 XY 
1
n
1
n

k

i 1
k
h
ˆy
ˆn
x
i 1
i
j 1
ˆ ni    X
x
2
i
2
i
ij
1
n

 X Y
k

i 1
ˆi2 n j  Y
y
2



ESEMPIO
Fatturato
(X)
 200
200 -| 300
300 -| 400
400 -| 500
>500
Totale
Addetti (Y)
 200
5
1
1
0
0
7
200-|300
300-|550
550-|950
>950
9
1
2
0
1
13
7
1
1
0
0
9
2
2
3
2
2
11
2
0
0
3
5
10
Totale
25
5
7
5
8
50
Per calcolare il termine
costruire la tabella delle
100
250
350
450
1.256
100
50.000
25.000
35.000
0
0
250
225.000
62.500
175.000
0
314.000
ˆy
ˆ n
  x
, ossia:
i
j
425
297.500
106.250
148.750
0
0
i
j
ij
è consigliabile
ˆi y
ˆ j nij
x
750
3.608
150.000
721.600
375.000
0
787.500
0
675.000
4.870.800
1.884.000 22.658.240
La somma degli elementi all’interno di tale tabella è pari a:
 
i
j
ˆi y
ˆ j nij  33.561.140
x
da cui
 
i
j
ˆi y
ˆj nij
x
n

33.561140
 671.223
50
Per il calcolo gli altri termini:
xˆ i
yˆ j
ni
xˆi ni
nj
yˆ j n j
xˆi2
xˆi2 ni
yˆ 2j
yˆ 2j n j
100 25
100
7
2.500
700
10.000
250.000
10.000
70.000
250
5
250 13
1.250
3.250
62.500
312.500
62.500
812.500
350
7
425
9
2.450
3.825
122.500
857.500
180.625
1.625.625
450
5
750 11
2.250
8.250
202.500
1.012.500
562.500
6.187.500
1.256
8 3.608 10 10.048 36.080 1.577.536 12.620.288 13.017.664 130.176.640
18.498 52.105
15.052.788
138.872.265
1
n
1

n
X 
Y

i
ˆ
y
j
1
18.498  369, 96
50
1

52.105  1.042,1
50
ˆi ni 
x
j nj
 XY  671.223  369, 96  1.042,1  285.687
k
1
n

1
n
 yˆ
ˆ2
x

i ni
i 1
h
2
jn j
j 1
 XY 

1
15.052.788  301.056
50
1
138.872.275  2.777.445
50
285.687
301.056  369, 96  2.777.445  1.042,1 
 0,542
Correlazione diretta
2
2

Scarica

STATISTICA II PARTE - Dipartimento di Scienze Politiche e Sociali