RELAZIONI TRA 2
FENOMENI QUANTITATIVI
STATISTICA A – K (60 ore)
Marco Riani
[email protected]
http://www.riani.it
RELAZIONI TRA 2 FENOMENI
QUANTITATIVI
• Vi è una relazione tra le variabili
oggetto di studio?
• Di quanto variano i valori d’una
variabile quando cambiano i valori
dell’altra?
• CORRELAZIONE
• REGRESSIONE
X = NUMERO DI DIPENDENTI
Y = FATTURATO (in milioni di euro)
Supermercato
A
xi
10
yi
1,9
B
C
D
18
20
8
3,1
3,2
1,5
E
F
G
30
12
14
6,2
2,8
2,3
Tot.
112 21,0
M(X) = 16
M(Y) = 3,0
DIAGRAMMA DI DISPERSIONE (SCATTER)
7
6
II
I
M(Y) = 3,0
fatturato
5
E (30 6,2)
4
3
2
G (14 2,3)
III
IV
1
0
0
5
10
15
20
numero di dipendenti
M(X) = 16
25
30
35
DIAGRAMMA DI DISPERSIONE (SCATTER)
• I quadranti in cui compare la maggioranza dei
punti indicano il tipo di relazione
7
6
II
I
fatturato
5
4
3
2
III
IV
1
0
0
5
10
15
20
numero di dipendenti
25
30
35
• Punti in I e III  relazione
diretta
• Punti in II e IV 
relazione inversa
• Punti si distribuiscono
casualmente in tutti i
quadranti all’incirca nella
stessa proporzione 
nessuna relazione lineare
tra le due variabili
• L’osservazione della “nuvola” di punti nel diagramma di
dispersione fornisce una prima idea sulla relazione
eventualmente esistente tra i due fenomeni.
X = NUMERO DI DIPENDENTI
Y = FATTURATO (in milioni di euro)
(xi – Mx) (yi – My)
-6
- 1,1
Supermercato
A
xi
10
yi
1,9
B
C
D
18
20
8
3,1
3,2
1,5
+2
+4
-8
+ 0,1
+ 0,2
- 1,5
E
F
G
30
12
14
6,2
2,8
2,3
+ 14
-4
-2
+ 3,2
- 0,2
- 0,7
0
0
Tot.
112 21,0
M(X) = 16
M(Y) = 3,0
COVARIANZA
1 n
COV ( X ,Y )   ( x i  M x )( yi  M y )
n i 1
• = MEDIA ARITMETICA DEI PRODOTTI DEGLI
SCOSTAMENTI
• COV(X,Y) >0
 RELAZIONE DIRETTA
• COV(X,Y) <0
 RELAZIONE INVERSA
• COV(X,Y) =0
 X, Y
INCORRELATE
X = NUMERO DI DIPENDENTI
Y = FATTURATO (in milioni di euro)
(xi – Mx) (yi – My) (xi-Mx)(yi-My)
-6
- 1,1
6,6
Supermercato
A
xi
10
yi
1,9
B
C
D
18
20
8
3,1
3,2
1,5
+2
+4
-8
+ 0,1
+ 0,2
- 1,5
0,2
0,8
12
30 6,2
12 2,8
14 2,3
112 21,0
+ 14
-4
-2
0
+ 3,2
- 0,2
- 0,7
0
44,8
0,8
1,4
66,6
E
F
G
Tot.
M(X) = 16 COV(X,Y)=66,6/7=9,514
M(Y) = 3,0
1 n
COV ( X ,Y )   ( x i  M x )( yi  M y )
n i 1
Osservazione: per ottenere la covarianza è sufficiente
calcolare solo gli scostamenti di una variabile,
moltiplicandoli per i valori dell'altra variabile (p. 153)
X = NUMERO DI DIPENDENTI
Y = FATTURATO (in milioni di euro)
(xi-Mx) yi
(yi – My) xi
6,6
0,2
-11,4
6,2
-11
1,8
+ 0,2
- 1,5
0,8
12
12,8
-12
4
-12
+ 3,2
- 0,2
- 0,7
0
44,8
0,8
1,4
66,6
86,8
-11,2
-4,6
66,6
96
-2,4
-9,8
66,6
(xi – Mx) (yi – My) (xi-Mx)
Superm
ercato
xi
yi
A
B
10
18
1,9
3,1
-6
+2
- 1,1
+ 0,1
C
D
20
8
3,2
1,5
+4
-8
30 6,2
12 2,8
14 2,3
112 21
+ 14
-4
-2
0
E
F
G
Tot.
M(X) = 16
M(Y) = 3,0
(yi-My)
COV(X,Y)=66,6/7=9,514
Osservazione: può essere ottenuta anche in funzione
dei dati originari (p.154)
Superm
ercato
A
B
C
D
E
F
G
Tot.
xi
10
18
20
8
30
12
14
112
yi
1,9
3,1
3,2
1,5
6,2
2,8
2,3
21
xiyi
19
55,8
64
12
186
33,6
32,2
402,6
M(X) = 16
M(Y) = 3,0
COV(X,Y) = 402,6/7-16*3=9,514
Proprietà della covarianza
• E’ ESPRESSA NEL PRODOTTO DELLE
UNITA’ DI MISURA DI X E DI Y
• COV(X,X)=VAR(X)
• E’ scale equivariant
Proprietà della covarianza
Proprietà della covarianza
• max | COV (X, Y) | =
= [VAR(X) VAR(Y)]1/2=
= σ(X) σ(Y)
Dimostrazione
• var(tX-Y)>0
• t2 var(X) -2t cov(X,Y) + var(Y) >0
• h(t) è una funzione quadratica in t. Se
h(t)>0 le radici non sono reali
• Δ<0 implica che
• 4 [cov(X,Y)]2 -4 var(X) var(Y) <0
• [cov(X,Y)]2 < var(X) var(Y)
• |cov(X,Y)| < σ(X) σ(Y)
Come ovviare ai difetti della COV?
• La covarianza ha il difetto di risentire
dell'unità di misura e dell'ordine di
grandezza dei due fenomeni originari
essendo espressa in termini del prodotto
delle unità di misura di X e Y
• I valori che essa può assumere non sono
compresi in un intervallo di interpretazione
immediata,
RICHIAMO SCOSTAMENTI
STANDARDIZZATI
(p. 125)
zi 
•
•
•
•
xi  M

Proprietà:
Mz = 0
z = 1
puri numeri  confronto tra fenomeni
diversi
COEFFICIENTE DI
CORRELAZIONE rxy
( xi  M x ) ( yi  M y )
1
rxy  
n i 1
x
y
n
• (media dei prodotti degli scostamenti
standardizzati  è un numero puro)
SCOSTAMENTI STANDARDIZZATI
Superm
ercato
xi
yi
A
10
1,9
B
18
3,1
C
20
3,2
D
8
1,5
E
30
6,2
F
12
2,8
G
14
2,3
Tot.
112
21,0
(xi – Mx)/σx (yi – My)/σy
-0,87
0,29
0,58
-1,15
2,02
-0,58
-0,29
0
-0,77
0,07
0,14
-1,05
2,24
-0,14
-0,49
0
(xi – Mx) (yi –
My)/(σx σy)
0,67
0,02
0,08
1,21
4,53
0,08
0,14
6,73
( xi  M x ) ( yi  M y )
1
rxy  
n i 1
x
y
n
Superm
ercato
xi
yi
A
10
1,9
B
18
3,1
C
20
3,2
D
8
1,5
E
30
6,2
F
12
2,8
G
14
2,3
Tot.
112
21,0
(xi – Mx) (yi –
My)/σx σy
0,67
0,02
0,08
1,21
4,53
0,08
0,14
6,73
• rxy=6,73/7
=0,961
Formule di calcolo alternative (p. 157)
1 n ( xi  M x ) ( yi  M y )
rxy  
n i 1
x
y
COV ( X , Y )
rxy 
 ( X )  (Y )
COV ( X , Y )
rxy 

VAR( X ) VAR(Y )
Formule di calcolo alternative:
COV ( X , Y )
rxy 

VAR( X ) VAR(Y )

1 n
( xi  M x )( yi  M y )

n i 1
1/ 2
1
2
2
  ( xi  M x )  ( yi  M y ) 
n  i 1
i 1

n
n
Interpretazione di r
• rxy = -1  perfetta relazione lineare inversa
tra X ed Y (cioè quando yi = a + bxi, con b < 0
e a numero qualsiasi)
• rxy = 0  X ed Y sono incorrelate
(non vi è tra loro un legame lineare; non si
esclude però l’eventuale esistenza d’una
relazione non lineare, ad esempio parabolica
o sinusoidale)
rxy = +1  perfetta relazione lineare diretta tra
X ed Y (cioè quando yi = a + bxi, con b > 0 e a
numero qualsiasi)
Punti in situazioni estreme e rxy
Esemplificazione di dati con diverso valore
del coefficiente di correlazione lineare
|rxy |= 1 se e solo c’è perfetta
relazione lineare tra X ed Y
• Se Y = a+|b| X
COV ( X , Y )
rxy 
 ( X )  (Y )
rx ,a bx
COV ( X , a  | b | X )

 ( X )  (a  | b | X )
rx ,a bx
rx ,a bx
| b | COV ( X , X )

| b |  ( X ) ( X )
| b | VAR( X )

1
| b | VAR( X )
Esempio: 7 supermercati
Supermercat
o
(xi – Mx)
A
B
C
-6
+2
+4
(yi – My)
- 1,1
+ 0,1
+ 0,2
(xi-Mx)*
(yi-My)
6,6
0,2
0,8
(xi-Mx)2 (yi-My)2
COV(X,Y) =
36
4
16
)
9,12
514
D
- 8 cov( X-, Y1,5
64
rxy 

 0,961
,895
var( X )+var(
E
+ 14
3,2Y ) 944,8
196
F
-4
- 0,2
0,8
16
G
-2
- 0,7
1,4
4
Tot.
0
0
66,6
336
1,21
0,01
0,04
66,6/7=9,514
VAR(X) =
336/7 = 48
VAR(Y) =
2,25 14,28/7
10,24 =2,04
0,04
0,49
14,28
max COV(X, Y)  48  2,040  9,895
Esempio: 7 supermercati (continua)
Supermercato
(xi-Mx)(yi-My)
A
B
C
D
6,6
0,2
0,8
12
E
F
G
Tot.
(xi-Mx)2
36
4
16
64
(yi-My)2
1,21
0,01
0,04
2,25
44,8
10,24
66,6
9196
,514
rxy 
 16  0,961
0,8
0,04
9
,
895
336 14,28
1,4
4
0,49
66,6
336
COV(X,Y) =
66,6/7=9,514
VAR(X) =
336/7 = 48
VAR(Y) =
14,28/7=2,04
14,28
max COV(X, Y)  48  2,040  9,895
Caratteristiche di r
• Dato che rxy = ryx, il coefficiente di
correlazione è una misura simmetrica
in X ed Y  interdipendenza tra le due
variabili.
• In esso non si assume una variabile
come antecedente e l’altra come
conseguente, ma si valuta
semplicemente il legame vicendevole
tra X ed Y.
Proprietà di rxy (p. 160)
• è invariante in senso forte (cioè presenta
lo stesso valore numerico) per
trasformazioni lineari crescenti di una o di
entrambe le variabili
Proprietà di rxy
• Proprietà di invarianza per trasformazioni
lineari: il coefficiente di correlazione lineare
rimane invariato effettuando una
trasformazione lineare crescente di una o di
entrambe le variabili.
•  se si cambia l’origine del sistema di
misurazione e/o l’unità di misura in cui sono
espresse le variabili, il valore del coefficiente
di correlazione non varia.
Applicazione della precedente proprietà
• Si ottiene il medesimo valore di rxy
anche effettuando il calcolo sui n.i. a
base fissa
Esemplificazione di dati con diverso valore del
coefficiente di correlazione lineare, in presenza di
dati contaminati indicati con il simbolo * (p. 162)
Es: 6 famiglie, ammontare della spesa annua (in
euro) per l’acquisto di due generi di largo
consumo: latte fresco e biscotti.
Famiglia
Spesa annua per
l’acquisto di latte
fresco (€)
Spesa annua per
l’acquisto di biscotti
(€)
A
105
65
B
190
130
C
80
160
D
120
90
E
240
220
F
60
50
M(x)=
132.5
M(y)=
119.2
• (i) rxy? (ii) commento (iii) diagramma di dispersione (iv)
concordanza tra rxy e diagramma di dispersione (v) Perché
rxy invece della retta di regressione?
CORRELAZIONE FRA DUE S.S.
• Esempio: X = numero di extracomunitari iscritti al
collocamento, Y = numero di discount
• Calcolare e commentare rXY tra le variabili
originarie, i NI a base fissa, le variazioni
percentuali a base fissa, i NI a base mobile, le
variazioni percentuali a base mobile
Anni
X
Y
1993
1994
72.644
85.993
600
1.300
1995
1996
1997
96.287
136.942
140.100
1.930
2.328
2.523
Scarica

2 A - Marco Riani