MODELLO DI REGRESSIONE LINEARE
MULTIPLA
1.
Il problema
2.
Specificazione del modello
3.
Le assunzioni
4.
Stimatori OLS e proprietà
5.
R2 , variabilità totale , spiegata , residua
6.
Previsione
7.
Variabili dummy
8.
Specificazione del modello
9.
Violazioni delle ipotesi del modello
1
1. IL PROBLEMA
•
•
Ricerca di un modello matematico in grado di
esprimere la relazione esistente tra una variabile
di risposta y (quantitativa) e ( ad esempio) k
variabili esplicative
Si tratta di una relazione asimmetrica del tipo
y  f x1... xk 
Nel caso del modello di regr.lineare multipla
abbiamo che:
f x1... xk   b1 x1  b2 x2 ...bk xk
che geometricamente corrisponde ad un iperpiano a
k dimensioni
•
Perché si studia tale modello
i) facilità con cui può essere interpretato un
iperpiano a k dimensioni
ii) Facilità di stima dei parametri incogniti bj
( j = 1…k)
Nella realtà studiamo un modello del tipo
y  f x1... xk  u
Componente
sistematica
componente
casuale
2
2. IL MODELLO
yi  b1 xi1  b2 xi 2  b3 xi 3  ...bk xik  ui
In forma matriciale
y  Xb  u
dove
y : vettore (n x 1) di osservazioni sulla
variabile dipendente
X : matrice (n x k) di osservazioni su
k regressori
b : vettore (k x 1) di parametri incogniti
u : vettore (n x 1) di disturbi stocastici
3
Le matrici e i vettori sono così definiti
 y1 
 
 y2 
 
 . 
y  
n1  . 
 
 . 
 
y 
 n
 b1 
 
 b2 
 
 . 
b  
k 1  . 
 
 . 
 
b 
 k
 x11

 x21

 .
X 
 n k   .

 .

x
 n1
x12
. . .
x22
. . .
.
. . .
.
. . .
.
. . .
xn 2
. . .
x1k 

x2 k 

. 

. 

. 

xnk 
 u1 
 
 u2 
 
 . 
u  
n1  . 
 
 . 
 
u 
 n
N.B.
La matrice X ha la prima colonna unitaria nel
caso in cui si consideri un modello con
intercetta b1 nel sistema di riferimento
4
multidimensionale
1)
2)
3)
4)
5)
6)
7)
3. LE ASSUNZIONI DEL MODELLO
Esiste legame lineare tra variabile
dipendente e regressori
Le variabili sono tutte osservabili
I coefficienti bi non sono v.c.
I regressori X sono non stocastici
Il termine u non è osservabile
E ui   0
 0 per i  j
Covui , u j    2
 per i  j
 le ui sono omoschedastiche ed incorrelate
 2 0

2
 0 
E uu  
.
.

 0
0

8)
X ha rango pieno





. .  2 
0 . .
0 . .
. . .
.
0
0
.
rank (X) = k
condizione necessaria n  k
9)
u
N 0, 2 I 
hp aggiuntiva da
utilizzare nell’analisi inferenziale
5
4. STIMATORE OLS
y = Xb + u
Si cercherà quel vettore b̂ che minimizza
gli scarti al quadrato:
n
min
y
i
2
 X ib 
i:1
dove Xi è la riga i-esima di X
In forma matriciale
e  uˆ   y  Xb 
min ee o
min
 y  Xb   y  Xb 

Q  ee   y  Xb   y  Xb 
  y   b X  y  Xb 
 y y  b X y  y Xb  bX  X b
=
perché scalare
Q
 2 X y  2 X Xb  0
b
(1)
6
 k n 
n1
1 1 . 1   y1 
 1

 
 x21 x22 . . x2 n   y2 
 
1k  
bX y  b1 ... bk   x31 x32 . . x3n   . 

 
 .
. . . .  . 

 
x
 y 
.
.
.
x
kn   n 
 k1
è uno scalare
bX y   bX y    yXb 
perché
dalla (1) si ottiene
2 X Xb  2 X y
 X X b  X y
pre-moltiplicando ambo i membri
 X X 1  X X b   X X 1 X y
perché rank (X’X) = rank (X) = k
X’X è a rango pieno ovvero invertibile
1
bˆ   X X  X y
stimatore OLS di b
7
CARATTERISTICHE STIMATORE OLS
Teorema di Gauss-Markov
b̂ è uno stimatore di tipo BLUE
Best Linear Unbiased Estimator
ovvero ha varianza minima nella classe degli
stimatori Lineari e Corretti
1.
1
bˆ   X X  X y
1
La matrice  X X  X  è formata da elementi
costanti per cui b̂ è una trasformazione lineare
di y .
1
1
bˆ   X X  X y   X X  X  Xb  u 
2.
  X X  X Xb   X X  X  u
1
1
 b   X X  X  u
1
b   u E  X
 X X   b  bˆ E
1
È uno stimatore corretto
Inoltre:
bˆ  b   X X 
1
X u
8





ˆ
ˆ
ˆ
Var b  E  b  b b  b 


3.

 E  X X  X  u u X  X X 
1
1

  X X  X  E u uX  X X 
1
1
1
1
  X X  X  2 I X  X X 
 2  X X  X X  X X   2  X X 
1
1














ˆ
ˆ
E b b b b  :


Si consideri più in dettaglio
 E bˆ  b 2
1
1

 ˆ
ˆ b
E
b

b
b
1
1
2
2


.

 ˆ
ˆ b
E
b

b
b
 k k 1 1
1




E bˆ 1  b1 bˆ 2  b2 . . E bˆ 1  b1 bˆ k  bk 
2

ˆ
E b2  b2
. .
.


.
. .
.

2

ˆ
.
. .
E bk  bk







2
ˆ
Pertanto la varianza E b j  b j di ogni parametro
b̂ j si desume prendendo il corrispondente valore
1



X
X
sulla diagonale principale della
, moltiplicato
2
per  :
1
Var bˆ j   X X  jj 2
9
  

Definiamo uno stimatore alternativo lineare e
corretto
b   bˆ  C y
dove C è una matrice (n x k)
b   X X  X  y  C  y
1
  X X  X  Xb  u   C Xb  C  u
1
E b   b  C Xb  C X  0





V b  E b  b b  b  



  1  b    1 
 E   X X  X  C uu  X X  X  C  


1
1
1













X
X
X
X
X
X

C
X
X
X
2
 

1
  X X  X C  C C 

 

ma
 

CX  0  X C
 2  X X   2 C C 
1


 Var bˆ  2 C C   Var bˆ
Pertanto la Var b̂ è la minima nella classe degli
stimatori lineari e corretti, e risulta provato il 10
teorema di Gauss-Markov

2
STIMA ̂
2
DI 


1
e  y  Xbˆ  Xb  u  X  X X  X  Xb  u 
 Xb  u  Xb  X  X X  X  u
1


 I  X  X X  X  u  M X u
1
MX
n n
MX è simmetrica e idempotente, cioè:

 

X I  X  X X  X 

1
1. M X  I  X  X X  X   I  X  X X  X   M X
2.
1

1
M X2  I  X  X X 
1
 I  X  X X  X   X  X X  X   X  X X  X X  X X  X 
1
1
1
 I  X  X X  X   M X
1
Da queste proprietà di MX si ottiene
Q  ee  u M X M X u  u M X u
E ee  E tree 
perché scalare
 E tr uM X u   E tr M X uu


 tr E M X uu  tr M X 2 
tr(ABC)=
tr(BCA)=
tr(BAC)11
1


 2tr I n  X  X X  X  
1


  n  tr X X 

 2 trI n   tr X  X X  X  
1
2
1

X X  2 n  trI n  
 2 n  k 
Se definiamo
ee
ˆ 
n  k 
2
1
ˆ


n  k 
E 
n  k 
2
2
 2
è uno stimatore corretto
ESEMPIO (Greene p.200)
Gi  b1  b2 Pgi  b3 yi  b4 Pqi  ui
Gi =
Pgi =
Yi =
Pqi =
i : 1960 … 1986 , n = 27
consumo di benzina in $
indice dei prezzi benzina
reddito pro-capite in $
indice dei prezzi auto nuove
12
Vettore y
x1
x2
x3
121.01034
130.20306
136.62968
134.39852
150.34150
171.88391
175.44395
172.03874
198.65222
208.37573
214.38531
228.52113
237.37202
234.34193
222.32567
228.16247
242.33362
248.32557
240.93266
229.58893
227.13648
210.44373
236.85998
255.36365
243.75057
277.31965
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0.9250000
0.9140000
0.9190000
0.9180000
0.9140000
0.9490000
0.9700000
1.0000000
1.0470000
1.0560000
1.0630000
1.0760000
1.1810000
1.5990000
1.7080000
1.7790000
1.8820000
1.9630000
2.6560000
3.6910000
4.1090000
3.8940000
3.7640000
3.7070000
3.7380000
2.9210000
6036.0000
6113.0000
6271.0000
6378.0000
6727.0000
7027.0000
7280.0000
7513.0000
7891.0000
8134.0000
8322.0000
8562.0000
9042.0000
8867.0000
8944.0000
9175.0000
9381.0000
9735.0000
9829.0000
9722.0000
9769.0000
9725.0000
9930.0000
10421.000
10563.000
10780.000
x4
1.0450000
1.0450000
1.0410000
1.0350000
1.0320000
1.0090000
0.9910000
1.0000000
1.0440000
1.0760000
1.1200000
1.1100000
1.1110000
1.1750000
1.2760000
1.3570000
1.4290000
1.5380000
1.6600000
1.7930000
1.9020000
1.9760000
2.0260000
2.0850000
2.1520000
2.2400000
Matrice X’X;
27.000000
51.357000
229865.00
37.296000
Matrice inv (X’X);
51.357000
133.15081
473127.10
83.319118
2.6605735
0.51586178
0.51586178
0.30384762
-0.00029970528 -6.4047001e-07
-0.76246362
-0.78790617
Stime b=inv(X’X) * X’y;
-89.761482
-12.588147
0.039938109
-14.443884
229865.00
473127.10
2.0120502e+09
331319.22
37.296000
83.319118
331319.22
56.280428
-0.00029970528
-0.76246362
-6.4047001e-07
-0.78790617
6.6199636e-08 -0.00019015563
-0.00019015563
2.8089108
13
Y
121.01034
130.20306
136.62968
134.39852
150.34150
171.88391
175.44395
172.03874
198.65222
208.37573
n=10
X1
1.0000000
1.0000000
1.0000000
1.0000000
1.0000000
1.0000000
1.0000000
1.0000000
1.0000000
1.0000000
X2
0.92500000
0.91400000
0.91900000
0.91800000
0.91400000
0.94900000
0.97000000
1.00000000
1.04700000
1.05600000
X3
6036.0000
6113.0000
6271.0000
6378.0000
6727.0000
7027.0000
7280.0000
7513.0000
7891.0000
8134.0000
X4
1.0450000
1.0450000
1.0410000
1.0350000
1.0320000
1.0090000
0.9910000
1.0000000
1.0440000
1.0760000
(X’X)
10.000000
9.6120000
69370.000
10.318000
9.6120000
9.2665480
67031.717
9.9199470
69370.000
67031.717
4.8631105e+08
71575.421
10.318000
9.9199470
71575.421
10.651854
-30.407072
489.93203
-0.034015993
-198.24254
0.00072941000
-0.034015993
2.558142e-06
0.013782628
-167.53347
-198.24254
0.013782628
254.38467
Inv (X’X)
197.12839
-30.407072
0.00072941000
-167.53347
Beta =
inv(X’X)*X’y
-131.78025
-90.513381
0.045503884
61.076792
14
RICAPITOLANDO
1
ˆ
b  XX  X y
E bˆ  b



ˆ
ˆ
ˆ
Vb   E b  b b  b    XX  
1

2
e

i
2
ˆ 
nk
2
2
Eˆ   
2

Fino ad ora nessuna ipotesi è stata posta per la
distribuzione degli errori nel problema della stima.
Aggiungiamo :
ui
u
 N0 , 2 
 N0 , 2 I 
15
TEST PER LA VERIFICA DI IPOTESI
Dal teorema di GAUSS-MARKOV :
bˆ

 N b , XX 
1
2

Vogliamo testare
H0 : bi  0, H1 : bi  0
Ovvero vogliamo verificare se il regressore Xi è
effettivamente sulla variabile dipendente Y.
Nel caso (improbabile) che sia nota 2 la
statistica test è:
bˆi  b i

 XX 
2
1

ii
Sotto H 0 : bi  0
si distribuisce come una
normale standardizzata.
16
•Se il valore cade all’esterno dell’intervallo di
confidenza, per esempio al 95%, della N(0,1)
•rifiutiamo H0
ed il parametro bi sarà
“significativamente”
diverso
da
zero;
altrimenti non rifiutiamo H0 e concludiamo che
il parametro bi non sarà “significativo”
In generale per un sistema di ipotesi H0 : bi =c
contro H0 : bi c rifiuto, al livello 100e% di
significatività, quando
bˆi  c

z
e2
1
2
 XX  ii


17
QUANDO 2 NON E’ NOTA
• Utilizziamo la sua stima ̂ 2

aii   X X 
1
ee
ˆ 
ii
n  k 

2
• In questo caso la statistica test è
bˆi  b i
 t n k
ˆ a ii
dove

aii   X X 
1

ii
è l’elemento generico di posto ii nella diagonale
della (X’X)
Le ipotesi su bi
possono essere verificate
sostituendo i valori nella
statistica test e
controllando poi che la statistica superi o meno i
valori della regione critica della distribuzione tn-k .
18
Quindi per verificare la significatività di bi
procederò nel seguente modo:
H0 : bi =0 contro H1 : bi 0
Statistica test:
bˆi  b i bˆi  b i

ˆ a ii s.e.( bˆi )
Che sotto H0 si distribuisce come una t(n-k).
Pertanto fissato  se il valore della statistica
test cade all’esterno dell’intervallo di
confidenza
bˆi  t  s.e.bˆi , bˆi  t  s.e.bˆi 
2
2
Rifiuto H0 di non significatività del parametro,
altrimenti non rifiuto H0 e concludo che il
parametro non è significativo.
19
5. ADATTAMENTO DEL MODELLO
Come nel caso del modello di regressione
semplice, il coefficiente di determinazione
rappresenta la proporzione di variabilità totale
spiegata dal modello, ovvero una misura
dell’adattabilità del modello ai dati osservati.
La formula per esprimere il coefficiente è analoga
a quella dell regressione semplice, solo che in
questo caso per variabilità spiegata dal modello si
intende la variabilità spiegata dall’insieme dei
regressori
ESS TSS  RSS
ESS
R 

 1
TSS
TSS
TSS
2
20
§
ΣTSS, total sum of squares: somma totale
dei quadrati degli scarti della variabile
dipendente rispetto alla media
§ RSS, residual sum of sqares:somma dei
quadrati residua o non spiegata dal modello
§ ESS, explained sum of squares: somma
dei quadrati spiegata dal modello
Alternativamente si può scrivere:

Ŷ  Y 


 Y  Y 
2
R
2
i
2
i
21
0  R2  1
Il coefficiente di determinazione è un
indicatore del legame lineare tra Y e i
regressori.
• Ha però un difetto:
• Esso può aumentare anche se viene aggiunto un
regressore anche se non “spiega” y.
ei
RSS

2
R  1
 1
2
TSS
Y
i
2
• Se dividiamo le devianze per i gradi di libertà
andiamo a pesare il contributo a R2 di ogni
regressore
Rˆ 2  1 
2
e
 i n  k 
2
Y
 i n  1

n  1
2
ˆ

R  1
1  R2 
n  k 
22
TABELLA ANOVA
Causa
var.
Devianza G.L.
Stime var.
Modello
x2…..xk
SSE
k-1
ESS k  1
Residuo
RSS
n-k
RSS n  k 
Totale
TSS
n-1
TSS n  1
Nota: direttamente dalla tabella ANOVA si può
costruire il coefficiente di determinazione.
23
Per valutare la significatività del modello
si ricorre a:
H0 :
b2  ...  bk  0
H1 : almeno uno dei bi 0
• Si costruisce la statistica test F
ESS (k  1)
R 2 (k  1)
F

RSS n  k  1  R 2  n  k 
•
•Si individua il quantile 95% o il 99%
della distribuzione F(k-1),(n-k)
• Se F  F
si rifiuta H0
1 ;k 1n k 
ovvero si accetta la significatività
congiunta di tutte le variabili esplicative.
24
APPLICAZIONE (calcolo non matriciali)
Y  Xb  u
 b1 
 
b   b2 
b 
 3
n = 12
k= 3
yi  b1  b2 x2i  b3 x3i  ui
Facendo riferimento ai valori
Y 9
2
x
 2  10
X2  2
2
x
 3  15
X3  1
2
y
  200
 x y  12  x y  9  x x
2
3
2 3
Determinare il vettore di stime OLS
 11
25
Se consideriamo il modello in forma di scarti
dalle medie
 bˆ 2 
    X X 1 X  y
 bˆ 
 3
Dove
 x21
x
 22
X  .

 .
 x2 n
x31 
x32 

. 

. 
x3n 
x2i  X 2i  X 2
x3i  X 3i  X 3
bˆ 1  Y  bˆ 2 X 2  bˆ 3 X 3
  X 22i
 X X   
 X 2i X 3i
 X X 1  1
X X
X X
X
2i
2
3i
3i



  12  X 32i

  13  X X
2 i 3i

 13  X 2i X 3i 
 14  X 22i 
  X 32i


2 
2
2
 X 2i  X 3i   X 2i X 3i     X 2i X 3i
1
  X 2i X 3i 

2
 X 2i 
26
  X 2iYi 

X  y  

  X 3iYi 
da cui
 bˆ 2 
 
 bˆ 
 3
1

 X  X   X X 
 X  X Y   X
 
 X  X Y   X
2
2
2
2
3
2
2
3
2
2
3
2
3
X 3  X 3Y 


2 X 3  X 2Y 
2
15  12   11  9 180  99
bˆ 2 

 9.62
10  15  121
29
10  9   11  12 90  132
bˆ 3 

 7.65
10  15  121
29
bˆ 1  Y  bˆ 2 X 2  bˆ 3 X 3  9  2  9.62  7.65  17.89
 bˆ 1    17.89 
  

bˆ   bˆ 2    9.62 
 ˆ  

b
7
.
65
3


 
27
price
BDR
FLR
FP
RMS
ST
LOT
TAX
BTH
CON
GaR
CDN
L1
L2
53
55
56
58
64
44
49
70
72
82
85
45
47
49
56
60
62
64
66
35
38
43
46
46
50
65
2
2
3
3
3
4
5
3
4
4
8
2
3
4
4
2
3
4
2
4
3
3
2
2
2
3
967
815
900
1007
1100
897
1400
2261
1290
2104
2240
641
862
1043
1325
782
1126
1226
929
1137
743
596
803
696
691
1023
0
1
0
0
1
0
0
0
0
0
1
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
5
5
5
6
7
7
8
6
8
9
12
5
6
7
8
5
7
8
5
7
6
5
5
4
6
7
0
0
1
1
0
0
0
0
1
0
1
0
0
0
0
1
1
0
0
0
0
0
0
0
0
1
39
33
35
24
50
25
30
29
33
40
50
25
25
30
50
25
30
37
30
25
25
50
27
30
30
30
652
1000
897
964
1099
960
678
2700
800
1038
1200
860
600
676
1287
834
734
551
1355
561
489
752
774
440
549
900
1.5
1.0
1.5
1.5
1.5
2.0
1.0
1.0
1.5
2.5
3.0
1.0
1.0
1.5
1.5
1.0
2.0
2.0
1.0
1.5
1.0
1.0
1.0
2.0
1.0
2.0
1
1
1
0
1
0
0
0
1
1
0
0
1
0
0
0
1
0
1
0
1
0
1
1
0
1
0.0
2.0
1.0
2.0
1.5
1.0
1.0
2.0
1.5
1.0
2.0
0.0
0.0
0.0
0.0
0.0
0.0
2.0
1.0
0.0
0.0
0.0
0.0
1.0
2.0
1.0
0
1
0
0
0
0
1
0
0
1
0
0
0
0
0
0
1
0
0
0
0
0
1
0
1
0
1
1
1
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
Price=selling price of house in thousands of dollars
*BDR= Number of bedrooms
*FLR= Floor space in sq.ft(computed bfrom dimension of each
room and then augmented by 10%)
*FP=Number of fireplaces ; * RMS=Number of rooms
*ST=Storm windows (1 if present, 0 if absent)
LOT=Front footage of lot in feet ; TAX=Annual taxes
BTH=Number of bathrooms
GAR=Garage size (0=no garage, 1=one-car garage,…)
CDN=Condition (1=‘needs work’, 0 otherwise)
L1=Location (L1=1 if property is in zone A , L1=0 otherw.)
L2=Location (L2=1 if property is in zone B , L2=0 otherw.)
28
R=14 , n=26
SOURCE: Ms.Terry Tasch of Long-Kogan Realty, Chicago.
MULTIPLE REGRESSION
dependent variable : Price
Var-Covar matrix of Regression Coefficients (B)
Below diagonal : Covariance . Above :
Correlation
FLR
ST
FP
BDR
RMS
FLR 1.116E-05 .06523 -.02657 .01127
-.41096
ST
5.112E-04 5.50163 .06414
-.03717
-.08660
FP -2.529E-04 .42872 8.11969 .00430
-.06912
BDR 7.452E-05 -.17250 .02423 3.91444
-.83394
RMS
-.00230 -.33964 -.32930 -2.75873
2.79561
----------------------Variables in the Equation----------------------------Variable
B
SE B 95%Conf.
Intrvl B
Beta
FLR
.019124 .003341
.012155
.026092 .696273
ST
11.253185 2.345555 6.360443 16.145926 .404586
FP
10.295264 2.849507 4.351296 16.239232 .301084
BDR -7.826966 1.978493 -11.954030 -3.699901 -.812218
RMS 4.863990 1.672008 1.376242 8.351738 .658351
Const. 24.172544 4.903762 13.943476 34.401612
----------------in----------------Variable
T
Sig T
FLR
5.724
.0000
ST
4.798
.0001
FP
3.613
.0017
BDR -3.956
.0008
RMS
2.909
.0087
(Const.) 4.929
.0001
End Block Number 1 PIN=.050 Limits reached
PRICE=24.17+0.019*FLR +11.253*ST+10.295*FP-7.827*BDR+
29
+4.864*RMR=24.17+0.019*(100)+11.253*(1)+10.295*(0)-7.827*(3)+4.864*(6)=43.026 (prezzo stimato)
RIPRENDIAMO L’ESERCIZIO
(Applicazione lucidi precedenti)
H 0 : b 2  b3  0
( F0.01 , 2 , 9 = 8.02)
R 2 k  1
ESS k  1
F

2
1  R  n  k  RSS n  k 
bˆ X  y
R 
y y
2


Ricordiamo:
n = 12
k = 3 con
intercetta 
2 var. esplicative
in forma di scarti  y1 
ˆb bˆ   x21
2
3
x
 31
 
. . x2 n   . 
    
. . x3n 
.
 
 yn 
ˆb bˆ    X 2 y   bˆ
ˆ
X
y

b

2
3
2
2
3 X3 y
 X y
3 

9.62  12  7.65  9 184.29
R2 

 0.92
200
200
0.92 2
9
valore
F
 11.5   51.75
1  0.92 9
2
empirico di F


Si rifiuta H0 con un livello di significatività del
99%
F empirico = 51.75 >F0.01,2,9 = 8.02 30
Se avessimo voluto testare
H 0 : b2  0
Ovvero la significatività di X2
t
a22 
bˆ 2  b2
ˆ a22
2
tn  k
o
F 1, n  k 
(t99.9 = 2.82)
2
X
 3
 X 22  X 32   X 2 X 3 
2
15
15


 0.51
150  121 29
e e
TSS  ESS 200  184.29
ˆ 


 1.74
nk
9
9
bˆ 2
9.62
9.62
t


 6.4
2
valore
1.74  0.51 1.50
ˆ a22
2
Anche adesso rifiutiamo H0 
è significativo
empirico
di t
il regressore X2
31
6. PROBLEMI DI PREVISIONE
Si vuole prevedere il valore di Yn+1 per un
insieme di valori X non osservati come:
C  1 X 2,n 1 X 3,n 1 ... X k ,n 1
E’ possibile fare una previsione puntuale o stimare
un intervallo di previsioni.
Yn 1  b1  b2 X 2,n 1  ...  bk X k ,n 1  un 1
 C  b  un 1
1k k 1
E Yn 1   C b
11
Utilizzando le proprietà BLUE di b̂ avremo il
PREVISORE PUNTUALE
Yˆn1  Cbˆ
sarà BLUFF
Best Linear Unbiased Forecasting Function
32
Per ottenere un intervallo di previsione
è necessario individuare la distribuzione di
 

 ˆ
ˆ
ˆ
VarC b  E C b  C b C b  C b  
E C bˆ  C b





 
 ˆ
1
ˆ
 E C  b  b b  b C   C  X X  2C



1
Cbˆ  N Cb , 2CXX  C
Cbˆ  Cb
 CXX 1 C
e e

2
n  k 

 t n k
Quindi una stima intervallare con un livello
fiduciario del 100(1-e)% :
1
C bˆ  te 2 C  X X  C
C bˆ  te 2
 Cb  C bˆ  te 2
33
APPLICAZIONE
Y  b1  b2 X  u
Voglio prevedere Y dato X= X0. Per calcolare
l’intervallo devo determinare
 X 
 X 
 n
 X X   
 X
C  1
2
X 0
C  X X  C 
1
2
X

2
X
X

u
X

0
0
2
u  X   X 
Infatti
.
  X 2   X  1 
1
1 X 0 
  
2 
2
n  X 0 
n  X   X    X

1
n  X   X 

X


2
2
2
2
 1 
 X  X 0  X , X 0n   X  X  
 0


2
 X 0  X   X 02n  X 0  X 
n  X   X 
2
2
2

34

 X 2  2 X 0  X  nX 02
n X
2
  X 
2
1 X 0  X 

2
n
X

2

L’intervallo fiduciario sarà
C b  te 22 C  X X  C 
1
1 X 0  X 
 bˆ 1  bˆ 2 X 0  te 22

2
n
X



2
35
A parità di dati osservati l’intervallo sarà tanto
più largo quanto più X0 è distante da X
36
7. CENNI SULLE VARIABILI DUMMY
(Variabili di comodo)
Fino ad ora abbiamo assunto che nella equazione
generale
Y = Xb + u
Le variabili X siano variabili cardinali date dalla
teoria economica.
E’ possibile introdurre variabili cosiddette “di
comodo” che riescano a rappresentare diversi
fattori :
–
EFFETTI TEMPORALI
–
EFFETTI SPAZIALI
–
VARIABILI QUALITATIVE
37
È possibile che un modello economico possa
subire mutamenti strutturali :
FUNZIONE DI CONSUMO
C  1  b Y  u
Tempo di guerra
C  2  bY  u
Tempo di pace
Si ipotizza comunque che la propensione
marginale al consumo
C
b
Y
rimanga
invariata in entrambi i periodi
38
Invece di considerare i due modelli separatamente
(stime meno precise) vengono uniti in una sola
relazione
C  1 X1  2 X 2  bY  u
Dove X1 e X2 sono variabili dummy :
 1 anni di guerra
X1  
 0 anni di pace
 0 anni di guerra
X2  
anni di pace
1
 1 
 
b

La matrice b dei coefficienti sarà
 2
b

e la matrice dei dati
0 1 Y1 
0 1 Y2 
. . Y 
3


0
1
.


1
0
.
X   X 1 X 2 Y   1 0 . 


. . . 
1 0 . 
0 1 . 
. . . 
39
0 1 Yn 
La trappola delle variabili di comodo
Quando utilizziamo le variabili dummy è
necessario fare attenzione a come viene costruito
il modello, per non rendere la matrice (X’X)
singolare .
Infatti se nel modello precedente lasciavamo una
intercetta : C  0  1 X 1  2 X 2  bY  u
1
1
.
1
1
X  1
.
1
1

.
1
0
0
.
0
1
1
.
1
0
.
0
1 Y1 
1 Y2 
. .
1 .
0 .
0 .
. .
0 .
1 . 
. .
1 Yn 
1 X 0  1 X1  1 X 2  0  Y  0
Abbiamo che le 4 colonne di X sono linearmente
dipendenti rank  X   rank  X X   3  k
40
(X’X) non è invertibile
Volendo utilizzare una regressione con intercetta si
utilizzerà così solo una dummy :
C  g1  g 2 X 2  b Y  u
0

X2  
1
•
anni di guerra
anni di pace
b = PMC in entrambi i periodi
1 = g1 = intercetta anni di guerra
2 = g1 + g2 = intercetta anni di pace
1 – 2 = g2 = differenza tra l’intercetta del
periodo guerra e pace
Cambiamento di coefficiente angolare
C    b1Y  b2  b1 X 2Y  u
0

X2  
1
anni di guerra
anni di pace
C    b1Y  u
C    b2Y  u
b2 – b1 = differenza propensione marginale41al
consumo nei due periodi
APPLICAZIONE
(p.255 Maddala)
Y = b1 + b2 SVA + u
Y = km / litro
SVA = Stima Vita Auto in anni
Yˆ  7.952 0.693 SVA
1.753
0.061
R 2  0.74
Y  b1  b2W  b3 S
A
 b4 G
D
 b5 SVA  u
W = peso in Kg
 0 cambio sta ndard
S 
A 1 cambio automatico

0 gas
G 
D 1 diesel

Yˆ  22.008 0.002 W  2.760 S
5.349
0.001
0.708
A
 3.28 G
1.413
D
 0.415 SVA
0.097
R 2  0.82
42
8. SPECIFICAZIONE DEL MODELLO
In ogni studio econometrico, la scelta del
modello è la prima fase del lavoro. Gli
aspetti fondamentali sono:
a) La scelta della forma funzionale
b) La scelta dei regressori
c) La verica sulle assunzioni del modello.
43
a. La scelta della forma funzionale
Abbiamo parlato di modelli di regressione
lineari, intendendo lineari nei parametri,
ovvero anche di quei modelli che possono
essere resi lineari tramite una opportuna
trasformazione delle variabili. Ad esempio
si consideri la funzione di produzione
Cobb- Douglas (Y produzione, L lavoro, K
capitale:
Y=L^bK^g
Potrebbe sembrare non lineare, tuttavia dopo
aver
applicato
la
trasformazione
logaritmica otteniamo:
Ln(Y)=ln()+ bln(L)+ gln(K)
Il modello così trasformato è lineare nei
parametri e può essere facilmente trattato
ed interpretato.
44
Esistono forme di modelli che risultano
lineari nei parametri, ma sui quali fare
attenzione
soprattutto
in
fase
di
interpretazione.
Modelli polinomiali: consideriamo un
esempio. In microeconomia si studiano
funzioni di produzione, se consideriamo la
relazione tra prodotto medio ottenuto da
aziende produttrici di materiale elettrico
(AP: average product) e l’input (I) necessario
alla produzione
AP
45
È evidente che la relazione non è costante e
quindi non può essere rappresentata da un
modello “linearenella variabili”. La relazione
può essere espressa da un polinomio:
AP    bI  gI2  e
Questa forma funzionale ha una forma non
lineare ma risulta ancora un modello di
regressione lineare essendo lineare nei
parametri. Tali parametri si stimano con OLS
e gli stimatori hanno tutte le “buone”
proprietà; ma attenzione all’interpreatazione!
I parametri che si stimano non sono di per
se’ le pendenze, che invece sono date da
dE(AP)
 b  2gI
dI
E pertanto cambia per ogni valori di I con i
parametri b e g.
46
Modelli con interazioni: quando in un modello
si inserisce ilprodotto tra due variabili
esplicative (interazione) l’effeto che si ottiene
è quello di alterare la relazione di ognuna di
esse con la variabile dipendente del modello.
Per capire l’effetto consideriamo un esempio:
studiamo l’effetto di reddito (Y) ed età (AGE)
sul consumo di pizza C, supponiamo di avere i
dati su un campione di individui con età
superiore a 17 anni. Il modello
senza
interazione:
C=+ bAGE+ gY+e
dE(C)/dAGE= b per qualsiasi livello di reddito
la spesa attesa per pizza varia di b per un
incremento di un anno di età (si presume b<0).
dE(C)/dY= g per qualsiasi età la spesa attesa
per pizza varia di g per un incremento di un
euro di reddito (si presume g>0).
47
In realtà sembrerebbe più ragionevole pensare
che da una certa età in poi, con il crescere
dell’età, la propensione marginale a spendere in
pizza diminuisca. Siamo cioè nel caso in cui
l’effetto di una variabile è modificato da
un’altra. Per tenere conto di ciò il modello che
dobbiamo specificare è il seguente:
C=+ bAGE+ gY+(AGE*Y)+e
Gli effetti di Y e AGE sono:
dE(C)/dAGE= b + Y al crescere dell’età ci si
aspetta che la spesa pe pizza si riduca, inoltre
siccome presumibilmente <0, maggiore è il
reddito, maggiore è la riduzione della spesa per
pizza.
dE(C)/dY= g + AGE la propensione marginale
a spendere in pizza dipende da AGE, quindi la
propensione diminuisce sempre più al crescere
dell’età.
48
b. La scelta dei regressori
Nella scelta delle variabili esplicative di un
modello di regressione, si cerca di seguire
i principi esistenti sull’argomento trattato,
la logica e l’esperienza.Tuttavia può
accadere che nella scelta si siano omesse
importanti variabili o inserite variabili
irrilevanti, vediamo quali problemi si
incontrano in questi casi.

Variabili rilevanti omesse: è come
introdurre restrizioni (parametro=0) non
vere sul modello. La stima OLS dei
restanti parametri del modello risulta
generalmente distorta, inoltre gli standard
error di tali parametri sono sottostimati. Il
caso in cui gli stimatori OLS non sono
distorti si ha quando le variabili omesse
sono incorrelate con le variabili inserite.
Per realizzare che alcune variabili rilevanti
del modello sono state omesse si deve
49
proprio fare attenzione a segni o valori dei
coefficienti inaspettati. Si potrebbe pensare
che per ovviare a questo problema il
ricercatore dovrebbe inserire nel modello
tutte le variabili che ha a disposizione; in
questo modo tuttavia si potrebbe complicare
il modello eccessivamente ed inoltre
introdurre variabili irrilevanti.
Variabili irrilevanti inserite: gli stimatori
OLS che si ottengono sono corretti, tuttavia
la varianza degli stimatori dei parametri
relativi alle variabili “buone” risulta
maggiore di quella che avremmo ottenuto
specificando il modello correttamente. Il
motivo di questa sovrastima è legato al fatto
che il Teorema di Gauss Markov dice che lo
stimatore b.l.u.e. è lo stimatore OLS relaivo
ad un modello correttamente specificato.
50
9.
VIOLAZIONI
DELLE
IPOTESI DEL
MODELLO
a)
b)
c)
Multicollinearità
Etroschedasticità
Autocorrelazione dei residui
51
a. MULTICOLLINEARITA’
Quando due o più variabili esplicative di un
modello di regressione lineare si muovono
sistematicamente “insieme” esiste un problema
di multicollinearità. Le conseguenze di una tale
situazione in un modello econometrico possono
essere riassunte così:
•Se esiste una relazione lineare esatta tra le
variabili esplicative (due o più) si parla di esatta
multicollinearitànon si possono determinare le
stime OLS dei parametri.
•Se la dipendenza lineare tra le variabili è quasi
perfetta, ma non perfetta (coefficiente di
correlazione prossimo a 1),siamo nel caso di
quasi multicollinearità le stime OLS si
determinano ma sono molto instabili a causa
degli elevati standard error, si determinano
intervalli di confidenza molto larghi.
52
Cosa fare?
Nel caso di esatta multicollinearità si può fare una
sostituzione di variabile.
Esempio:
Y    b1 X 1  b2 X 2  u
X 2  g X1  
Y    b1 X 1  b2  b2 g X 1  u
 1   2 X 1  u
1    b2
 2  b1  g b2
53
Nel caso in cui due o più regressori siano quasicollineari, si incontrano i problemi maggiori:
Varianze campionarie molto alte
Covarianze sovrastimate
Forte instabilità dei coefficienti stimati per piccole
variazioni dei dati.
Per comprendere il perché di questi effetti si
consideri il modello di regressione a tre variabili:
Y  b1  b 2 X 2  b 3 X 3  u
Y  b 2 X 2  b 3X 3  u  u
ˆ2 

b
1
bˆ     XX  X y
 bˆ3 

1
V bˆ   2 XX 
  X 32
  X 2X3 
2



2
2

2
2

X
X
X


X
X

X
X


2
3
2

 2 3  2 3 
54
2  X 32
 
V bˆ 2 
X X
2
2
2
3
  X 2 X 3 
2

2  X 32

X X
2
2
2
3
 X
2
2
2
X
 3   X 2 X 3 
2
2
X
X
 2 3
2

2

2
2

X
1

r
 2 23 
 
2

V bˆ 3 
2
2

X
1

r
 3 23 
È facile vedere che valori molto alti di
rendono le stime OLS molto imprecise. r232
Inoltre, nell’esempio che segue vediamo che
piccole variazioni nella matrice dei dati possono
provocare grandi variazioni nella stima dei
parametri.
55
ESEMPIO-APPLICAZIONE:
instabilità delle stime
Y  b 2 X 2  b3 X 3  u  u
Dati :
2
X
 2i  200
2
X
 3i  113
bˆ 2 
X
X
X
2i
X 3i  150
Y  350
2i i
Y  263
3i i
2
X
 3  X 2Y   X 2 X 3  X 3Y
X X
2
2
  X 2 X 3 
2
2
3

113  350  150  263 39550  39450 100


 1
2
200  113  150
22600  22500 100
ˆb  52600  52500  100  1
3
22600  22500 100

X X 


X X
2
2
X2X3
r
2
2
2
3
2
3
1502

 0.995
200  113
56
Togliendo solo una osservazione:
X
X
2
2
 199
2
3
 112
 X X  149
 X Y  327.5
 X Y  261.5
2
3
2
3
ˆb  112  347.5  149  261.5   43.5 
2
199  112  149 2
87
ˆb  199  261.5  149  347.5  261 
3
199  112  149 2
87
1

2
3
Si modificano molto le stime
57
Come identificare un problema di
multicollinearità?
La via più intuitiva è quella di osservare la
matrice di correlazione delle variabili, se
identifichiamo coefficienti di correlazione
prossimi a 0.9 (in valore assoluto) abbiamo
ragione di credere che il problema della quasi
multicollinearità sia presente.
Tuttavia con il suddetto metodo si identificano
problemi per coppie di variabili, resta il dubbio
su cosa fare se sono più di due le variabili a
creare multicollinearità. Una strategia è quella
di fare “regressioni ausiliarie” tra una variabile
“sospetta” e le altre esplicative; se il
coefficiente di determinazione che si ottiene è
prossimo a 1 sicuramente il coefficiente di
regressione della variabile sospetta –nella
regressione originale- risente del problema
della multicollinearità.
58
b.ETEROSCHEDASTICITA’
Avevamo
ipotizzato
che
E uu  2 I
tale assunzione è in molte situazioni non valida. In
effetti, se noi consideriamo come variabile
dipendente di un modello la spesa per alimenti Y e
come variabile indipendente il reddito X, è poco
plausibile assumere omoschedasticità perché al
crescere del reddito ci sono molti più fattori di
soggettività nella scelta degli alimenti e quindi nella
relativa spesa. Il modo più semplice per valutare la
validità dell’ipotesi di omoschedasticità è
considerare i residui OLS del modello stimato e
tracciare un diagramma cartesiano in cui in
corrispondenza di ogni valore di X si riporta il
corrispondente residuo stimato.Se i residui risultano
casualmente dispersi attorno allo zero, si può
supporre che l’ipotesi di omoschedasticità sia
plausibile, se essi hanno un andamento sistematico a
ventaglio o quadratico o sinusoidale la nostra ipotesi
59
Risulta presumibilmente non vera. Nel nostro
esempio i residui saranno disposti a ventaglio,
dato che al crescere del reddito essi
cresceranno.
Quali
sono
le
conseguenze
dell’eteroschedasticità negli stimatori OLS dei
parametri?
Innanzi tutto è opportuno comprende quale
diventa la nuova formulazione dell’ipotesi sul
termine stocastico:
Euu   0
2
2
2

Eu u    , con Eu i    i
Le stime OLS dei parametri sono:
1
bˆ   X X  X  y
y  Xb  u

1
E bˆ  b   X X  X  E u   b
60
Quindi STIMATORI OLS ancora lineri e corretti,
tuttavia vediamo che si perde l’efficienza, infatti:

1
1
V bˆ   X X  X  E uu X  X X 
  X X  X    X X  2
1
1
Ne consegue che gli intervalli di confidenza
e risultati della verifica di ipotesi possono
essere fuorvianti.
Per
individuare
la
presenza
di
eteroschedasticità la via più intuitiva è quella
di fare un’analisi dei residui, tuttavia essa
può essere complessa se le variabili
esplicative sono molte. Ci sono inoltre alcuni
test che si basano in generale sempre sui
residui.
61
GOLDFELD – QUANDT TEST
- Si ordinano le osservazioni secondo la
variabile Xj che si ipotizza sia la causa
dell’eteroschedasticità
- Si divide il campione in tre parti di
numerosità n1 n2 n3 .
- Dopo la stima OLS nei tre sottocampioni si
calcola
e1 e1
e3 e3
e1 e1
F
Fn1 k , n2 k
e3 e3
Sotto H0 : omoschedasticità : (il valore di F è
piccolo)
Fempirico  Fteorico  Rifiuto H 0
62
RIMEDI
1. i
i=1,…,n
siano valori noti.
si applicano i MINIMI QUADRATI PESATI (WLS)
ovvero si applica OLS al modello trasformato
y
y  i
i
*
i
Ovvero
Dove
;
x 
*
ij
xij
i
;
e*i 
ei
i
yi*  b1 xi*1  b2 xi*2  ...  bk xik*  e*i
2


e
1

Var e*i   Var i   2 Varei   i2  1
i
 i  i
Nella pratica i non sono noti quindi il metodo
non è applicabile in pratica
63
2. relazione tra la componente stocastica e uno
dei regressori, ad esempio
yi  b1  b2 xi 2  ...  bk xik  ei
Var ei  C xi22
Trasformiamo il modello
yi
y 
xi 2
*
i
;
x 
*
ij
xij
xi 2
;
ei
e 
xi 2
*
i
yi
1
xik ei

 b1
 b2  ...  bk

xi 2
xi 2
xi 2 xi 2
 ei  1
Var e   Var   2 Varei   C
 xi 2  xi 2
*
i
64
applico
OLS e ottengo stimatori B.L.U.E. per i
parametri di interesse.
3. Si stima il modello originale ottenendo stimatori
lineari e corretti, per il calcolo degli s.e. dei
parametri si ricorre allo stimatore di White che tutti
i software prevedono.
65
ESERCIZIO
La stima di un modello lineare sulla base dei
valori del Reddito e del Consumo di 30 famiglie
americane fornisce i seguenti valori :
Cˆ  1480  0.788 y
3.29
29.37
R2  0.97
La stima dello stesso modello sulle prime 12 e
sulle ultime 12 osservazioni fornisce i seguenti
valori:
Cˆ  846.7  0.837 y
0.74 
9.91
Cˆ  2306.7  0.747 y
0.79 
5.00
R 2  0.91
SEQ  1069000
R 2  0.71
SEQ  3344000
Verificare l’ipotesi H0 di omoschedasticità
3344000
F
 3.12
F10,10  1.83
1069000
Rifiuto H0: c’è eteroschedasticità
66
c.AUTOCORRELAZIONE DEI RESIDUI
Nelle analisi di dati cross-sectional le osservazioni
sono generalmente individui o famiglie o aziende
che costituiscono un campione casuale di una
popolazione. Il fatto che il campione sia casuale,
generalmente implica l’incorrelazione dei termini
casuali.
E uu  2 I
Quando si hanno invece serie storiche o comunque
osservazioni che seguono un ordine temporale tale
ipotesi si altera ed i termini di errore risultano
generalmente tra loro correlati.
Per illustrare il problema consideriamo una semplice
relazione a due variabili
yt    bX t  ut
ut   ut 1  et
67
Le ipotesi aggiuntive su tale modello,
detto modello autoregressivo del primo
ordine AR(1) sono:
 1
E et   0
2e
E et et  s   
 0
s0
s0
Quindi:
ut   ut 1  et
  ut 2  et 1   et
 et   et 1  2 et 2  ... 

   r et  r
r:0
68

E ut   r E et r   0
r:0
E ut2   E et2   2 E et21   4 E et22   ...
0
0
2
 2 E et et 1   2 E et et 2   ...
0
 2 E et 1et 2   ...
 2e 1  2  4  ...
2e
2



u
1  2
69


E ut ut 1   E et   et 1  2 et 2  ...  et 1   et 2  ... 
  2e  3 2e  5 2e  ... 
  2e 1 2 4  ... 
2e
2




u
1  2
et   et 1   2 et 2  3et 3  

E ut ut 2   E 
 e   e   2 e  ... 
t 3
t 4
 t 2

  2 2e   42e  62e  ... 
2e
2 2



u
2
1 
2
E ut ut  s    s u2
 1
 2
 
1 

E u u  V  u2  2

.
.
.
 .
n 1 n 2 .
. n 1 
. n 2 

.
. 
.  
 1 
70
CONSEGUENZE per OLS
1.
2.
3.
4.
Stime OLS di b lineari e corrette
Varianze di b̂ molto grandi ovvero
Sottostima di tali varianze
inefficienti
Conseguente non validità dei test t ed F
Infatti si può dimostrare che
 1  2 
E e e    u 
2
1




2
u
Solo se 2 = 0
 e e 
2
2
ˆ
E

E



u
 n  1
 
Con N=20 ;  = 0.5 :
 e e  18.3 2
E

u

 n  1 19
sottostima 4%
Con N=20 ;  = 0.8
 e e  15.4 2
E

u

 n  1 19
sottostima 19%
71
TEST DI DURBIN - WATSON
n
d
2


e

e
 t t 1
eˆ  y  Xbˆ
t 2
n
e
2
t
residui nella
stima OLS
t 1
n
n 2 n 2 
 et   et 1   2 et et 1
t 2
t 2

d   t 2
n
 et2
per n grande
t 1
ee

d 22
e
t
0
dL
autocorr.(+) ?
t 1
2
t
  et et 1 
 2 1 
 21  r 
2 

 et 
0d 4
dH
2
4-dH
No autocorr.
?
4-dL 4
Autocorr.(-)
Il limite tra la zona di accettazione e quella di
rifiuto è funzione della matrice X .
D – W hanno costruito delle bande valide 72
sempre.
METODI RISOLUTIVI
1.
GLS : se ho una stima di 
1 ˆ
ˆ 1
et et 1

ˆ 

2
 et
. .
. .
. ˆ n 1 
. . 
. . 
. 1 
Riesco a trovare la matrice T : T  T  1
e trasformo il modello in Ty  TXb  Tu
Var Tu   2 I 
stima OLS
73
Scarica

C - Modello di regressione lineare multipla