IL MODELLO DI REGRESSIONE MULTIPLA
Yi  1   2 X 2i  3 X 3i  ...   K X Ki   i
Per le N osservazioni possiamo scrivere:
Y1  1   2 X 21   3 X 31  ...   K X K 1  1
Y2  1   2 X 22   3 X 32  ...   K X K 2   2
.
.
.
YN  1   2 X 2 N   3 X 3 N  ...   K X KN   N
 Y1 
Y 
 2
. 
Y  
. 
. 
 
 YN 
VETTORE
COLONNA
(N*1)
1
1

1
.
X 
.
.

1
 1 
 
 2
. 
  
. 
. 
 
 K 
X 21...... X K 1 

X 22 ...... X K 2 

.

.


.

X 2 N ...... X KN 
VETTORE
COLONNA
(K*1)
MATRICE (N*K)
 1 
 
 2 
 .  VETTORE
  
 .  COLONNA
 .  (N*1)
 
N 
IL MODELLO IN FORMA MATRICIALE DIVIENE:
Y=Xβ+ε
2
1
 Y1 

Y 
1
 2
.
. 
  
.
. 
.
. 

 
1
 YN 
(N*1)
X 21...... X K 1 

X 22 ...... X K 2 

.

.


.

X 2 N ...... X KN 
(N*K)
 1    1 
   
 2  2 
.  . 
   
.  . 
.  . 
   
 K  N 
(K*1)
(N*1)
LA MATRICE X HA ELEMENTO GENERICO X ij IN CUI
L’INDICE j RAPPRESENTA LA VARIABILE (REGRESSORE)
CONSIDERATA (j=1,2, … ,K) MENTRE L’INDICE i
DENOTA LA i-ESIMA OSSERVAZIONE (i=1,2,…,N).
OGNI COLONNA DI
È UN VETTORE DI N
X
OSSERVAZIONI
COSTANTE PER REGRESSORI j
INTERCETTA
1
2 ………K
OSSERVAZIONI i
 1 X 21...... X K 1  1

 2
1
.
X 
.
.

1
X 22 ...... X K 2 

.

.


.

X 2 N ...... X KN  N
3
ASSUNZIONI PER STIME OLS
1. SPECIFICAZIONE LINEARE DEL MODELLO
y  X 
2.a X ij SONO NON STOCASTICI.
2.b IL RANGO DI
3.
E    0
X È UGUALE A K<N
 
E    2 I
'
OMOSCHEDASTICITA’
INCORRELAZIONE
4. LA VARIABILE DI ERRORE HA DISTRIBUZIONE
NORMALE
X
LA
2., RANK X =K<N, ASSICURA L’ASSENZA DI
MULTICOLLINEARITÀ. INFATTI QUANDO RANK X < K
UNA DELLE COLONNE SAREBBE COMBINAZIONE
LINEARE DELLE ALTRE E QUINDI LA MATRICE X
RISULTEREBBE SINGOLARE
LA 3. GARANTISCE CHE GLI ERRORI ABBIANO MEDIA
NULLA, VARIANZA FINITA E COSTANTE E
COVARIANZA NULLA. ESAMINIAMO LA MATRICE DI
VARIANZA E COVARIANZA DERIVANTE DA
'
 
E 
4
 
E 
'
 1 

 


 2 



 . 

 E   *  1 ,  2 ,...,  N  
 . 

 . 

 

  N 



COV 1 2  COV 1 N 



2
 E 1  E 1 2  ......E 1 N  


2
  E  21  E  2  ......E  2 N    












    

 E  N 1  E  N  2  ......E  N 2  


0
2
 2I
ALLORA TUTTI I VALORI AL DI FUORI DELLA
DIAGONALE PRINCIPALE SONO NULLI E QUELLI SULLA
2
DIAGONALE SONO UGUALI A  , CIOÈ:
5


 2


0......0


   0  2 ......0    2 I


 ..... ............ 
2
0
0......





 1
0......0 


I  0
1......0 


......
............


0
0.......1 

STIMA OLS
OBIETTIVO: DETERMINARE
MINIMIZZA LA QUANTITÀ
IL
VETTORE
ˆ
CHE
'
2
ˆ
ˆ
RSS    i   ˆ
DOVE:
ˆ  y  yˆ
VETTORE (N*1) DEI RESIDUI
ŷ  X ˆ
VETTORE (N*1)
TEORICI
ˆ
SOSTITUENDO

VALORI
VETTORE DELLE STIME OLS
E
ˆ ˆ  y  X ˆ
'
DEI
IN
SI HA:
  y  X ˆ  
'
B
'
'
'
'
'
ˆ
ˆ
ˆ
 y y   X y  y X    X X ˆ 
'
A
'
'
'
'
ˆ
ˆ
 y y  2  X y   X X ˆ
'
6
QUESTO PERCHÈ A E B SONO ENTRAMBI DUE SCALARI
UGUALI. INFATTI
A


  y1 
 1
 y 
1..............1

 2 
ˆ1.......ˆk  X 21 X 22 ...... X 2 N   .  =SCALARE

 
..................
......
(1*K)

 . 
X
 
 K 1 X K 2 ...... X KN   y N 

(K*N)
B
(N*1)
ANALOGAMENTE
MINIMIZZANDO LA
, CIOÈ:
 ˆ ' ˆ
'
'
 2 X Y  2 X X ˆ  0

SI HA:

 


ˆ  X ' X
1
'
XY

1
'
LA MATRICE
DETTA MATRICE “CROSSX X
PRODUCT”, HA CERTAMENTE L’INVERSA per l’ipotesi
RANK X  K


1
che implica RANK X ' X =K
ovvero
X X 
'
NON SINGOLARE.
7
1
DIMENSIONI DELLE MATRICI
ˆ   K *1
X  K * N ; X   N * K 
'
 X X   K * K ; X X   K * K 
Y   N *1 ;  X Y    K *1
 X X   X Y    K *1
'
'
1
'
1
'
'
MATRICE “CROSS-PRODUCT”
X X 
'
1
1.............1 1
X 21...... X K 1
X 21
X 22 ...... X 2 N *1
X 22 ...... X K 2
....... .................. .
X K 1 X K 2 ...... X KN .
(K*N)
.
.
=
.
.
1 X 2 N ...... X KN
(N*K)
8




N
X
.............
X
 2i
 Ki 

2

  X 2i  X 2i ...... X Ki X 2i 


 ........... .................................. 


  X Ki  X X ...... X 2 
Ki 2 i
Ki 

X K1 X 21  X K 2 X 22  ...  X KN X 2 N
X 21 *1  X 22 *1  ...  X 2 N *1
X K 1 X K 1  X K 2 X K 2  ...  X KN X KN
VETTORE

'
XY
Y1
1
X 21
1.............1 Y2
X 22 ...... X 2 N * .
....... .................. .
X K 1 X K 2 ...... X KN YN

  Yi



  X 2iYi 


.


.



.

 X Y
  Ki i 
9
PRODOTTO

'
X X
 
1
'
XY




 X 2i ............. X Ki 
 N
2
 X

X
......
X
X



2i
2i
Ki 2 i 

 ........... .................................. 

2
  X Ki  X X ...... X 
Ki 2 i
Ki 


1
  Yi
  ˆ1 

  
  X 2iYi   ˆ2 

  
.

  . 
.
 . 

  
.

 . 
 X Y   ˆ 
  Ki i   K 
10
DALLE RELAZIONI MATRICIALI VISTE SEGUONO DUE
RISULTATI UTILI PER SUCCESSIVI SVILUPPI:
1)
X ' ˆ  X ' (Y  Xˆ )  X ' Y  X ' Xˆ  0
PERCHÈ
 ESS
'
'
 2 X Y  2 X X ˆ  0
 ˆ
ˆ ' ˆ  Y ' Y  ˆ ' X ' Y
2)
PERCHÈ:
ˆ' ˆ  Y ' Y  2 ˆ ' X ' Y  ˆ ' X ' Xˆ
COME GIÀ VISTO
E PERCHÈ:

ˆ  X ' X
 
1
'
XY

IL RISULTATO 1) CI DICE CHE IL PRODOTTO
INCROCIATO TRA I REGRESSORI E GLI ERRORI È NULLO.
CIÒ È LA TRADUZIONE CAMPIONARIA DELLA
ASSUNZIONE E X '  '  0 , IN ALTRE PAROLE CHE I
RESIDUI NON DEVONO DIPENDERE DAI REGRESSORI.
11


PROPRIETÀ DEGLI STIMATORI OLS
VALORE ATTESO DI ˆ

    
 X X  X X   X X 
    X X  X     A
ˆ  X ' X
'
CON
1
1
'
'
1

'
1
'
1
XY  X X
'
A X X
'

X X   
'
X
'
'
1
X
'
ALLORA:
 
E  ˆ   
E ˆ    E  A     AE  
ˆ
0
VETTORE DI STIMATORI CORRETTI
12
ˆ
VARIANZA DEGLI STIMATORI

 
V  VAR ˆ  E ˆ  

ˆ  
 
'








 E ˆ   2 ................. .......... E ˆ   ˆ  
K
K
1
1
1
1


  ..................................... ..............................................  


2
 E ˆ   ˆ  
........................... E ˆK   K 
1
1
K
K


VAR ˆ1 ........ .........COV ˆ1ˆK 


  ...................... ............................. 


ˆ
ˆ
ˆ
 COV 1 K
................VAR  K 







 
 


      

 E  A A   AE   A  A  I  A   AA
VAR ˆ  E ˆ  
'
 A  A  
E
'
'
'
'
ˆ  
'
'
2
'
2
DATO CHE GLI ELEMENTI DI A SONO NON STOCASTICI.
 X X  X  X X  X  
  X X  X  X  X X   
AA 
'
'

 X X
'
1
'
1
'
1
'
'
'
'
'
NB LA matrice
cross product è
simmetrica
1
  X X  X X    X X 
1
'
'
1
'
1
13
PERTANTO:

E ˆ  

ˆ  
  X X 
'
2
'
1
VEDIAMO SE TALE VARIANZA È MINIMA. RICORDANDO
CHE ˆ  AY , CONSIDERIAMO LA MATRICE ARBITRARIA
C
E LO STIMATORE LINEARE alternativo
b.
b  ( A  C )Y  ( AY  CY )  ˆ  CY 
 ( A  C ) X  ( A  C )
LA MEDIA DI

È:
b
E  b  X X
'

1
X X   C X   I  C X  
'
CHE RISULTA UGUALE A

CALCOLIAMO ORA:

SE E SOLO SE
CX  0
 
VAR  b   E  b    b     E  A  C     A  C   
'
'

QUESTO PERCHÈ
AX  ( X ' X )1 X ' X  I
b  AX  CX  ( A  C )    ( A  C )
14
PERTANTO:
VAR  b   E


 
 A  C    A  C    A  C  E 
'
'
  2  A  C  A  C 
'
A  C 
'
'
MA
 A  C  A  C 

'
X X


1
 X X
'

 AA  C A  AC  CC 
'
'

'
'
X X X X
1
 CC

1
'
'

CX X X
'
'
 
1
 X X
'

1
X C  CC 
'
'
'
= 0 =
'
AFFINCHÈ E  b   
PERTANTO:

'
VAR  b     X X

2

1
 
'
'
 CC   VAR ˆ   2 CC

SI PUÒ DIMOSTRARE CHE LA MATRICE CC ' È POSITIVA
SEMIDEFINITA. PERTANTO
LA FORMA QUADRATICA
AD
ESSA
ASSOCIATA
È
POSITIVA,
ALLORA
. QUANDO
TALE
VAR
VAR ˆ QUADRATICA È NULLA,
 b  FORMA
ALLORA TUTTI GLI ELEMENTI DI
SONO ZERO E
PERTANTO
.
b  ˆ
C
 
QUINDI
ˆ
È BLUE
15
CONSISTENZA IN MEDIA QUADRATICA DEGLI
STIMATORI OLS ˆ
Gli stimatori dei minimi quadrati sono consistenti
in media quadratica.
Per dimostrare questa proprietà è necessaria
un’ipotesi ulteriore, cioè
1
lim
X ' X   XX
n  n
Con  XX matrice finita e non singolare. Si
osservi che tale matrice contiene le medie delle
variabili esplicative, dei loro quadrati e dei loro
prodotti. E’ quindi ragionevole assumere che il
limite di queste quantità, al divergere della
numerosità campionaria, sia finito. Per
dimostrare la consistenza in media quadratica è
necessario verificare le due condizioni seguenti
16
 
lim E ˆ  
n 
 
lim Var ˆ j  0 per ogni j  1...k
n 
La prima condizione è verificata: essendo gli
stimatori OLS non distorti per n finito, lo
sono anche asintoticamente. Per verificare la
seconda condizione si considera il limite della
matrice di varianza e covarianza di ˆ ,
lim  2 ( X ' X ) 1 
n 
  X'X 
 lim


2
n 
n 
n

1
 0   XX  0
Asintoticamente la matrice di varianza e covarianza
converge ad una matrice nulla e di conseguenza le
varianze degli stimatori tendono a zero.
17
STIMA DI
2
Obiettivo : ricavare una stima della varianza dei
termini di errore del modello. Poiché gli errori
non sono osservabili pare ragionevole stimare
utilizzando la devianza residua RSS. Il punto è
determinare il divisore della devianza residua: la
soluzione possiamo trovarla imponendo il
vincolo che lo stimatore di  2appartenga alla
classe degli stimatori corretti.
ˆ  (Y  Xˆ )  Y  X ( X ' X )1 X ' Y 
 ( I  ( X ' X )1 X ' )Y  MY
dove
M  I  X ( X ' X )1 X '
M è una matrice SIMMETRICA e IDEMPOTENTE
Matrice idempotente
Una matrice simmetrica P è idempotente se
PP = P.
18
MX  X  X ( X ' X )1 X ' X  0
ˆ  MY  M ( X   )  M
Dalla Idempotenza e simmetria di M segue
che
ˆ' ˆ  ( M )' M   ' M ' M   ' M
Calcolando il valore atteso:
E (ˆ' ˆ)  E ( ' M )  E Tr( ' M )
poiché  ' M è scalare
E (ˆ' ˆ)  E Tr( M ' ) 
si definisce traccia
di una matrice, e si
utilizza il simbolo
tr(A), la somma dei
valori di tutti gli
elementi che
stanno nella
diagonale
principale della
matrice A.
tr(AB) = tr(BA)
 TrM  E ( ' )   Tr( M  I )   Tr( M )
2
2
19
Dalla definizione di M si ha

1

Tr( M )  Tr( I )  Tr X ( X ' X ) X ' 

1

 Tr( I n )  Tr ( X ' X ) X ' X 
 Tr( I n )  Tr( I k )  n  k
E (ˆ' ˆ )   2 (n  k ) pertanto
2

2
2
ˆ' ˆ
2
E(s
)


(
n

k
)


s 
nk
nk
rappresenta lo stimatore corretto della varianza
del termine di errore del modello.
La radice quadrata dello stimatore, s, viene detta
errore standard della stima.
20
Una spiegazione intuitiva della circostanza che lo
stimatore non distorto è ottenuto dividendo la
somma dei quadrati dei residui per n−k, anziché per
n, è costituita dal fatto che, benché si considerano n
residui, soltanto n−k sono linearmente indipendenti
infatti le equazioni
X ' ˆ  X ' (Y  Xˆ )  X ' Y  X ' Xˆ  0
impongono k vincoli (si dimostra facilmente
esplicitando il sistema che la somma dei residui e la
somma dei prodotti dei residui per ciascuna delle
variabili esplicative deve essere uguale a zero).
Determinato il valore dei primi n−k residui, gli ultimi
dovranno essere tali da soddisfare la condizione
sopra . Vi sono k vincoli, uno per ogni coefficiente
di regressione stimato, e si perdono quindi k gradi di
libertà.
21
Scarica

Statec1p2