Minimi quadrati ordinari
Interpretazione geometrica
Eduardo Rossi
Il MRLM
Il modello di regressione lineare multipla è usato per studiare le
relazioni tra la variabile dipendente e diverse variabili indipendenti
(esplicative).
yt = β1 xt1 + . . . + βK xtK + ǫt
t = 1, 2, . . . , N
(1)
β1 , . . . βK parametri fissi ma ignoti, ǫt ignoto, yt regredendo,
v.casuale, xkt regressore, covariata casuale. In genere, uno dei
regressori è fissato uguale ad 1,per esempio il primo: x1t = 1, ∀t; con
β1 intercetta (o costante) dell’equazione.
c
Eduardo Rossi -
Econometria 08
2
Il metodo dei minimi quadrati
I caratteri variano simultaneamente tra gli individui. Il metodo dei
minimi quadrati ordinari è un modo per scomporre le differenze
nella variabile dipendente fra diverse caratteristiche osservate
(variabili esplicative) per le diverse unità nel campione.
Il metodo dei minimi quadrati ordinari (in inglese Ordinary Least
Squares, OLS) è usato per stimare il valore di βk , k = 1, . . . , K.
Questi sono scelti in modo tale che siano la soluzione al seguente
problema:
min
β1 ,...,βK
N
X
[yt − (β1 xt1 + β2 xt2 + . . . + βK xtK )]2
t=1
Il termine “minimi quadrati” si riferisce alla minimizzazione della
somma delle differenze al quadrato. [yt − (β1 xt1 + . . . + βK xtK )], gli
scarti.
c
Eduardo Rossi -
Econometria 08
3
La somma dei quadrati
La funzione obiettivo
f (β1 , . . . , βK ) =
N
X
[yt − (β1 xt1 + β2 xt2 + . . . + βK xKt )]2
(2)
t=1
è la sum of squared residuals (somma dei quadrati dei residui).
Quando i residui sono valutati in βb1 , . . . , βbK i residui sono detti fitted
residuals (residui fittati, o residui della regressione).
Consideriamo il caso in cui l’unica variabile esplicativa è la costante:
K = 1 e x1t = 1, ∀t. OLS trova il valore di β1 che è il più vicino a yt
nel senso della somma dei qudrati dei residui. OLS è la
minimizzazione di una funzione quadratica in β1 e il risultato è la
media:
PN
N
X
yt
βb1 = arg min
(yt − β1 )2 = t=1
N
t=1
c
Eduardo Rossi -
Econometria 08
4
Notazione

β = [β1 , β2 , . . . , βK ]′
Notazione matriciale
 
y
 1
 . 
y =  .. 
 
yN


x
 t1 
 . 
(K × 1) xt =  .. 


xtK
c
Eduardo Rossi -
(K × 1)
(3)
(N × 1)

x
 11
  
x21
 ..  

X= . = .
   ..

x′N
xN 1
x′1

Econometria 08
x12
x22
..
.
xN 2
...
x1K



. . . x2K 

.. 
. 

. . . xN K
(N × K)
5
Notazione


x′1 β


 .. 
 .  = Xβ


x′N β
Il vettore y raccoglie tutte le osservazioni della variabile dipendente.
La matrice X raccoglie le osservazioni sulle variabili esplicative. Ogni
colonna di X contiene tutte le osservazioni per la singola variabile
esplicativa.
c
Eduardo Rossi -
Econometria 08
6
Lo stimatore dei minimi quadrati (OLS)
Stimatore = E’ una regola per calcolare una stima (un numero) dai
dati campionari.
Il metodo dei minimi quadrati risolve il problema
b ≡ arg min(y − Xβ)′ (y − Xβ)
β
β
Definiamo
S(β) ≡ (y − Xβ)′ (y − Xβ)
c
Eduardo Rossi -
Econometria 08
7
Lo stimatore dei minimi quadrati (OLS)
′
∂S(β)
∂β
=
=
=
=
c
Eduardo Rossi -
′
′
′
′
∂ y y − 2β X y + β X Xβ
∂β
′ ′
′ ′
∂ −2β X y + β X Xβ
∂β
′ ′
′
∂ β X Xβ
∂β ′
−2
Xy+
∂β
∂β
−2X′ y + 2X′ Xβ
Econometria 08
8
Lo stimatore dei minimi quadrati (OLS)
b
∂S(β)
b=0
= −2X′ y + 2X′ Xβ
∂β
(4)
Le equazioni normali
b=0
X′ y − X′ Xβ
(5)
b = (X′ X)−1 X′ y
β
(6)
Lo stimatore OLS è
Poichè la funzione stimata è lineare nei coefficienti, gli OLS ci danno
dei coefficienti stimati che sono somme ponderate delle {yt }. Le
stime OLS sono funzioni lineari della variabile dipendente. Questa
linearità in {yt } semplifica l’analisi statistica degli OLS.
c
Eduardo Rossi -
Econometria 08
9
L’interpretazione geometrica degli OLS
Lo spazio delle colonne di X, Col(X), è il sottospazio lineare di RN
coperto dalle combinazioni lineari dei vettori colonna di X:
Col(X) ≡ {z ∈ RN |z = Xα, α ∈ Rk }
b , che è più
La procedura di stima OLS trova il vettore in Col(X), µ
vicino a y.
b è detta proiezione di y sul Col(X).
µ
c
Eduardo Rossi -
Econometria 08
10
L’interpretazione geometrica degli OLS
Il metodo OLS risolve:
b ≡ arg min(y − Xβ)′ (y − Xβ)
β
β
(7)
La somma delle deviazioni al quadrato tra gli elementi di di y e Xβ è
il quadrato della distanza Euclidea fra y e Xβ:
N
X
(yt − x′t β)2 =k y − Xβ k2
(y − Xβ)′ (y − Xβ) =
t=1
c
Eduardo Rossi -
Econometria 08
11
L’interpretazione geometrica degli OLS
Procedura in due passi:
1. Trovare il punto in un sottospazio che è il più vicino ad un punto
che non si trova il quel sottospazio. Il sottospazio è l’insieme dei
possibili vettori reali N dimensionali Xβ che può essere creato
cambiando β e questo sottospazio è lo spazio delle colonne di X.
b ≡ arg
µ
min
k y − µ k2
µ∈Col(X)
b che sia soluzione a:
2. Trovare un β
b
b = Xβ
µ
c
Eduardo Rossi -
Econometria 08
12
L’interpretazione geometrica degli OLS
c
Eduardo Rossi -
Econometria 08
13
L’interpretazione geometrica degli OLS
La soluzione al primo passo è unica mentre ci possono essere molte
b una soluzione di (7) e sia
soluzione al secondo problema. Sia β
b
b = Xβ.
µ
b è l’unica proiezione ortogonale di y
1. Il vettore dei valori fittati µ
su Col(X).
b è ortogonale a Col(X)
2. Il vettore dei residui fittati y − µ
3. Se dim[Col(X)] = K, allora (7) ha una soluzione unica:
b = (X′ X)−1 X′ y = (X′ X)−1 X′ µ
b′
β
c
Eduardo Rossi -
Econometria 08
14
L’interpretazione geometrica degli OLS
Tre idee base:
1. La regressione OLS significa minimizzare la distanza al quadrato
tra il vettore osservato y e un vettore di regressione Xβ che
appartiene a Col(X).
b = Xβ è la proiezione ortogonale su
2. Il vettore dei valori fittati µ
b ) è perpendicolare a µ
b e ad
Col(X). Il vettore dei residui (y − µ
ogni altro vettore in Col(X).
b è unico.
3. Se the dim[Col(X)] = K allora β
c
Eduardo Rossi -
Econometria 08
15
Esempio
Due osservazioni ed una sola varibile esplicativa (N = 1, K = 1)
 
1

≡ι
X=
1
Col(X) = {z ∈ R2 |z1 = z2 }, e βb = y
2
2
b
β = y = arg min (y1 − β) + (y2 − β)
β
b = ιy
b = Xβ
µ
c
Eduardo Rossi -
Econometria 08
16
Esempio
c
Eduardo Rossi -
Econometria 08
17
Esempio
Tre osservazioni

1

X=
 1
1
e due variabili esplicative(N = 3, K = 2)

x12

x22 
≡ι
x32
Col(X) è un piano che contiene tre punti:

 
 
x12
1
0

 
 
 0  , X1 =  1  , X2 =  x22

 
 
1
x32
0




b è l’unica combinazione lineare di ι
Il vettore dei coefficienti stimati β
b.
e X2 che eguaglia µ
b 1 = X1 βb1
µ
c
Eduardo Rossi -
b 2 = X2 βb2
µ
Econometria 08
b=µ
b1 + µ
b2
µ
18
Esempio
c
Eduardo Rossi -
Econometria 08
19
Esempio
c
Eduardo Rossi -
Econometria 08
20
b come proiezione ortogonale
µ
La dipendenza lineare fra le variabile esplicative non ha un ruolo
fondamentale su quanto bene una regressione lineare spiega y. La
b.
distanza dipende solo da µ
Mostriamo che
b = X(X′ X)−1 X′ y
b = Xβ
µ
quando le colonne di X sono linearmente indipendenti. Per due
b:
vettori µ e µ
||y − µ||2
b +µ
b − µ||2
= ||y − µ
b ||2 + ||b
b )′ (b
= ||y − µ
µ − µ||2 + 2(y − µ
µ − µ)
ma
b )⊥(b
b )′ (b
(y − µ
µ − µ) ⇔ (y − µ
µ − µ) = 0
c
Eduardo Rossi -
Econometria 08
21
b come proiezione ortogonale
µ
Teorema di Pitagora: Se z1 , z2 ∈ RN e z1 ⊥z2 allora
kz1 + z2 k2 = kz1 k2 + kz2 k2 .
in questo caso:
b ||2 + ||b
||y − µ||2 = ||y − µ
µ − µ||2 .
b ∈ Col(X) tale che
Se c’è un µ
b) = 0
X′ (y − µ
allora per tutti gli altri µ ∈ Col(x)
b) =
µ′ (y − µ
0
||y − µ||2
b ||2 + ||b
||y − µ
µ − µ||2
b )′ (y − µ
b) =
(µ − µ
=
≥
c
Eduardo Rossi -
Econometria 08
0
b ||2
||y − µ
22
b come proiezione ortogonale
µ
b è ortogonale a Col(X), µ
b è vicino a y almeno quanto
Poichè y − µ
un qualunque µ in Col(X)
b è una soluzione al problema della distanza minima dei OLS
Quindi µ
b = arg
µ
min
||y − µ||2
µ∈Col(X)
b è la soluzione unica!
Ma µ
e deve
La soluzione è unica perchè per ogni altra possibile soluzione µ
essere che
e ||2 = ||y − µ
b ||2
||y − µ
b.
poichè nessun altro µ è più vicino a µ
c
Eduardo Rossi -
Econometria 08
23
b come proiezione ortogonale
µ
Infatti, il teorema di Pitagora implica che
e ||2 = ||(y − µ
b ) + (b
e )||2 = ||y − µ
b ||2 + ||b
e ||2 .
||y − µ
µ−µ
µ−µ
b ) ⊥ (b
e ) quindi
perchè (y − µ
µ−µ
e ||2 = 0 ⇒ µ
b=µ
e
||b
µ−µ
La condizione di ortogonalità caratterizza completamente il vettore
b.
OLS dei valori fittati µ
b per una caso particolare e mostriamo che una
Costruiamo µ
soluzione unica esiste.
Le equazioni normali stabiliscono che
b =0
X′ (y − Xβ)
c
Eduardo Rossi -
Econometria 08
24
b come proiezione ortogonale
µ
risolvendo per
b =0
X′ (y − Xβ)
b − X′ y = 0
X′ Xβ
b = (X′ X)−1 X′ y
β
dato che X′ X è nonsingolare.
c
Eduardo Rossi -
Econometria 08
25
b come proiezione ortogonale
µ
b segue
La soluzione per µ
b = X(X′ X)−1 X′ y
b = Xβ
µ
b eµ
b da µ
b hanno una relazione 1-a-1. Possiamo anche ottenere β
b:
β
premoltiplicando per (X′ X)−1 X′
b=β
b
b = (X′ X)−1 X′ Xβ
(X′ X)−1 X′ µ
c
Eduardo Rossi -
Econometria 08
26
Proiezione
Teorema Proiezione
b ∈ S è una
Sia y ∈ RN e S ⊆ RN un sottospazio lineare. Allora µ
soluzione al problema
min ||y − µ||2
µ∈S
b )⊥S. Inoltre, µ
b esiste ed è unico.
se e solo se (y − µ
c
Eduardo Rossi -
Econometria 08
27
Proiezione
Il teorema identifica il meccanismo di minimizzazione che significa
b ∈ Col(X) tale che
trovare un µ
b ⊥ Col(X)
y−µ
b.
Secondo, il teorema chiarisce che Col(X) determina l’ottimale µ
c
Eduardo Rossi -
Econometria 08
28
Proiettori ortogonali
b,
Per ogni y, c’è un’unica µ
b = arg min ||y − µ||2
µ
µ∈S
chiamata proiezione di y. La proiezione ortogonale di y è sempre una
trasformazione lineare di y:
b = Py
µ
P proiettore ortogonale.
Nel caso generale che S = Col(X) e X sia di rango-colonna pieno, la
matrice
PX ≡ X(X′ X)−1 X′
b = PX y
µ
b.
è la trasformazione lineare di y su Col(X) che produce µ
c
Eduardo Rossi -
Econometria 08
29
Proiettori ortogonali
PX ha due proprietà:
• non modifica i vettori in Col(X)
z ∈ Col(X) ⇒ PX z = z
• trasforma i vettori ortogonali a Col(X) nel vettore zero.
z ⊥
c
Eduardo Rossi -
Col(X) ⇒ PX z = 0
Econometria 08
30
Proiettori ortogonali
Prova
∀z ∈ Col(X) esiste un α : z = Xα
PX z = PX Xα = X(X′ X)−1 X′ Xα = Xα = z
Se z⊥Col(X) : z′ X = 0, ∀X ∈ Col(X) cosicchè X′ z = 0 e
PX z = X(X′ X)−1 X′ z = 0
c
Eduardo Rossi -
Econometria 08
31
Scomposizione ortogonale
∀z ∈ RN , possiamo scomporre z univocamente nel vettore somma
z1 + z2 dove z1 ∈ Col(X) e z2 ∈ Col⊥ (X) ≡ {z ∈ RN |X′ z = 0}.
Dove Col⊥ (X) è il complemento ortogonale.
Complemento ortogonale
Il sottospazio lineare di vettori S⊥ , ortogonale al sottospazio S ⊆ V:
S⊥ = {v ∈ V|u′ v = 0, ∀u ∈ S}
è chiamato complemento ortogonale di S. E’ equivalente a scrivere
v ∈ S⊥ come v⊥S. Notiamo che se v ∈ S ∩ S⊥ allora v′ v = 0 tale che
v deve essere il vettore zero. In altre parole S ∩ S⊥ = {0}
c
Eduardo Rossi -
Econometria 08
32
Proiezione ortogonale
Sia S ⊆ RN (sottospazio lineare) tale che per ogni z ∈ RN c’è un
unico z1 ∈ S ed un unico z2 ∈ S⊥ tale che z = z1 + z2 .
Allora la funzione da RN a S⊥ che associa ogni z con il suo
corrispondente z1 è una proiezione ortogonale.
Quando S = Col(X) allora PX z = z1 è la proiezione ortogonale di z
su Col(X). Solo la componente di z in Col(X) sopravvive alla
premoltiplicazione per PX .
La proiezione ortogonale da RN su un sottospazio S è una
trasformazione lineare. (La proiezione ortogonale di una
combinazione lineare di vettori uguaglia la combinazione lineare delle
proiezioni ortogonali dei singoli vettori).
c
Eduardo Rossi -
Econometria 08
33
Proiettore ortogonale
Ogni proiezione ortogonale da RN in un sottospazio S può essere
rappresentata da una matrice P, chiamata proiettore ortogonale.
Sia S ⊆ RN , ∀z ∈ RN c’è un unico z1 ∈ S ed un unico z2 ∈ S⊥ tale
che z = z1 + z2 . Allora una matrice (N × N ) P tale che Pz = z1 è
un proiettore ortogonale su S.
Un proiettore ortogonale preserva la componente di un vettore in un
sottospazio S e annulla la componente nel sottospazio complementare
ortogonale S⊥ .
Se P è un proiettore ortogonale su un sottospazio di RN , allora P è
unica.
c
Eduardo Rossi -
Econometria 08
34
Proprietà dei Proiettori ortogonali
1. Simmetria
PX = X(X′ X)X′ = [X(X′ X)X′ ]′ = P′X
2. Idempotenza
PX PX = [X(X′ X)X′ ][X(X′ X)X′ ] = X(X′ X)X′ = PX
3. Semidefinitezza positiva
Per ogni w ∈ RN
w′ PX w = w′ PX PX w = w′ P′X PX w = (PX w)′ (PX w) = ||PX w||2 ≥ 0
c
Eduardo Rossi -
Econometria 08
35
Proprietà dei Proiettori ortogonali
Osserviamo che
z ∈ Col⊥ (X) ⇒
z ∈ Col(X)
⇒
(I − PX )z = z
(I − PX )z = 0
cioè MX = (I − PX ) è un proiettore ortogonale su Col⊥ (X), il
complemento ortogonale di Col(X).
c
Eduardo Rossi -
Econometria 08
36
Multicollinearità esatta
Se esiste un vettore α ∈ RK tale che Xα = 0 allora le colonne di X
sono linearmente indipendenti. Questa situazione è detta
multicollinearità esatta.
b esiste anche quando X è di rango ridotto. Quando X e
Un unico µ
(X′ X) sono singolari non possiamo usare PX = X(X′ X)−1 X′ per
trovare PX .
Quando dim[Col(X)] < K, possiamo trovare PX applicando la
formula ad ogni sottoinsieme linearmente indipendente delle colonne
di X cioè una base per Col(X).
c
Eduardo Rossi -
Econometria 08
37
Multicollinearità esatta
Indichiamo con PX il proiettore ortogonale su Col(X) e sia X1 una
matrice composta da un sottoinsieme linearmente di colonne di X
tale che
Col(X1 ) = Col(X)
allora
PX = X1 (X′1 X1 )−1 X′1
c
Eduardo Rossi -
Econometria 08
38
Scarica

Geometria degli OLS