Minimi quadrati ordinari Interpretazione geometrica Eduardo Rossi Il MRLM Il modello di regressione lineare multipla è usato per studiare le relazioni tra la variabile dipendente e diverse variabili indipendenti (esplicative). yt = β1 xt1 + . . . + βK xtK + ǫt t = 1, 2, . . . , N (1) β1 , . . . βK parametri fissi ma ignoti, ǫt ignoto, yt regredendo, v.casuale, xkt regressore, covariata casuale. In genere, uno dei regressori è fissato uguale ad 1,per esempio il primo: x1t = 1, ∀t; con β1 intercetta (o costante) dell’equazione. c Eduardo Rossi - Econometria 08 2 Il metodo dei minimi quadrati I caratteri variano simultaneamente tra gli individui. Il metodo dei minimi quadrati ordinari è un modo per scomporre le differenze nella variabile dipendente fra diverse caratteristiche osservate (variabili esplicative) per le diverse unità nel campione. Il metodo dei minimi quadrati ordinari (in inglese Ordinary Least Squares, OLS) è usato per stimare il valore di βk , k = 1, . . . , K. Questi sono scelti in modo tale che siano la soluzione al seguente problema: min β1 ,...,βK N X [yt − (β1 xt1 + β2 xt2 + . . . + βK xtK )]2 t=1 Il termine “minimi quadrati” si riferisce alla minimizzazione della somma delle differenze al quadrato. [yt − (β1 xt1 + . . . + βK xtK )], gli scarti. c Eduardo Rossi - Econometria 08 3 La somma dei quadrati La funzione obiettivo f (β1 , . . . , βK ) = N X [yt − (β1 xt1 + β2 xt2 + . . . + βK xKt )]2 (2) t=1 è la sum of squared residuals (somma dei quadrati dei residui). Quando i residui sono valutati in βb1 , . . . , βbK i residui sono detti fitted residuals (residui fittati, o residui della regressione). Consideriamo il caso in cui l’unica variabile esplicativa è la costante: K = 1 e x1t = 1, ∀t. OLS trova il valore di β1 che è il più vicino a yt nel senso della somma dei qudrati dei residui. OLS è la minimizzazione di una funzione quadratica in β1 e il risultato è la media: PN N X yt βb1 = arg min (yt − β1 )2 = t=1 N t=1 c Eduardo Rossi - Econometria 08 4 Notazione β = [β1 , β2 , . . . , βK ]′ Notazione matriciale y 1 . y = .. yN x t1 . (K × 1) xt = .. xtK c Eduardo Rossi - (K × 1) (3) (N × 1) x 11 x21 .. X= . = . .. x′N xN 1 x′1 Econometria 08 x12 x22 .. . xN 2 ... x1K . . . x2K .. . . . . xN K (N × K) 5 Notazione x′1 β .. . = Xβ x′N β Il vettore y raccoglie tutte le osservazioni della variabile dipendente. La matrice X raccoglie le osservazioni sulle variabili esplicative. Ogni colonna di X contiene tutte le osservazioni per la singola variabile esplicativa. c Eduardo Rossi - Econometria 08 6 Lo stimatore dei minimi quadrati (OLS) Stimatore = E’ una regola per calcolare una stima (un numero) dai dati campionari. Il metodo dei minimi quadrati risolve il problema b ≡ arg min(y − Xβ)′ (y − Xβ) β β Definiamo S(β) ≡ (y − Xβ)′ (y − Xβ) c Eduardo Rossi - Econometria 08 7 Lo stimatore dei minimi quadrati (OLS) ′ ∂S(β) ∂β = = = = c Eduardo Rossi - ′ ′ ′ ′ ∂ y y − 2β X y + β X Xβ ∂β ′ ′ ′ ′ ∂ −2β X y + β X Xβ ∂β ′ ′ ′ ∂ β X Xβ ∂β ′ −2 Xy+ ∂β ∂β −2X′ y + 2X′ Xβ Econometria 08 8 Lo stimatore dei minimi quadrati (OLS) b ∂S(β) b=0 = −2X′ y + 2X′ Xβ ∂β (4) Le equazioni normali b=0 X′ y − X′ Xβ (5) b = (X′ X)−1 X′ y β (6) Lo stimatore OLS è Poichè la funzione stimata è lineare nei coefficienti, gli OLS ci danno dei coefficienti stimati che sono somme ponderate delle {yt }. Le stime OLS sono funzioni lineari della variabile dipendente. Questa linearità in {yt } semplifica l’analisi statistica degli OLS. c Eduardo Rossi - Econometria 08 9 L’interpretazione geometrica degli OLS Lo spazio delle colonne di X, Col(X), è il sottospazio lineare di RN coperto dalle combinazioni lineari dei vettori colonna di X: Col(X) ≡ {z ∈ RN |z = Xα, α ∈ Rk } b , che è più La procedura di stima OLS trova il vettore in Col(X), µ vicino a y. b è detta proiezione di y sul Col(X). µ c Eduardo Rossi - Econometria 08 10 L’interpretazione geometrica degli OLS Il metodo OLS risolve: b ≡ arg min(y − Xβ)′ (y − Xβ) β β (7) La somma delle deviazioni al quadrato tra gli elementi di di y e Xβ è il quadrato della distanza Euclidea fra y e Xβ: N X (yt − x′t β)2 =k y − Xβ k2 (y − Xβ)′ (y − Xβ) = t=1 c Eduardo Rossi - Econometria 08 11 L’interpretazione geometrica degli OLS Procedura in due passi: 1. Trovare il punto in un sottospazio che è il più vicino ad un punto che non si trova il quel sottospazio. Il sottospazio è l’insieme dei possibili vettori reali N dimensionali Xβ che può essere creato cambiando β e questo sottospazio è lo spazio delle colonne di X. b ≡ arg µ min k y − µ k2 µ∈Col(X) b che sia soluzione a: 2. Trovare un β b b = Xβ µ c Eduardo Rossi - Econometria 08 12 L’interpretazione geometrica degli OLS c Eduardo Rossi - Econometria 08 13 L’interpretazione geometrica degli OLS La soluzione al primo passo è unica mentre ci possono essere molte b una soluzione di (7) e sia soluzione al secondo problema. Sia β b b = Xβ. µ b è l’unica proiezione ortogonale di y 1. Il vettore dei valori fittati µ su Col(X). b è ortogonale a Col(X) 2. Il vettore dei residui fittati y − µ 3. Se dim[Col(X)] = K, allora (7) ha una soluzione unica: b = (X′ X)−1 X′ y = (X′ X)−1 X′ µ b′ β c Eduardo Rossi - Econometria 08 14 L’interpretazione geometrica degli OLS Tre idee base: 1. La regressione OLS significa minimizzare la distanza al quadrato tra il vettore osservato y e un vettore di regressione Xβ che appartiene a Col(X). b = Xβ è la proiezione ortogonale su 2. Il vettore dei valori fittati µ b ) è perpendicolare a µ b e ad Col(X). Il vettore dei residui (y − µ ogni altro vettore in Col(X). b è unico. 3. Se the dim[Col(X)] = K allora β c Eduardo Rossi - Econometria 08 15 Esempio Due osservazioni ed una sola varibile esplicativa (N = 1, K = 1) 1 ≡ι X= 1 Col(X) = {z ∈ R2 |z1 = z2 }, e βb = y 2 2 b β = y = arg min (y1 − β) + (y2 − β) β b = ιy b = Xβ µ c Eduardo Rossi - Econometria 08 16 Esempio c Eduardo Rossi - Econometria 08 17 Esempio Tre osservazioni 1 X= 1 1 e due variabili esplicative(N = 3, K = 2) x12 x22 ≡ι x32 Col(X) è un piano che contiene tre punti: x12 1 0 0 , X1 = 1 , X2 = x22 1 x32 0 b è l’unica combinazione lineare di ι Il vettore dei coefficienti stimati β b. e X2 che eguaglia µ b 1 = X1 βb1 µ c Eduardo Rossi - b 2 = X2 βb2 µ Econometria 08 b=µ b1 + µ b2 µ 18 Esempio c Eduardo Rossi - Econometria 08 19 Esempio c Eduardo Rossi - Econometria 08 20 b come proiezione ortogonale µ La dipendenza lineare fra le variabile esplicative non ha un ruolo fondamentale su quanto bene una regressione lineare spiega y. La b. distanza dipende solo da µ Mostriamo che b = X(X′ X)−1 X′ y b = Xβ µ quando le colonne di X sono linearmente indipendenti. Per due b: vettori µ e µ ||y − µ||2 b +µ b − µ||2 = ||y − µ b ||2 + ||b b )′ (b = ||y − µ µ − µ||2 + 2(y − µ µ − µ) ma b )⊥(b b )′ (b (y − µ µ − µ) ⇔ (y − µ µ − µ) = 0 c Eduardo Rossi - Econometria 08 21 b come proiezione ortogonale µ Teorema di Pitagora: Se z1 , z2 ∈ RN e z1 ⊥z2 allora kz1 + z2 k2 = kz1 k2 + kz2 k2 . in questo caso: b ||2 + ||b ||y − µ||2 = ||y − µ µ − µ||2 . b ∈ Col(X) tale che Se c’è un µ b) = 0 X′ (y − µ allora per tutti gli altri µ ∈ Col(x) b) = µ′ (y − µ 0 ||y − µ||2 b ||2 + ||b ||y − µ µ − µ||2 b )′ (y − µ b) = (µ − µ = ≥ c Eduardo Rossi - Econometria 08 0 b ||2 ||y − µ 22 b come proiezione ortogonale µ b è ortogonale a Col(X), µ b è vicino a y almeno quanto Poichè y − µ un qualunque µ in Col(X) b è una soluzione al problema della distanza minima dei OLS Quindi µ b = arg µ min ||y − µ||2 µ∈Col(X) b è la soluzione unica! Ma µ e deve La soluzione è unica perchè per ogni altra possibile soluzione µ essere che e ||2 = ||y − µ b ||2 ||y − µ b. poichè nessun altro µ è più vicino a µ c Eduardo Rossi - Econometria 08 23 b come proiezione ortogonale µ Infatti, il teorema di Pitagora implica che e ||2 = ||(y − µ b ) + (b e )||2 = ||y − µ b ||2 + ||b e ||2 . ||y − µ µ−µ µ−µ b ) ⊥ (b e ) quindi perchè (y − µ µ−µ e ||2 = 0 ⇒ µ b=µ e ||b µ−µ La condizione di ortogonalità caratterizza completamente il vettore b. OLS dei valori fittati µ b per una caso particolare e mostriamo che una Costruiamo µ soluzione unica esiste. Le equazioni normali stabiliscono che b =0 X′ (y − Xβ) c Eduardo Rossi - Econometria 08 24 b come proiezione ortogonale µ risolvendo per b =0 X′ (y − Xβ) b − X′ y = 0 X′ Xβ b = (X′ X)−1 X′ y β dato che X′ X è nonsingolare. c Eduardo Rossi - Econometria 08 25 b come proiezione ortogonale µ b segue La soluzione per µ b = X(X′ X)−1 X′ y b = Xβ µ b eµ b da µ b hanno una relazione 1-a-1. Possiamo anche ottenere β b: β premoltiplicando per (X′ X)−1 X′ b=β b b = (X′ X)−1 X′ Xβ (X′ X)−1 X′ µ c Eduardo Rossi - Econometria 08 26 Proiezione Teorema Proiezione b ∈ S è una Sia y ∈ RN e S ⊆ RN un sottospazio lineare. Allora µ soluzione al problema min ||y − µ||2 µ∈S b )⊥S. Inoltre, µ b esiste ed è unico. se e solo se (y − µ c Eduardo Rossi - Econometria 08 27 Proiezione Il teorema identifica il meccanismo di minimizzazione che significa b ∈ Col(X) tale che trovare un µ b ⊥ Col(X) y−µ b. Secondo, il teorema chiarisce che Col(X) determina l’ottimale µ c Eduardo Rossi - Econometria 08 28 Proiettori ortogonali b, Per ogni y, c’è un’unica µ b = arg min ||y − µ||2 µ µ∈S chiamata proiezione di y. La proiezione ortogonale di y è sempre una trasformazione lineare di y: b = Py µ P proiettore ortogonale. Nel caso generale che S = Col(X) e X sia di rango-colonna pieno, la matrice PX ≡ X(X′ X)−1 X′ b = PX y µ b. è la trasformazione lineare di y su Col(X) che produce µ c Eduardo Rossi - Econometria 08 29 Proiettori ortogonali PX ha due proprietà: • non modifica i vettori in Col(X) z ∈ Col(X) ⇒ PX z = z • trasforma i vettori ortogonali a Col(X) nel vettore zero. z ⊥ c Eduardo Rossi - Col(X) ⇒ PX z = 0 Econometria 08 30 Proiettori ortogonali Prova ∀z ∈ Col(X) esiste un α : z = Xα PX z = PX Xα = X(X′ X)−1 X′ Xα = Xα = z Se z⊥Col(X) : z′ X = 0, ∀X ∈ Col(X) cosicchè X′ z = 0 e PX z = X(X′ X)−1 X′ z = 0 c Eduardo Rossi - Econometria 08 31 Scomposizione ortogonale ∀z ∈ RN , possiamo scomporre z univocamente nel vettore somma z1 + z2 dove z1 ∈ Col(X) e z2 ∈ Col⊥ (X) ≡ {z ∈ RN |X′ z = 0}. Dove Col⊥ (X) è il complemento ortogonale. Complemento ortogonale Il sottospazio lineare di vettori S⊥ , ortogonale al sottospazio S ⊆ V: S⊥ = {v ∈ V|u′ v = 0, ∀u ∈ S} è chiamato complemento ortogonale di S. E’ equivalente a scrivere v ∈ S⊥ come v⊥S. Notiamo che se v ∈ S ∩ S⊥ allora v′ v = 0 tale che v deve essere il vettore zero. In altre parole S ∩ S⊥ = {0} c Eduardo Rossi - Econometria 08 32 Proiezione ortogonale Sia S ⊆ RN (sottospazio lineare) tale che per ogni z ∈ RN c’è un unico z1 ∈ S ed un unico z2 ∈ S⊥ tale che z = z1 + z2 . Allora la funzione da RN a S⊥ che associa ogni z con il suo corrispondente z1 è una proiezione ortogonale. Quando S = Col(X) allora PX z = z1 è la proiezione ortogonale di z su Col(X). Solo la componente di z in Col(X) sopravvive alla premoltiplicazione per PX . La proiezione ortogonale da RN su un sottospazio S è una trasformazione lineare. (La proiezione ortogonale di una combinazione lineare di vettori uguaglia la combinazione lineare delle proiezioni ortogonali dei singoli vettori). c Eduardo Rossi - Econometria 08 33 Proiettore ortogonale Ogni proiezione ortogonale da RN in un sottospazio S può essere rappresentata da una matrice P, chiamata proiettore ortogonale. Sia S ⊆ RN , ∀z ∈ RN c’è un unico z1 ∈ S ed un unico z2 ∈ S⊥ tale che z = z1 + z2 . Allora una matrice (N × N ) P tale che Pz = z1 è un proiettore ortogonale su S. Un proiettore ortogonale preserva la componente di un vettore in un sottospazio S e annulla la componente nel sottospazio complementare ortogonale S⊥ . Se P è un proiettore ortogonale su un sottospazio di RN , allora P è unica. c Eduardo Rossi - Econometria 08 34 Proprietà dei Proiettori ortogonali 1. Simmetria PX = X(X′ X)X′ = [X(X′ X)X′ ]′ = P′X 2. Idempotenza PX PX = [X(X′ X)X′ ][X(X′ X)X′ ] = X(X′ X)X′ = PX 3. Semidefinitezza positiva Per ogni w ∈ RN w′ PX w = w′ PX PX w = w′ P′X PX w = (PX w)′ (PX w) = ||PX w||2 ≥ 0 c Eduardo Rossi - Econometria 08 35 Proprietà dei Proiettori ortogonali Osserviamo che z ∈ Col⊥ (X) ⇒ z ∈ Col(X) ⇒ (I − PX )z = z (I − PX )z = 0 cioè MX = (I − PX ) è un proiettore ortogonale su Col⊥ (X), il complemento ortogonale di Col(X). c Eduardo Rossi - Econometria 08 36 Multicollinearità esatta Se esiste un vettore α ∈ RK tale che Xα = 0 allora le colonne di X sono linearmente indipendenti. Questa situazione è detta multicollinearità esatta. b esiste anche quando X è di rango ridotto. Quando X e Un unico µ (X′ X) sono singolari non possiamo usare PX = X(X′ X)−1 X′ per trovare PX . Quando dim[Col(X)] < K, possiamo trovare PX applicando la formula ad ogni sottoinsieme linearmente indipendente delle colonne di X cioè una base per Col(X). c Eduardo Rossi - Econometria 08 37 Multicollinearità esatta Indichiamo con PX il proiettore ortogonale su Col(X) e sia X1 una matrice composta da un sottoinsieme linearmente di colonne di X tale che Col(X1 ) = Col(X) allora PX = X1 (X′1 X1 )−1 X′1 c Eduardo Rossi - Econometria 08 38