LA REGRESSIONE LINEARE MULTIPLA 1 Osservazioni introduttive • I fenomeni collettivi (economici, demografici, ecc.) sono strettamente legati da una complessa rete di relazioni. Pertanto risulta spesso insufficiente lo studio della relazione tra due sole variabili. • In questi casi, una volta individuato il carattere dipendente, sarà opportuno studiare come esso varia in media al variare degli altri caratteri. Questo studio viene denominato regressione multipla e costituisce una generalizzazione della regressione semplice. 2 ESEMPI DI RICORSO A MODELLI DI REGRESSIONE MULTIPLA Ad esempio: • Il prezzo di una merce sui vari mercati (o in una serie di anni o in diverse zone territoriali) è collegato con la produzione, le scorte esistenti, il prezzo di altre merci, la domanda dei consumatori e così via; • Il consumo per abitante di energia elettrica (in varie regioni) dipende dal reddito per abitante, dalla incidenza degli occupati addetti al terziario sugli occupati in complesso, ecc.; 3 Modelli I modelli sono una rappresentazione matematica della realtà George Box “All models are wrong, but some are useful” 4 Modello empirico o statistico (Empirical Model) Di solito non si conosce la relazione esatta che esiste fra due variabili Per questo motivo si adatta un modello empirico 5 Schema logico per la costruzione di un modello statistico TEORIZZAZIONE SU UN FENOMENO INDIVIDUAZIONE DELLE VARIABILI ESPLICATIVE FORMULAZIONE O IDENTIFICAZIONE DEL MODELLO USO DEI DATI PER LA STIMA DEL MODELLO VERIFICA DEL MODELLO USO DEL MODELLO 6 Modello di regressione lineare multipla Lo studio della regressione multipla consiste nel determinare una funzione che esprima nel modo migliore il legame (in media) tra le variabili indipendenti X1, X2, …., Xk e la variabile dipendente Y. Per fare questo occorre incominciare con lo stabilire il tipo di funzione che lega la variabile dipendente a quelle indipendenti. In analogia con quanto già esposto sulla regressione semplice, ipotizziamo il tipo più semplice, quello lineare. 7 Regressione lineare multipla Idea: Esaminare le relazione lineare fra 1 dipendente (Y) e 2 o più variabili independenti (Xi) Modello di regressione multipla con k variabili indipendenti: Y-intercetta Coefficiente di regressione parziale Errore casuale Yi B0 B1X1 B2 X 2 Bk X k e 8 Modello lineare multiplo I coefficienti del modello sono stimati sulla base di dati campionari Modello di regressione multipla con k variabili indipendenti : Stima (o valore previsto di Y Stima dell’intercetta Stima dei coefficienti di regressione parziale Ŷi b0 b1X1i b2X2 bk Xk In questo capitolo utilizzeremo sempre Excel per ottenere i parametri del modello di regressione e altre statistiche (regression summary measures). 9 PARAMETRI • yi ed x1 , x2 ….xk sono i valori, rispettivamente, della variabile dipendente e delle k variabili indipendenti, rilevate con riferimento alla i-esima unità statistica; • B0 è la costante; • B1, B2,… Bk sono i coefficienti di regressione parziale (indicano di quanto varia in media la Y quando Xj aumenta di un’unità, a parità di valori delle altre variabili esplicative); • ei è il “residuo non spiegato” relativo all’osservazione i-esima; • n è il numero di osservazioni. 10 INTERPRETAZIONE Nel modello di regressione multipla si assume che ciascun valore osservato della variabile dipendente sia esprimibile come funzione lineare dei corrispondenti valori delle variabili esplicative, più un termine residuo che traduce l’incapacità del modello di riprodurre con esattezza la realtà osservata. 11 Modello lineare nel caso di tre variabili: piano di regressione Nel caso particolare di due sole variabili esplicative X1 e X2 si ha il piano di regressione: Y B0 B1 X 1 B2 X 2 e 12 Modello lineare nel caso di tre variabili: piano di regressione Modello con due variabili Y Ŷ b0 b1X1 b2 X2 X2 X1 13 Esempio: estensione di un modello da 2 a 3 variabili indipendenti Con riferimento a 20 famiglie si cerca di spiegare il consumo alimentare (Y) utilizzando come variabile esplicativa il reddito (X1). Il modello stimato è il seguente: yˆ i 0,412 0,184 x1i (i 1, 2, , 20) Ora estendiamo il modello per considerare anche la dimensione della famiglia (X2), misurata in termini di numero di componenti della famiglia. Il modello diventa: Spesa alimentare = B0 + B1 Reddito + B2 Numero Componenti 14 Spesa annua per l'alimentazione (000*Euro) Reddito annuo (000*Euro) Dimensione della famiglia (numero di componenti) SPESA REDDITO NC 1 5.2 28 3 2 5.1 26 3 3 5.6 32 2 4 4.6 24 1 5 11.3 54 4 6 8.1 59 2 7 7.8 44 3 8 5.8 30 2 9 5.1 40 1 10 18 82 6 11 4.9 42 3 12 11.8 58 4 13 5.2 28 1 14 4.8 20 5 15 7.9 42 3 16 6.4 47 1 17 20 112 6 18 13.7 85 5 19 5.1 31 2 20 2.9 26 2 famiglia 15 Esempio: estensione di un modello da 2 a 3 variabili indipendenti • Dovremmo aspettarci che i segni di B1 e di B2 siano entrambi positivi, cioè che sia il reddito sia la dimensione della famiglia abbiano effetti positivi sulla spesa alimentare della famiglia. Ciò vale nel caso di singole regressioni lineari semplici; • Invece B1 misura l'effetto parziale del reddito sulla spesa alimentare, tenendo costante la dimensione della famiglia, e B2 misura l'effetto parziale della dimensione della famiglia sulla spesa, tenendo costante il reddito. 16 Esempio: estensione di un modello da 2 a 3 variabili indipendenti In definitiva, sia la teoria economica sia il buonsenso dovrebbero costituire una base per la selezione delle variabili esplicative da inserire nel modello. L’analisi grafica sia del tipo che della struttura di correlazione fra le variabili può essere compiuta con il ricorso alla matrice degli scatterplot, uno strumento grafico che presenta i diagrammi di dispersione per ogni coppia delle variabili nel modello (http://www.wessa.net/rwasp_cloud.wasp#output) La matrice degli Scatterplot è un importante strumento grafico per l’analisi esplorativa dei dati e per mettere in risalto: 1. Tipo di relazione fra ciascuna coppia di variabili: diretta o inversa 2. Forma del legame: lineare o non lineare 3. Intensità della relazione fra ciascuna coppia di variabili - da perfettamente forte e diretta (r = +1) a perfettamente forte ed inversa (r = -1). Nessun rapporto affatto se r = 0 4. Presenza di valori anamoli (outliers) nell'insieme di dati. 17 La matrice degli scatterplot suggerisce le seguenti conclusioni: 1. La relazione fra spesa alimentare della famiglia e la dimensione è diretta, lineare e relativamente forte con la presenza di un possibile outlier. 2. La relazione fra spesa alimentare della famiglia e reddito è diretta, lineare e relativamente forte senza la presenza apparente di outliers. 3. La relazione fra la dimensione della famiglia ed il reddito annuo è diretta, lineare e debole con la visibile presenza di un outlier. Così dovremmo 18 prevedere il problema di collinearity nella regressione La matrice dei coefficienti di correlazione SPESA SPESA REDDITO NC 1 REDDITO 0.95 1 NC 0.79 0.68 14 Il modello di regressione lineare multipla 1 19 Stima del vettore dei coefficienti (parametri del modello) CONDIZIONE DEI MINIMI QUADRATI ORDINARI (OLS): n 2 ei min i 1 SVOLGENDO LA CONDIZIONE DI MINIMO SI OTTIENE LA SOLUZIONE: Stime dei coefficienti B con i minimi quadrati 14 Il modello di regressione lineare multipla 20 20 Stima del vettore dei parametri del modello di Regressione multipla • Utilizzando Excel per stimare i coefficienti e la misura della bontà dell’adattamento per il modello di regressione • Excel: – Strumenti / Analisi Dati... / Regressione 14 Il modello di regressione lineare multipla 21 Risultati della regressione multipla SPÊSA - 1,118 0,148 (Reddito) 0,793(NC) 14 Il modello di regressione lineare multipla 22 L’equazione di regressione multipla SPÊSA - 1,118 0,148 (Reddito) 0,793(NC) Dove SPESA è in Euro*1000 REDDITO è in Euro*1000 NC è in numero di componenti. b1 = 0,148: la SPESA alimentare aumenta, in media, di 148 Euro all’anno all’aumentare di 1000 Euro del REDDITO, al netto (fermo restando) degli effetti dovuti alle variazioni di NC 14 Il modello di regressione lineare multipla b2 = 0,793: la SPESA alimentare aumenta, in media, di 793 Euro all’anno all’aumentare di 1 di NC , al netto (fermo restando) degli effetti dovuti alle variazioni del REDDITO 23 Commento e significato dei parametri • 1. a = -1,118 nessun significato interpretabile perché il livello medio della spesa alimentare della famiglia non può essere negativo anche quando nessun componente ha una occupazione remunerata. Inoltre, non è realistico pensare all'esistenza di una famiglia che pur non avendo reddito e zero componenti presenta una spesa per alimentazione. Ciò nonostante, questo valore non dovrebbe essere scartato; svolge un ruolo importante quando si utilizza la equazione di regressione stimata per la previsione. • 2. b1 = 0,148 Rappresenta l'effetto parziale del reddito annuale della famiglia sulla spesa per alimentazione, tenendo costante la dimensione. Il segno positivo stimato implica che tale effetto è positivo mentre il valore assoluto implica che il consumo alimentare aumenta di euro 148 per ogni 1000 euro di aumento nel reddito. • 3. b2 =0,793 rappresenta l'effetto parziale della dimensione della famiglia sulla spesa per alimentazione, tenendo costante il reddito della famiglia. Il segno positivo stimato implica che tale effetto sia positivo mentre il valore assoluto implica che la spesa alimentare aumenta di 793 euro per ogni componente della famiglia in più ( per matrimonio, nascita, adozione, ecc.). Si noti che l'aggiunta ad una famiglia per matrimonio è una possibilità perché vi sono alcune famiglie nel campione con soltanto una persona. 14 Il modello di regressione lineare multipla 24 Piano di regressione e valori osservati 14 Il modello di regressione lineare multipla 25 Quale variabile ha la maggior influenza sulla SPESA ? La risposta si ottiene dal confronto dei coefficienti di regressione parziale b1 e b2. Il confronto però non è possibile in quanto essi hanno unità di misura diversa (unità di misura della var. dipendente/ unità di misura della variabile esplicativa). Per rendere possibile il confronto è necessario fare ricorso a dei coefficienti di regressione parziali che sono numeri puri e ottenuti partendo da una equazione di regressione multipla in termini di variabili standardizzate Z. Z y Beta1 Z 1 Beta2 Z 2 u 14 Il modello di regressione lineare multipla 26 Stima modello in termini di Z con GRETL Coefficienti di regressione Standardizzato. Una variazione unitaria di ZREDDITO determina in media una variazione di 0,7612 nello ZSPESA 14 Il modello di regressione lineare multipla 27 Stima modello in termini di Z con GRETL Pertanto il modello in termini di scarti standardizzati delle variabili diventa: ẐSPESA 0,7612 ZREDDITO 0,2729 Z NC In tal caso, i coefficienti di regressione Beta sono puri numeri e quindi confrontabili. Ne deriva che la variabile che fornisce il contributo più elevato alla spiegazione della Spesa alimentare delle famiglie è il reddito! Al contrario di quanto si poteva pensare guardando erroneamente ai valori dei coefficienti di regressione parziali 14 Il modello di regressione lineare multipla 28 Piano di regressione in termini di scarti standardizzati 14 Il modello di regressione lineare multipla 29 Metodo indiretto per calcolare i coefficienti di regressione standardizzati (Beta) Un modo più rapido di ottenere i valori dei coefficienti Beta e di ottenerli in funzione dei coefficienti B. La formula per standardizzare un coefficiente di regressione parziale è: Beta j x j Y bj Il coefficiente di regressione è moltiplicato per il rapporto delle deviazioni standard della variabile indipendente Xj e della variabile dipendente Y 14 Il modello di regressione lineare multipla 30 Significato (interpretazione ) dei coefficienti di regressione parziali standardizzati Poiché i coefficienti di regressione parziali sono espressi nella stessa metrica (sono numeri puri), si può determinare la loro capacità relativa di spiegare la variabile dipendente. Conseguentemente, la variabile indipendente con il più elevato valore del coefficiente Beta ha il elevato impatto sulla variabile dipendente Y. 14 Il modello di regressione lineare multipla 31 STATISTICHE DESCRITTIVE CON GRETL 14 Il modello di regressione lineare multipla 32 Metodo indiretto per calcolare i coefficienti di regressione standardizzati (Beta) Beta REDDITO Beta NC 23,955 0,1482 0,7611 4,6642 1,6051 0,7931 0,2729 4,6642 Zˆ SPESA 0,7611Z REDDITO 0,2729 Z NC La variabile che fornisce il contributo più elevato alla spiegazione della Spesa alimentare delle famiglie è il reddito! Al contrario di quanto si poteva pensare guardando erroneamente ai valori dei coefficienti di regressione parziali. 14 Il modello di regressione lineare multipla 33 Quale variabile ha la maggior influenza sulla SPESA ? Si possono utilizzare diversi metodi: 1) Confronto dei coefficienti di regressione parziale standardizzati; 2) Confronto dei valore della t di Student: il coefficiente con il più alto t di Student identifica la variabile più importante; 3) Scomposizione del coefficiente di determinazione multipla R2 nei contributi delle diverse variabili (dove i beta sono coefficienti di regressione parziale standardizzati e r coefficienti di correlazione diretta). 2 RY.12 β y1.2 ry1 β y 2.1ry 2 RY2.12 0,7611 0,946 0,2729 0,787 0,720 0,215 0,935 Posto uguale a 100 la variabilità spiegata della variabile dipendente, la variabile X1 (REDDITO) spiega il 77% (=0,720/0,935) e la variabile X2 (NC) il restante 23% (=0,215/0,935). 14 Il modello di regressione lineare multipla 34 Impiego della equazione di regressione per fare previsioni Prevedere la spesa alimentare nel caso in cui il reddito è 90000 € e NC = 5 SPÊSA - 1,118 0,148(REDD ITO) 0,793(NC) - 1,118 0,148 90 0,793 5 16,167 La SPESA alimentare prevista è di 16167 Euro 14 Il modello di regressione lineare multipla Attenzione che il REDDITO è in €*1000, pertanto €90000 significano che REDDITO = 90 35 ANOVA (scomposizione della devianza) 2 2 2 ˆ ˆ ( yi y ) ( yi y ) ( yi yi ) DEV. TOTALE SST DEV. REGRESSIONE = SSR DEV. RESIDUA (ERRORE) + SSE SSR SSE DEV .ERR 2 R 1 1 SST SST DEV .TOT GIUDIZIO GLOBALE SUL MODELLO 1. Significatività del test F 2. Valore di R2 14 Il modello di regressione lineare multipla 36 R2 = indice di determinazione multiplo DEV .REG DEV .ERR 2 R 1 DEV .TOT DEV .TOT 0 R2 1 Segnala la quota di devianza (varianza) della variabile dipendente Y spiegata dalla relazione lineare con le variabili esplicative. Si può ritenere R2 come misura della bontà dell’adattamento (closeness of fit) del piano di regressione ai punti osservati. Vale a dire, più prossimo a 1 è il valore di R2, più piccolo è la dispersione dei punti intorno al piano di regressione e migliore sarà l’adattamento 14 Il modello di regressione lineare multipla 37 Coefficiente di Determinazione multipla R 2Y x1,x2 SSR 386,3129 0,935 SST 413,3455 Il 93,5% della variabilità del consumo alimentare è spiegata dalla variazione del Reddito e della numerosità famigliare (NC) 14 Il modello di regressione lineare multipla 38 Il coefficiente di correlazione multipla (the multiple correlation coefficient ) Da notare che : R R 2 R =0,967 misura l’entità della relazione (the degree of relationship) fra i valori osservati (yi) e i previsti (ýi) della Spesa alimentare delle famiglie. Poichè I valori di ýi sono ottenuti come combinazione lineare del Reddito (X1) e NC (X2), un valore del coefficiente pari a 0,967 indica che la relazione lineare fra Spesa alimentare e le due variabili esplicative è abbastanza forte (is quite strong) e positiva. 14 Il modello di regressione lineare multipla 39 Confronto fra modello con una variabile e due variabili esplicative Nel modulo della regressione semplice si era visto che utilizzando una sola variabile esplicativa (il Reddito) la quota di variabilità spiegata della variabile dipendente era pari all’89,4% (R2 = 0,894). Introducendo una seconda variabile indipendente (modello multiplo), la quota di variabilità spiegata aumenta al 93,5%. (R2y.x1,x2 = 0,935) ma si perde un grado di libertà. L’incremento in quota di variabilità spiegata introducendo NC controbilancia la perdita di gradi di libertà? Per dare una risposta, bisogna confrontare 0,894 con R2 corretto (Adjusted R-Square or R2 with a bar over it) che nel nostro caso è pari a 0,927). 2 Y , X 1, X 2 R R 2 Y ,X 1 14 Il modello di regressione lineare multipla 40 R2 Adjusted (modificato o corretto) • R2 non diminuisce mai quando una nuova variabile X è aggiunta al modello – Ciò può essere uno svantaggio se si desidera confrontare modelli con un numero di variabili esplicative diverso • Qual è l'effetto netto dovuto all’introduzione di una nuova variabile ? Infatti, quando si aggiunge una nuova variabile indipendente X nel modello si perde un grado di libertà. Bisogna allora valutare se la nuova variabile X fornisce un contributo esplicativo sufficiente a controbilanciare la perdita di un grado di libertà. 14 Il modello di regressione lineare multipla 41 R2 Adjusted (modificato o corretto) Mostra la proporzione di variabilità di Y spiegata da tutte le variabili indipendenti X, corretta per il numero di variabili di X utilizzate 2 R 1 (1 RY 2 adj X 1 , X 2... Xk n 1 ) n k 1 (dove n = dimensione campione, k = numero di variabili indipendenti). – Penalizza l‘impiego eccessivo di variabili indipendenti poco importanti – Più piccolo di R2 (perché è pari a 1- (n-1/n-k-1)(dev res/dev.tot)) – Utile nel confronto fra modelli 14 Il modello di regressione lineare multipla 42 R2 Adjusted (modificato o corretto) DEV .ERR (n k 1) 2 R 1 DEV .TOT (n 1) AGGIUNGENDO UNA VARIABILE NEL MODELLO R2 CORRETTO PUO’ ANCHE DIMINUIRE 14 Il modello di regressione lineare multipla 43 R2 Adjusted (modificato o corretto) 2 R adj 0,927 Il 92,7% della variabilità nella spesa alimentare è spiegato tramite la variazione nel reddito e nella dimensione della famiglia, tenendo conto della dimensione del campione e del numero di variabili indipendenti 14 Il modello di regressione lineare multipla 44 Cosa dicono e non dicono R2e R2-corretto? L’R2e R2-corretto dicono se le variabili esplicative sono idonee a prevedere (o “spiegare”) i valori della variabile dipendente L’R2 e R2 corretto non dicono se 1.Una variabile inclusa è statisticamente significativa; 2. Le variabili esplicative sono la vera causa dei movimenti della variabile dipendente; 3.Il modello è ben specificato; 4.Il gruppo di variabili esplicative è il più appropriato 14 Il modello di regressione lineare multipla 45 45 Errore standard della stima (la notazione è Se e rappresenta la stima dello scarto quadratico medio dell’errore teorico del modello) Questa statistica riassuntiva misura l'esattezza o la qualità generale del modello multiplo valutata in termini di media/variabilità standardizzata non spiegata nella variabile dipendente che può essere dovuta a errori che potrebbero provenire da errori di campionamento; errori che causano valori delle stime b dei parametri che differiscono significativamente dai valori B non noti. Se questi errori sono piccoli, in media, quindi il valore di Se potrebbe avvicinarsi a zero (uguaglia esattamente a zero se i valori teorici ýi del modello sono esattamente uguali ai valori osservati y per tutti i = 1, 2,…, n). Se al contrario, i valori di Se si avvicinano a +∞; il modello non è utilizzabile. Si noti che Se è uno stimatore corretto dello scarto quadratico medio intorno al vero piano di regressione condizionato µy/x y / x B0 B1 X 1i B2i 14 Il modello di regressione lineare multipla 46 LE IPOTESI (ASSUNZIONI) NEL MODELLO DEI MINIMI QUADRATI Assunzioni sulla natura delle variabili esplicative (regressori) X: • Assunzione A: I regressori Xi sono non stocastici, in altre parole i valori delle X osservati nel campione non hanno natura stocastica (la variabile X è fissa). • Assunzione B: I regressori Xi sono stocastici, in altre parole i valori delle X osservati nel campione sono estratti in maniera casuale e indipendente da una data popolazione (ipotesi più realistica) 14 Il modello di regressione lineare multipla 47 LE ASSUNZIONI DEL MODELLO DEI MINIMI QUADRATI ( X non stocastico) • A1: Gli errori hanno media zero • A2: Gli errori sono omoschedastici • A3: Gli errori sono indipendenti • A4: Gli errori si distribuiscono in modo normale 14 Il modello di regressione lineare multipla 48 TYPES OF REGRESSION MODEL AND ASSUMPTIONS FOR MODEL A Le ipotesi (Assumptions) per il Modello A A.1 Gli errori hanno media zero E(ei) = 0 per ogni i Si assume che il valore medio del termine di errore per tutte le osservazioni sia zero. A volte il termine di errore sarà positivo, a volte negativo, ma non dovrebbe presentare una tendenza sistematica in uno o nell’altro senso. Infatti, il ruolo dell'intercetta è di prendere tutta la tendenza sistematica ma costante in Y non rappresentato dai regressori. Il ruolo dell'intercetta è di prendere in conto ogni tendenza sistematica ma costante in Y non tenuta presente (spiegata) dalle variabili esplicative. 14 Il modello di regressione lineare multipla 49 10 TYPES OF REGRESSION MODEL AND ASSUMPTIONS FOR MODEL A Assumptions for Model A A.2 Il termine di errore è omoschedastico e2 e2 i i Si assume che la varianza del termine di errore per tutte le osservazioni sia omoschedastica, intendendo che il valore di ogni osservazione è ricavato da una distribuzione con varianza costante. Questo è un concetto beforehand, vale a dire stiamo pensando al comportamento potenziale del termine di dispersione prima che il campione realmente sia generato. Una volta che abbiamo generato il campione, il termine di dispersione risulterà essere maggior in alcune osservazioni e più piccolo in altre, ma non ci dovrebbe essere alcun motivo affinchè sia più erratico erratico erratico in alcune osservazioni che in altre. Se il presupposto non è soddisfatto, le stime dei coefficienti di regressione di OLS saranno inefficienti. Per ottenere risultati più certi occorre introdurre una correzione. 14 Il modello di regressione lineare multipla 50 17 TYPES OF REGRESSION MODEL AND ASSUMPTIONS FOR MODEL A Assumptions for Model A A.3 Il termine di errore è indipendente ei è distributo in modo indipendente per ogni ej per j ≠ i Questa ipotesi sta ad indicare che, non dovrebbe esserci associazione sistematica fra i suoi valori in tutte le coppie di osservazioni. Per esempio, se si constata che il termine di errore è grande e positivo in un'osservazione, ciò non dovrebbe significare che debba essere grande e positivo nella successiva osservazione (o grande e negativo, per quella materia, o piccolo e positivo, o piccolo e negativo). L’ipotesi, implica che la covarianza nella popolazione fra ei e ej sia zero. Se questo presupposto non è soddisfatto, OLS darà ancora le stime inefficienti. Le violazioni di questo presupposto sono comunque rare con i dati cross section. 14 Il modello di regressione lineare multipla 51 22 TYPES OF REGRESSION MODEL AND ASSUMPTIONS FOR MODEL A Assumptions for Model A A.4 Il termine di errore ha una distribuzione normale Solitamente si suppone che il termine di dispersione abbia una distribuzione normale. La giustificazione di questa ipotesi è nel teorema del limite centrale TLC). Essenzialmente, se una variabile casuale è il risultato composito degli effetti di tantissime altre variabili casuali, si distribuisce in modo normale anche se le relative componenti non lo sono, a condizione che nessuna di loro sia dominante. Poiché il termine di dispersione è composto di un certo numero di fattori che non compaiono esplicitamente nell'equazione di regressione così, anche se non sappiamo nulla intorno alla distribuzione di questi fattori, solitamente siamo autorizzati a supporre che il termine di dispersione si distribuisca normalmente. 14 Il modello di regressione lineare multipla 52 26 Residui nella regressione multipla Modello a due variabili Osservazione campionaria Ŷ b0 b1X1 b2 X2 < Residui = ei = (Yi – Yi) Y Yi < Yi x2i X2 < x1i X1 La miglior equazione , Y ,è ottenuta minimizzando la somma dei quadrati degli 14 Il modello di regressione 53 errori, e2 lineare multipla Assunzioni sugli errori (residui) del Modello di Regressione Lineare Multiplo Assunzioni: Errori (residui) dal modello di regressione: ei (Yˆ Y i ) • • • • Media nulla degli errori Omoschedasticità: varianza degli errori costante e finita Incorrelazione tra gli errori Gli errori si distribuiscono in modo normale (Gaussiano) 14 Il modello di regressione lineare multipla 54 Plots dei residui impiegati nella regressione Multipla < • I plots dei residui utilizzati nella regressione multipla sono i seguenti: < – Residui vs. Yi – Residui vs. X1i – Residui vs. X2i – Residui vs. tempo (se abbiamo dati in serie – storiche Questi plots )sono utilizzati per verificare se vi sono violazioni alle assunzioni sul modello 14 Il modello di regressione lineare multipla 55 Residui vs. Yi 14 Il modello di regressione lineare multipla 56 Residui vs. X1i (Excel) 14 Il modello di regressione lineare multipla 57 Residui vs. X1i GRETL 14 Il modello di regressione lineare multipla 58 Residui vs. X2i Excel 14 Il modello di regressione lineare multipla 59 Residui vs. X2i Gretl 14 Il modello di regressione lineare multipla 60 Multicollinearità • 1. Elevata Correlazione fra le variabili esplicative X • 2. Le variabili non forniscono informazioni aggiuntive ed è difficile valutare l’effetto di ciascuna di esse • 3. Le stime dei coefficienti presentano elevata variabilità (elevati standard error) • 4. Esiste sempre – Questione di grado. 14 Il modello di regressione lineare multipla 61 Come si rivela la presenza di multicollinearità? • 1. Esame della matrice dei coefficienti di correlazione – 1. La Correlazione fra coppie di variabili X è più elevata di quella con la variabile Y – 2. Esaminare il Variance Inflation Factor (VIF) – Se VIFj > 5 (or 10 secondo il test), la multicollinearità è presente • 3. Pochi rimedi – Utilizzare nuovi dati – Eliminare una delle variabili X correlate 14 Il modello di regressione lineare multipla 62 Correlation Matrix Computer Output Coefficienti di correlazione, usando le osservazioni 1 - 20 Valore critico al 5% (per due code) = 0.4438 per n = 20 SPESA SPESA REDDITO NC 1 REDDITO 0.9456 1 NC 0.7871 0.6755 rY1 rY2 r12 14 Il modello di regressione lineare multipla 1 All 1’s 63 Variance Inflation Factors Computer Output Fattori di Inflazione della Varianza (VIF) Valore minimo possibile: 1.0 Valori superiori a 10.0 indicano un problema di collinearità REDDITO NC 1.839 1.839 VIF(j) = 1/(1 - R(j)^2), dove R(j) è il coefficiente di correlazione multipla tra la variabile j e le altre variabili indipendenti. Nel nostro caso r REDDITO, NC = 1/(10,6755)^2 = 1,839 14 Il modello di regressione lineare multipla 64 Come i diagrammi di Venn possono aiutarci a capire la multicollinearità Una var. dip. (Y) e 2 indipendenti (X1 e X2)— presentano 3 correlazioni da esaminare: • Correlazioni fra ciascuna var. indip. e la var. dip. Y: rY1 and rY2 • Correlazione fra le var. indip.: r12 Il nostro obiettivo: capire le interrelazioni fra le correlazioni. • Quanta variabilità di Y è spiegata da X1 e X2 insieme • Quanta variabilità di Y è spiegata da X1 dopo aver tenuto conto di X2 • Quanta variabilità di Y è spiegata da X2 dopo aver tenuto conto di X1 Y X1 Y X2 X1 14 Il modello di regressione lineare multipla X2 65 Diagrammi di Venn con variabili indipenedenti non correlate e correlate Variabili esplicative non correlate Le variabili indipendenti non correlate sono molto rare, sono prevalentemente presenti nei disegni di esperimenti. In tal caso possiamo calcolare l’ R2 totale (overall R2) sommando i vari singoli R2. RY2|12 RY2|1 R2 spiegare Y utilizzando solo X2: X1 RY2|1 RY2|12 a b c RY2|2 R2 spiegare Y utilizzando solo X1 Y R2 Variabili esplicative correlate Le variabili indipendenti correlate sono molto comuni, sono presenti in quasi tutti gli studi. In tal caso non possiamo sommare i vari singoli R2 a causa della intersezione dei contributi. Y |2 RY2|1 a c a X1 X2 Come la correlazione fra le variabili espilicative influenza il loro effetto congiunto? • Variabili esplicative altamente correlate: la quota parte spiegata congiuntamente “c” è grande; Le quote parti indipendenti addizionali “a” e “b” sono piccole • Variabili esplicative scarsamente correlate : la quota parte spiegata congiuntamente “c” à piccola; Y c RY2|2 b c b X2 Y a c X1 modello di regressione Le quote parti indipendenti addizionali 14 “a”Ile“b” lineare multipla sono grandi Y b a b X2 X1 c X2 66 Misurazione del contributo esplicativo addizionale di una variabile esplicativa addizionale Supponendo, che X1 sia già nel modello, come possiamo misurare il contributo addizionale di X2, in aggiunta a quello già spiegato da X1? Varianza (Y ) a b c d d a X1 Y c RY2 2 b X2 VarianzaRe sidua var(Y | X1 ) b d bc abcd b Prop di VarRes (Y | X 1 ) spiegatada X 2 bd RY22 correlazio ne semplice RY22|.1 correlazio ne parziale rY 2 Terminologia e annotazioni • Correlazione semplice, rY2 and RY22 : Proporzione di variabilità di Y spiegata da X2 • Correlazione multipla, RY.122 : Proporzione di variabilità di Y spiegata da entrambe X1 e X2 • Correlazione parziale, rY2.1 : Y2 identifica la variabile correlata con Y; .1 identifica la variabile(i) tenuta costante (o tenuta ferma, parzializzata) rY 2.1 Come i coefficienti parziali sono legati a quelli semplici? Correlaz. Parziale2 Correlaz.Semplice2 rY 2 2 bc abcd rY 2 .1 2 b bd Confrontando queste 2 equazioni, possiamo notare che b e d sono in entrambi i denominatori. Pertanto la relazione fra semplice e parziale dipende dalla dimensione di “a” e “c” rispetto a “b” e “d” 14 Il modello di regressione lineare multipla 67 Test di ipotesi nella regressione lineare Test per la significatività del modello di Regressione 14 Il modello di regressione lineare multipla 68 14 Il modello di regressione lineare multipla 69 Inferenza Statistica: possono essere verificate due diverse tipologie di ipotesi Fra tutti le variabili esplicative, non c’è ne nessuna da eliminare, o si potrebbe fare a meno di qualcuna ? H0 : 1 2 k 0 H1 : alcuni j 0 (la regressione non spiega (almeno 1 previsore ha un effetto significat ivo) nulla di Y) Controllo se ogni variabile esplicativa nel modello, Xj, ha un effetto? H0 : j 0 H0 : j 0 ( questo previsore non ha un effetto significativo) ( questo previsore ha un effetto significativo) Completo/Omnibus F test t-tests individuali Con una sola variabile esplicativa (cioè nella regressione lineare semplice), questi due tests sono identici. Nella regressione multipla, questi due tests sono decisamente differenti! 14 Il modello di regressione lineare multipla 70 verifica della significatività globale • F-Test per la Significatività Globale del Modello • Mostra se c’è un rapporto lineare fra tutte le variabili X considerate insieme e Y • Utilizza il test statistico F • Ipotesi: H0: B1 = B2 = … = Bk = 0 (nessuna relazione lineare) H1: almeno un Bi ≠ 0 (almeno una variabile indipendente influenza Y) 14 Il modello di regressione lineare multipla 71 F-Test per la significatività globale • Test statistico: SSR MQR k F SSE MQE n k 1 • dove F ha k (al numeratore) e n – k - 1 (al denominatore) gradi di libertà (degrees of freedom) 14 Il modello di regressione lineare multipla 72 F-Test per la significatività globale F2,17 MQR 121,4702 MQE Con 2 e 17 gradi di libertà 14 Il modello di regressione lineare multipla P-value per il test F 73 F-Test per la significatività globale H0: B1 = B2 = 0 H1: almeno uno tra B1 e B2 diverso da zero = .05 df1= 2 df2 = 12 Poiche la statistica F test cade nella regione di rifiuto (p-value < 0,05), rifiuto H0 F 0,05, 2,17 = 3.59 = .05 Non rifiuto H0 Rifiuto H0 F 0,05, 2,17 = 3.59 F2,17 MQR 121,4702 MQE Decisione: Valore critico: 0 Test Statistico: F 14 Il modello di regressione lineare multipla 74 F-Test per la significatività globale: Conclusioni • Ad un livello di significatività del 5%,dalla tavola della distribuzione F si ottiene un valore critico del F-value o F 0.05, 2, 17 = 3.59. • Pertanto, possiamo rifiutare H0 in favore di H1. Ciò significa che il modello di regressione multipla che è stato proposto non è una mera costruzione teorica, ma effettivamente esiste ed è statisticamente significativo. Infatti, • C’è evidenza che almeno una variabile indipendente influenza significativamente Y !!! 14 Il modello di regressione lineare multipla 75 T-Test per la significatività dei singoli coefficienti di regressione: le singole variabili esplicative sono significative? • Utilizzo il t-tests per ognuno dei singoli coefficienti di regressione parziali (slopes) delle variabili • Mostra se esiste una relazione lineare significativa fra la variabile Xi and Y 14 Il modello di regressione lineare multipla 76 T-Test per la significatività dei singoli coefficienti di regressione: Ipotesi: H0: Bi = 0 (nessuna relazione lineare) H1: Bi ≠ 0 (Fra Xi and Y esiste una relazione lineare) Test Statistic: (df = n – k -1) t n k 1 bi 0 Sb i 14 Il modello di regressione lineare multipla 77 • 1. a = -1.118 nessun significato interpretabile perché il livello medio della spesa alimentare della famiglia non può essere negativo anche quando nessun componente ha una occupazione remunerata. Inoltre, non è realistico pensare all'esistenza una famiglia che non ha reddito e componente ma presenta spesa per alimentazione. Ciò nonostante, questo valore non dovrebbe essere scartato; svolge un ruolo importante quando si utilizza la linea di regressione/equazione stimata per la previsione. • 2. b1 = .148 Rappresenta l'effetto parziale di reddito annuale della famiglia sulla spesa per alimentazione, tenendo costante la dimensione. Il segno positivo stimato implica che tale effetto è positivo mentre il valore assoluto implica che il consumo alimentare aumenta di euro 148 per ogni 1000 euro di aumento nel reddito. • 3. b2 = .793 rappresenta l'effetto parziale della dimensione della famiglia sulla spesa per alimentazione , tenendo costante il reddito della famiglia. Il segno positivo valutato implica che tale effetto sia positivo mentre il valore assoluto implica che la spesa alimentare è aumentata di 793 euro per ogni componente della famiglia in più. supplementare alla famiglia per matrimonio, nascita o adozione. Si noti che l'aggiunta ad una famiglia per matrimonio è una possibilità perché vi sono alcune famiglie nel campione con soltanto una persona. 14 Il modello di regressione lineare multipla 78 Le singole variabili esplicative sono significative? t-value per il Reddito è t = 9,0491, con p-value 0,0000 t-value per NC t = 3,2446, con pvalue 0,0048 14 Il modello di regressione lineare multipla 79 Inferenza riguardo al coefficiente di regressione parziale:Esempio di t Test Dall’output di Excel : H0: Bi = 0 H1: Bi 0 d.f. = 20-2-1 = 17 = 0,05 Il valore del test statistico per ogni variabile cade nella zona di rifiuto (p-values < 0,05) t/2 = 2.110 Decisione: Rifiuto H0 per ogni /2=0,025 Rifiuto H0 /2=0,025 Non rifiuto H0 -tα/2 -2.110 0 tα/2 2.110 variabile Rifiuto H0 14 Il modello di regressione lineare multipla 80 Inferenza riguardo al coefficiente di regressione parziale: Conclusioni Riguardo al REDDITO, l’ipotesi nulla è H0: B1 = 0 (cioè, il reddito non influenza la Spesa alimentare), contro l’alternativa H1: B1 non è uguale a zero (cioè, il REDDITO ha effetti causali sulla Spesa alimentare). Per NC (dimensione della famiglia), l’ipotesi nulla è H0: B2 = 0 (cioè, NC non ha effetti causali sulla SPESA), contro l’alternativa che H1: B2 non è uguale a zero (cioè, pure NC ha effetti causali sulla spesa alimentare). Al livello di significatività α =0,05 e d.f. = n -k-1 = 20 -2-1 = 17, il valore critico del test t è = t0.025,17 = ±2.110. Per il REDDITO il t osservato = 9.049. Così, H0 deve essere inequivocabilmente rifiutata in favore di H1; in questo caso, si può affermare che il REDDITO famigliare influenza significativmente la SPESA alimentare delle famiglie. Per NC , t osservato = 3.245. Così, Ho deve essere rifiutata in favore di H1; in questo caso, si può ritenere che la dimensione della famiglia (NC) ha una influenza significativa sulla Spesa alimentare. 14 Il modello di regressione lineare multipla 81 Test per la verifica della significatività economica/pratica dei coefficienti di regressione • Una variazione interessante del test t è la verifica dell’importanza economica del parametro riguardo al senso della causalità di ogni variabile indipendente. In questo caso, l’ipotesi nulla è espressa come: H0: Bi ha un valore che è al massimo zero , contro H1: Bi > 0 (cioè il valore è rigorosamente positivo secondo la sottostante teoria economica). Se il segno del parametro si ritiene che sia negativo in base alla teoria o al buonsenso, l’ ipotesi nulla è espressa come H0: Bi ha un valore che è almeno zero , contro H1: Bi < 0 (cioè il valore è rigorosamente negativo secondo la sottostante teoria economica). 14 Il modello di regressione lineare multipla 82 Test per la verifica della significatività economica/pratica dei coefficienti di regressione Consideriamo, ad esempio, NC. Ci si aspetta che il segno di B2 sia positivo. H0: B2 ha un valore che è al massimo zero contro H1: B2 > 0. Al livello di significatività α = .05, il valore critico di t = t 0,.05,17 = +1.740. Ma il valore osservato di t = 3.245 , così l’ipotesi nulla di un effetto negativo o nessun effetto della dimesione della famiglia deve essere rifiutata in modo inequivocabile.. Si noti che nel test che tiene conto del significato economico di un parametro il valore alfa non è diviso per due poiché in tal caso il test è a una coda. 14 Il modello di regressione lineare multipla 83 TEST t a due code Funzione di densità di probabilità di bj rifiuto H0 Ipotesi nulla: H0 : Bj = 0 Ipotesi alternativa: H1 : Bj = 0 non rifiuto H0 rifiuto H0 2.5% 2.5% -2,11 sd 0 2,11 sd Se si utilizza un test a due code con un livello di significatività del 5%, la stima deve essere 2,11 (1.96 nella normale) standard deviations sopra o sotto 0 se si rifiuta H0. 14 Il modello di regressione lineare multipla 84 35 TEST t a una coda Funzione di densità di probabilità di bj Ipotesi nulla: H0 : Bj = 0 Ipotesi alternativa: H1 : Bj > 0 non rifiuto H0 rifiuto H0 5% 0 1.74 sd Se è giustificato fare ricorso ad un test a una coda, per esempio con H0: 2 > 0, la stima deve essere 1,74 (1.65 nella normale) standard deviations sopra 0. E’ facile constatare che ciò lo rende più facile rifiutare H0 e quindi dimostrare che Y è realmente influenzato dalla X (che supporre che il o modello è specificato 85 14 lascia Il modello di regressione correttamente). lineare multipla 36 Test sull’intercetta: Test t • La verifica dell'intercetta è poco interessante dato che non ha incidenza sulla bontà di adattamento. In genere si sottopone a verifica l'ipotesi che sia uguale a zero • Il procedimento è del tutto simile a quello visto per il coefficiente angolare 14 Il modello di regressione anno accademico lineare multipla 2009/10 86 86 Valori critici della distribuzione t 14 Il modello di regressione lineare multipla 87 Modelli con due o più variabili quantitative 14 Il modello di regressione lineare multipla 88 Nessuna Interazione E(Y) E(Y) = 1 + 2X1 + 3X2 E(Y) = 1 + 2X1 + 3(3) = 10 + 2X1 12 E(Y) = 1 + 2X1 + 3(2) = 7 + 2X1 8 E(Y) = 1 + 2X1 + 3(1) = 4 + 2X1 4 E(Y) = 1 + 2X1 + 3(0) = 1 + 2X1 0 X1 0 0.5 1 1.5 Effetto (pendenza) di X1 su E(Y) non dipende dal valore di X2 14 Il modello di regressione lineare multipla 89 Grafico tridimensionale Y Response Surface 0 X2 X1 14 Il modello di regressione lineare multipla 90 Modello con due variabili esplicative e interazione 1. Ipotizziamo una interazione fra coppie di variabili indipendenti. In questo caso l’effetto di una variabile X varia a differenti livelli di un’altra variabile X: E (Y ) 0 1X 1i 2 X 2i 3 X 1i X 2i 2. Senza il termine di interazione, l’effetto di X1 su Y è misurato da 1 3. Con il termine di interazione l’effetto di X1 su Y è misurato da 1 + 3X2. L’effetto aumenta all’aumentare di X2i 14 Il modello di regressione lineare multipla 91 Modello con due variabili esplicative e interazione E(Y) E(Y) = 1 + 2X1 + 3X2 + 4X1X2 12 8 4 0 X1 0 0.5 1 14 Il modello di regressione lineare multipla 1.5 92 Modello con due variabili esplicative e interazione E(Y) E(Y) = 1 + 2X1 + 3X2 + 4X1X2 12 E(Y) = 1 + 2X1 + 3(0) + 4X1(0) = 1 + 2X1 8 4 0 X1 0 0.5 1 14 Il modello di regressione lineare multipla 1.5 93 Modello con due variabili esplicative e interazione E(Y) E(Y) = 1 + 2X1 + 3X2 + 4X1X2 E(Y) = 1 + 2X1 + 3(1) + 4X1(1) = 4 + 6X1 12 8 E(Y) = 1 + 2X1 + 3(0) + 4X1(0) = 1 + 2X1 4 0 X1 0 0.5 1 14 Il modello di regressione lineare multipla 1.5 94 Modello con due variabili esplicative e interazione E(Y) E(Y) = 1 + 2X1 + 3X2 + 4X1X2 E(Y) = 1 + 2X1 + 3(1) + 4X1(1) = 4 + 6X1 12 8 E(Y) = 1 + 2X1 + 3(0) + 4X1(0) = 1 + 2X1 4 0 X1 0 0.5 1 1.5 L’effetto (pendenza) di X1 su E(Y) dipende dai valori 14 Il modello di regressione 95 di X2 lineare multipla Relazione del secondo ordine • 1. La Relazione fra 1 variabile Dipendente e 2 o più variabili Independenti è una funzione Quadratica • 2. E’ utile come primo modello se si sospetta la presenza di una relazione non lineare • 3. Il modello è: E (Y ) 0 1X 1i 2 X 2i 3 X 1i X 2i 4 X 12i 5 X 22i • 4. Questi modelli però hanno scarso utilizzo in economia 14 Il modello di regressione lineare multipla 96 Alcuni modelli del secondo ordine Y X2 X1 Y X1 4 + 5 > 0 4 + 5 < 0 X2 X1 32 > 4 4 5 X2 Y E (Y ) 0 1X 1i 2 X 2i 3 X 1i X 2i 2 4 X 1i 14 Il modello di regressione lineare multipla 2 5 X 2i 97 Riferimenti bibliografici • D.M. Levine, T.C. Krehbiel, M.L. Berenson (2002) Statistica, Apogeo. • Cap. 10 (disponibile online all’indirizzo • www.apogeonline.com/libri/00805/allegati/). • D. N. Gujarati (2003) Basic conometrics, McGrawHill. http://www.wessa.net/esteq.wasp 14 Il modello di regressione lineare multipla 98