LA REGRESSIONE
LINEARE MULTIPLA
1
Osservazioni introduttive
• I fenomeni collettivi (economici, demografici, ecc.)
sono strettamente legati da una complessa rete di
relazioni. Pertanto risulta spesso insufficiente lo
studio della relazione tra due sole variabili.
• In questi casi, una volta individuato il carattere
dipendente, sarà opportuno studiare come esso
varia in media al variare degli altri caratteri.
Questo studio viene denominato regressione
multipla e costituisce una generalizzazione della
regressione semplice.
2
ESEMPI DI RICORSO A MODELLI DI
REGRESSIONE MULTIPLA
Ad esempio:
• Il prezzo di una merce sui vari mercati (o in una
serie di anni o in diverse zone territoriali) è
collegato con la produzione, le scorte esistenti, il
prezzo di altre merci, la domanda dei
consumatori e così via;
• Il consumo per abitante di energia elettrica
(in varie regioni) dipende dal reddito per
abitante, dalla incidenza degli occupati addetti al
terziario sugli occupati in complesso, ecc.;
3
Modelli
I
modelli sono una rappresentazione
matematica della realtà
George Box
“All models are
wrong, but some
are useful”
4
Modello empirico o statistico
(Empirical Model)
Di solito non si conosce la relazione esatta
che esiste fra due variabili
Per questo motivo si adatta un modello
empirico
5
Schema logico per la costruzione di un modello
statistico
TEORIZZAZIONE SU UN FENOMENO
INDIVIDUAZIONE DELLE VARIABILI ESPLICATIVE
FORMULAZIONE O IDENTIFICAZIONE DEL MODELLO
USO DEI DATI PER LA STIMA DEL MODELLO
VERIFICA DEL MODELLO
USO DEL MODELLO
6
Modello di regressione lineare multipla
Lo studio della regressione multipla consiste nel
determinare una funzione che esprima nel modo
migliore il legame (in media) tra le variabili
indipendenti X1, X2, …., Xk e la variabile
dipendente Y.
Per fare questo occorre incominciare con lo stabilire il
tipo di funzione che lega la variabile dipendente a
quelle indipendenti. In analogia con quanto già
esposto sulla regressione semplice, ipotizziamo il
tipo più semplice, quello lineare.
7
Regressione lineare multipla
Idea: Esaminare le relazione lineare fra
1 dipendente (Y) e 2 o più variabili independenti (Xi)
Modello di regressione multipla con k variabili indipendenti:
Y-intercetta
Coefficiente di
regressione parziale
Errore casuale
Yi  B0  B1X1  B2 X 2    Bk X k  e
8
Modello lineare multiplo
I coefficienti del modello sono stimati sulla base di dati
campionari
Modello di regressione multipla con k variabili indipendenti :
Stima (o valore
previsto di Y
Stima
dell’intercetta
Stima dei coefficienti di
regressione parziale
Ŷi  b0  b1X1i  b2X2    bk Xk
In questo capitolo utilizzeremo sempre Excel per ottenere i parametri del
modello di regressione e altre statistiche (regression summary measures).
9
PARAMETRI
• yi ed x1 , x2 ….xk sono i valori, rispettivamente, della variabile
dipendente e delle k variabili indipendenti, rilevate con
riferimento alla i-esima unità statistica;
• B0 è la costante;
• B1, B2,… Bk sono i coefficienti di regressione parziale
(indicano di quanto varia in media la Y quando Xj aumenta di
un’unità, a parità di valori delle altre variabili esplicative);
• ei è il “residuo non spiegato” relativo all’osservazione i-esima;
• n è il numero di osservazioni.
10
INTERPRETAZIONE
Nel modello di regressione multipla si assume
che ciascun valore osservato della variabile
dipendente
sia esprimibile come funzione
lineare dei corrispondenti valori delle variabili
esplicative,
più un termine residuo che
traduce l’incapacità del modello di riprodurre
con esattezza la realtà osservata.
11
Modello lineare nel caso di tre
variabili: piano di regressione
Nel caso particolare di due sole variabili esplicative
X1 e X2 si ha il piano di regressione:
Y  B0  B1 X 1  B2 X 2  e
12
Modello lineare nel caso di tre variabili:
piano di regressione
Modello con
due variabili
Y
Ŷ  b0  b1X1  b2 X2
X2
X1
13
Esempio: estensione di un modello
da 2 a 3 variabili indipendenti
Con riferimento a 20 famiglie si cerca di spiegare il consumo
alimentare (Y) utilizzando come variabile esplicativa il reddito
(X1). Il modello stimato è il seguente:
yˆ i  0,412  0,184 x1i
(i  1, 2, , 20)
Ora estendiamo il modello per considerare anche la dimensione
della famiglia (X2), misurata in termini di numero di componenti
della famiglia. Il modello diventa:
Spesa alimentare = B0 + B1 Reddito + B2 Numero Componenti
14
Spesa annua per
l'alimentazione (000*Euro)
Reddito annuo (000*Euro)
Dimensione della famiglia
(numero di componenti)
SPESA
REDDITO
NC
1
5.2
28
3
2
5.1
26
3
3
5.6
32
2
4
4.6
24
1
5
11.3
54
4
6
8.1
59
2
7
7.8
44
3
8
5.8
30
2
9
5.1
40
1
10
18
82
6
11
4.9
42
3
12
11.8
58
4
13
5.2
28
1
14
4.8
20
5
15
7.9
42
3
16
6.4
47
1
17
20
112
6
18
13.7
85
5
19
5.1
31
2
20
2.9
26
2
famiglia
15
Esempio: estensione di un modello
da 2 a 3 variabili indipendenti
• Dovremmo aspettarci che i segni di B1 e di B2 siano
entrambi positivi, cioè che sia il reddito sia la dimensione
della famiglia abbiano effetti positivi sulla spesa alimentare
della famiglia. Ciò vale nel caso di singole regressioni
lineari semplici;
• Invece B1 misura l'effetto parziale del reddito sulla spesa
alimentare, tenendo costante la dimensione della famiglia,
e B2 misura l'effetto parziale della dimensione della
famiglia sulla spesa, tenendo costante il reddito.
16
Esempio: estensione di un modello
da 2 a 3 variabili indipendenti
In definitiva, sia la teoria economica sia il buonsenso dovrebbero costituire una
base per la selezione delle variabili esplicative da inserire nel modello. L’analisi
grafica sia del tipo che della struttura di correlazione fra le variabili può essere
compiuta con il ricorso alla matrice degli scatterplot, uno strumento grafico che
presenta i diagrammi di dispersione per ogni coppia delle variabili nel modello
(http://www.wessa.net/rwasp_cloud.wasp#output)
La matrice degli Scatterplot è un importante strumento grafico per l’analisi
esplorativa dei dati e per mettere in risalto:
1. Tipo di relazione fra ciascuna coppia di variabili: diretta o inversa
2. Forma del legame: lineare o non lineare
3. Intensità della relazione fra ciascuna coppia di variabili - da perfettamente forte
e diretta (r = +1) a perfettamente forte ed inversa (r = -1). Nessun rapporto affatto
se r = 0
4. Presenza di valori anamoli (outliers) nell'insieme di dati.
17
La matrice degli scatterplot suggerisce le seguenti conclusioni:
1. La relazione fra spesa alimentare della famiglia e la dimensione è
diretta, lineare e relativamente forte con la presenza di un possibile outlier.
2. La relazione fra spesa alimentare della famiglia e reddito è diretta, lineare
e relativamente forte senza la presenza apparente di outliers.
3. La relazione fra la dimensione della famiglia ed il reddito annuo è diretta,
lineare e debole con la visibile presenza di un outlier. Così dovremmo
18
prevedere il problema di collinearity nella regressione
La matrice dei coefficienti di
correlazione
SPESA
SPESA
REDDITO
NC
1
REDDITO
0.95
1
NC
0.79
0.68
14 Il modello di regressione
lineare multipla
1
19
Stima del vettore dei coefficienti
(parametri del modello)
CONDIZIONE DEI MINIMI QUADRATI ORDINARI (OLS):
n
2
 ei  min
i 1
SVOLGENDO LA CONDIZIONE DI MINIMO SI OTTIENE LA
SOLUZIONE:
Stime dei coefficienti B con i minimi quadrati
14 Il modello di regressione
lineare multipla
20
20
Stima del vettore dei parametri del
modello di Regressione multipla
• Utilizzando Excel per stimare i coefficienti e la misura
della bontà dell’adattamento per il modello di
regressione
• Excel:
– Strumenti / Analisi Dati... / Regressione
14 Il modello di regressione
lineare multipla
21
Risultati della regressione multipla
SPÊSA  - 1,118  0,148 (Reddito)  0,793(NC)
14 Il modello di regressione
lineare multipla
22
L’equazione di regressione multipla
SPÊSA  - 1,118  0,148 (Reddito)  0,793(NC)
Dove
SPESA è in Euro*1000
REDDITO è in Euro*1000
NC è in numero di componenti.
b1 = 0,148: la SPESA
alimentare aumenta, in media,
di 148 Euro all’anno
all’aumentare di 1000 Euro
del REDDITO, al netto (fermo
restando) degli effetti dovuti
alle variazioni di NC
14 Il modello di regressione
lineare multipla
b2 = 0,793: la SPESA
alimentare aumenta, in
media, di 793 Euro
all’anno all’aumentare di
1 di NC , al netto (fermo
restando) degli effetti
dovuti alle variazioni del
REDDITO
23
Commento e significato dei parametri
•
1. a = -1,118 nessun significato interpretabile perché il livello medio della
spesa alimentare della famiglia non può essere negativo anche quando
nessun componente ha una occupazione remunerata. Inoltre, non è
realistico pensare all'esistenza di una famiglia che pur non avendo reddito e
zero componenti presenta una spesa per alimentazione. Ciò nonostante,
questo valore non dovrebbe essere scartato; svolge un ruolo importante
quando si utilizza la equazione di regressione stimata per la previsione.
•
2. b1 = 0,148 Rappresenta l'effetto parziale del reddito annuale della
famiglia sulla spesa per alimentazione, tenendo costante la dimensione. Il
segno positivo stimato implica che tale effetto è positivo mentre il valore
assoluto implica che il consumo alimentare aumenta di euro 148 per ogni
1000 euro di aumento nel reddito.
•
3. b2 =0,793 rappresenta l'effetto parziale della dimensione della famiglia
sulla spesa per alimentazione, tenendo costante il reddito della famiglia. Il
segno positivo stimato implica che tale effetto sia positivo mentre il valore
assoluto implica che la spesa alimentare aumenta di 793 euro per ogni
componente della famiglia in più ( per matrimonio, nascita, adozione, ecc.).
Si noti che l'aggiunta ad una famiglia per matrimonio è una possibilità
perché vi sono alcune famiglie nel campione con soltanto una persona.
14 Il modello di regressione
lineare multipla
24
Piano di regressione e valori
osservati
14 Il modello di regressione
lineare multipla
25
Quale variabile ha la maggior influenza sulla
SPESA ?
La risposta si ottiene dal confronto dei coefficienti di
regressione parziale b1 e b2. Il confronto però non è
possibile in quanto essi hanno unità di misura
diversa (unità di misura della var. dipendente/ unità
di misura della variabile esplicativa).
Per rendere possibile il confronto è necessario fare
ricorso a dei coefficienti di regressione parziali che
sono numeri puri e ottenuti partendo da una
equazione di regressione multipla in termini di
variabili standardizzate Z.
Z y  Beta1 Z 1  Beta2 Z 2  u
14 Il modello di regressione
lineare multipla
26
Stima modello in termini di Z con
GRETL
Coefficienti di regressione
Standardizzato. Una
variazione unitaria di
ZREDDITO determina in
media una variazione di
0,7612 nello ZSPESA
14 Il modello di regressione
lineare multipla
27
Stima modello in termini di Z con
GRETL
Pertanto il modello in termini di scarti standardizzati
delle variabili diventa:
ẐSPESA  0,7612 ZREDDITO  0,2729 Z NC
In tal caso, i coefficienti di regressione Beta sono puri numeri
e quindi confrontabili. Ne deriva che la variabile che fornisce il
contributo più elevato alla spiegazione della Spesa alimentare
delle famiglie è il reddito! Al contrario di quanto si poteva
pensare guardando erroneamente ai valori dei coefficienti di
regressione parziali
14 Il modello di regressione
lineare multipla
28
Piano di regressione in termini di scarti
standardizzati
14 Il modello di regressione
lineare multipla
29
Metodo indiretto per calcolare i coefficienti di
regressione standardizzati (Beta)
Un modo più rapido di ottenere i valori dei
coefficienti Beta e di ottenerli in funzione dei
coefficienti B. La formula per standardizzare un
coefficiente di regressione parziale è:
Beta j 
x
j
Y
 bj
Il coefficiente di regressione è moltiplicato per il
rapporto delle deviazioni standard della variabile
indipendente Xj e della variabile dipendente Y
14 Il modello di regressione
lineare multipla
30
Significato (interpretazione ) dei coefficienti di
regressione parziali standardizzati
Poiché i coefficienti di regressione parziali sono
espressi nella stessa metrica (sono numeri puri), si
può determinare la loro capacità relativa di spiegare
la variabile dipendente.
Conseguentemente, la variabile indipendente con il
più elevato valore del coefficiente Beta ha il elevato
impatto sulla variabile dipendente Y.
14 Il modello di regressione
lineare multipla
31
STATISTICHE DESCRITTIVE
CON GRETL
14 Il modello di regressione
lineare multipla
32
Metodo indiretto per calcolare i coefficienti di
regressione standardizzati (Beta)
Beta REDDITO
Beta NC
23,955
 0,1482 
 0,7611
4,6642
1,6051
 0,7931 
 0,2729
4,6642
Zˆ SPESA  0,7611Z REDDITO  0,2729 Z NC
La variabile che fornisce il contributo più elevato alla
spiegazione della Spesa alimentare delle famiglie è il reddito! Al
contrario di quanto si poteva pensare guardando erroneamente
ai valori dei coefficienti di regressione parziali.
14 Il modello di regressione
lineare multipla
33
Quale variabile ha la maggior influenza sulla
SPESA ?
Si possono utilizzare diversi metodi:
1) Confronto dei coefficienti di regressione parziale standardizzati;
2) Confronto dei valore della t di Student: il coefficiente con il più
alto t di Student identifica la variabile più importante;
3) Scomposizione del coefficiente di determinazione multipla R2
nei contributi delle diverse variabili (dove i beta sono coefficienti di
regressione parziale standardizzati e r coefficienti di correlazione
diretta).
2
RY.12  β y1.2 ry1  β y 2.1ry 2
RY2.12  0,7611  0,946  0,2729  0,787  0,720  0,215  0,935
Posto uguale a 100 la variabilità spiegata della variabile dipendente,
la variabile X1 (REDDITO) spiega il 77% (=0,720/0,935) e la variabile X2
(NC) il restante 23% (=0,215/0,935).
14 Il modello di regressione
lineare multipla
34
Impiego della equazione di
regressione per fare previsioni
Prevedere la spesa alimentare nel caso in cui il
reddito è 90000 € e NC = 5
SPÊSA  - 1,118  0,148(REDD ITO)  0,793(NC)
 - 1,118  0,148  90  0,793  5
 16,167
La SPESA alimentare
prevista è di 16167
Euro
14 Il modello di regressione
lineare multipla
Attenzione che il
REDDITO è in €*1000,
pertanto €90000
significano che
REDDITO = 90
35
ANOVA
(scomposizione della devianza)
2
2
2
ˆ
ˆ
 ( yi  y )   ( yi  y )   ( yi  yi )
DEV. TOTALE
SST
DEV. REGRESSIONE
=
SSR
DEV. RESIDUA (ERRORE)
+
SSE
SSR
SSE
DEV .ERR
2
R 
 1
 1
SST
SST
DEV .TOT
GIUDIZIO GLOBALE
SUL MODELLO
1. Significatività del
test F
2. Valore di R2
14 Il modello di regressione
lineare multipla
36
R2 = indice di determinazione multiplo
DEV .REG
DEV .ERR
2
R 
 1
DEV .TOT
DEV .TOT
0  R2  1
Segnala la quota di devianza (varianza) della variabile
dipendente Y spiegata dalla relazione lineare con le variabili
esplicative. Si può ritenere R2 come misura della bontà
dell’adattamento (closeness of fit) del piano di regressione ai
punti osservati. Vale a dire, più prossimo a 1 è il valore di R2,
più piccolo è la dispersione dei punti intorno al piano di
regressione e migliore sarà l’adattamento
14 Il modello di regressione
lineare multipla
37
Coefficiente di Determinazione multipla
R 2Y
x1,x2

SSR 386,3129

 0,935
SST 413,3455
Il 93,5% della variabilità del
consumo alimentare è spiegata
dalla variazione del Reddito e
della numerosità famigliare (NC)
14 Il modello di regressione
lineare multipla
38
Il coefficiente di correlazione multipla
(the multiple correlation coefficient )
Da notare che :
R R
2
R =0,967 misura l’entità della relazione (the degree of relationship) fra i
valori osservati (yi) e i previsti (ýi) della Spesa alimentare delle famiglie.
Poichè I valori di ýi sono ottenuti come combinazione lineare del Reddito
(X1) e NC (X2), un valore del coefficiente pari a 0,967 indica che la
relazione lineare fra Spesa alimentare e le due variabili esplicative è
abbastanza forte (is quite strong) e positiva.
14 Il modello di regressione
lineare multipla
39
Confronto fra modello con una variabile e
due variabili esplicative
Nel modulo della regressione semplice si era visto che utilizzando una
sola variabile esplicativa (il Reddito) la quota di variabilità spiegata
della variabile dipendente era pari all’89,4% (R2 = 0,894).
Introducendo una seconda variabile indipendente (modello multiplo),
la quota di variabilità spiegata aumenta al 93,5%. (R2y.x1,x2 = 0,935)
ma si perde un grado di libertà.
L’incremento in quota di variabilità spiegata introducendo NC
controbilancia la perdita di gradi di libertà? Per dare una risposta,
bisogna confrontare 0,894 con R2 corretto (Adjusted R-Square or R2
with a bar over it) che nel nostro caso è pari a 0,927).
2
Y , X 1, X 2
R
R
2
Y ,X 1
14 Il modello di regressione
lineare multipla
40
R2 Adjusted (modificato o corretto)
• R2 non diminuisce mai quando una nuova variabile
X è aggiunta al modello
– Ciò può essere uno svantaggio se si desidera
confrontare modelli con un numero di variabili
esplicative diverso
• Qual è l'effetto netto dovuto all’introduzione di una
nuova variabile ? Infatti, quando si aggiunge una nuova
variabile indipendente X nel modello si perde un grado
di libertà. Bisogna allora valutare se la nuova variabile X
fornisce un contributo esplicativo sufficiente a
controbilanciare la perdita di un grado di libertà.
14 Il modello di regressione
lineare multipla
41
R2 Adjusted (modificato o corretto)
Mostra la proporzione di variabilità di Y spiegata da tutte le
variabili indipendenti X, corretta per il numero di variabili
di X utilizzate

2
R  1  (1  RY

2
adj
X 1 , X 2... Xk
 n  1 
)

 n  k  1 
(dove n = dimensione campione, k = numero di variabili
indipendenti).
– Penalizza l‘impiego eccessivo di variabili indipendenti poco
importanti
– Più piccolo di R2 (perché è pari a 1- (n-1/n-k-1)(dev res/dev.tot))
– Utile nel confronto fra modelli
14 Il modello di regressione
lineare multipla
42
R2 Adjusted (modificato o
corretto)
DEV .ERR
(n  k  1)
2
R  1
DEV .TOT
(n  1)
AGGIUNGENDO
UNA VARIABILE NEL
MODELLO
R2 CORRETTO PUO’
ANCHE DIMINUIRE
14 Il modello di regressione
lineare multipla
43
R2 Adjusted (modificato o corretto)
2
R adj  0,927
Il 92,7% della variabilità nella spesa
alimentare è spiegato tramite la variazione
nel reddito e nella dimensione della famiglia,
tenendo conto della dimensione del campione
e del numero di variabili indipendenti
14 Il modello di regressione
lineare multipla
44
Cosa dicono e non dicono R2e R2-corretto?
L’R2e R2-corretto dicono se le variabili esplicative sono idonee a
prevedere (o “spiegare”) i valori della variabile dipendente
L’R2 e R2 corretto non dicono se
1.Una variabile inclusa è statisticamente significativa;
2. Le variabili esplicative sono la vera causa dei movimenti della
variabile dipendente;
3.Il modello è ben specificato;
4.Il gruppo di variabili esplicative è il più appropriato
14 Il modello di regressione
lineare multipla
45
45
Errore standard della stima
(la notazione è Se e rappresenta la stima dello scarto
quadratico medio dell’errore teorico del modello)
Questa statistica riassuntiva misura l'esattezza o la qualità generale
del modello multiplo valutata in termini di media/variabilità
standardizzata non spiegata nella variabile dipendente che può essere
dovuta a errori che potrebbero provenire da errori di campionamento;
errori che causano valori delle stime b dei parametri che differiscono
significativamente dai valori B non noti.
Se questi errori sono piccoli, in media, quindi il valore di Se potrebbe
avvicinarsi a zero (uguaglia esattamente a zero se i valori teorici ýi del
modello sono esattamente uguali ai valori osservati y per tutti i = 1,
2,…, n). Se al contrario, i valori di Se si avvicinano a +∞; il modello non
è utilizzabile. Si noti che Se è uno stimatore corretto dello scarto
quadratico medio intorno al vero piano di regressione condizionato µy/x
 y / x  B0  B1 X 1i  B2i
14 Il modello di regressione
lineare multipla
46
LE IPOTESI (ASSUNZIONI) NEL MODELLO DEI MINIMI
QUADRATI
Assunzioni sulla natura delle variabili esplicative (regressori) X:
• Assunzione A: I regressori Xi sono non stocastici, in altre
parole i valori delle X osservati nel campione non hanno
natura stocastica (la variabile X è fissa).
• Assunzione B: I regressori Xi sono stocastici, in altre parole i
valori delle X osservati nel campione sono estratti in maniera
casuale e indipendente da una data popolazione (ipotesi più
realistica)
14 Il modello di regressione
lineare multipla
47
LE ASSUNZIONI DEL MODELLO DEI MINIMI QUADRATI
( X non stocastico)
• A1: Gli errori hanno media zero
• A2: Gli errori sono omoschedastici
• A3: Gli errori sono indipendenti
• A4: Gli errori si distribuiscono in modo
normale
14 Il modello di regressione
lineare multipla
48
TYPES OF REGRESSION MODEL AND ASSUMPTIONS FOR MODEL A
Le ipotesi (Assumptions) per il Modello A
A.1 Gli errori hanno media zero E(ei) = 0 per ogni i
Si assume che il valore medio del termine di errore per tutte le osservazioni sia
zero. A volte il termine di errore sarà positivo, a volte negativo, ma non
dovrebbe presentare una tendenza sistematica in uno o nell’altro senso. Infatti,
il ruolo dell'intercetta è di prendere tutta la tendenza sistematica ma costante in
Y non rappresentato dai regressori. Il ruolo dell'intercetta è di prendere in
conto ogni tendenza sistematica ma costante in Y non tenuta presente
(spiegata) dalle variabili esplicative.
14 Il modello di regressione
lineare multipla
49
10
TYPES OF REGRESSION MODEL AND ASSUMPTIONS FOR MODEL A
Assumptions for Model A
A.2 Il termine di errore è omoschedastico
 e2   e2
i
i
Si assume che la varianza del termine di errore per tutte le osservazioni sia
omoschedastica, intendendo che il valore di ogni osservazione è ricavato da
una distribuzione con varianza costante. Questo è un concetto beforehand,
vale a dire stiamo pensando al comportamento potenziale del termine di
dispersione prima che il campione realmente sia generato. Una volta che
abbiamo generato il campione, il termine di dispersione risulterà essere
maggior in alcune osservazioni e più piccolo in altre, ma non ci dovrebbe
essere alcun motivo affinchè sia più erratico erratico erratico in alcune
osservazioni che in altre.
Se il presupposto non è soddisfatto, le stime dei coefficienti di regressione di
OLS saranno inefficienti. Per ottenere risultati più certi occorre introdurre una
correzione.
14 Il modello di regressione
lineare multipla
50
17
TYPES OF REGRESSION MODEL AND ASSUMPTIONS FOR MODEL A
Assumptions for Model A
A.3 Il termine di errore è indipendente
ei è distributo in modo indipendente per ogni ej per j ≠ i
Questa ipotesi sta ad indicare che, non dovrebbe esserci
associazione sistematica fra i suoi valori in tutte le coppie di
osservazioni.
Per esempio, se si constata che il termine di errore è grande e
positivo in un'osservazione, ciò non dovrebbe significare che
debba essere grande e positivo nella successiva osservazione (o
grande e negativo, per quella materia, o piccolo e positivo, o
piccolo e negativo). L’ipotesi, implica che la covarianza nella
popolazione fra ei e ej sia zero. Se questo presupposto non è
soddisfatto, OLS darà ancora le stime inefficienti. Le violazioni di
questo presupposto sono comunque rare con i dati cross section.
14 Il modello di regressione
lineare multipla
51
22
TYPES OF REGRESSION MODEL AND ASSUMPTIONS FOR MODEL A
Assumptions for Model A
A.4 Il termine di errore ha una distribuzione normale
Solitamente si suppone che il termine di dispersione abbia una distribuzione
normale. La giustificazione di questa ipotesi è nel teorema del limite centrale
TLC). Essenzialmente, se una variabile casuale è il risultato composito degli
effetti di tantissime altre variabili casuali, si distribuisce in modo normale
anche se le relative componenti non lo sono, a condizione che nessuna di
loro sia dominante. Poiché il termine di dispersione è composto di un certo
numero di fattori che non compaiono esplicitamente nell'equazione di
regressione così, anche se non sappiamo nulla intorno alla distribuzione di
questi fattori, solitamente siamo autorizzati a supporre che il termine di
dispersione si distribuisca normalmente.
14 Il modello di regressione
lineare multipla
52
26
Residui nella regressione
multipla
Modello a due variabili
Osservazione
campionaria
Ŷ  b0  b1X1  b2 X2
<
Residui = ei
= (Yi – Yi)
Y
Yi
<
Yi
x2i
X2
<
x1i
X1
La miglior equazione , Y ,è
ottenuta minimizzando la
somma dei quadrati degli
14 Il modello di regressione
53
errori, e2
lineare multipla
Assunzioni sugli errori (residui) del Modello
di Regressione Lineare Multiplo
Assunzioni:
Errori (residui) dal modello di regressione:
ei  (Yˆ  Y i )
•
•
•
•
Media nulla degli errori
Omoschedasticità: varianza degli errori costante e finita
Incorrelazione tra gli errori
Gli errori si distribuiscono in modo normale (Gaussiano)
14 Il modello di regressione
lineare multipla
54
Plots dei residui impiegati nella
regressione Multipla
<
• I plots dei residui utilizzati nella
regressione multipla sono i seguenti:
<
– Residui vs. Yi
– Residui vs. X1i
– Residui vs. X2i
– Residui vs. tempo (se abbiamo dati in serie
– storiche
Questi
plots )sono utilizzati per verificare se vi sono
violazioni alle assunzioni sul modello
14 Il modello di regressione
lineare multipla
55
Residui vs. Yi
14 Il modello di regressione
lineare multipla
56
Residui vs. X1i
(Excel)
14 Il modello di regressione
lineare multipla
57
Residui vs. X1i
GRETL
14 Il modello di regressione
lineare multipla
58
Residui vs. X2i
Excel
14 Il modello di regressione
lineare multipla
59
Residui vs. X2i
Gretl
14 Il modello di regressione
lineare multipla
60
Multicollinearità
• 1.
Elevata Correlazione fra le variabili esplicative X
• 2. Le variabili non forniscono informazioni
aggiuntive ed è difficile valutare l’effetto di ciascuna di
esse
• 3. Le stime dei coefficienti presentano elevata
variabilità (elevati standard error)
• 4.
Esiste sempre – Questione di grado.
14 Il modello di regressione
lineare multipla
61
Come si rivela la presenza di
multicollinearità?
• 1. Esame della matrice dei coefficienti di
correlazione
– 1. La Correlazione fra coppie di variabili X è più
elevata di quella con la variabile Y
– 2. Esaminare il Variance Inflation Factor (VIF)
– Se VIFj > 5 (or 10 secondo il test), la multicollinearità
è presente
• 3. Pochi rimedi
– Utilizzare nuovi dati
– Eliminare una delle variabili X correlate
14 Il modello di regressione
lineare multipla
62
Correlation Matrix Computer Output
Coefficienti di correlazione, usando le osservazioni 1 - 20
Valore critico al 5% (per due code) = 0.4438 per n = 20
SPESA
SPESA
REDDITO
NC
1
REDDITO
0.9456
1
NC
0.7871
0.6755
rY1
rY2
r12
14 Il modello di regressione
lineare multipla
1
All 1’s
63
Variance Inflation Factors Computer Output
Fattori di Inflazione della Varianza (VIF)
Valore minimo possibile: 1.0
Valori superiori a 10.0 indicano un problema di collinearità
REDDITO
NC
1.839
1.839
VIF(j) = 1/(1 - R(j)^2), dove R(j) è il coefficiente di correlazione multipla tra la
variabile j e le altre variabili indipendenti. Nel nostro caso r REDDITO, NC = 1/(10,6755)^2 = 1,839
14 Il modello di regressione
lineare multipla
64
Come i diagrammi di Venn possono aiutarci a capire la
multicollinearità
Una var. dip. (Y) e 2 indipendenti (X1 e
X2)— presentano 3 correlazioni da
esaminare:
• Correlazioni fra ciascuna var. indip. e
la var. dip. Y: rY1 and rY2
• Correlazione fra le var. indip.: r12
Il nostro obiettivo: capire le interrelazioni
fra le correlazioni.
• Quanta variabilità di Y è spiegata da X1
e X2 insieme
• Quanta variabilità di Y è spiegata da X1
dopo aver tenuto conto di X2
• Quanta variabilità di Y è spiegata da
X2 dopo aver tenuto conto di X1
Y
X1
Y
X2
X1
14 Il modello di regressione
lineare multipla
X2
65
Diagrammi di Venn con variabili indipenedenti non correlate e correlate
Variabili esplicative non correlate
Le variabili indipendenti non correlate sono
molto rare, sono prevalentemente presenti nei
disegni di esperimenti.
In tal caso possiamo calcolare l’ R2 totale
(overall R2) sommando i vari singoli R2.
RY2|12

RY2|1

R2 spiegare Y
utilizzando solo
X2:
X1
RY2|1
RY2|12  a  b  c
RY2|2
R2 spiegare Y
utilizzando solo
X1
Y R2
Variabili esplicative correlate
Le variabili indipendenti correlate sono molto
comuni, sono presenti in quasi tutti gli studi.
In tal caso non possiamo sommare i vari singoli R2
a causa della intersezione dei contributi.
Y |2
RY2|1  a  c
a
X1
X2
Come la correlazione fra le variabili espilicative
influenza il loro effetto congiunto?
• Variabili esplicative altamente correlate: la quota
parte spiegata congiuntamente “c” è grande; Le
quote parti indipendenti addizionali “a” e “b”
sono piccole
• Variabili esplicative scarsamente correlate : la
quota parte spiegata congiuntamente “c” à piccola;
Y
c
RY2|2  b  c
b
X2
Y
a
c
X1
modello di regressione
Le quote parti indipendenti addizionali 14
“a”Ile“b”
lineare multipla
sono grandi
Y
b
a
b
X2
X1
c
X2
66
Misurazione del contributo esplicativo addizionale di una variabile esplicativa
addizionale
Supponendo, che X1 sia già nel modello, come possiamo misurare il contributo addizionale
di X2, in aggiunta a quello già spiegato da X1?
Varianza (Y )  a  b  c  d
d
a
X1
Y
c
RY2 2 
b
X2
VarianzaRe sidua var(Y | X1 )  b  d
bc
abcd
b
 Prop di VarRes (Y | X 1 ) spiegatada X 2
bd
RY22  correlazio ne semplice
RY22|.1  correlazio ne parziale
 rY 2
Terminologia e annotazioni
• Correlazione semplice, rY2 and RY22 :
Proporzione di variabilità di Y spiegata
da X2
• Correlazione multipla, RY.122 :
Proporzione di variabilità di Y spiegata
da entrambe X1 e X2
• Correlazione parziale, rY2.1 : Y2
identifica la variabile correlata con Y;
.1 identifica la variabile(i) tenuta
costante (o tenuta ferma,
parzializzata)
 rY 2.1
Come i coefficienti parziali sono legati a quelli
semplici?
Correlaz. Parziale2
Correlaz.Semplice2
rY 2 
2
bc
abcd
rY 2 .1 
2
b
bd
Confrontando queste 2 equazioni, possiamo notare
che b e d sono in entrambi i denominatori.
Pertanto la relazione fra semplice e parziale
dipende dalla dimensione di “a” e “c” rispetto a
“b” e “d”
14 Il modello di regressione
lineare multipla
67
Test di ipotesi nella regressione lineare
Test per la significatività del modello di Regressione
14 Il modello di regressione
lineare multipla
68
14 Il modello di regressione
lineare multipla
69
Inferenza Statistica: possono essere verificate due
diverse tipologie di ipotesi
Fra tutti le variabili esplicative,
non c’è ne nessuna da eliminare, o
si potrebbe fare a meno di qualcuna
?
H0 : 1   2     k  0
H1 : alcuni  j  0
(la regressione non spiega
(almeno 1 previsore ha un
effetto significat ivo)
nulla di Y)
Controllo se ogni variabile
esplicativa nel modello, Xj, ha un
effetto?
H0 :  j  0
H0 :  j  0
( questo previsore
non ha un effetto significativo)
( questo previsore
ha un effetto significativo)
Completo/Omnibus F
test
t-tests individuali
Con una sola variabile esplicativa (cioè nella
regressione lineare semplice), questi due tests sono
identici. Nella regressione multipla, questi due tests
sono decisamente differenti!
14 Il modello di regressione
lineare multipla
70
verifica della significatività globale
• F-Test per la Significatività Globale del Modello
• Mostra se c’è un rapporto lineare fra tutte le
variabili X considerate insieme e Y
• Utilizza il test statistico F
• Ipotesi:
H0: B1 = B2 = … = Bk = 0 (nessuna relazione
lineare)
H1: almeno un Bi ≠ 0 (almeno una variabile
indipendente influenza Y)
14 Il modello di regressione
lineare multipla
71
F-Test per la significatività globale
• Test statistico:
SSR
MQR
k
F

SSE
MQE
n  k 1
•
dove F ha k (al numeratore) e n – k - 1 (al
denominatore) gradi di libertà (degrees of freedom)
14 Il modello di regressione
lineare multipla
72
F-Test per la significatività globale
F2,17
MQR

 121,4702
MQE
Con 2 e 17 gradi
di libertà
14 Il modello di regressione
lineare multipla
P-value per
il test F
73
F-Test per la significatività globale
H0: B1 = B2 = 0
H1: almeno uno tra B1 e B2
diverso da zero
 = .05
df1= 2
df2 = 12
Poiche la statistica F test
cade nella regione di rifiuto
(p-value < 0,05), rifiuto H0
F 0,05, 2,17 = 3.59
 = .05
Non
rifiuto H0
Rifiuto H0
F 0,05, 2,17 = 3.59
F2,17
MQR

 121,4702
MQE
Decisione:
Valore critico:
0
Test Statistico:
F
14 Il modello di regressione
lineare multipla
74
F-Test per la significatività globale: Conclusioni
• Ad un livello di significatività del 5%,dalla tavola
della distribuzione F si ottiene un valore critico
del F-value o F 0.05, 2, 17 = 3.59.
• Pertanto, possiamo rifiutare H0 in favore di H1.
Ciò significa che il modello di regressione
multipla che è stato proposto non è una mera
costruzione teorica, ma effettivamente esiste ed
è statisticamente significativo. Infatti,
• C’è evidenza che almeno una variabile
indipendente influenza significativamente Y
!!!
14 Il modello di regressione
lineare multipla
75
T-Test per la significatività dei singoli coefficienti di
regressione:
le singole variabili esplicative sono significative?
• Utilizzo il t-tests per ognuno dei
singoli coefficienti di regressione
parziali (slopes) delle variabili
• Mostra se esiste una relazione lineare
significativa fra la variabile Xi and Y
14 Il modello di regressione
lineare multipla
76
T-Test per la significatività dei
singoli coefficienti di regressione:
Ipotesi:
H0: Bi = 0 (nessuna relazione lineare)
H1: Bi ≠ 0 (Fra Xi and Y esiste una
relazione lineare)
Test Statistic:
(df = n – k -1)
t n  k 1
bi  0

Sb
i
14 Il modello di regressione
lineare multipla
77
•
1. a = -1.118 nessun significato interpretabile perché il livello medio della spesa
alimentare della famiglia non può essere negativo anche quando nessun componente
ha una occupazione remunerata. Inoltre, non è realistico pensare all'esistenza una
famiglia che non ha reddito e componente ma presenta spesa per alimentazione. Ciò
nonostante, questo valore non dovrebbe essere scartato; svolge un ruolo importante
quando si utilizza la linea di regressione/equazione stimata per la previsione.
•
2. b1 = .148 Rappresenta l'effetto parziale di reddito annuale della famiglia sulla
spesa per alimentazione, tenendo costante la dimensione. Il segno positivo stimato
implica che tale effetto è positivo mentre il valore assoluto implica che il consumo
alimentare aumenta di euro 148 per ogni 1000 euro di aumento nel reddito.
•
3. b2 = .793 rappresenta l'effetto parziale della dimensione della famiglia sulla spesa
per alimentazione , tenendo costante il reddito della famiglia. Il segno positivo
valutato implica che tale effetto sia positivo mentre il valore assoluto implica che la
spesa alimentare è aumentata di 793 euro per ogni componente della famiglia in più.
supplementare alla famiglia per matrimonio, nascita o adozione. Si noti che l'aggiunta
ad una famiglia per matrimonio è una possibilità perché vi sono alcune famiglie nel
campione con soltanto una persona.
14 Il modello di regressione
lineare multipla
78
Le singole variabili esplicative sono
significative?
t-value per il Reddito è t =
9,0491, con p-value 0,0000
t-value per NC t = 3,2446, con pvalue 0,0048
14 Il modello di regressione
lineare multipla
79
Inferenza riguardo al coefficiente di
regressione parziale:Esempio di t Test
Dall’output di Excel :
H0: Bi = 0
H1: Bi  0
d.f. = 20-2-1 = 17
 = 0,05
Il valore del test statistico per ogni variabile
cade nella zona di rifiuto (p-values < 0,05)
t/2 = 2.110
Decisione: Rifiuto H0 per ogni
/2=0,025
Rifiuto H0
/2=0,025
Non rifiuto H0
-tα/2
-2.110
0
tα/2
2.110
variabile
Rifiuto H0
14 Il modello di regressione
lineare multipla
80
Inferenza riguardo al coefficiente di regressione
parziale: Conclusioni
Riguardo al REDDITO, l’ipotesi nulla è H0: B1 = 0 (cioè, il reddito non
influenza la Spesa alimentare), contro l’alternativa H1: B1 non è uguale
a zero (cioè, il REDDITO ha effetti causali sulla Spesa alimentare).
Per NC (dimensione della famiglia), l’ipotesi nulla è H0: B2 = 0 (cioè, NC
non ha effetti causali sulla SPESA), contro l’alternativa che H1: B2 non
è uguale a zero (cioè, pure NC ha effetti causali sulla spesa
alimentare).
Al livello di significatività α =0,05 e d.f. = n -k-1 = 20 -2-1 = 17, il valore
critico del test t è = t0.025,17 = ±2.110.
Per il REDDITO il t osservato = 9.049. Così, H0 deve essere
inequivocabilmente rifiutata in favore di H1; in questo caso, si può
affermare che il REDDITO famigliare influenza significativmente la
SPESA alimentare delle famiglie. Per NC , t osservato = 3.245. Così,
Ho deve essere rifiutata in favore di H1; in questo caso, si può ritenere
che la dimensione della famiglia (NC) ha una influenza significativa sulla
Spesa alimentare.
14 Il modello di regressione
lineare multipla
81
Test per la verifica della significatività
economica/pratica dei coefficienti di
regressione
• Una variazione interessante del test t è la verifica dell’importanza
economica del parametro riguardo al senso della causalità di ogni
variabile indipendente.
In questo caso, l’ipotesi nulla è espressa come:
H0: Bi ha un valore che è al massimo zero , contro H1: Bi > 0 (cioè il
valore è rigorosamente positivo secondo la sottostante teoria
economica). Se il segno del parametro si ritiene che sia negativo in
base alla teoria o al buonsenso, l’ ipotesi nulla è espressa come H0:
Bi ha un valore che è almeno zero , contro H1: Bi < 0 (cioè il valore
è rigorosamente negativo secondo la sottostante teoria
economica).
14 Il modello di regressione
lineare multipla
82
Test per la verifica della significatività
economica/pratica dei coefficienti di
regressione
Consideriamo, ad esempio, NC. Ci si aspetta che il segno di B2 sia
positivo.
H0: B2 ha un valore che è al massimo zero contro
H1: B2 > 0.
Al livello di significatività α = .05, il valore critico di t = t 0,.05,17 = +1.740.
Ma il valore osservato di t = 3.245 , così l’ipotesi nulla di un effetto
negativo o nessun effetto della dimesione della famiglia deve essere
rifiutata in modo inequivocabile..
Si noti che nel test che tiene conto del significato economico di un
parametro il valore alfa non è diviso per due poiché in tal caso il test è a
una coda.
14 Il modello di regressione
lineare multipla
83
TEST t a due code
Funzione di densità
di probabilità di bj
rifiuto H0
Ipotesi nulla:
H0 : Bj = 0
Ipotesi alternativa:
H1 : Bj = 0
non rifiuto H0
rifiuto H0
2.5%
2.5%
-2,11 sd
0
2,11 sd
Se si utilizza un test a due code con un livello di significatività del 5%, la stima deve essere
2,11 (1.96 nella normale) standard deviations sopra o sotto 0 se si rifiuta H0.
14 Il modello di regressione
lineare multipla
84
35
TEST t a una coda
Funzione di densità
di probabilità di bj
Ipotesi nulla:
H0 : Bj = 0
Ipotesi alternativa:
H1 : Bj > 0
non rifiuto H0
rifiuto H0
5%
0
1.74 sd
Se è giustificato fare ricorso ad un test a una coda, per esempio con H0: 2 > 0, la
stima deve essere 1,74 (1.65 nella normale) standard deviations sopra 0. E’ facile
constatare che ciò lo rende più facile rifiutare H0 e quindi dimostrare che Y è
realmente influenzato dalla X (che
supporre
che il o modello è specificato 85
14 lascia
Il modello
di regressione
correttamente).
lineare multipla
36
Test sull’intercetta:
Test t
• La verifica dell'intercetta è poco interessante dato
che non ha incidenza sulla bontà di adattamento. In
genere si sottopone a verifica l'ipotesi che sia
uguale a zero
• Il procedimento è del tutto simile a quello visto per il
coefficiente angolare
14 Il modello di regressione
anno
accademico
lineare
multipla 2009/10
86
86
Valori critici della distribuzione t
14 Il modello di regressione
lineare multipla
87
Modelli con due o più variabili
quantitative
14 Il modello di regressione
lineare multipla
88
Nessuna Interazione
E(Y)
E(Y) = 1 + 2X1 + 3X2
E(Y) = 1 + 2X1 + 3(3) = 10 + 2X1
12
E(Y) = 1 + 2X1 + 3(2) = 7 + 2X1
8
E(Y) = 1 + 2X1 + 3(1) = 4 + 2X1
4
E(Y) = 1 + 2X1 + 3(0) = 1 + 2X1
0
X1
0
0.5
1
1.5
Effetto (pendenza) di X1 su E(Y) non dipende dal valore di X2
14 Il modello di regressione
lineare multipla
89
Grafico tridimensionale
Y
Response
Surface
0
X2
X1
14 Il modello di regressione
lineare multipla
90
Modello con due variabili esplicative e
interazione
1. Ipotizziamo una interazione fra coppie di
variabili indipendenti.
In questo caso l’effetto di una variabile X varia
a differenti livelli di un’altra variabile X:
E (Y )   0   1X 1i   2 X 2i   3 X 1i X 2i
2. Senza il termine di interazione, l’effetto di X1
su Y è misurato da 1
3. Con il termine di interazione l’effetto di X1 su
Y è misurato da 1 + 3X2.
L’effetto aumenta all’aumentare di X2i
14 Il modello di regressione
lineare multipla
91
Modello con due variabili esplicative e
interazione
E(Y)
E(Y) = 1 + 2X1 + 3X2 + 4X1X2
12
8
4
0
X1
0
0.5
1
14 Il modello di regressione
lineare multipla
1.5
92
Modello con due variabili esplicative e
interazione
E(Y)
E(Y) = 1 + 2X1 + 3X2 + 4X1X2
12
E(Y) = 1 + 2X1 + 3(0) + 4X1(0) = 1 + 2X1
8
4
0
X1
0
0.5
1
14 Il modello di regressione
lineare multipla
1.5
93
Modello con due variabili esplicative e
interazione
E(Y)
E(Y) = 1 + 2X1 + 3X2 + 4X1X2
E(Y) = 1 + 2X1 + 3(1) + 4X1(1) = 4 + 6X1
12
8
E(Y) = 1 + 2X1 + 3(0) + 4X1(0) = 1 + 2X1
4
0
X1
0
0.5
1
14 Il modello di regressione
lineare multipla
1.5
94
Modello con due variabili esplicative e
interazione
E(Y)
E(Y) = 1 + 2X1 + 3X2 + 4X1X2
E(Y) = 1 + 2X1 + 3(1) + 4X1(1) = 4 + 6X1
12
8
E(Y) = 1 + 2X1 + 3(0) + 4X1(0) = 1 + 2X1
4
0
X1
0
0.5
1
1.5
L’effetto (pendenza) di X1 su E(Y) dipende dai valori
14 Il modello di regressione
95
di X2
lineare multipla
Relazione del secondo ordine
• 1.
La Relazione fra 1 variabile Dipendente e 2 o più variabili
Independenti è una funzione Quadratica
• 2. E’ utile come primo modello se si sospetta la presenza di una
relazione non lineare
• 3. Il modello è:
E (Y )   0   1X 1i   2 X 2i   3 X 1i X 2i
  4 X 12i   5 X 22i
• 4. Questi modelli però hanno scarso utilizzo in economia
14 Il modello di regressione
lineare multipla
96
Alcuni modelli del secondo
ordine
Y
X2
X1
Y
X1
4 + 5 > 0
4 + 5 < 0
X2
X1
 32 > 4  4  5
X2
Y
E (Y )   0   1X 1i   2 X 2i
  3 X 1i X 2i
2
  4 X 1i
14 Il modello di regressione
lineare multipla

2
 5 X 2i
97
Riferimenti bibliografici
• D.M. Levine, T.C. Krehbiel, M.L. Berenson
(2002) Statistica, Apogeo.
• Cap. 10 (disponibile online all’indirizzo
• www.apogeonline.com/libri/00805/allegati/).
• D. N. Gujarati (2003) Basic conometrics,
McGrawHill.
http://www.wessa.net/esteq.wasp
14 Il modello di regressione
lineare multipla
98
Scarica

regressione_lineare_multipla