Il Modello di
Regressione Multipla
Introduzione
Il modello di regressione multipla è la naturale generalizzazione di
quello semplice, in quanto considera p  1 variabili esplicative per la
spiegazione della variabile dipendente.
Seguendo lo sviluppo della regressione semplice il modello di
regressione multipla si scrive:
E Y | x1 , x 2 ,..., x p    0  1   2 ,...,  p
dove
 0 , 1 ,  2 ,....,  p
sono i coefficienti di regressione equivalente a:
Yi   0  1 xi1   2 xi 2 ,...,  p xip   i
Introduzione
In termini matriciali:
Y1 
Y 
 2
 ... 
Y  
 Yi 
 ... 
 
Yn 
 1 x11
1 x
21

... ...
X 
 1 xi1
... ...

 1 xn1
;
x12
x22
...
xi 2
...
xn 2
... x1 p 
... x2 p 
... ... 

... xip 
... ... 

... xnp 
 0 
 
 1
 2 
  
 ... 
 ... 
 
  p 
 1 
 
 2
 ... 
  
 i 
 ... 
 
 n 
Il modello di regressione lineare multiplo in forma matriciale si scrive:
Y  X  
Ipotesi del modello di regressione
Yi
v.c. indipendenti E  i   0 i  1,..., n
Var Yi | x1 , x2 ,..., x p   Var i   
2
i  1,..., n
(varianza costante)
Omoschedasticità
Relazione di linearità, con parametri fissi
Le p variabili x j j  1,..., p deterministiche, sono linearmente
indipendenti con n  p
Stima dei parametri
Il problema che si pone è quello di stimare i coefficienti di regressione.
Parimenti alla regressione semplice, si adotterà il metodo dei minimi
quadrati.
Per determinare la soluzione del sistema e per dimostrare alcune
proprietà degli stimatori si adotterà la nozione matriciale:
y  Xb  e
Ovvero:
y  Xb  e
(residuo)
Stima dei parametri
Occorre trovare il vettore tale che:

S b    y  Xb  y  Xb  min
Sviluppando
S b  yy  b X X b  2bX y
ed uguagliando a zero la derivata prima, di ottiene:
X y   X X b
b   X X  X y
1
N.B. la matrice X’X deve essere di
rango pieno per poterla invertire
Stima dei parametri
Determinati i valori dei coefficienti di regressione, si può scrivere il
modello di regressione stimato:
yˆ i  b0  b1 xi1  b2 xi 2  .....  b p xip
Proprietà degli stimatori
Al variare del campione le stime
definito da:
b ,..., b   b
0
p
generano lo stimatore B
1
B   X X  X Y
Sostituendo Y  X  
si ha:
1
1
1
B   X X  X  X      X X  X X   X X  X  
Matrice
identità
 B     X X  X 
1
 EB   
poichè
 E   0
dunque B è uno stimatore corretto di 
Proprietà degli stimatori
la varianza di B è
Var B   B  E B B  E B    X X 1 2
Indicando con ckj l’elemento della matrice
dalla riga k+1 e dalla colonna j+1, si ha:
ckj 2  CovBk , B j 
 2 c jj  VarB j 
 X ' X 1 individuato
Proprietà degli stimatori
Stima del parametro  2 : il modello di regressione consente di
ottenere uno stimatore corretto  2 . Si consideri la somma dei
quadrati dei residui:
n
2
SSE    yi  yˆ i 
i 1
Indicando con SSE * lo stimatore di SSE si può dimostrare che:
 SSE * 
   2
E 
 n  p  1
Sostituendo 
2
con
SSE *
MSE 
n  p 1
*
si ha:
VarB j   MSE *c jj
Numero delle
variabili
Misura della bontà di adattamento
si dimostra, come nel caso della regressione semplice, la seguente
scomposizione:
Valore
osservato
media
y
Devianza
totale
i
Valore
teorico
2
2
2
 y     yi  yˆ i     yˆ i  y 
Devianza
residua
Devianza di
regressione
Misura della bontà di adattamento
Come nel caso della regressione semplice la precedente può
scriversi:
S yy  SSE  SSR
La quantità:
R2 
SSR
S yy
0  R2  1
è chiamata coefficiente di determinazione multiplo e si interpreta
come quella parte di variabilità di y spiegata dal modello di
regressione.
Misura della bontà di adattamento
Nel modello di regressione multipla l’indice di determinazione lineare
può presentare alcuni problemi calcolatori e di interpretazione. Ad
esempio, in caso di assenza di relazione lineare non è pari a zero.
È bene ricorrere perciò all’indice R 2 corretto:
p  n 1

R 2   R2 

n  1 n  p  1

Numero delle
osservazioni
Che varia sempre tra “0” e “1”.
Numero delle
variabili
Verifica delle ipotesi
si può dimostrare, con l’ipotesi di normalità di Yi ,che:
SSE *  2
ha distribuzione 
2
con n  p  1 gradi di libertà.
Le variabili casuali B j e SSE * sono indipendenti.
2
Se 1   2  ....   p  0 , SSR *  2 ha distribuzione  con p gradi
di libertà.
Le variabili casuali SSE * e SSR * sono indipendenti.
Stimatore di SSR
Verifica delle ipotesi
Dai i primi due risultati, segue che la quantità:
ha distribuzione t di Student con n-p-1
gradi di libertà. È così possibile
costruire intervalli di confidenza e
verificare ipotesi su  , così se si
vuole verificare l’ipotesi
Bj   j
SSE *
c jj
n  p 1
H0 :  j  0
contro
H1 :  j  0
basta confrontare il valore di t calcolato con t 2;n  p 1
Se t  t 2;n  p1
si accetta H 0
tabulato.
Verifica delle ipotesi
I due ultimi risultati consentono di verificare l’ipotesi
H 0 : 1   2  ....   p  0
contro l’alternativa che almeno uno dei coefficienti sia diverso da
zero. Si vuole verificare la significatività sei coefficienti nel suo
complesso. Un test appropriato è dato dal rapporto:
F
SSR p
SSE n  p  1
Che è una determinazione di
una v.c. di Fischer-Snedecor con
p e n-p-1 g.l.
Se F calcolato è più piccolo del
valore F 2; p ,n  p 1 tabulato si
accetta H 0
Verifica delle ipotesi
Il procedimento è riportato in una tabella del tipo di quelle viste
precedentemente, per la scomposizione della devianza totale.
Sorgente di
Variazione
Somma dei
Quadrati
(Devianza)
Gradi di
Libertà
Regressione
SSR
p
Residuo
SSE
n  p 1
Totale
S yy
n 1
Varianza
Rapporto
F
MSR  SSR p
MSE  SSE n  p 1
SSR p SSE n  p  1
Multicolinearità
Con il termine multicollinearità ci si riferisce alla correlazione fra le
variabili indipendenti di un modello di regressione. Il suo effetto consiste
nel ridurre la capacità previsiva di ogni singola variabile indipendente in
modo proporzionale alla forza della sua associazione con le altre
variabili indipendenti.
L’effetto della multicollinearità può interessare sia la capacità di
spiegazione del modello (capacità della procedura di regressione e del
ricercatore di rappresentare e capire l’influenza di ciascuna variabile
indipendente) sia la sua stima (la sua presenza rende problematica la
determinazione dei contributi individuali delle variabili indipendenti,
perché i loro effetti vengono “mescolati” o confusi). Va pertanto valutata
e individuata.
Multicolinearità
Due strumenti a disposizione sono la Tolleranza (Tolerance) e il
Fattori di Accrescimento della Varianza (Variance Inflaction
Factor).
Tollerance  1  Ri20
Vif i 
1
1  Ri20
In generale un Vif  5
è il quadrato del
coefficiente che misura la
correlazione fra la i-esima
variabile esplicativa e tutte
le altre
è in indice di alta multicollinearità.
Scarica

Il modello di regressione lineare multiplo