Regressione multipla
La regressione multipla è l'ovvia generalizzazione della regressione semplice, quando abbiamo
più di una variabile esplicativa. Il modello è del tipo
yi = β0 + β1 x1i + . . . + βp xpi + εi
Gli assunti che abbiamo precedentemente discusso per la regressione semplice sono richiesti
anche qui; infatti, la regressione semplice può essere vista come un caso particolare della
regressione multipla, quando
p = 1
(come sarà chiaro da alcune formule che vedremo in
seguito). Gli strumenti per vericare gli assunti rimangono ancora dello stesso tipo: graci
dei residui rispetto ai valori interpolati, normal-plot dei residui, graco di serie storiche,
diagnostiche varie (residui standardizzati, punti leva, distanze di Cook,...).
In aggiunta a
tutto ciò può essere molto utile eettuare un graco dei residui rispetto a ciascuna singola
variabile esplicativa (anche in questo caso ciò che conferma il modello è l'assenza di ogni tipo
di struttura nei dati).
Ci sono alcune cose diverse nella regressione multipla rispetto alla semplice:
Verica d'ipotesi
Ci sono due tipi di verica d'ipotesi di interesse immediato
1. Un test di signicatività complessiva della regressione:
H0 : β1 = β2 = . . . = βp = 0
H1 : qualche βj 6= 0,
j = 1, . . . , p
Il test più comune per ipotesi di questo tipo è un test
F =
Media dei quadrati della regressione
Media dei quadrati dei residui
=
F:
(Somma dei quadrati della regressione)/p
(Somma dei quadrati dei residui)/(n
Che si distribuisce sotto l'ipotesi nulla come una
F
di Snedecor con
− p − 1)
p e p − n − 1 gradi
di libertà.
2. Un test sulla signicatività di ciascun singolo coeciente:
H0 : βj = 0
H1 : βj 6= 0,
che può essere vericato usanto il test
t:
β̂j
t=
che si distribuisce sotto
H0
j = 1, . . . , p
s.e.(β̂j )
t
come una
,
di Student con
n−p−1
Naturalmente, nell'ipotesi nulla si possono specicare altri valori di
nel qual caso la statistica test diviene
t=
1
β̂j − βj0
s.e.(β̂j )
.
gradi di libertà.
0
(diciamo βj ),
βj
.
Proporzione di variabilità spiegata dalla regressione
Come per la regressione semplice,
R2
stima la proporzione di varianza della variabile
risposta spiegata dalla regressione, ed è uguale a
R2 =
Invece l'R
somma dei quadrati dei residui
Somma dei quadrati totale (corretti)
aggiustato è un po' diverso
2
Ra2 = R2 −
p
(1 − R2 )
n−p−1
Stima di σ 2
Come per la regressione semplice la varianza degli errori
σ2
è stimata usando la media
dei quadrati dei residui. La dierenza è che ora i gradi di libertà per la somma dei quadrati
dei residui sono
n − p − 1 (invece che n − 2) così la media dei quadrati dei residui ha la forma
Pn
(yi − ŷi )2
2
σ̂ = i=1
.
n−p−1
Interpretazione dei coecienti di regressione
Dobbiamo essere molto chiari sull'interpretazione dei coecienti della regressione multipla.
Come al solito il termine
β̂0
è una stima del valore atteso della variabile risposta
quando le variabili esplicative assumono valore zero (solo che ora ci sono diverse variabili
esplicative).
β̂j , j = 1, . . . , p
rappresentano le stime delle variazioni attese di
una variazione unitaria della singola
ssato.
xj
y
associate ad
mantenendo ssato tutto il resto del modello
Si consideri il seguente esempio. Abbiamo un campione di neo-laureati e abbiamo
a disposizione il loro voto di Laurea, il voto di Maturità e la media dei voti degli esami del
primo anno. Costruiamo un modello per prevedere il voto di Laurea in funzione degli altri
due indicatori
Voto di Laurea = 61 + 1.8 · Media I Anno − 0.08 · Voto Maturità.
Da tale risultato si sarebbe tentati di dire (e molti dicono!) che il voto di Maturità ha il segno
sbagliato perchè dice che alti voti di maturità sono associati con bassi voti di Laurea.
è assolutamente sbagliato!
bassi voti di laurea
Questo
Quello che dice è che voti di maturità alti sono associati a
tenendo sso il voto medio degli esami del primo anno.
Chiaramente
voto di Maturità e media dei voti degli esami del primo anno sono correlati positivamente
tra loro, quindi l'aumento di un voto nel risultato della Maturità tenendo sso il voto degli
I coecienti di una regressione
multipla non devono venire interpretati marginalmente! Se si è realmente interessati
nella relazione tra voto di Laurea e voto di Maturità da solo, bisognerebbe eettuare una
esami del primo anno potrebbe anche non accadere mai!
regressione semplice tra voto di Laurea e solo il voto di Maturità.
Si può vedere cosa succede con un po' di semplici calcoli algebrici. Si consideri il modello
di regressione con due variabili esplicative
yi = β0 + β1 x1i + β2 x2i + εi
2
Le stime ai minimi quadrati risolvono le equazioni
(X T X)β = X T y
In questo caso queste
equazioni sono:
X X X
nβ0 +
x1i β1 +
x2i β2 =
yi
X X X
X
x1i β0 +
x21i β1 +
x1i x2i β2 =
x1i yi
X X
X X
x2i β0 +
x1i x2i β1 +
x22i β2 =
x2i yi
È evidente che il calcolo di
la variabile
x1 .
β̂1 coinvolge la variabile x2 ; analogamente il calcolo di β̂2 coinvolge
Cioè la forma (e il segno) dei coecienti di regressione dipendono dalla pre-
senza o assenza di qualsiasi altra variabile nel modello. In alcuni casi, questa informazione
condizionata è esattamente quello che vogliamo, e i coecienti possono essere interpretati direttamente, ma in altre situazioni il coeciente naturale si riferisce alla relazione marginale,
a cui i coecienti di regressione multipla non si riferiscono.
Uno dei più utili aspetti della regressione multipla è la sua capacità di rappresentare
statisticamente un'azione condizionata che altrimenti sarebbe impossibile descrivere. In situazioni sperimentali, è pratica comune modicare i valori di una condizione sperimentale
mantenendo ssati gli altri, in modo da isolare i suoi eetti e poterli stimare, ma un tale approccio non può essere eettuato negli studi osservazionali. La regressione multipla fornisce
una versione statistica di questo approccio. Questo è infatti il ragionamento che sottende
l'uso di variabili di controllo nella regressione multipla variabili, cioè che non sono necessariamente di interesse diretto, ma variabili con cui il ricercatore vuole correggere le
analisi.
Multicollinearità
Un tema legato è la multicollinearità. Quando le variabili esplicative (x) sono altamente
correlate tra loro, i coecienti di regressione risultano spesso instabili e le statistiche
t
per
le variabili risultano errate. Da un punto di vista pratico, ciò può portare due problemi:
1. Se un valore di una delle variabili esplicative viene modicato anche solo di poco, i
coecienti di regressione stimati possono cambiare di molto.
2. Può succedere che il test
F
per la verica di ipotesi complessiva sul modello risulti
signicativo, anche se ciascuno dei test
signicativo.
t
per i singoli parametri risulti invece non
Un'altra indicazione di questo problema è che il
risulta considerevolmente più piccolo di tutti i
p-value
p-value
per i test
t
per il test
F
relativi ai singoli
coecienti.
La multicollinearità invece
non causa alcun problema alle misure di adattamento come l'R2 ,
visto che l'aggiunta di variabili inutili al modello non può ridurre l'R
2
(può al massimo
lasciarlo circa uguale).
Un altro problema causato dalla multicollinearità si incontra quando si cerca di usare
la regressione a ni previsivi. In generale, modelli semplici tendono a prevedere meglio di
modelli più complicati, visto che fanno meno assunzioni su come il futuro dovrebbe essere.
Cioè se un modello che presenta collinearità viene usato per prevedere il futuro, si assume
implicitamente che la relazione tra le variabili esplicative e la relazione tra queste e la risposta,
3
rimane la stessa anche nel futuro. Questo è ovviamente meno verosimile quando le variabili
esplicative sono collineari.
Come è possibile diagnosticare la collinearità?
Possiamo avere qualche suggerimento
guardando ancora una volta al modello con due variabili esplicative:
yi = β0 + β1 x1i + β2 x2i + εi
Si può mostrare che, in questo caso,
var(β̂1 ) = σ 2
hX
i−1
2
x21i (1 − r12
)
var(β̂2 ) = σ 2
hX
i−1
2
x22i (1 − r12
)
e
dove
r12
è il coeciente di correlazione tra
aumenta, (r12
→ ±1),
x1
e
x2 .
Si osservi che quando la collinearità
entrambe le varianze tendono a
∞.
Possiamo quanticare questo
eetto come segue:
r12
var(β̂1 )
r12 = 0
Rapporto di
rispetto a
0.00
1.00
0.50
1.33
0.70
1.96
0.80
2.78
0.90
5.26
0.95
10.26
0.97
16.92
0.99
50.25
0.995
100.00
0.999
500.00
Questo rapporto descrive quanto la varianza della stima del coeciente cresce al crescere
della collinearità osservata rispetto a quando le variabili esplicative sono incorrelate.
Uno strumento di diagnostica per la collinearità é il cosiddetto
varianza
(VIF -
variance ination factor)
per ciascuna variabile esplicativa, che è denita
come
VIFj
dove
Rj2
è l'R
2
fattore di inazione della
=
della previsione della variabile
1
,
1 − Rj2
xj
usando le altre variabili esplicative. Il VIF
fornisce l'aumento proporzionale nella varianza di
β̂j
rispetto a quello che sarebbe stata se
le variabili esplicative fossero completamente incorrelate. Se il VIF è grande signica che ci
potrebbe essere un problema di collinearità. Ma quale può essere un livello soglia che segnala
un problema? Un buon riferimento è
1
V IF < max 10,
2
1 − Rmodello
4
2
Rmodello
dove
è l'usuale
R2
per il modello di regressione.
Tale livello superiore indica che
o le variabili esplicative sono maggiormente legate alla variabile risposta che non alle altre
esplicative, o che non sono particolarmente legate tra loro. In queste circostanze le stime dei
coecienti non saranno particolarmetne instabili, quindi la collinearità non sembra essere
un problema.
Cosa si può fare per risolvere la multicollinearità?
La soluzione più semplice è sem-
plicemente di eliminare ogni variabile collineare; così se, nell'esempio, voto di Maturità e
media dei voti del primo anno sono molto correlate, non è necessario mantenerle entrambe
nel modello, e se ne può usare solo una. Si osservi che, tuttavia, questo
rimento generale,
è solo un sugge-
e a volte due (o più) variabili collineari sono necessarie per modellare
opportunamente la variabile risposta.
Confronti lineari e veriche di ipotesi
A volte capita di poter ipotizzare che una versione più semplice del modello completo
(un modello
ridotto)
possa essere adeguata per adattarsi ai dati. Ad esempio, consideriamo
il campione di neo-laureati in una disciplina Economica, di cui abbiamo a disposizione il loro
voto di Laurea, il voto del primo esame di Matematica e il voto del primo esame di Economia
Politica. Il modello di regressione completo sarà
[Voto
di Laurea]i = β0 + β1 [Voto di Matematica]i + β2 [Voto di Economia]i + εi
Ci potremmo però chiedere se non sia suciente considerare la media dei voti dei due esa1
mi per prevedere il voto di Laurea cioè, (Voto di Matematica + Voto di Economia).
2
Questo modello ridotto sarà allora
[Voto di Laurea]i = γ0 +
β1 = β2 = γ1 /2.
dove
γ1
([Voto di Matematica]i + [Voto di Economia]i ) + εi
2
Questa condizione di uguaglianza è detta
contrasto lineare,
perché
denisce una condizione lineare sui parametri del modello di regressione (che coinvolgono,
cioè, solo addizioni, sottrazioni e moltiplicazioni).
Possiamo ora formulare la nostra domanda sul considerare semplicemente la media dei
voti dei due esami anziché i singoli voti, come una verica di ipotesi su questo contrasto lineare. Come sempre, l'ipotesi nulla consiste in ciò in cui crediamo a meno di venire convinti
del contrario; in questo caso, consiste nel modello
più semplice (ridotto) che la media del
Voto di Matematica e del Voto di Economia sia adeguata, infatti questo modello conside-
ra una sola variabile esplicativa anzichè due. L'ipotesi alternativa è semplicemente il modello
completo (senza vincoli o condizioni su
β ).
Cioè
H0 : β1 = β2
H1 : β1 6= β2
Ipotesi di questo tipo vengono vericate utilizzando un
test F parziale.
La statistica
F
prende ora la forma
F =
dove
([Somma
n
[Somma
dei quadrati
è la dimensione del campione,
pleto, e
d
− [Somma dei quadrati dei residui]completo )/d
dei residui]completo /(n − p − 1)
dei quadrati dei residui]ridotto
p
è il numero di variabili esplicative nel modello com-
è la dierenza tra il numero di parametri nel modello completo e il numero di
5
parametri nel modello ridotto.
Alcuni pacchetti
software
(come SAS e Systat) permetto-
no all'analista di specicare un contrasto lineare da vericare contestualmente alla stima
del modello, e forniscono la statistica
F
opportuna automaticamente.
Per calcolare tale
statistica con altri pacchetti, si devono stimare gli opportuni modelli di regressione separatamente. Nel nostro esempio, un modello di regressione su
Voto di Matematica
e
Voto
di Economia ci fornirà la [Somma dei quadrati dei residui]completo ; per ottenere invece la
[Somma dei quadrati dei residui]ridotto si costruirà una nuova variabile [Media dei due voti] =
1
(Voto di Matematica + Voto di Economia) e si stimerà un modello di regressione di [Voto
2
di Laurea] sulla [Media dei due voti].
La statistica così ottenuta si distribuisce, se è vera l'ipotesi nulla, come una F di Snedecor
con d e n−p−1 gradi di libetrà. Così per esempio, per l'esempio dei voti p = 2 e d = 3−2 = 1,
così la statistica F osservata sarà confrontata con la distribuzione F con 1 e n − 3 gradi di
libertà. I percentili della distribuzione, o l'area alla destra del valore osservato può essere
agevolmente ottenuta da un qualsiasi pacchetto ad esempio
Una forma alternativa del test
facendo:
R.
appena descritto può chiarire ciò che realmente stiamo
2
2
(Rcompleto
− Rridotto
)/d
F =
.
2
(1 − Rcompleto
)/(n − p − 1)
Cioè, se l'R
statistica
F
2
del modello completo non è molto più grande dell'R
2
del modello ridotto, la
F
è piccola, e non sembra esserci evidenza per riutare l'ipotesi nulla, portandoci
2
quindi ad usare il modello ridotto; se invece la dierenza degli R è grande, riutiamo il
modello ridotto in favore del modello completo.
Si osservi che la statistica
F
che abbiamo già incontrato per vericare l'adattamento
complessivo di un modello di regressione è un caso particolare di questa costruzione quando
il contrasto è
β1 = β2 = . . . = βp = 0.
Anche le singole statistiche
t
per vericare la signi-
catività di ciascuna variabile possono essere viste come casi particolari di questa costruzione
2
quando il contrasto è βj = 0 e ricordando che Fj = tj .
6
Scarica

Regressione multipla