INFERENZA NEL MODELLO DI
REGRESSIONE LINEARE MULTIPLA
(parte 1)
Per effettuare test e costruire intervalli di
confidenza è necessaria un’ipotesi sulla
distribuzione degli errori in modo da poter
derivare una statistica con distribuzione nota
per n finito. Si assume perciò che il vettore
degli errori abbia una distribuzione normale
multivariata. Di conseguenza qui diventa
fondamentale l’ipotesi
  N (0,  2 I )
Da cui consegue che
1
2
ˆ
  N (  ,  X ' X  )
1
2
ˆ
 j  N (  j ,   X ' X  jj )
1
ˆ j   j
  X ' X  jj
2
1
 N (0,1)
Dove  X ' X  jj rappresenta l’elemento jj sulla
diagonale principale della matrice  X ' X 1
1
Questa quantità non può essere utilizzata come
statistica di riferimento perché la varianza non è
nota. E’ necessario utilizzare lo stimatore della
varianza. Per derivare la sua distribuzione si
considerino le quantità:
ˆ' ˆ
2


( n k )
2

(n  k )
s
2
2
  2( n k ) è indipendente da ˆ j
2
Di conseguenza la quantità
ˆ j   j
1


 X ' X jj
2
tj 
s2
2
è il rapporto fra una normale standardizzata e la
radice di una variabile casuale chi-quadrato con n−k
gradi di libertà rapportata ai suoi gradi di libertà.
Poiché il numeratore e il denominatore sono
indipendenti essa ha una distribuzione t di Student
con n−k gradi di libertà. Semplificando si ha
tj 
ˆ j   j
s
 X ' X  jj
1
t n k
3
Il test di significatività sui parametri
del modello di regressione
E’ opportuno, dopo aver stimato un modello di
regressione, sottoporre a test la significatività dei
coefficienti per verificare se le singole variabili
esplicative contribuiscono a spiegare le variazioni
della variabile dipendente. E’ infatti prassi
verificare l’ipotesi nulla
H0:  j  0 per j= 1, 2,…,k.
H1:  j  0 per j= 1, 2,…,k.
Se essa non è respinta la j-esima variabile esplicativa
non ha effetto sulla variabile dipendente.
La statistica test di riferimento è la t j appena
definita (detta t-ratio), che sotto ipotesi nulla
diventa:
ˆ
ˆ
tj 
j
s
 X ' X  jj
1
t n k
4
La regione critica del test è
t j  t / 2 ,n  k
I software statistici generalmente per ogni
parametro stimato forniscono il p-valore di un test
bidirezionale. Per ciascuna ipotesi nulla di non
significatività i software riportano la probabilità
Pr ob(| t
2
,n  k
| toss )
dove toss è il valore osservato della statistica test
ossia del t-ratio.
In altri termini, il p-valore è il minimo livello di
significatività per il quale l’ipotesi nulla può essere
respinta in un test bidirezionale.
5
Intervalli di confidenza sui parametri del
modello di regressione
Dall’ipotesi di normalità dei termini di errore del
modello consegue che
tn  k 
ˆ j   j
s
 X ' X  jj
1
ha una distribuzione completamente nota (tStudent con (n-k) g.l), pertanto costituisce la
quantità pivot di riferimento.
Fissato il livello di confidenza 1−α si ha
Prob t / 2  tn k  t / 2   1  


1
1
Prob  t / 2 s  X ' X  jj  ˆ j   j  t / 2 s  X ' X  jj  1  
6
Per cui, gli estremi dell’intervallo di confidenza
sono:

ˆ  t s  X ' X  1 ; ˆ  t s  X ' X  1
j
 /2
j
 /2
jj
jj
Limite
inferiore

Limite
superiore
7
Significato dei coefficienti di
regressione ed elasticità
Il coefficiente  j esprime la variazione che subisce
la variabile dipendente Y in seguito a una
variazione unitaria della variabile esplicativa X ,j
mentre il valore delle altre variabili esplicative
rimane costante. Attenzione però!!! I valori dei
coefficienti dipendono dall’unità di misura delle
variabili quindi la loro entità non fornisce
informazione sull’importanza dei diversi regressori
rispetto alla variabile Y. Informazioni
sull’importanza dei diversi regressori possono
essere desunte stimando l’elasticità della variabile
dipendente rispetto ad essi.
L'elasticità della Y rispetto alla variabile esplicativa X j
è il rapporto fra la variazione percentuale della Y e
la variazione percentuale della X j . Essa non
8
dipende dall'unità di misura ed è quindi
facilmente interpretabile. L’elasticità è data da
X
j
Y
Xj
Y X j
Y


 j
X j X j Y
Y
Xj
Che può essere agevolmente stimata nel seguente
modo:
ˆX
j
X
j
ˆ
 j
Y
Pertanto una variabile esplicativa X j ha un effetto
maggiore sulla variabile dipendente, rispetto alle
altre variabili esplicative, se il valore assoluto
dell’elasticità della Y rispetto a X j è maggiore.
9
Si consideri una funzione di domanda del burro:
QB  1  2 PB  3PM   4Y  
funzione del prezzo del burro, della margarina, e
del reddito Y delle famiglie. Per questo modello
è possibile calcolare:
PB
B   2
QB
Elasticità rispetto al prezzo
PM
M   3
QB
Elasticità rispetto al prezzo
della margarina
Y
Y   4
QB
Elasticità rispetto al reddito
delle famiglie
10
Il valore dell'elasticità è diverso in ogni punto della
funzione di regressione ed è quindi importante che
i valori di Y e diX j utilizzati per calcolarla siano
rappresentativi. Quando le osservazioni sono
riferite ad un unico periodo è ragionevole
considerare l’elasticità in corrispondenza dei valori
medi; se invece i dati sono costituiti da serie
storiche può essere utile considerare i valori più
recenti.
11
Scomposizione della devianza e
indice di determinazione
Dopo aver stimato il modello di regressione è
opportuno verificare l’adattamento ai dati. A tal
fine si utilizza l’indice di determinazione. Per il
calcolo di tale indice ripercorriamo la procedura
vista per il modello di regressione semplice
Yi  Y  (Yi  Yˆi )  (Yˆi  Y )
2
(
Y

Y
)

 i
2
2
ˆ
ˆ
(
Y

Y
)

(
Y

Y
)
 2 (Yi  Yˆi )(Yˆi  Y ) 
 i i  i
per i vincoli imposti dalle equazioni normali, il
doppio prodotto si annulla, pertanto
12
2
2
2
ˆ
ˆ
(
Y

Y
)

(
Y

Y
)

(
Y

Y
)
 i
 i
 i i 
2
  (Yˆi  Y )2   ˆi
Devianza
spiegata
(ESS)
Devianza
residua
(RSS)
L’accostamento del modello ai dati è tanto migliore
quanto più elevata è la percentuale di devianza
totale costituita dalla devianza spiegata. Di
conseguenza l’adattamento può essere misurato
mediante il rapporto fra la devianza spiegata e la
devianza totale. Si ottiene così l’indice di
determinazione
2
ˆ
(
Y

Y
)
 i
ESS
RSS
R 

 1
2
TSS
 (Yi  Y ) TSS
2
13
L’indice di determinazione esprime qual è la
percentuale di devianza della variabile dipendente
(TSS) spiegata dall’insieme delle variabili esplicative
nel loro complesso. Questo indice varia
nell’intervallo [0,1]; é uguale ad 1 quando la devianza
residua è nulla ossia vi è un perfetto adattamento del
modello ai dati. L’indice di determinazione invece è
uguale a zero quando la devianza spiegata è nulla
quindi i regressori non sono in grado di spiegare le
variazioni della variabile dipendente.
14
Il test F sulla significatività del
modello di regressione
Dopo aver stimato un modello di regressione è
opportuno verificarne l’utilità. La sua costruzione si
giustifica se l’introduzione dei regressori migliora
significativamente la spiegazione del fenomeno.
L’utilità apportata dalla costruzione di un modello
di regressione multipla può perciò essere verificata
mediante un test congiunto sui parametri
sottoponendo a test l’ipotesi nulla
H 0 : 2  3  ...  k  0
che implica che nessun regressore contribuisce a
spiegare le variazioni della Y. L’ipotesi alternativa
assume come modello quello di regressione, per cui
H 1 : almeno un  j  0
15
Il test quindi verifica se la devianza spiegata è
sufficientemente ampia da giustificare la
costruzione del modello. La statistica test è data da
2
ˆ
(
Y

Y
)
 i
ESS /( k  1)
(k  1)
F

RSS /( n  k )  (Yi  Yˆi )2
(n  k )
e sotto l’ipotesi nulla si distribuisce come una variabile
casuale F di Fisher (Snedecor) con k −1 gradi di
libertà al numeratore e n−k al denominatore.
Al numeratore della statistica test c’è la devianza
spiegata rapportata ai suoi gradi di libertà, che
risultano k −1. Essa viene confrontata con la varianza
dei residui. Il valore della statistica test aumenta al
crescere della devianza spiegata. Di conseguenza
l’ipotesi nulla risulta meno verosimile per valori elevati
della statistica test e quindi la regione critica si trova
16
nella coda destra della distribuzione.
Pertanto, al livello di significatività α la regione critica
del test è
F  F( k 1;n k ;1 )
Dove F( k 1;n  k ;1 ) è il quantile della
distribuzione F che isola alla sua sinistra un’area pari
a (1- α).
Si osservi che la statistica F contiene le stesse
informazioni presenti nell'indice di
determinazione e tra i due esiste la seguente
relazione
2
ESS /( k  1)
R nk
F

RSS /( n  k ) 1  R2 k  1
La differenza è costituita dal fatto che la valutazione
dell’adattamento del modello ai dati mediante
2
l’indice R è realizzata con un approccio di tipo
descrittivo, mentre nel test sulla significatività della
17
regressione l’approccio è di tipo inferenziale.
TAVOLA ANOVA
CAUSA
VARIAZIONE
DEVIANZE
GRADI DI
LIBERTÀ
MSE
MODELLO
ESS
k-1
ESS/(k-1)
RESIDUO
RSS
(n-k)
RSS/(n-k)
TOTALE
TSS
(n-1)
18
Scarica

Statec1p3