INFERENZA NEL MODELLO DI
REGRESSIONE LINEARE MULTIPLA:
test sui parametri e scelta del modello
(parte 3)
Per effettuare test di qualsiasi natura è necessaria
un’ipotesi sulla distribuzione degli errori in modo
da poter derivare una statistica con distribuzione
nota per n finito. Si assume perciò che il vettore
degli errori abbia una distribuzione normale
multivariata. Per quanto già detto in merito alla
verifica di significatività dei singoli parametri si
considera la distribuzione t di Student
tj 
ˆ j   j
s
 X ' X  jj
1
t n k
TEST A DUE CODE
0



H0: j
j per j= 1, 2,…,k.
H1:  j   0j per j= 1, 2,…,k.
1
La statistica test di riferimento sotto ipotesi nulla
diventa:
tj 
0
ˆ
j j
s
 X ' X  jj
1
t nk
Fissato il livello di significatività α, la regione critica
t j  t / 2 ,n  k Ovvero le due code
del test è
della distribuzione t di Student
TEST A UNA CODA
0



H0: j
j per j= 1, 2,…,k.
H1:  j   0j per j= 1, 2,…,k.
Fissato il livello di significatività α, la regione critica
del test è t j  t ,n k ovvero la coda sinistra
2
della distribuzione t di Student
TEST A UNA CODA
H0:  j   0j per j= 1, 2,…,k.
0
H1:  j   j per j= 1, 2,…,k.
Fissato il livello di significatività α, la regione critica
del test è t j  t ,n k ovvero la coda destra
della distribuzione t di Student
Nelle applicazioni l’ipotesi alternativa, con
l’eccezione dell’intercetta, è spesso unidirezionale
perché la teoria alla base del modello solitamente
fornisce indicazioni sul segno delle relazioni fra la
variabile dipendente e le variabili esplicative.
Ad esempio nel modello sulla domanda di burro
QB  1  2 PB  3PM   4Y  
è ragionevole verificare che il parametro che
moltiplica il prezzo del burro sia di segno negativo
3
quindi è ragionevole verificare un sistema di ipotesi
del tipo
H0:
2  0
H1: 2  0
Se il segno della stima del parametro non è
conforme alle aspettative, formulate sulla base
della teoria, è possibile predire l’esito del test: la
statistica test assumerà valore nella regione di
accettazione e l’ipotesi nulla non sarà respinta.
Quindi, dopo aver stimato un modello di
regressione, il primo controllo da effettuare
riguarda i segni dei coefficienti e la loro coerenza
con le aspettative.
NOTA: in generale un segno non conforme alle
aspettative è anche un campanello di allarme
riguardo alla validità delle ipotesi di base del
modello (come vedremo più avanti).
4
Test sulla significatività di un
sottoinsieme di parametri
La struttura del test F per verificare la significatività
del modello di regressione è un caso particolare
del test congiunto sulla significatività di un
sottoinsieme di coefficienti. Si consideri il
modello di regressione
Yi  1   2 X 2,i  ..   m X m,i   m1 X m1,i  .. k X k ,i   i
e si supponga di voler sottoporre a test l’ipotesi
che più parametri siano nulli
H0:
 m1   m 2  .. k  0
H1:
almeno un  j  0 j  (m  1)...k
5
Il modello sotto l’ipotesi nulla è chiamato modello
vincolato (restricted model) e risulta
Yi  1   2 X 2,i  ..   m X m,i   i
Per sottoporre a test questa ipotesi, si confronta la
devianza dei residui del modello vincolato Dev(H0)
con quella del modello completo, o non vincolato
(unrestricted model) , Dev (H1) . La statistica test è
F
Dev ( H 0)  Dev ( H 1)
(k  m) s H2 1
2
s
Dove H 1 è la varianza dei residui sotto H1 . Sotto
l’ipotesi nulla la statistica test ha una distribuzione F
di Fisher con (k- m) gradi di libertà al numeratore e
(n- k) al denominatore. I gradi di libertà del
numeratore sono dati dal numero di vincoli imposti
sotto l’ipotesi nulla ovvero dalla differenza fra il
numero di parametri stimati nei due modelli.
6
Al numeratore della statistica test vi è la differenza
fra le devianze residue sotto H0 e sotto H1 .
Quanto maggiore è questa differenza tanto
maggiore è il guadagno nella capacità esplicativa che
si ottiene considerando i k- m regressori aggiuntivi.
Di conseguenza è ragionevole individuare la regione
critica nella coda di destra della distribuzione F,
poiché valori elevati del numeratore della statistica
test indicano che c’è una differenza statisticamente
significativa fra la capacità esplicativa del modello
vincolato e quella del modello non vincolato.
Pertanto regione critica al livello di significatività α
risulta
F  Fk  m ,n  k ,1
percentile di una F di Fisher
che isola nella coda sinistra
un’are pari a (1- α)
7
R2 CORRETTO
(Adjusted R-square)
Per la scelta fra modelli è necessario avere a
disposizione degli indici che consentano di
confrontarli. Si supponga di dover scegliere fra due
modelli alternativi, il primo con k variabili
esplicative
Yi  1   2 X 2,i  ..   k X k ,i   i
e il secondo con k +1 variabili esplicative
Yi  1   2 X 2,i  ..   k X k ,i   k 1 X k 1,i   i
Se si utilizza il coefficiente di determinazione risulta
sempre preferibile il modello con il maggior numero
di regressori; di conseguenza l’indice R2 non
8
consente di operare una scelta fra modelli con un
diverso numero di variabili esplicative.
Il coefficiente di determinazione aumenta al ridursi
della devianza residua. Quest’ultima è il valore della
funzione obiettivo, che si minimizza quando si stima il
modello con i minimi quadrati. Quando si stima il
secondo modello si esegue un’ottimizzazione su k +1
variabili, pertanto la devianza residua è quasi
certamente minore di quella ottenuta stimando il
primo modello con k variabili. La devianza residua del
primo modello può infatti essere interpretata come il
minimo vincolato della somma dei quadrati dei residui
nel secondo modello quando si pone  k 1  0
Ciò implica che l’indice R2 è quasi certamente più
elevato nel modello con il maggior numero di
regressori.Un indice utile per confrontare modelli con
un diverso numero di variabili esplicative è l’ R2
corretto
 ei (n  k )
2
R  1
2
 yi
2
n 1
 1  (1  R )
nk
(n  1)
2
9
2
Mentre il secondo termine dell’indice R confronta
la devianza residua con la devianza totale, il secondo
termine dell’ R 2 confronta la stima non distorta
della varianza degli errori con la stima non distorta
della varianza della variabile dipendente. Nel
confronto fra diversi modelli si sceglie quello per il
2
quale l’indice R è maggiore.
Un’altra spiegazione è: se si aggiunge al modello
un’ulteriore variabile la quantità
(1  R2 )
diminuisce, ma il rapporto n 1 n  k 
aumenta. La riduzione del
termine (1  R2 ) misura il miglioramento
nell’adattamento dovuto all’inserimento del nuovo
regressore, mentre l’incremento nel rapporto
n 1 n  k  impone una penalità perché,
avendo aggiunto un regressore, il modello è più
complicato e si deve stimare un ulteriore
parametro. Se il miglioramento nell’adattamento
compensa la penalità si preferisce il modello con 10un
più elevato numero di regressori.
Scarica

Statec1p5