ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE
VARIABILI NEI MODELLI DI REGRESSIONE LINEARE









Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
Stimatore della varianza comune non nota 2 e f.d. dello stimatore OLS
Stimatore della varianza comune non nota 2 nel caso di modello nullo
Eliminazione delle variabili statisticamente non significative
Tests statistici per la selezione delle variabili
Il test F per la selezione delle variabili
Procedure operative per la selezione delle variabili: backward elimination,
forward selection, stepwise selection.
Un criterio per l’eliminazione delle variabili esplicative ridondanti
Eliminazione di variabili via analisi delle componenti principali
Ipotesi e proprietà dello stimatore Ordinary Least Squares
(OLS)











Per le variabili risposta yi|xi, i=1,2,…,n, complessivamente considerate nel
vettore y|X , sotto le seguenti ipotesi:
1) modello (parametrico) lineare: E(y|X, ) = X;
2) indipendenza condizionale;
3) medesima varianza non dipendente da  : VAR(y|X, ) = 2In ;
lo stimatore Ordinary Least Squares OLS = (X’X)-1X’y, ha valore medio e
varianza rispettivamente:
E(OLS) = ;
VAR(OLS) = (2/n)(X’X/n)-1.
Se si assume anche l’ulteriore aggiuntiva ipotesi:
4) la legge di distribuzione condizionale comune delle variabili risposta yi|xi,
i=1,2,…,n, è Normale (ipotesi di normalità);
lo stimatore OLS coincide con lo stimatore di massima verosimiglianza ML ed
ha f.d. Normale k-variata;
Diversamente, data la linearità dello stimatore, per il teorema del limite centrale,
esso ha solo asintoticamente funzione di distribuzione Normale k-variata; in
questo caso, per n elevato (grandi campioni) la sua f.d. sarà
approssimativamente Normale k-variata.
Stimatore della varianza comune non nota 2 e sua f.d.








Lo stimatore corretto della varianza comune non nota 2 è dato da:
(1)
sk2 = (y-X OLS)’ (y-X OLS)/(n-k).
Sotto l’assunzione di normalità della legge di distribuzione condizionata comune
delle variabili risposta, la statistica:
(2)
z = (n-k) sk2/2,
si distribuisce come un chi-quadrato con n-k gradi di libertà.
Essendo 2 non nota, e dunque solo stimabile con la (1), sempre sotto
l’assunzione di normalità, considerando i singoli stimatori OLS(j), il loro valore
medio (j) e la stima della loro varianza j2= diag[sk2(X’X)-1], j = 1,2,…,k, la
statistica:
[OLS(j) - (j)] /  2j ,
ha funzione di distribuzione t di Student’s con n-k gradi di libertà, j = 1,2,…,k.
Stimatore della varianza comune non nota 2 nel caso di
modello nullo





Nel caso di modello nullo (in assenza di dipendenza delle variabili risposta dalle
covariate (regressori o variabili indipendenti)), posto m = y’1n/n, lo stimatore
della varianza comune non nota 2 è dato da:
s02 =(y-m1n)’(y-m1n)/(n-1).
In questo caso, sotto l’assunzione di Normalità della legge di distribuzione
condizionata comune delle variabili risposta, la statistica:
z = (n-1) s02/ 2,
si distribuisce come un (chi-quadrato) con n-1 gradi di libertà.
Eliminazione delle variabili statisticamente non significative








Perché scartare delle variabili?
(i) Per realizzare un modello parsimonioso.
(ii) Per avere un adeguato rapporto tra la dimensione del campione e il numero
di parametri del modello da stimare.
(iii) Per eliminare variabili esplicative fortemente correlate con variabili già
entrate nel modello il cui contributo esplicativo aggiuntivo non può che essere
statisticamente irrilevante (non significativo).
(iv) Per eliminare variabili il cui contributo esplicativo è comunque
statisticamente irrilevante.
Il problema di scelta del modello migliore comporta:
(1) Prefissato il numero p di variabili da selezionare, la scelta delle p (1 p  k)
variabili delle k disponibili con coefficiente di correlazione multiplo al quadrato (o
rapporto di determinazione) massimo, p=1,2,…,k. Fissato p (1 p  k), si tratta
di comparare k!/[p!(k-p)!] modelli di regressione. Questa comparazione può
risultare laboriosa per numero di modelli da considerare. Il migliore modello con
p+1 variabili non è necessariamente costituito dalle stesse variabili del migliore
modello con p variabili più una variabile aggiuntiva (i modelli non sono
necessariamente nested).
(2) La scelta del numero p di variabili da considerare nel modello comparando
tra loro i modelli migliori. Questa scelta è resa non univoca non essendo i
modelli necessariamente inclusivi (nested).
Tests statistici per la selezione delle variabili: tests sui valori
dei coefficienti di regressione stimati (test t e test chiquadrato)



La selezione delle p variabili (0  p  k), da ritenere statisticamente significative
nella modellazione lineare della dipendenza della variabile risposta dalle
covariate, sotto ipotesi di normalità e stima della varianza non nota 2, può
avvenire nei seguenti modi:
1- Con verifica dell’ipotesi di nullità (H0: j=0, contro H1: j0) di ogni singolo
coefficiente di regressione. In tal caso si fa riferimento alla statistica determinata
sotto l’ipotesi nulla: [OLS(j) - 0]/sqrt(j2), che ha f.d. t di Student’s con n-k gradi di
libertà, j=1,2,…,k. Si rifiuta l’ipotesi nulla per valori elevati del valore assoluto
della statistica (o per valori piccoli di p-value della statistica in valore assoluto).
2- Con verifica dell’ipotesi di nullità (H0: q=0, contro H1: non tutti i singoli i di q
sono nulli) di un gruppo di coefficienti di regressione, data la partizione:  = (p’,
q’)’, con: p+q=k. In tal caso si fa riferimento alla statistica di Wald (forma
quadratica) determinata sotto l’ipotesi nulla: w = (q-OLS)’[VAR(q-OLS)]-1 (q-OLS),
che ha f.d. chi-quadrato con q gradi di libertà, se 2 è noto (Mardia et al.,
teorema 3.2.1); diversamente, sostituendo 2 con la sua stima s2p+q, risulta solo
asintoticamente con f.d. chi-quadrato con q gradi di libertà.
Test sulla variazione della somma dei residui al quadrato:
Il test F









3- Considerato un modello lineare con un numero fissato di variabili già
accettate (ritenute statisticamente significative) xp (1  p  k) (modello ridotto),
si tratta di verificare l’ipotesi di decremento non significativo (ipotesi nulla) della
somma dei residui al quadrato (RSS: Residual Sum of Squares) conseguente
all’inserimento aggiuntivo di una o più ulteriori variabili esplicative (ulteriori
covariate) xq (1  q  k-p) (modello esteso). In questo caso ponendo:
xp+q = (xp, xq);
RSS(xp) = (y-Xpp-OLS)’(y-Xpp-OLS);
RSS(xp+q) = (y-Xp+q(p+q)-OLS)’(y-Xp+q(p+q)-OLS);
si fa riferimento alla statistica:
z = {[RSS(xp) - RSS(xp+q)]/q} / [RSS(xp+q)/(n-p-q)],
che, sotto l’ipotesi di normalità, ha f.d. F di Snedecor con gradi di libertà q ed
[n-(p+q)].
Si rigetta l’ipotesi nulla per valori di z maggiori del valore critico F(q,(n-p-q),(1)), con usualmente =0.05, oppure con p-value minore di una soglia piccola
prefissata (minore di ).
Il test F permette di comparare modelli necessariamente nested.
Procedure operative per la selezione delle variabili: backward
elimination, forward selection, stepwise selection.





Dal test F suddetto, operando successivamente con q = 1, si ottengono le
procedure di selezione seguenti:
Backward Elimination;
Forward Selection;
Stepwise Selection.
Vedi, ad esempio, Draper and Smith, Applied Regression Analysis, John Wiley &
Sons, Inc.
Un criterio per l’eliminazione delle variabili esplicative
ridondanti basato sui rapporti di determinazione tra variabili
esplicative.


In presenza di multicollinearità si può pensare di determinare le p variabili delle k
variabili esplicative inizialmente considerate che più sono in grado di spiegare le
singole rimanenti k-p variabili.
Per ogni scelta di p variabili raccolte nel vettore xp, che, senza perdere in
generalità, possiamo pensare siano le prime p variabili delle k considerate, si
possono considerare i k-p rapporti di determinazione r2(xj,xp), ottenibili con j =
p+1,…,k, per le singole rimanenti k-p variabili e fare corrispondere a tale scelta,
2
delle possibili  k , il rapporto di determinazione minimo: min {r ( x j , x p )}
 p

k 
j  p 1,..., k
Delle  p  scelte possibili di p variabili, si sceglierà quella per la quale il rapporto
 
di determinazione minimo è massimo.
Eliminazione di variabili via analisi delle componenti
principali


Delle k variabili esplicative, le prime componenti principali colgono la variabilità
strutturale; le ultime componenti principali costituiscono perturbazione.
Nella scelta delle variabili, si eliminano quelle variabili che sono più fortemente
correlate (positivamente o negativamente) con le ultime componenti principali
(quelle corrispondenti ad autovalori poco elevati). Si eliminano cioè le variabili
che presentano i più elevati coefficienti in valore assoluto che non siano già
state precedentemente eliminate fino alla riduzione desiderata del numero di
variabili.