ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NEI MODELLI DI REGRESSIONE LINEARE Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS) Stimatore della varianza comune non nota 2 e f.d. dello stimatore OLS Stimatore della varianza comune non nota 2 nel caso di modello nullo Eliminazione delle variabili statisticamente non significative Tests statistici per la selezione delle variabili Il test F per la selezione delle variabili Procedure operative per la selezione delle variabili: backward elimination, forward selection, stepwise selection. Un criterio per l’eliminazione delle variabili esplicative ridondanti Eliminazione di variabili via analisi delle componenti principali Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS) Per le variabili risposta yi|xi, i=1,2,…,n, complessivamente considerate nel vettore y|X , sotto le seguenti ipotesi: 1) modello (parametrico) lineare: E(y|X, ) = X; 2) indipendenza condizionale; 3) medesima varianza non dipendente da : VAR(y|X, ) = 2In ; lo stimatore Ordinary Least Squares OLS = (X’X)-1X’y, ha valore medio e varianza rispettivamente: E(OLS) = ; VAR(OLS) = (2/n)(X’X/n)-1. Se si assume anche l’ulteriore aggiuntiva ipotesi: 4) la legge di distribuzione condizionale comune delle variabili risposta yi|xi, i=1,2,…,n, è Normale (ipotesi di normalità); lo stimatore OLS coincide con lo stimatore di massima verosimiglianza ML ed ha f.d. Normale k-variata; Diversamente, data la linearità dello stimatore, per il teorema del limite centrale, esso ha solo asintoticamente funzione di distribuzione Normale k-variata; in questo caso, per n elevato (grandi campioni) la sua f.d. sarà approssimativamente Normale k-variata. Stimatore della varianza comune non nota 2 e sua f.d. Lo stimatore corretto della varianza comune non nota 2 è dato da: (1) sk2 = (y-X OLS)’ (y-X OLS)/(n-k). Sotto l’assunzione di normalità della legge di distribuzione condizionata comune delle variabili risposta, la statistica: (2) z = (n-k) sk2/2, si distribuisce come un chi-quadrato con n-k gradi di libertà. Essendo 2 non nota, e dunque solo stimabile con la (1), sempre sotto l’assunzione di normalità, considerando i singoli stimatori OLS(j), il loro valore medio (j) e la stima della loro varianza j2= diag[sk2(X’X)-1], j = 1,2,…,k, la statistica: [OLS(j) - (j)] / 2j , ha funzione di distribuzione t di Student’s con n-k gradi di libertà, j = 1,2,…,k. Stimatore della varianza comune non nota 2 nel caso di modello nullo Nel caso di modello nullo (in assenza di dipendenza delle variabili risposta dalle covariate (regressori o variabili indipendenti)), posto m = y’1n/n, lo stimatore della varianza comune non nota 2 è dato da: s02 =(y-m1n)’(y-m1n)/(n-1). In questo caso, sotto l’assunzione di Normalità della legge di distribuzione condizionata comune delle variabili risposta, la statistica: z = (n-1) s02/ 2, si distribuisce come un (chi-quadrato) con n-1 gradi di libertà. Eliminazione delle variabili statisticamente non significative Perché scartare delle variabili? (i) Per realizzare un modello parsimonioso. (ii) Per avere un adeguato rapporto tra la dimensione del campione e il numero di parametri del modello da stimare. (iii) Per eliminare variabili esplicative fortemente correlate con variabili già entrate nel modello il cui contributo esplicativo aggiuntivo non può che essere statisticamente irrilevante (non significativo). (iv) Per eliminare variabili il cui contributo esplicativo è comunque statisticamente irrilevante. Il problema di scelta del modello migliore comporta: (1) Prefissato il numero p di variabili da selezionare, la scelta delle p (1 p k) variabili delle k disponibili con coefficiente di correlazione multiplo al quadrato (o rapporto di determinazione) massimo, p=1,2,…,k. Fissato p (1 p k), si tratta di comparare k!/[p!(k-p)!] modelli di regressione. Questa comparazione può risultare laboriosa per numero di modelli da considerare. Il migliore modello con p+1 variabili non è necessariamente costituito dalle stesse variabili del migliore modello con p variabili più una variabile aggiuntiva (i modelli non sono necessariamente nested). (2) La scelta del numero p di variabili da considerare nel modello comparando tra loro i modelli migliori. Questa scelta è resa non univoca non essendo i modelli necessariamente inclusivi (nested). Tests statistici per la selezione delle variabili: tests sui valori dei coefficienti di regressione stimati (test t e test chiquadrato) La selezione delle p variabili (0 p k), da ritenere statisticamente significative nella modellazione lineare della dipendenza della variabile risposta dalle covariate, sotto ipotesi di normalità e stima della varianza non nota 2, può avvenire nei seguenti modi: 1- Con verifica dell’ipotesi di nullità (H0: j=0, contro H1: j0) di ogni singolo coefficiente di regressione. In tal caso si fa riferimento alla statistica determinata sotto l’ipotesi nulla: [OLS(j) - 0]/sqrt(j2), che ha f.d. t di Student’s con n-k gradi di libertà, j=1,2,…,k. Si rifiuta l’ipotesi nulla per valori elevati del valore assoluto della statistica (o per valori piccoli di p-value della statistica in valore assoluto). 2- Con verifica dell’ipotesi di nullità (H0: q=0, contro H1: non tutti i singoli i di q sono nulli) di un gruppo di coefficienti di regressione, data la partizione: = (p’, q’)’, con: p+q=k. In tal caso si fa riferimento alla statistica di Wald (forma quadratica) determinata sotto l’ipotesi nulla: w = (q-OLS)’[VAR(q-OLS)]-1 (q-OLS), che ha f.d. chi-quadrato con q gradi di libertà, se 2 è noto (Mardia et al., teorema 3.2.1); diversamente, sostituendo 2 con la sua stima s2p+q, risulta solo asintoticamente con f.d. chi-quadrato con q gradi di libertà. Test sulla variazione della somma dei residui al quadrato: Il test F 3- Considerato un modello lineare con un numero fissato di variabili già accettate (ritenute statisticamente significative) xp (1 p k) (modello ridotto), si tratta di verificare l’ipotesi di decremento non significativo (ipotesi nulla) della somma dei residui al quadrato (RSS: Residual Sum of Squares) conseguente all’inserimento aggiuntivo di una o più ulteriori variabili esplicative (ulteriori covariate) xq (1 q k-p) (modello esteso). In questo caso ponendo: xp+q = (xp, xq); RSS(xp) = (y-Xpp-OLS)’(y-Xpp-OLS); RSS(xp+q) = (y-Xp+q(p+q)-OLS)’(y-Xp+q(p+q)-OLS); si fa riferimento alla statistica: z = {[RSS(xp) - RSS(xp+q)]/q} / [RSS(xp+q)/(n-p-q)], che, sotto l’ipotesi di normalità, ha f.d. F di Snedecor con gradi di libertà q ed [n-(p+q)]. Si rigetta l’ipotesi nulla per valori di z maggiori del valore critico F(q,(n-p-q),(1)), con usualmente =0.05, oppure con p-value minore di una soglia piccola prefissata (minore di ). Il test F permette di comparare modelli necessariamente nested. Procedure operative per la selezione delle variabili: backward elimination, forward selection, stepwise selection. Dal test F suddetto, operando successivamente con q = 1, si ottengono le procedure di selezione seguenti: Backward Elimination; Forward Selection; Stepwise Selection. Vedi, ad esempio, Draper and Smith, Applied Regression Analysis, John Wiley & Sons, Inc. Un criterio per l’eliminazione delle variabili esplicative ridondanti basato sui rapporti di determinazione tra variabili esplicative. In presenza di multicollinearità si può pensare di determinare le p variabili delle k variabili esplicative inizialmente considerate che più sono in grado di spiegare le singole rimanenti k-p variabili. Per ogni scelta di p variabili raccolte nel vettore xp, che, senza perdere in generalità, possiamo pensare siano le prime p variabili delle k considerate, si possono considerare i k-p rapporti di determinazione r2(xj,xp), ottenibili con j = p+1,…,k, per le singole rimanenti k-p variabili e fare corrispondere a tale scelta, 2 delle possibili k , il rapporto di determinazione minimo: min {r ( x j , x p )} p k j p 1,..., k Delle p scelte possibili di p variabili, si sceglierà quella per la quale il rapporto di determinazione minimo è massimo. Eliminazione di variabili via analisi delle componenti principali Delle k variabili esplicative, le prime componenti principali colgono la variabilità strutturale; le ultime componenti principali costituiscono perturbazione. Nella scelta delle variabili, si eliminano quelle variabili che sono più fortemente correlate (positivamente o negativamente) con le ultime componenti principali (quelle corrispondenti ad autovalori poco elevati). Si eliminano cioè le variabili che presentano i più elevati coefficienti in valore assoluto che non siano già state precedentemente eliminate fino alla riduzione desiderata del numero di variabili.