ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE
VARIABILI NELL’ANALISI DISCRIMINANTE







Eliminazione di variabili con contributo discriminatorio statisticamente non
significativo: i due aspetti del problema.
L’Analisi Discriminante come Analisi della Regressione
L’eliminazione di variabili con contributo discriminatorio statisticamente non
significativo: il test F.
L’eliminazione di variabili con contributo discriminatorio statisticamente non
significativo: il test t per il confronto tra due medie.
L’eliminazione di variabili con contributo discriminatorio statisticamente non
significativo con procedure: backward elimination, forward selection
L’eliminazione di variabili sulla base dei valori dei coefficienti standardizzati della
funzione discriminante lineare.
L’eliminazione di variabili via analisi delle componenti principali
1
Eliminazione di variabili con contributo discriminatorio
statisticamente non significativo: i due aspetti del problema.








Perché scartare delle variabili?
(i) Per realizzare un modello parsimonioso.
(ii) Per un adeguato rapporto tra numerosità campionaria e numero dei parametri del
modello da stimare.
(iii) Per eliminare variabili esplicative fortemente correlate con variabili già entrate nel
modello il cui contributo esplicativo aggiuntivo non può che essere statisticamente non
significativo.
(iv) Per eliminare variabili il cui contributo discriminatorio è comunque statisticamente non
significativo.
Il problema di scelta del modello migliore (per numero e specifiche variabili incluse nel
modello) comporta:
(a) Prefissato il numero p di variabili da considerare, la scelta delle p (1 p  k) variabili delle
k disponibili con capacità discriminatoria (cross validation o altro criterio) massima,
p=1,2,…,k. Fissato p (1 p  k), si tratta di comparare k!/[p!(k-p)!] modelli di funzioni
discriminanti. Questa comparazione può risultare laboriosa per numero di modelli da
considerare. Il migliore modello con p+1 variabili non è necessariamente costituito dalle
stesse variabili del migliore modello con p variabili più una variabile aggiuntiva (i modelli non
sono necessariamente nested).
(b) La scelta del numero p di variabili da considerare nel modello comparando tra loro i
modelli migliori di classe p, p =1,2,…,k. Questa scelta è resa non univoca non essendo i
modelli necessariamente inclusivi (nested).
2
Analisi Discriminante, Analisi della Regressione,
Correlazione canonica





L’analisi discriminante lineare di Fisher in presenza di soli due gruppi è riconducibile
all’analisi della regressione lineare multipla considerando una variabile risposta definita da
una variabile indicatrice di gruppo che assume il valore 1 se l’unità statistica appartiene al
primo gruppo e 0 diversamente.
In questa trasposizione la selezione delle variabili, nel caso di soli due gruppi, può avvenire
con le stesse procedure viste per l’analisi della regressione lineare multipla.
L’analisi discriminante lineare di Fisher, in presenza di g gruppi (2  g), è riconducibile
all’analisi della correlazione canonica considerando g-1 variabili risposta indicatrici di gruppo
di appartenenza che assumono il valore 1 se l’unità statistica appartiene al j gruppo e 0
diversamente, j = 1,2,…,g-1 (Tatsuoka 1971, pagine 177-183).
Nel caso di g gruppi (2  g), volendo affrontare il problema con l’analisi della regressione
(anche con modelli probit, logit, reti neurali, modelli non lineari con approccio
bayesiano,ecc.), va preliminarmente valutato se il problema conoscitivo va posto con la
determinazione di g variabili indicatrici di gruppo, dove la j-esima variabile indicatrice
distingue le unità statistiche del j-esimo gruppo rispetto le unità statistiche di tutti gli altri
rimanenti g-1 gruppi, oppure sia più opportuno considerare g(g-1)/2 variabili indicatrici in
modo da contrapporre distintamente le unità un gruppo con quelle di ciascuno dei rimanenti
(g-1) gruppi, considerando di fatto g(g-1)/2 analisi discriminanti, cioè per tutte le coppie di
due gruppi.
Il problema di ben definire cosa si desidera distinguere e tra chi (problema sollevato dal
punto precedente) è determinante, quale problema preliminare, anche e proprio nell’analisi
discriminante.
3
L’eliminazione di variabili con contributo discriminatorio
statisticamente non significativo: confronto tra modelli nested
con il test F













Nel caso di soli due gruppi, considerate:
1) le medie parziali m1 e m2;
2) la differenza tra le medie parziali d = m1 - m2;
3) le matrici varianza parziali (o di gruppo) S1 e S2: Sj= i(xi -mj)(xi -mj)’/nj;
4) la matrice varianza within W: W= (n1S1 + n2S2)/(n-2);
denotando con dp e Wp le statistiche di cui al sub 2) e sub 4) nel caso di modello ridotto (solo
p variabili), si possono calcolare le distanze di Mahalanobis al quadrato tra i due gruppi
rispettivamente per il modello ridotto (solo p variabili) e per il modello pieno (tutte le p+q
variabili):
Dp2 = dp’Wp-1dp;
D2p+q =(Dp+q)2 = d’W-1d.
Le due distanze al quadrato calcolate permettono di determinare la statistica
z = [(n-k-1)/(k-p)]c2(D2p+q - Dp2) / (n-2+c2Dp2);
con c = n1n2/n.
Assunta la normalità delle variabili rilevate e sotto l’ipotesi nulla (nullità nella funzione lineare
discriminante dei coefficienti delle q=(k-p) variabili aggiuntive), la statistica z si distribuisce
come una F di Snedercor con (k-p) e (n-k-1) gradi di libertà (Rao 1973, pag. 568, oppure,
Mardia et al. Pag. 323 e teorema 3.6.2).
L’ipotesi nulla viene rigettata per valori di z maggiori del valore critico:
F(k-p,n-k-1,1-), oppure per valori piccoli di p-value (p-value < , =0.05).
4
L’eliminazione di variabili con contributo discriminatorio
statisticamente non significativo:
Test t di Student’s per il confronto tra medie






In presenza di più gruppi, si considerano successivamente tutte le coppie
possibili di due gruppi. Denotando con mi,j e m2,j i valori medi parziali della
variabile j-esima rispettivamente del primo e del secondo gruppo e con wjj la
varianza della variabile j-esima dedotta dalla matrice media W delle varianze e
covarianze within, si può valutare se la differenza (mi,j - m2,j) tra le medie di
gruppo è statisticamente significativa, considerando la statistica test seguente:
tj = (mi,j - m2,j) / sqrt{wj,j[(1/n1)+(1/n2)]};
e ciò per ogni singola variabile, ossia con j=1,2,…,k.
La statistica tj, per la verifica dell’ipotesi nulla H0: le medie parziali nella
popolazione di riferimento sono uguali, contro l’ipotesi alternativa H1: le medie
parziali nella popolazione di riferimento sono differenti, sotto ipotesi di normalità
si distribuisce come una t di Student’s con (n1+n2-2) gradi di libertà.
Si inseriranno nel modello solo le variabili per le quali i valori della statistica test
in valore assoluto risultano maggiori del valore critico t(n1+n2-2,1-/2), con
usualmente  pari a 0.05, oppure un p-value inferiore ad . Alternativamente si
possono considerare i corrispondenti intervalli di confidenza evidenziando quelli
che non contengono il valore 0.
S-Plus fornisce Intervalli di confidenza simultanei di livello 0.95, usando il
metodo di Sidak. Vengono evidenziati con asterischi quelli che escludono il
5
valore 0.
Eliminazione di variabili con contributo discriminatorio
statisticamente non significativo con procedure: backward
elimination, forward selection.






Il test F precedente, se si considera p = k-1, può essere impiegato per l’eventuale
eliminazione di una variabile che non fornisce un contributo discriminatorio statisticamente
significativo (F-to-Remove).
La procedura può essere impiegata successivamente per l’eliminazione di tutte le q = k - p
(1 p  k)) variabili con contributo discriminatorio statisticamente non significativo.
Il test F precedente, considerato il modello con prefissate p variabili, può essere impiegato
per l’eventuale aggiunta al modello ridotto di una ulteriore variabile per ottenere così un
modello nested con p+1, variabili aggiungendo delle k-p variabili inizialmente escluse dal
modello ridotto, la variabile a cui corrisponde il più elevato p-value (purché inferiore di un
valore piccolo di soglia pari ad , usualmente con  =0.05) della statistica calcolata F (F-toEnter).
La procedura può essere impiegata per l’inserimento successivo di variabili determinando,
nel contempo, le variabili da inserire nel modello e il numero “ottimo”.
Ad ogni passo, passando dal modello ridotto (con p variabili) al modello successivo più
esteso (con p+1 variabili), per mitigare l’effetto connesso all’esplorazione di modelli nested,
si può valutare sempre con la statistica F (F-to-Remove) se risulta necessario rimuovere
una delle p variabili precedentemente inserite nel modello.
Quest’ultima procedura è implementata in STATGRAPHICS.
6
L’eliminazione di variabili sulla base dei valori dei
coefficienti standardizzati della funzione discriminante
lineare.

L’ordine di contributo nel definire la funzione discriminante lineare di una
variabile (operando su variabili standardizzate) è dato dal rango, per valore
assoluto, del corrispondente coefficiente, pertanto si possono selezionare
soltanto quelle variabili con un valore sufficientemente elevato del
corrispondente coefficiente.
7
Eliminazione di variabili via analisi delle componenti
principali


Delle k variabili esplicative, le prime componenti principali colgono la variabilità
strutturale; le ultime componenti principali costituiscono perturbazione.
Nella scelta delle variabili, si eliminano quelle variabili che sono più fortemente
correlate (positivamente o negativamente) con le ultime componenti principali
(quelle corrispondenti ad autovalori poco elevati). Si eliminano cioè le variabili
che presentano i più elevati coefficienti in valore assoluto che non siano già
state precedentemente eliminate fino alla riduzione di numero di variabili
desiderata.
8
Valutazioni preliminari


Prefissate le variabili del modello, alcune valutazioni preliminari all’analisi discriminante
riguardano:
La valutazione dell’ipotesi di omoschedasticità. Nel caso di rifiuto dell’ipotesi nulla di
omoschedasticità (ipotesi di Homogeneity of Covariances H0: 1= 2 =…= g, contro l’ipotesi
alternativa H1: non tutte le varianze parziali sono uguali) verificata con le statistiche: Box. M,
adj. M.
–

La valutazione della uguaglianza delle medie parziali (ipotesi nulla H0: 1= 2 =…= g, contro
l’ipotesi alternativa H1: non tutte le medie parziali sono uguali) condizionatamente alla
assunzione di omoschedasticità.
–
–
–
–
–

S-Plus prevede più modelli di matrice varianza media within fino al modello eteroschedastico.
S-Plus esegue i seguenti tests for the equality of means dei gruppi nel loro insieme (assumendo
l’ipotesi di omoschedasticità):
Wilks lambda,
Pillai trace,
Hoteling-Lawley trace,
Roy greatest root (upper bound).
La valutazione della uguaglianza delle medie parziali (ipotesi nulla) considerando
singolarmente tutte le coppie distinte di due gruppi, sempre condizionatamente alla
assunzione di omoschedasticità.
–
–
S-Plus esegue il seguente test for the equality of means per coppie di gruppi (assumendo l’ipotesi di
omoschedasticità):
Hotelling’s T squared test : T2 = [n1n2/(n1+n2)](m1-m2)’W-1(m1-m2).
9
Valutazioni preliminari (continuazione).



STATGRAPHICS esegue solo l’analisi discriminante (canonica) di Fisher basata sugli
autovalori ed autovettori di W-1B. Valuta la significatività delle successive funzioni
discriminanti lineari, di numero pari al minimo tra il numero delle variabili e il numero dei
gruppi meno 1 (più precisamente tante quanti sono gli autovalori di W-1B non nulli).
Più precisamente in presenza di m (m=numero autovalori non nulli di W-1B) funzioni
discriminanti, viene sottoposto a verifica di ipotesi il contributo discriminatorio delle ultime j
funzioni discriminanti j = m-1,m-2,…,1, cioè al netto del contributo discriminatorio delle prime
m-j funzioni discriminanti.
Si utilizza la statistica di Bartlett (approssimazione della statistica lambda di Wilks, vedi
Mardia et al. 1982, pagina 84) decomponibile additivamente come somma dei contributi
discriminatori di ciascuna successiva funzione discriminante (si veda, ad esempio, Tatsuoka
1971, pagina 164).
10
Wilks’ lambda test








Teorema
Se:
A ha f.d. Wishartp(I,m);
B ha f.d. Wishartp(I,n);
con A e B stocasticamente indipendenti ed mp,
allora la statistica:
 = |A|/|A+B| = |I+A-1B|-1;
ha f.d. Lambda di Wilks: (p,m,n), con parametri p, m ed n (Mardia et al. pagine 138-140).

Corollario
Sotto l’ipotesi di Normalità, poste:
B = matrice varianza between;
W = matrice varianza within;
sotto l’ipotesi nulla H0: 1= 2 =…= g | 1= 2 =…= g, la statistica:
z = |W|/|W+B|= |I+W-1B|-1;
ha f.d. di Wilks con parametri k, n-g e g-1,
con:
k = numero dei regressori,
n = numerosità campionaria,
g = numero dei gruppi.
Denotando con 1 2 ...  p, sono gli autovalori non nulli della matrice W-1B, si ha:

z = |W|/|W+B| = i(1+ i)-1 (Mardia et al. Pagina 83).











11
Statistica (approssimazione del lambda di Wilks) di Bartlett
















La statistica v di Bartlett è definita come segue:
v = -[n-1-(k+g)/2]ln(1/) = -[n-1-(k+g)/2]ln() = [n-1-(k+g)/2]ln(1/);
con  statistica di Wilks.
Poiché risulta:
 = [(1+ 1) (1+ 2)••• (1+ m)]-1;
1/ = (1+ 1) (1+ 2)••• (1+ m);
segue:
v = [n-1-(k+g)/2][(1+1)+(1+2)+…+(1+m)].
Sotto l’ipotesi di normalità e l’ipotesi nulla H0: 1= 2 =…= g | 1= 2 =…= g,
posto:
vi = [n-1-(k+g)/2][(1+i), i = 1,2,…,m = min{k,(g-1)};
la statistica:
v, ha approssimativamente f.d. chi-quadrato con k(g-1) gradi di libertà;
v - v1 , ha approssimativamente f.d. chi-quadrato con (k-1)(g-2) gradi di libertà;
v - v1 - v2, ha approssimativamente f.d. chi-quadrato con (k-2)(g-3) gradi di
libertà;
ecc..
12
Two-sample Hotelling T2 statistic













Sotto ipotesi di Normalità e sotto l’ipotesi nulla
H0: 1= 2 | 1= 2,
la statistica:
z = (n1n2/n)(m1-m2)’W-1(m1-m2);
ha f.d. T2 di Hotelling con k ed n-2 gradi di libertà.
Si noti che posto:
D2 = (m1-m2)’W-1(m1-m2);
sempre Sotto ipotesi di Normalità e sotto l’ipotesi nulla
H0: 1= 2 | 1= 2,
la statistica:
w = {[n1n2(n-k-1))]/[n(n-2)k]}D2 = {(n-k-1)/[(n-2)k]}z;
ha f.d. F di Snedecor con k e (n-k-1) gradi di libertà.
Mardia et al., 1982, pagine 76-77; oppure Tatsuoka,1971, pag. 82.
13
Box’s M Likelihood Ratio Test











In ipotesi di Normalità e sotto l’ipotesi nulla H0: 1= 2 =…= g,
il test basato basato sul rapporto di verosimiglianza (Likelihood Ratio Test )
risulta pari a:
M = i nilog(| Si-1W |).
La statistica M si distribuisce come un chi-quadrato con k(k+1)(g-1)/2 gradi di
libertà (Mardia et al.,1982, Pag. 140).
In particolare per numerosità di singoli gruppi ridotte Box ha proposto il
seguente aggiustamento della statistica M:
adj.M =  i (ni-1)log(| Sui-1Wu |),
con
Sui =[ni/(ni-1)] Si ;
Wu=[n/(n-g)] W ;
 = 1-[(2k2+3k-1)/6(k+1)(g-1)][i1/(ni-1) - 1/(n-g)].
La statistica adj.M si distribuisce come un chi-quadrato con k(k+1)(g-1)/2 gradi
di libertà (Mardia et al.,1982, Pag. 140).
14
BIBLIOGRAFIA






M.M. Tatsuoka, 1971, Multivariate Analysis, John Wiley.
K.V. Mardia, et al., 1982, Multivariate Analysis, John Wiley.
N.R. Draper and H. Smith, 1981, Applied Regression Analysis, John Wiley.
G.J. McLachlan, 1992, Discriminant Analysis and Statistical Pattern Recognition,
John Wiley.
C.m. Bishop, 1995, Neural Networks for Pattern Recognition, Clarendon Press.
B.D. Ripley, 1996, Pattern Recognition and Neural Networks. Cambridge
University Press.
15
Scarica

AD_selezione_variabili