Il Modello di Regressione Multipla Introduzione Il modello di regressione multipla è la naturale generalizzazione di quello semplice, in quanto considera p 1 variabili esplicative per la spiegazione della variabile dipendente. Seguendo lo sviluppo della regressione semplice il modello di regressione multipla si scrive: E Y | x1 , x 2 ,..., x p 0 1 2 ,..., p dove 0 , 1 , 2 ,...., p sono i coefficienti di regressione equivalente a: Yi 0 1 xi1 2 xi 2 ,..., p xip i Introduzione In termini matriciali: Y1 Y 2 ... Y Yi ... Yn 1 x11 1 x 21 ... ... X 1 xi1 ... ... 1 xn1 ; x12 x22 ... xi 2 ... xn 2 ... x1 p ... x2 p ... ... ... xip ... ... ... xnp 0 1 2 ... ... p 1 2 ... i ... n Il modello di regressione lineare multiplo in forma matriciale si scrive: Y X Ipotesi del modello di regressione Yi v.c. indipendenti E i 0 i 1,..., n Var Yi | x1 , x2 ,..., x p Var i 2 i 1,..., n (varianza costante) Omoschedasticità Relazione di linearità, con parametri fissi Le p variabili x j j 1,..., p deterministiche, sono linearmente indipendenti con n p Stima dei parametri Il problema che si pone è quello di stimare i coefficienti di regressione. Parimenti alla regressione semplice, si adotterà il metodo dei minimi quadrati. Per determinare la soluzione del sistema e per dimostrare alcune proprietà degli stimatori si adotterà la nozione matriciale: y Xb e Ovvero: y Xb e (residuo) Stima dei parametri Occorre trovare il vettore tale che: S b y Xb y Xb min Sviluppando S b yy b X X b 2bX y ed uguagliando a zero la derivata prima, di ottiene: X y X X b b X X X y 1 N.B. la matrice X’X deve essere di rango pieno per poterla invertire Stima dei parametri Determinati i valori dei coefficienti di regressione, si può scrivere il modello di regressione stimato: yˆ i b0 b1 xi1 b2 xi 2 ..... b p xip Proprietà degli stimatori Al variare del campione le stime definito da: b ,..., b b 0 p generano lo stimatore B 1 B X X X Y Sostituendo Y X si ha: 1 1 1 B X X X X X X X X X X X Matrice identità B X X X 1 EB poichè E 0 dunque B è uno stimatore corretto di Proprietà degli stimatori la varianza di B è Var B B E B B E B X X 1 2 Indicando con ckj l’elemento della matrice dalla riga k+1 e dalla colonna j+1, si ha: ckj 2 CovBk , B j 2 c jj VarB j X ' X 1 individuato Proprietà degli stimatori Stima del parametro 2 : il modello di regressione consente di ottenere uno stimatore corretto 2 . Si consideri la somma dei quadrati dei residui: n 2 SSE yi yˆ i i 1 Indicando con SSE * lo stimatore di SSE si può dimostrare che: SSE * 2 E n p 1 Sostituendo 2 con SSE * MSE n p 1 * si ha: VarB j MSE *c jj Numero delle variabili Misura della bontà di adattamento si dimostra, come nel caso della regressione semplice, la seguente scomposizione: Valore osservato media y Devianza totale i Valore teorico 2 2 2 y yi yˆ i yˆ i y Devianza residua Devianza di regressione Misura della bontà di adattamento Come nel caso della regressione semplice la precedente può scriversi: S yy SSE SSR La quantità: R2 SSR S yy 0 R2 1 è chiamata coefficiente di determinazione multiplo e si interpreta come quella parte di variabilità di y spiegata dal modello di regressione. Misura della bontà di adattamento Nel modello di regressione multipla l’indice di determinazione lineare può presentare alcuni problemi calcolatori e di interpretazione. Ad esempio, in caso di assenza di relazione lineare non è pari a zero. È bene ricorrere perciò all’indice R 2 corretto: p n 1 R 2 R2 n 1 n p 1 Numero delle osservazioni Che varia sempre tra “0” e “1”. Numero delle variabili Verifica delle ipotesi si può dimostrare, con l’ipotesi di normalità di Yi ,che: SSE * 2 ha distribuzione 2 con n p 1 gradi di libertà. Le variabili casuali B j e SSE * sono indipendenti. 2 Se 1 2 .... p 0 , SSR * 2 ha distribuzione con p gradi di libertà. Le variabili casuali SSE * e SSR * sono indipendenti. Stimatore di SSR Verifica delle ipotesi Dai i primi due risultati, segue che la quantità: ha distribuzione t di Student con n-p-1 gradi di libertà. È così possibile costruire intervalli di confidenza e verificare ipotesi su , così se si vuole verificare l’ipotesi Bj j SSE * c jj n p 1 H0 : j 0 contro H1 : j 0 basta confrontare il valore di t calcolato con t 2;n p 1 Se t t 2;n p1 si accetta H 0 tabulato. Verifica delle ipotesi I due ultimi risultati consentono di verificare l’ipotesi H 0 : 1 2 .... p 0 contro l’alternativa che almeno uno dei coefficienti sia diverso da zero. Si vuole verificare la significatività sei coefficienti nel suo complesso. Un test appropriato è dato dal rapporto: F SSR p SSE n p 1 Che è una determinazione di una v.c. di Fischer-Snedecor con p e n-p-1 g.l. Se F calcolato è più piccolo del valore F 2; p ,n p 1 tabulato si accetta H 0 Verifica delle ipotesi Il procedimento è riportato in una tabella del tipo di quelle viste precedentemente, per la scomposizione della devianza totale. Sorgente di Variazione Somma dei Quadrati (Devianza) Gradi di Libertà Regressione SSR p Residuo SSE n p 1 Totale S yy n 1 Varianza Rapporto F MSR SSR p MSE SSE n p 1 SSR p SSE n p 1 Multicolinearità Con il termine multicollinearità ci si riferisce alla correlazione fra le variabili indipendenti di un modello di regressione. Il suo effetto consiste nel ridurre la capacità previsiva di ogni singola variabile indipendente in modo proporzionale alla forza della sua associazione con le altre variabili indipendenti. L’effetto della multicollinearità può interessare sia la capacità di spiegazione del modello (capacità della procedura di regressione e del ricercatore di rappresentare e capire l’influenza di ciascuna variabile indipendente) sia la sua stima (la sua presenza rende problematica la determinazione dei contributi individuali delle variabili indipendenti, perché i loro effetti vengono “mescolati” o confusi). Va pertanto valutata e individuata. Multicolinearità Due strumenti a disposizione sono la Tolleranza (Tolerance) e il Fattori di Accrescimento della Varianza (Variance Inflaction Factor). Tollerance 1 Ri20 Vif i 1 1 Ri20 In generale un Vif 5 è il quadrato del coefficiente che misura la correlazione fra la i-esima variabile esplicativa e tutte le altre è in indice di alta multicollinearità.