REGRESSIONE LINEARE
Relazione tra una o più variabili risposta e una o più
variabili esplicative, al fine di costruire una regola
decisionale che permetta di prevedere i valori della
variabile risposta, dati i valori delle variabili
esplicative
1
Indipendenza in Generale(1)
 In matematica si dice che la variabile y
non dipende dalla variabile x quando
essa rimane costante al variare dei
valori assunti da x.
 Nel caso contrario si dice che la y
dipende ed è funzione di x.
…
2
Indipendenza in Generale (2)
 Partendo da questa definizione, è immediato
stabilire se c’è INDIPENDENZA tra due V.S.
espresse da una serie di coppie di valori.
 Nel caso di TABELLE A DOPPIA ENTRATA, perché ci
sia indi pendenza si deve verificare:
Per tutte le caselle della tabella.
L’INDIPENDENZA E’ RECIPROCA
3
Indipendenza in media (1)
 La moderna metodologia ha grandemente
valorizzato la sostituzione delle distribuzioni
parziali con i corrispondenti valori medi.
 Quando ricorrono le condizioni, si sarebbe indotti a
ritenere che la relazione tra x e y farebbe
corrispondere ad x il valore medio
delle
dato da
…
4
Indipendenza in media (2)
…quindi se
si ha INDIPENDENZA IN MEDIA DI Y DA X.
Così anche considerando le distribuzioni parziali di x
dati da
se
si ha INDIPENDENZA IN MEDIA
di X da Y.
5
Analisi della Dipendenza (1)
(regressione lineare semplice)
 Nel caso in cui tra i due caratteri esiste una
relazione unidirezionale nel senso che X indica il
CARATTERE ANTECEDENTE o INDIPENDENTE e Y il
CARATTERE CONSEGUENTE o DIPENDENTE si parla
di DIPENDENZA DEL CARATTERE Y DAL CARATTERE
X.
6
Analisi della Dipendenza (2)
(regressione lineare semplice)
yi = a + bxi + εi
dove:
a è l’intercetta
b è il coefficiente di regressione
εi è l’errore relativo all’osservazione i-esima
7
Regressione lineare semplice (1)
Il calcolo dei parametri della RETTA DI REGRESSIONE si effettua
con il metodo dei MINIMI QUADRATI; in altre parole si sceglie la
retta per la quale la somma dei quadrati degli scostamenti tra
i valori teorici e quelli osservati del carattere y sia minima:
ossia:
…
8
Regressione lineare semplice (2)
risolvendo abbiamo:
a
yi
x
 b i   y  b x
n
n
  x y / n   y  x / n2
i i
i
i
b
2
2



x
/
n

x
/
n


i
i

 Cov X , Y 


 rX ,Y  Y

Var  X 
X

dove σY e σx indicano gli scarti quadratici medi delle
variabili X e Y
e r(X,Y) indica il coefficiente di correlazione lineare
LA STIMA DELLA RETTA DI REGRESSIONE E’ UN
POTENTE STRUMENTO PREVISIVO
9
Regressione (3)
Proprietà dei residui della retta di regressione
n
n
e  y
i 1
i
i 1
i
 yˆ i   0
LA SOMMA DEI RESIDUI E' NULLA
n
e
i 1
i
n
n
n
i 1
i 1
i 1
yˆ i   e i a  bx i   a  e i  b e i x i  0
I RESIDUI SONO INCORRELAT I
CON LA VARIABILE ESPLICATIV A
…
10
Indice di Determinazione
DEVIANZA TOTALE
DEVIANZA DI REGRESSIONE
DEVIANZA RESIDUA
= INDICE DI DETERMINAZIONE, esprime QUANTA PARTE DELLA
DEVIANZA TOTALE DI Y E’ DETERMINATA DALLA RETTA
DI REGRESSIONE
11
REGRESSIONE LINEARE MULTIPLA
1
Yi  a  b1 X i1  b2 X i 2  ......  bk X ik   i
IPERPIANO
DI
REGRESSION E
in termini matriciali
Y  Xb  E
dove
Y è un vettore colonna n,1 contenenti i valori della variabile risposta
X è una matrice n, (k  1) contenete, per ciascuna colonna i valori delle variabili esplicativ e
b è un vettore (k  1),1 contenente tutti i parametri da stimare
E è un vettore colonna n,1 contenente gli errori o residui
12
REGRESSIONE LINEARE MULTIPLA
Il piano interpolante è
2
Y  Xb  a  b1 X i1  b2 X i 2  .......  bk X ik
Per determinare il piano interpolante si tratta pertanto di
stimare il vettore di parametri b sulla base dei dati a
disposizione.
Utilizzando il criterio di ottimalità dei minimi quadrati i
parametri b si otterrano minimizzando il quadrato della
distanza euclidea:
n

d 2  y , yˆ    Yi  Yˆi
i 1

2
13
Scarica

regressione lineare