X e Y:
caratteri entrambi quantitativi
X: variabile indipendente
Y:
variabile dipendente
y  f x 
f(x): espressione funzionale mirante a
descrivere la legge di dipendenza di Y
da X.


Diagramma di dispersione x j , y j ; j  1,2,..., n
Y
yj
.
xj
X
Modello di dipendenza lineare:
retta di regressione
y  b0  b YX x
b0: ordinata all’origine (o termine noto)
bYX: coefficiente angolare della retta di
regressione, detto “coefficiente di
regressione”. Riassume l’intensità della
dipendenza di Y da X.
Criterio di accostamento: metodo dei
minimi quadrati
yj:ordinata empirica di ascissa xj
y *j  b0  b YX x j :ordinata teorica di
ascissa xj
D 


n
j 1
n

* 2
yj  yj 
 y j  b0  b YX x j 
j 1
2
 min imo
Grafico della n-pla di valori
x j , y j 
Y
yj
.
yj*
b0
xj
X
b0  y  b YX x
 x j y j  nx  y  y j  yx j  x 
b YX

n
n
j1
n
j1
2
x
 j
j1

 nx
2
 x j  x 
n
j1
Codev X, Y 
CovX, Y 


DevX 
V X 
2

bYX indica di quanto varia in media Y per
ogni variazione unitaria positiva di
X;
ha
il
segno
codevianza.
algebrico
della
bYX>0
retta ascendente;
bYX<0
retta discendente;
bYX=0
retta parallela all’asse delle
ascisse (equazione della retta:
y  y): Y linearmente
indipendente da X.
Osservazione:
la retta di regressione passa sempre per
il centroide della nuvola di punti, poiché
i valori medi x, y  soddisfano
l’equazione:
y*  b0  b YX x
Scomposizione della devianza di Y
DevY tot  DevY regr  DevY disp
 y j  y 
2
j



2
*
yj  y 
j


*2
yj  yj 
j


 b2YX  x j  x    y j  b0  b YX x j 2
2
j
j
R 2 : indice di determinazione lineare
2
R 
DevY regr
DevY tot
2
0R 1
 1
DevY disp
DevY tot
R 2 : frazione della variabilità di Y
attribuibile alla dipendenza lineare da X.
R 2  0 per
DevY regr  0
(retta di regressione non inclinata e
devianza di regressione nulla)
R 2  1 per
DevY disp  0
(tutta la variabilità di Y è dovuta alla
dipendenza lineare da X e la devianza di
dispersione è nulla).
X: variabile dipendente
Y: variabile indipendente
'
b0  x  b XY y
 x j y j  nx  y  y j  yx j  x 
b XY

n
n
j1
n
j1
2
y
 j
j1

 ny
2
Codev X, Y 

DevY 
 y j  y
n
j1
2

I coefficienti angolari b YX e b XYhanno lo
stesso segno algebrico, dato dalla
codevianza, e differiscono per effetto
della diversa variabilità dei due caratteri.
Se b YX  0 , Y linearmente indipendente
da X, anche b XY  0 , X linearmente
indipendente da Y, e viceversa.
L’indipendenza lineare è reciproca.
Grafico delle rette:
y*  b0  b YX x
*
'
x  b0  b XY y
Y
y
x
X
Coefficiente di correlazione lineare (r)
(Bravais-Pearson)
Indicatore simmetrico della relazione
lineare tra Y e X.
Codev X, Y 
r
DevX   DevY 
 1  r  1
L’indice r ha il segno algebrico della
codevianza
Nel modello di regressione lineare semplice
vale la relazione
R2  r 2
r = +1: perfetta correlazione lineare
positiva tra X e Y; punti empirici tutti
allineati su una sola retta ascendente;
r = -1: perfetta correlazione lineare
negativa; punti empirici tutti allineati
su una sola retta discendente;
r = 0: assenza di correlazione lineare;
rette di regressione ortogonali tra loro,
con coefficienti angolari entrambi
uguali a 0: caratteri linearmente
indipendenti.
0 < r < +1: tendenziale correlazione positiva
tra X e Y; rette di regressione entrambe
ascendenti; coefficienti di regressione
positivi (quanto più essi si riducono, tanto
più le rette si aprono a forbice, espressione
dell'attenuarsi della relazione lineare tra le
variabili);
-1 < r < 0: tendenziale correlazione negativa
tra X e Y; rette di regressione entrambe
discendenti: coefficienti di regressione
negativi (l'angolo racchiuso dalle due rette è
tanto minore quanto più si accentua la
correlazione negativa).
Relazioni che intercorrono tra il
coefficiente di correlazione lineare (r) e
i coefficienti di regressione:
sY
b YX  r
sX
sX
b XY  r
sY
sX: scarto quadratico medio di X
sY: scarto quadratico medio di Y
r  b YX  b XY
Dalla n-pla bivariata alla distribuzione
bivariata
x1 .. xh
y1 n11 .. n1h
:
yi ni1 .. nih
:
yu nu1 .. nuh
n01 .. n0h
.. xv
.. n1v n10
:
.. niv ni0
:
.. nuv nu0
.. n0v n
xh , yi; nih; i  1,..., u; h  1,..., v
In una yi , xh ;nih
1
x   xhn0h
nh
2
2
DevX    xhn0h  nx
h
1
y   yini0
n i
2
2
DevY    yi ni0  ny
i
Codev X, Y     xh yinih  nx  y
i h
Regressione lineare e correlazione:
funzioni Excel
- funzioni per l’analisi del modello di
regressione lineare semplice
y  b0  b YX x
- funzione matriciale applicabile sia al
modello di regressione lineare semplice
sia al modello di regressione lineare
multipla
y  b0  b1x1  b2 x 2  ...  bp xp
Funzioni Excel per l’analisi del modello di
regressione lineare semplice
y*  b0  b YX x
- INTERCETTA(y,x): calcolo di b0
- PENDENZA(y,x): calcolo di bYX
- TENDENZA(y;x;nuova_x;cost):
calcolo dei valori teorici yj* di ascissa xj,
j=1,...,n, o della previsione di Y in
corrispondenza di un nuovo valore di X
(cost=1 se modello con intercetta,
0 altrimenti)
- RQ(y,x): calcolo dell’indice di
determinazione lineare
- COVARIANZA(Matrice1,Matrice 2): calcolo
della covarianza fra X e Y
- CORRELAZIONE(Matrice1,Matrice 2):
calcolo del coefficiente di correlazione
lineare di Pearson fra X e Y
Funzione matriciale (sia modello di regressione
lineare semplice sia modello di regressione
lineare multipla)
REGR.LIN(y,x,cost,stat)
y variabile dipendente;
x variabili indipendenti (se regressione
semplice 1 sola colonna, se regressione
multipla più colonne contigue);
cost=1 se modello con intercetta, 0 altrimenti;
stat=1 se si vogliono statistiche aggiuntive, 0
altrimenti
Modello di regressione lineare semplice
y*  b0  b YX x
OUTPUT DI REGR.LIN(y,x,1,0):
bYX
b0
OUTPUT DI REGR.LIN(y,x,1,1):
bYX
se1
2
R
F
Dev(Y)regr
b0
se0
seY
df
Dev(Y)disp
Scarica

Nessun titolo diapositiva