Regressione o Interpolazione
Consente di rappresentare una relazione
di dipendenza tra due variabili
quantitative
La velocità di un’automobile dipende
dalla potenza
 L’inquinamento dipende dagli
insediamenti industriali
 L’effetto di un medicinale dipende
dalla dose
 Il consumo dipende dal reddito

Esempio 18.2 – Resistenza carta
Tabella 18.1  Resistenza a trazione e
percentuale di fibra di legno nella carta.
Resistenza Percentuale Resistenza Percentuale
a trazione di fibra di a trazione di fibra di
legno  x 
legno  x 
y 
y 
4.3
1.0
23.4
5.5
7.6
1.5
26.3
6.0
13.8
2.0
27.5
6.5
16.6
3.0
29.0
7.0
18.0
4.0
31.8
8.0
20.7
4.5
36.6
9.0
23.3
5.0
35.9
10.0
i
35
i
i
i
yi
30
25
20
15
10
xi
5
2
4
6
8
10
Esplicitare la relazione tra due
variabili equivale a fare una
rappresentazione schematica della
realtà.
Questo schema si definisce modello.
Il modello quindi si definisce a
partire da una variabile indipendente
(o esplicativa) X e da una variabile
dipendente Y
Nell’esempio precedente la percentuale
di fibra di legno è la variabile
indipendente o esplicativa mentre la
resistenza a trazione è la variabile
indipendente
Finalità del modello
 Descrivere ed interpretare un fenomeno
 Prevedere le osservazioni
Regressione
Il modello, che esprime la relazione che
unisce due caratteri quantitativi, viene
esplicitato attraverso una funzione
matematica che esprime i valori assunti
da un carattere in funzione dei valori
assunti dall’altro carattere.
Y=f(X)+ε
ε rappresenta l’insieme degli effetti che
altre variabili, non considerate
nell’analisi, hanno su Y.
Ex. Il consumo dipende dal reddito e
dal risparmio.
Il primo problema che si deve
affrontare è quello dell’individuazione
della funzione più adatta a descrivere
la relazione tra la variabile dipendente
e la variabile esplicativa
Esempi:
• f(X) = α + β X
• f(X) = α log(X)
• f(X) = α βX
α e β sono detti parametri del modello
La scelta della funzione può essere
suggerita dalla
• rappresentazione grafica delle coppie
di valori osservati (xi, yi)
• teoria e/o analisi precedenti
Il modello statistico a cui si fa di
solito riferimento è
Y= α+β X+ε
detto modello di regressione lineare
semplice.
α è l’intercetta del modello. Indica
quanto vale Y quando X=0
β è il coefficiente angolare, detto
coefficiente di regressione. Indica di
quanto varia Y al variare di una unità
di X.
Solitamente α e β non sono noti ma
devono essere individuati (o stimati) a
partire dai valori osservati (xi, yi)
35
30
25
20
15
10
5
2
4
2
4
6
8
10
35
30
25
20
15
10
5
6
8
10
Stima dei parametri del modello di
regressione
ˆ  y  ˆx
Cov
(
X
,
Y
)
ˆ 
var(X )
Proprietà di
̂
• varia tra - e + . Il segno
dipende dalla covarianza tra X e Y
• ha come unità di misura il
rapporto tra l’unità di misura di Y
e quella di X
• se X e Y sono statisticamente
indipendenti o indipendenti in
media vale zero. Non è vero il
viceversa
 XY  0
35
30
25
20
ˆ  0
15
10
5
10
8
6
4
2
ˆ  0
ŷ  13.632  0.080 x
yi
, i
12
.
11
 XY  0
10
9
8
7
30
40
50
60
70
xi
 XY  0
ˆ  0
 XY  1
Y    X
25
Y
20
15
10
5
0
-8
-6
-4
-2
-5 0
2
4
6
-10
-15
-20
 XY  1
Y    X
X
8
Esempio 18.2 - stima
Tabella 18.2 – Calcoli per la stima della retta di regressione nell’esempio
18.2.
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Totale
yi
xi
yi  y
4.3
7.6
13.8
16.6
18.0
20.7
23.3
23.4
26.3
27.5
29.0
31.8
36.6
35.9
1.0
1.5
2.0
3.0
4.0
4.5
5.0
5.5
6.0
6.5
7.0
8.0
9.0
10.0
-18.19
-14.89
-8.69
-5.89
-4.49
-1.79
0.81
0.91
3.81
5.01
6.51
9.31
14.11
13.41
xi  x
-4.21
-3.71
-3.21
-2.21
-1.21
-0.71
-0.21
0.29
0.79
1.29
1.79
2.79
3.79
4.79
 xi  x  yi  y 
 xi  x 
76.58
55.24
27.89
13.02
5.43
1.27
-0.17
0.26
3.01
6.46
11.65
25.97
53.48
64.23
344.32
17.72
13.76
10.30
4.88
1.46
0.50
0.04
0.08
0.62
1.66
3.20
7.78
14.36
22.94
99.30
2
Esempio 18.2 - calcoli
Yi     xi   i
y  22.49
x  5.21
14
  x  x  y  y   344.32
i 1
i
i
14
x  x 
i 1
i
2
 99.30
344.32
ˆ

 3.47
99.30
ˆ  22.49  3.47  5.21  4.41
yˆi  ˆ  ˆ xi  4.41  3.47 xi
Scarica

Regressione