Politecnico di Milano - Anno Accademico 2010-2011
Statistica 086449
Docente: Alessandra Guglielmi
Esercitatore: Stefano Baraldo
Esercitazione 10
23 Giugno 2011
Esercizio 1. Vogliamo studiare la relazione tra pressione sanguigna arteriosa
(Y ) ed età (x) in persone che non hanno malattie cardiovascolari. Per questo
scopo, le pressioni arteriose di n = 7 persone in salute sono state misurate ed è
stata ottenuta la seguente tabella
xi
22
31
42
53
53
68
71
yi
132
140
139
144
147
155
150
(xi − x̄)2
706.4
308.75
43.18
19.61
19.61
377.46
503.04
(yi − ȳ)2
140.59
14.88
23.59
0.02
9.88
124.16
37.73
(xi − x̄)(yi − ȳ)
315.06
67.78
31.92
0.63
13.92
216.49
137.78
Si supponga che la relazione tra xi e Yi possa essere descritta dal modello lineare
Yi = β0 + β1 xi + i ,
i = 1, . . . , n,
iid
1 , . . . , n ∼ N (0, σ 2 )
1. Si forniscano degli stimatori puntuali per β0 , β1 e σ 2 , e si stimino queste
quantità con i dati a disposizione.
2. Si calcoli il coefficiente di determinazione.
3. I dati confermano l’idea, ad un livello α = 0.01, che una persona in salute
più anziana abbia anche una pressione sanguigna più alta? Si giustifichi
la risposta.
4. Si calcoli il p-value del test.
5. Si calcoli un intervallo di confidenza al 95% per l’intercetta.
6. Si calcolino una stima puntuale e un intervallo di predizione al 95% per la
pressione di una persona in salute di 45 anni.
Soluzione.
1. Le stime puntuali per β0 , β1 e σ 2 sono rispettivamente
Sxy
,
β̂1 =
Sxx
1
β̂0 = ȳ − β̂1 x̄ and σ̂ =
n−2
2
1
2
Sxy
Syy −
Sxx
!
,
Pn
Pn
Pn
dove Sxy = i=1 (xi − x̄)(yi − ȳ), Sxx = i=1 (xi − x̄)2 e Syy = i=1 (yi −
ȳ)2 . Dai dati nella tabella abbiamo che
x̄ = 48.57,
ȳ = 143.86,
n
X
(xi − x̄)2 = 1977.71,
i=1
n
X
(xi − x̄)(yi − ȳ) = 783.57,
i=1
n
X
(yi − ȳ)2 = 350.86,
i=1
quindi otteniamo le stime seguenti: β̂1 = 0.3962, β̂0 = 124.6166 e σ̂ 2 =
8.0811.
2. Utilizzando le quantità calcolate al punto precedente otteniamo:
R2 =
2
Sxy
783.572
=
= 0.8848.
Sxx Syy
1977.71 · 350.86
3. Dobbiamo stabilire se il coefficiente angolare della retta di regressione è
positivo o no. Vogliamo testare H0 : β1 ≤ 0 contro H1 : β1 > 0. La
statistica test per questo problema è
T =p
β̂1
σ̂ 2 /Sxx
H0
∼ tn−2 ,
quindi la regione critica è

 (
s
)
r

2
σ̂ 
8.0811
R = β̂1 > tα,n−2
= β̂1 > 3.365

Sxx 
1977.714
n
o
= β̂1 > 0.2151
dove tα,n−2 è il quantile di livello α di una t-Student a n − 2 gradi di
libertà. Dato che 0.3962 ∈ R, rifiutiamo l’ipotesi nulla per α = 0.01.
p
4. Il p-value del test è il valore di α tale per cui β̂1 / σ̂ 2 /Sxx = tα,n−2 . Da
questa relazione otteniamo
p
α = 1 − Ft(n−2) (β̂1 Sxx /σ̂) = 1 − Ft(5) (0.3962 · 44.47/2.843)
= 1 − Ft(5) (6.1973) = 0.0008.
5. Dato che
r
β̂0 − β0
∼tn−2 ,
1
x̄2
2
σ̂ n + Sxx
l’IC di livello 1 − α = 0.95 per β0 è
s s !
2
2
1
x̄
1
x̄
β̂0 − tα/2,n−2 σ̂ 2
+
, β̂0 + tα/2,n−2 σ̂ 2
+
.
n Sxx
n Sxx
Utilizzando i dati raccolti e t0.025,5 = 2.5706 otteniamo l’intervallo (116.17, 133.0621).
2
6. La stima puntuale per Y0 in corrispondenza di x0 è ŷ0 = β̂0 + β̂1 x0 =
142.43. Un intervallo di predizione per Y0 è dato da:
s !
2
1
(x
−
x̄)
0
ŷ0 ± tα/2,n−2 σ̂ 2 1 + +
.
n
Sxx
Utilizzando i dati raccolti e t0.025,5 = 2.5706 otteniamo l’intervallo (134.5626, 150.2974).
Esercizio 2. Un sondaggio raccoglie i valori delle variabili Y =“spesa per il
cinema" (in e , all’anno) e X =“spesa in telefonia mobile” (in e al mese) su un
campione di n = 9 giovani. Le nove coppie di valori registrati (xi , yi ), i = 1, . . . , 9
producono le seguenti quantità:
9
X
xi = 1591
i=1
9
X
9
X
yi = 743
i=1
x2i = 282197
i=1
9
X
9
X
xi yi = 131574
i=1
yi2 = 282197
i=1
1. Si stimino i parametri del modello lineare che esprime la spesa annua per
il cinema in dipendenza dalla spesa mensile in traffico telefonico.
2. Si interpreti la stima della pendenza del modello. Inoltre, si dica se è
possibile interpretare l’intercetta del modello, e si giustifichi brevemente
la risposta.
3. SI testi l’ipotesi in base alla quale la pendenza della retta è pari a zero,
contro l’alternativa bilatera, con α = 0.1.
4. In base alla decisione presa al punto precedente, possiamo dire se il p-value
sarà minore, maggiore o uguale a 0.1?
Soluzione.
1. Si noti che
β̂1 =
Sxy
=
Sxx
Pn
Pn
(x − x̄)(yi − ȳ)
xi yi − nx̄ȳ
i=1
Pn i
Pi=1
=
.
n
2
2
2
(x
−
x̄)
i
i=1
i=1 xi − nx̄
P9
P9
Dato che x̄ = ( i=1 xi )/n = 176.7778 e ȳ = ( i=1 yi )/n = 82.5556,
otteniamo β̂1 = (131574 − 9 · x̄ȳ)/(282197 − 9 · x̄2 ) = 0.2417 e β̂0 =
ȳ − β̂1 x̄ = 39.81831.
2. Il segno di β̂1 è positivo, il che suggerisce che più una persona spende
per la telefonia, più ella spende anche per il cinema; inoltre, il coefficiente
è minore di 1, il che indica per esempio che in media, se due persone
diverse hanno una differenza di 10e nella loro spesa mensile per il telefono,
la differenza tra le spese annuali per il cinema sarà minore di 10e (più
precisamente, viene predetta pari a 2.42e). L’intercetta è il valore che
assume ŷ quando x = 0, quindi può essere interpretata come la spesa
media per il cinema di una persona che non ha un telefono cellulare!
3
3. Vogliamo testare H0 : β1 = 0 contro H1 : β1 6= 0. A livello α = 0.1, questo
test ha regione critica


s

2
σ̂ 
R = |β̂1 − 0| > t0.05,7

Sxx 
dove t0.05,7 = 1.894579 è il quantile di livello 0.05 di una t-Student con
n − 2 = 7 gradi di libertà. Dato che Sxx = 943.5556 (si veda il punto 1)
2
e σ̂ = (Syy − Sxy
/Sxx )/(n − 2) = 31543.30, otteniamo la regione critica
R = {β̂1 > 10.9543}, quindi non rifiutiamo H0 . Questo significa che non
c’è evidenza statistica per confermare che la spesa per la telefonia mobile
è legata alla spesa per il cinema.
4. Dato che abbiamo accettato H0 a livello 0.1, il p-value sarà almeno maggiore di 1.
Esercizio 3. Le macchie solari, particolari regioni sulla superficie del Sole, sono
indice di forte attività magnetica, e gli astronomi si chiedono se possano avere
qualche influenza sulla Terra. Per questo motivo si è deciso di investigare la
relazione intercorrente tra il numero di macchie solari (x) apparse sulla superficie
del Sole e il numero di morti per incidenti d’auto (Y ) ogni anno. La tabella
seguente raccoglie questi dati dal 1970 to 1980; le morti per incidente d’auto
sono espresse in unità su 1000 morti per cause qualsiasi:
Anno
x
Y
1970
165
54.6
1971
89
53.3
1972
55
56.3
1973
34
49.6
1974
9
47.1
1975
30
45.9
1976
59
48.5
1977
83
50.1
1978
109
52.4
1979
127
52.5
1980
153
53.2
Risulta che Sxx = 26318, Sxy = 1104.5 and Syy = 105.0618.
1. Basandosi sui dati a disposizione si stimino i coefficienti di regressione di
un modello lineare che esprime il numero di morti in incidenti d’auto in
dipendenza dal numero di macchie solari.
2. Si calcoli il coefficiente di determinazione R2 .
3. Cosa si può dire del numero di morti per incidente d’auto nel 1981, supponendo che nel 1981 il numero di macchie solari sia stato pari a 199? Si calcoli una stima puntuale e un intervallo di predizione di livello 1−α = 0.05.
Soluzione.
1. Abbiamo β̂1 = Sxy /Sxx = 0.04197. Inoltre, dato che x̄ = 83 e ȳ =
51.2273,abbiamo β̂0 = 47.74397.
2
2. R2 = Sxy
/(Sxx Syy ) = β̂1 Sxy /Syy ' 0.4412.
3. Fissando x0 = 199, il numero di morti per incidente stradale su 1000
morti totali predetto dal modello è ŷ0 = β̂0 + β̂1 x0 ' 56.096. Utilizzando
2
σ̂ 2 = (Syy − Sxy
/Sxx )/(n − 2) = 6.523194, un intervallo di predizione è
dato da
p
ŷ0 ± tα/2,n−2 σ̂ 2 (1 + 1/n + (x0 − x̄)2 /Sxx ) ' (48.78, 63.41).
4
Esercizio 4. In una tabella sono raccolti i seguenti dati
X
Y
−0, 23 −0, 79 0, 19
−1, 22 −0, 2 −0, 66
0, 79 0, 76 0, 91
0, 2 −0, 12 0, 37
1. Calcolare la retta di regressione di Y su X.
2. Calcolare la retta di regressione di Y su X 2 .
3. Stimare Y per X = −0, 6 utilizzando il modello che si ritiene migliore fra
i due calcolati.
Soluzione. Con i dati a disposizione abbiamo x̄ = 0.2717, ȳ = −0.2717,
Sxx = 2.3001, S)yy = 1.7125 e Sxy = 1.1595. Inoltre, definendo Z = X 2 ,
abbiamo z̄ = 0.4572, Szz = 0.5486 e Szy = 0.8939.
1. Poiché β̂1x = Sxy /Sxx = 0.5041 e β̂0x = ȳ − β̂1x x̄ = −0.4086, la retta di
regressione richiesta è Ŷ = −0.4086 + 0.5041 X.
2. Poiché β̂1z = Szy /Szz = 1.6295 e β̂0z = ȳ − β̂1z z̄ = −1.0166, la retta di
regressione richiesta è Ŷ = −1.0166 + 1.6295 X 2 .
2
/(Sxx Syy ) =
3. Il modello migliore è quello trovato al punto 2, in quanto Rx2 = Sxy
2
2
34.13% mentre Rz = Szy /(Szz Syy ) = 85.06%. Utilizzando tale modello si
ottiene la stima puntuale Ŷ0 = −1.0166 + 1.6295 (−0.6)2 = −0.43.
Esercizio 5. Sono stati raccolti i seguenti dati:
xi
yi
2.1
0.8518
3.2
2.3551
−1.2
−8.7368
−3.4
−11.2042
2.3
0.8329
2.4
−1.1961
1.7
2.3834
−0.9
−9.3468
−0.8
−6.1546
Da un’elaborazione preliminare dei dati risulta che le deviazioni standard campionarie valgono sx = 2.1427 e sy = 5.1807. Il coefficiente di correlazione tra i
dati x e y vale ρ = 0.9421.
Viene eseguita una regressione lineare con intercetta di y su x, supponendo
valido il modello lineare gaussiano
Y = β0 + β1 x + .
1. Stimare puntualmente i parametri β0 e β1 .
2. Calcolare un intervallo di confidenza di livello 95% per β0 .
3. Viene introdotto un nuovo predittore x2 , arrivando così a un modello della
forma
Y = β0 + β1 x + β2 x2 + .
Per questo nuovo modello si ha βb2 = 0.11 e se(βb2 ) = 0.17. Valutare
l’opportunità di aggiungere il predittore x2 per mezzo di un opportuno
test di livello 5%.
Soluzione.
1. Abbiamo che
p
ρ Syy
ρsy (n − 1)
Sxy
β̂1 =
= √
=
,
Sxx
sx (n − 1)
Sxx
da cui β̂1 = 2.2779 e β̂0 = ȳ − β̂1 x̄ = −4.8783.
5
1.9
−1.9388
p
2. Ricordando che nel caso a un solo regressore se(β̂0 ) = σ̂ 1/n + x̄2 /Sxx e
2
che σ̂ 2 = (Syy −Sxy
/Sxx )/(n−2), abbiamo ICβ0 (0.95) = (β̂0 ±se(β̂0 )t0.025 (8)) =
(−4.8783 ± 1.427)
3. Per valutare la significatività di un singolo predittore bisogna effettuare
il test H0 : β̂2 = 0 vs H1 : β̂2 6= 0, con regione critica R = {β̂2 >
tα/2,n−2 se(β̂2 )}. Dato che β̂2 < t0.025,8 se(β̂2 = 0.3920, non è opportuno
aggiungere x2 (non ho evidenza per rifiutare H0 ).
Esercizio 6. In una certa comunità si registrano mensilmente il consumo di
gelati X misurato in kg e il numero di casi allergia al polline Y . I dati raccolti
nell’ultimo anno su un campione di dimensione n = 12 forniscono le seguenti
informazioni:
x̄ = 110
ȳ = 20
sx = 100
sy = 5
Dove sx e sy sono le deviazioni standard campionarie di X e Y . Il coefficiente
di correlazione tra X e Y vale ρ = 0.93.
1. Si determini la retta di regressione di Y su X e se ne disegni il grafico.
2. Si stimi (puntualmente) il numero di casi di allergia in un mese in cui il
consumo di gelati è pari a 300 kg. Si dica, in base a un opportuno indice,
se la previsione ottenuta è buona.
3. Mediante un intervallo di confidenza di livello 90% si stimi il numero atteso
di casi di allergia in un mese in cui il consumo di gelati è pari a 300 kg.
Si suppongano valide le ipotesi gaussiane.
4. Mediante un intervallo di previsione di livello 90% si stimi il numero di
casi di allergia in un mese in cui il consumo di gelati è pari a 300 kg. Si
suppongano valide le ipotesi gaussiane.
Soluzione.
1. Dato che
ρ= p
Sxy
Sxy
=
s
s
Sxx Syy
x y (n − 1)
abbiamo che
β̂1 =
Sxy
Sxy
ρsy sx (n − 1)
ρsy
0.93 · 5
= 2
=
=
=
= 0.0465.
2
Sxx
sx (n − 1)
sx (n − 1)
sx
100
Di conseguenza β̂0 = ȳ − β̂1 x̂ = 20 − 0.0465 · 110 = 14.885, quindi la retta
di regressione cercata è ŷ = 0.0465x + 14.885.
2. ŷ0 = 14.885 + 0.0465 · 300 = 28.835; dato che R2 = ρ2 = 0.8649, la previsione è buona perché il coefficiente di correlazione è elevato; in realtà
sarebbe opportuno verificare anche l’ipotesi di normalità e omoschedasticità dei residui e valutare la distribuzione predittiva di Y nel punto x = 300.
6
3. Un intervallo di predizione per Ŷ0 è dato da
s s !
2
2
1
(x
−
x̄)
1
(x
−
x̄)
0
0
ŷ0 − tα/2,n−2 σ̂ 2
+
, ŷ0 + tα/2,n−2 σ̂ 2
+
,
n
Sxx
n
Sxx
2
dove x0 = 300 e α = 0.1, mentre Sxx e σ̂ 2 = (Syy − Sxy
/Sxx )/(n − 1)
possono essere calcolati utilizzando alcune delle relazioni viste al punto
1Utilizzando questi dati troviamo l’intervallo 28.835 ± 2.24.
4. Un intervallo di predizione per Ŷ0 è dato da
s s !
1
(x0 − x̄)2
1
(x0 − x̄)2
2
2
, ŷ0 + tα/2,n−2 σ̂ 1 + +
.
ŷ0 − tα/2,n−2 σ̂ 1 + +
n
Sxx
n
Sxx
Utilizzando i dati a disposizione troviamo 28.835 ± 4.150.
Esercizio 7. I valori assunti da due grandezze X e Y in 20 diversi casi forniscono
per entrambe le grandezze media nulla e varianze campionarie s2X = 9 e s2Y = 4
rispettivamente.
1. Si determini la retta di regressione di Y su X, sapendo che essa passa per
il punto (3, 1).
2. Si calcoli il coefficiente R2 .
3. Si determini la retta di regressione di X su Y.
Soluzione.
1. Dato che in questo caso β̂0 = ȳ − β̂1 x̄ = 0 − β̂1 · 0 = 0, la retta deve
passare per l’origine. L’unica retta passante per i punti (0, 0) e (3, 1) è
evidentemente ŷ = 31 x.
2. Dato che
1/3 = β̂1x =
Sxy
Sxy
Sxy
=
,
= 2
Sxx
sX (n − 1)
171
2
/(Sxx Syy ) =
otteniamo che Sxy = 1/3 · 171 = 57. Dato che R2 = Sxy
2
2 2
2
2
2
2
Sxy /(sX sY (n − 1) ), otteniamo R = 57 /(9 · 4 · 19 ) = 0.25.
3. β̂1y = Sxy /Syy , da cui x̂ = 43 y.
7
Scarica

Alessandra Guglielmi Esercitatore: Stefano Baraldo