Politecnico di Milano - Anno Accademico 2010-2011 Statistica 086449 Docente: Alessandra Guglielmi Esercitatore: Stefano Baraldo Esercitazione 10 23 Giugno 2011 Esercizio 1. Vogliamo studiare la relazione tra pressione sanguigna arteriosa (Y ) ed età (x) in persone che non hanno malattie cardiovascolari. Per questo scopo, le pressioni arteriose di n = 7 persone in salute sono state misurate ed è stata ottenuta la seguente tabella xi 22 31 42 53 53 68 71 yi 132 140 139 144 147 155 150 (xi − x̄)2 706.4 308.75 43.18 19.61 19.61 377.46 503.04 (yi − ȳ)2 140.59 14.88 23.59 0.02 9.88 124.16 37.73 (xi − x̄)(yi − ȳ) 315.06 67.78 31.92 0.63 13.92 216.49 137.78 Si supponga che la relazione tra xi e Yi possa essere descritta dal modello lineare Yi = β0 + β1 xi + i , i = 1, . . . , n, iid 1 , . . . , n ∼ N (0, σ 2 ) 1. Si forniscano degli stimatori puntuali per β0 , β1 e σ 2 , e si stimino queste quantità con i dati a disposizione. 2. Si calcoli il coefficiente di determinazione. 3. I dati confermano l’idea, ad un livello α = 0.01, che una persona in salute più anziana abbia anche una pressione sanguigna più alta? Si giustifichi la risposta. 4. Si calcoli il p-value del test. 5. Si calcoli un intervallo di confidenza al 95% per l’intercetta. 6. Si calcolino una stima puntuale e un intervallo di predizione al 95% per la pressione di una persona in salute di 45 anni. Soluzione. 1. Le stime puntuali per β0 , β1 e σ 2 sono rispettivamente Sxy , β̂1 = Sxx 1 β̂0 = ȳ − β̂1 x̄ and σ̂ = n−2 2 1 2 Sxy Syy − Sxx ! , Pn Pn Pn dove Sxy = i=1 (xi − x̄)(yi − ȳ), Sxx = i=1 (xi − x̄)2 e Syy = i=1 (yi − ȳ)2 . Dai dati nella tabella abbiamo che x̄ = 48.57, ȳ = 143.86, n X (xi − x̄)2 = 1977.71, i=1 n X (xi − x̄)(yi − ȳ) = 783.57, i=1 n X (yi − ȳ)2 = 350.86, i=1 quindi otteniamo le stime seguenti: β̂1 = 0.3962, β̂0 = 124.6166 e σ̂ 2 = 8.0811. 2. Utilizzando le quantità calcolate al punto precedente otteniamo: R2 = 2 Sxy 783.572 = = 0.8848. Sxx Syy 1977.71 · 350.86 3. Dobbiamo stabilire se il coefficiente angolare della retta di regressione è positivo o no. Vogliamo testare H0 : β1 ≤ 0 contro H1 : β1 > 0. La statistica test per questo problema è T =p β̂1 σ̂ 2 /Sxx H0 ∼ tn−2 , quindi la regione critica è ( s ) r 2 σ̂ 8.0811 R = β̂1 > tα,n−2 = β̂1 > 3.365 Sxx 1977.714 n o = β̂1 > 0.2151 dove tα,n−2 è il quantile di livello α di una t-Student a n − 2 gradi di libertà. Dato che 0.3962 ∈ R, rifiutiamo l’ipotesi nulla per α = 0.01. p 4. Il p-value del test è il valore di α tale per cui β̂1 / σ̂ 2 /Sxx = tα,n−2 . Da questa relazione otteniamo p α = 1 − Ft(n−2) (β̂1 Sxx /σ̂) = 1 − Ft(5) (0.3962 · 44.47/2.843) = 1 − Ft(5) (6.1973) = 0.0008. 5. Dato che r β̂0 − β0 ∼tn−2 , 1 x̄2 2 σ̂ n + Sxx l’IC di livello 1 − α = 0.95 per β0 è s s ! 2 2 1 x̄ 1 x̄ β̂0 − tα/2,n−2 σ̂ 2 + , β̂0 + tα/2,n−2 σ̂ 2 + . n Sxx n Sxx Utilizzando i dati raccolti e t0.025,5 = 2.5706 otteniamo l’intervallo (116.17, 133.0621). 2 6. La stima puntuale per Y0 in corrispondenza di x0 è ŷ0 = β̂0 + β̂1 x0 = 142.43. Un intervallo di predizione per Y0 è dato da: s ! 2 1 (x − x̄) 0 ŷ0 ± tα/2,n−2 σ̂ 2 1 + + . n Sxx Utilizzando i dati raccolti e t0.025,5 = 2.5706 otteniamo l’intervallo (134.5626, 150.2974). Esercizio 2. Un sondaggio raccoglie i valori delle variabili Y =“spesa per il cinema" (in e , all’anno) e X =“spesa in telefonia mobile” (in e al mese) su un campione di n = 9 giovani. Le nove coppie di valori registrati (xi , yi ), i = 1, . . . , 9 producono le seguenti quantità: 9 X xi = 1591 i=1 9 X 9 X yi = 743 i=1 x2i = 282197 i=1 9 X 9 X xi yi = 131574 i=1 yi2 = 282197 i=1 1. Si stimino i parametri del modello lineare che esprime la spesa annua per il cinema in dipendenza dalla spesa mensile in traffico telefonico. 2. Si interpreti la stima della pendenza del modello. Inoltre, si dica se è possibile interpretare l’intercetta del modello, e si giustifichi brevemente la risposta. 3. SI testi l’ipotesi in base alla quale la pendenza della retta è pari a zero, contro l’alternativa bilatera, con α = 0.1. 4. In base alla decisione presa al punto precedente, possiamo dire se il p-value sarà minore, maggiore o uguale a 0.1? Soluzione. 1. Si noti che β̂1 = Sxy = Sxx Pn Pn (x − x̄)(yi − ȳ) xi yi − nx̄ȳ i=1 Pn i Pi=1 = . n 2 2 2 (x − x̄) i i=1 i=1 xi − nx̄ P9 P9 Dato che x̄ = ( i=1 xi )/n = 176.7778 e ȳ = ( i=1 yi )/n = 82.5556, otteniamo β̂1 = (131574 − 9 · x̄ȳ)/(282197 − 9 · x̄2 ) = 0.2417 e β̂0 = ȳ − β̂1 x̄ = 39.81831. 2. Il segno di β̂1 è positivo, il che suggerisce che più una persona spende per la telefonia, più ella spende anche per il cinema; inoltre, il coefficiente è minore di 1, il che indica per esempio che in media, se due persone diverse hanno una differenza di 10e nella loro spesa mensile per il telefono, la differenza tra le spese annuali per il cinema sarà minore di 10e (più precisamente, viene predetta pari a 2.42e). L’intercetta è il valore che assume ŷ quando x = 0, quindi può essere interpretata come la spesa media per il cinema di una persona che non ha un telefono cellulare! 3 3. Vogliamo testare H0 : β1 = 0 contro H1 : β1 6= 0. A livello α = 0.1, questo test ha regione critica s 2 σ̂ R = |β̂1 − 0| > t0.05,7 Sxx dove t0.05,7 = 1.894579 è il quantile di livello 0.05 di una t-Student con n − 2 = 7 gradi di libertà. Dato che Sxx = 943.5556 (si veda il punto 1) 2 e σ̂ = (Syy − Sxy /Sxx )/(n − 2) = 31543.30, otteniamo la regione critica R = {β̂1 > 10.9543}, quindi non rifiutiamo H0 . Questo significa che non c’è evidenza statistica per confermare che la spesa per la telefonia mobile è legata alla spesa per il cinema. 4. Dato che abbiamo accettato H0 a livello 0.1, il p-value sarà almeno maggiore di 1. Esercizio 3. Le macchie solari, particolari regioni sulla superficie del Sole, sono indice di forte attività magnetica, e gli astronomi si chiedono se possano avere qualche influenza sulla Terra. Per questo motivo si è deciso di investigare la relazione intercorrente tra il numero di macchie solari (x) apparse sulla superficie del Sole e il numero di morti per incidenti d’auto (Y ) ogni anno. La tabella seguente raccoglie questi dati dal 1970 to 1980; le morti per incidente d’auto sono espresse in unità su 1000 morti per cause qualsiasi: Anno x Y 1970 165 54.6 1971 89 53.3 1972 55 56.3 1973 34 49.6 1974 9 47.1 1975 30 45.9 1976 59 48.5 1977 83 50.1 1978 109 52.4 1979 127 52.5 1980 153 53.2 Risulta che Sxx = 26318, Sxy = 1104.5 and Syy = 105.0618. 1. Basandosi sui dati a disposizione si stimino i coefficienti di regressione di un modello lineare che esprime il numero di morti in incidenti d’auto in dipendenza dal numero di macchie solari. 2. Si calcoli il coefficiente di determinazione R2 . 3. Cosa si può dire del numero di morti per incidente d’auto nel 1981, supponendo che nel 1981 il numero di macchie solari sia stato pari a 199? Si calcoli una stima puntuale e un intervallo di predizione di livello 1−α = 0.05. Soluzione. 1. Abbiamo β̂1 = Sxy /Sxx = 0.04197. Inoltre, dato che x̄ = 83 e ȳ = 51.2273,abbiamo β̂0 = 47.74397. 2 2. R2 = Sxy /(Sxx Syy ) = β̂1 Sxy /Syy ' 0.4412. 3. Fissando x0 = 199, il numero di morti per incidente stradale su 1000 morti totali predetto dal modello è ŷ0 = β̂0 + β̂1 x0 ' 56.096. Utilizzando 2 σ̂ 2 = (Syy − Sxy /Sxx )/(n − 2) = 6.523194, un intervallo di predizione è dato da p ŷ0 ± tα/2,n−2 σ̂ 2 (1 + 1/n + (x0 − x̄)2 /Sxx ) ' (48.78, 63.41). 4 Esercizio 4. In una tabella sono raccolti i seguenti dati X Y −0, 23 −0, 79 0, 19 −1, 22 −0, 2 −0, 66 0, 79 0, 76 0, 91 0, 2 −0, 12 0, 37 1. Calcolare la retta di regressione di Y su X. 2. Calcolare la retta di regressione di Y su X 2 . 3. Stimare Y per X = −0, 6 utilizzando il modello che si ritiene migliore fra i due calcolati. Soluzione. Con i dati a disposizione abbiamo x̄ = 0.2717, ȳ = −0.2717, Sxx = 2.3001, S)yy = 1.7125 e Sxy = 1.1595. Inoltre, definendo Z = X 2 , abbiamo z̄ = 0.4572, Szz = 0.5486 e Szy = 0.8939. 1. Poiché β̂1x = Sxy /Sxx = 0.5041 e β̂0x = ȳ − β̂1x x̄ = −0.4086, la retta di regressione richiesta è Ŷ = −0.4086 + 0.5041 X. 2. Poiché β̂1z = Szy /Szz = 1.6295 e β̂0z = ȳ − β̂1z z̄ = −1.0166, la retta di regressione richiesta è Ŷ = −1.0166 + 1.6295 X 2 . 2 /(Sxx Syy ) = 3. Il modello migliore è quello trovato al punto 2, in quanto Rx2 = Sxy 2 2 34.13% mentre Rz = Szy /(Szz Syy ) = 85.06%. Utilizzando tale modello si ottiene la stima puntuale Ŷ0 = −1.0166 + 1.6295 (−0.6)2 = −0.43. Esercizio 5. Sono stati raccolti i seguenti dati: xi yi 2.1 0.8518 3.2 2.3551 −1.2 −8.7368 −3.4 −11.2042 2.3 0.8329 2.4 −1.1961 1.7 2.3834 −0.9 −9.3468 −0.8 −6.1546 Da un’elaborazione preliminare dei dati risulta che le deviazioni standard campionarie valgono sx = 2.1427 e sy = 5.1807. Il coefficiente di correlazione tra i dati x e y vale ρ = 0.9421. Viene eseguita una regressione lineare con intercetta di y su x, supponendo valido il modello lineare gaussiano Y = β0 + β1 x + . 1. Stimare puntualmente i parametri β0 e β1 . 2. Calcolare un intervallo di confidenza di livello 95% per β0 . 3. Viene introdotto un nuovo predittore x2 , arrivando così a un modello della forma Y = β0 + β1 x + β2 x2 + . Per questo nuovo modello si ha βb2 = 0.11 e se(βb2 ) = 0.17. Valutare l’opportunità di aggiungere il predittore x2 per mezzo di un opportuno test di livello 5%. Soluzione. 1. Abbiamo che p ρ Syy ρsy (n − 1) Sxy β̂1 = = √ = , Sxx sx (n − 1) Sxx da cui β̂1 = 2.2779 e β̂0 = ȳ − β̂1 x̄ = −4.8783. 5 1.9 −1.9388 p 2. Ricordando che nel caso a un solo regressore se(β̂0 ) = σ̂ 1/n + x̄2 /Sxx e 2 che σ̂ 2 = (Syy −Sxy /Sxx )/(n−2), abbiamo ICβ0 (0.95) = (β̂0 ±se(β̂0 )t0.025 (8)) = (−4.8783 ± 1.427) 3. Per valutare la significatività di un singolo predittore bisogna effettuare il test H0 : β̂2 = 0 vs H1 : β̂2 6= 0, con regione critica R = {β̂2 > tα/2,n−2 se(β̂2 )}. Dato che β̂2 < t0.025,8 se(β̂2 = 0.3920, non è opportuno aggiungere x2 (non ho evidenza per rifiutare H0 ). Esercizio 6. In una certa comunità si registrano mensilmente il consumo di gelati X misurato in kg e il numero di casi allergia al polline Y . I dati raccolti nell’ultimo anno su un campione di dimensione n = 12 forniscono le seguenti informazioni: x̄ = 110 ȳ = 20 sx = 100 sy = 5 Dove sx e sy sono le deviazioni standard campionarie di X e Y . Il coefficiente di correlazione tra X e Y vale ρ = 0.93. 1. Si determini la retta di regressione di Y su X e se ne disegni il grafico. 2. Si stimi (puntualmente) il numero di casi di allergia in un mese in cui il consumo di gelati è pari a 300 kg. Si dica, in base a un opportuno indice, se la previsione ottenuta è buona. 3. Mediante un intervallo di confidenza di livello 90% si stimi il numero atteso di casi di allergia in un mese in cui il consumo di gelati è pari a 300 kg. Si suppongano valide le ipotesi gaussiane. 4. Mediante un intervallo di previsione di livello 90% si stimi il numero di casi di allergia in un mese in cui il consumo di gelati è pari a 300 kg. Si suppongano valide le ipotesi gaussiane. Soluzione. 1. Dato che ρ= p Sxy Sxy = s s Sxx Syy x y (n − 1) abbiamo che β̂1 = Sxy Sxy ρsy sx (n − 1) ρsy 0.93 · 5 = 2 = = = = 0.0465. 2 Sxx sx (n − 1) sx (n − 1) sx 100 Di conseguenza β̂0 = ȳ − β̂1 x̂ = 20 − 0.0465 · 110 = 14.885, quindi la retta di regressione cercata è ŷ = 0.0465x + 14.885. 2. ŷ0 = 14.885 + 0.0465 · 300 = 28.835; dato che R2 = ρ2 = 0.8649, la previsione è buona perché il coefficiente di correlazione è elevato; in realtà sarebbe opportuno verificare anche l’ipotesi di normalità e omoschedasticità dei residui e valutare la distribuzione predittiva di Y nel punto x = 300. 6 3. Un intervallo di predizione per Ŷ0 è dato da s s ! 2 2 1 (x − x̄) 1 (x − x̄) 0 0 ŷ0 − tα/2,n−2 σ̂ 2 + , ŷ0 + tα/2,n−2 σ̂ 2 + , n Sxx n Sxx 2 dove x0 = 300 e α = 0.1, mentre Sxx e σ̂ 2 = (Syy − Sxy /Sxx )/(n − 1) possono essere calcolati utilizzando alcune delle relazioni viste al punto 1Utilizzando questi dati troviamo l’intervallo 28.835 ± 2.24. 4. Un intervallo di predizione per Ŷ0 è dato da s s ! 1 (x0 − x̄)2 1 (x0 − x̄)2 2 2 , ŷ0 + tα/2,n−2 σ̂ 1 + + . ŷ0 − tα/2,n−2 σ̂ 1 + + n Sxx n Sxx Utilizzando i dati a disposizione troviamo 28.835 ± 4.150. Esercizio 7. I valori assunti da due grandezze X e Y in 20 diversi casi forniscono per entrambe le grandezze media nulla e varianze campionarie s2X = 9 e s2Y = 4 rispettivamente. 1. Si determini la retta di regressione di Y su X, sapendo che essa passa per il punto (3, 1). 2. Si calcoli il coefficiente R2 . 3. Si determini la retta di regressione di X su Y. Soluzione. 1. Dato che in questo caso β̂0 = ȳ − β̂1 x̄ = 0 − β̂1 · 0 = 0, la retta deve passare per l’origine. L’unica retta passante per i punti (0, 0) e (3, 1) è evidentemente ŷ = 31 x. 2. Dato che 1/3 = β̂1x = Sxy Sxy Sxy = , = 2 Sxx sX (n − 1) 171 2 /(Sxx Syy ) = otteniamo che Sxy = 1/3 · 171 = 57. Dato che R2 = Sxy 2 2 2 2 2 2 2 Sxy /(sX sY (n − 1) ), otteniamo R = 57 /(9 · 4 · 19 ) = 0.25. 3. β̂1y = Sxy /Syy , da cui x̂ = 43 y. 7