Testi e soluzioni dei compiti di esame di STATISTICA 1
c.l. Economia Aziendale
6 febbraio 2010
1
33. Compito del 26.06.2002
Elenco
34. Compito del 16.07.2002
1. Compito del 17.12.1998
35. Compito del 17.12.2002
2. Compito del 08.01.1999
36. Compito del 08.01.2003
3. Compito del 26.01.1999
37. Compito del 23.01.2003
4. Compito del 10.02.1999
38. Compito del 10.02.2003
5. Compito del 08.06.1999
39. Compito del 23.04.2003
6. Compito del 23.06.1999
40. Compito del 29.05.2003
7. Compito del 13.07.1999
41. Compito del 04.06.2003
8. Compito del 28.09.1999
42. Compito del 25.06.2003
9. Compito del 14.12.1999
43. Compito del 17.07.2003
10. Compito del 11.01.2000
44. Compito del 05.09.2003
11. Compito del 02.02.2000
45. Compito del 18.09.2003
12. Compito del 17.02.2000
46. Compito del 17.12.2003
13. Compito del 03.05.2000
47. Compito del 13.01.2004
14. Compito del 06.06.2000
48. Compito del 27.01.2004
15. Compito del 22.06.2000
49. Compito del 10.02.2004
16. Compito del 12.09.2000
50. Compito del 15.04.2004
17. Compito del 28.09.2000
51. Compito del 28.05.2004
18. Compito del 15.12.2000
52. Compito del 03.06.2004
19. Compito del 15.01.2001
53. Compito del 18.06.2004
20. Compito del 31.01.2001
54. Compito del 07.07.2004
21. Compito del 15.02.2001
55. Compito del 14.09.2004
22. Compito del 06.04.2001
56. Compito del 15.12.2004
23. Compito del 07.06.2001
57. Compito del 11.01.2005
24. Compito del 26.06.2001
58. Compito del 26.01.2005
25. Compito del 11.07.2001
59. Compito del 10.02.2005
26. Compito del 20.09.2001
60. Compito del 31.05.2005
27. Compito del 19.12.2001
61. Compito del 09.06.2005
28. Compito del 09.01.2002
62. Compito del 28.06.2005
29. Compito del 23.01.2002
63. Compito del 13.07.2005
30. Compito del 12.02.2002
64. Compito del 16.12.2005
31. Compito del 04.04.2002
65. Compito del 19.01.2006
32. Compito del 11.06.2002
66. Compito del 02.02.2006
2
67. Compito del 16.02.2006
68. Compito del 16.03.2006
69. Compito del 31.05.2006
70. Compito del 21.06.2006
71. Compito del 12.09.2006
72. Compito del 18.01.2007
73. Compito del 01.02.2007
74. Compito del 15.02.2007
75. Compito del 30.03.2007
76. Compito del 31.05.2007
77. Compito del 05.06.2007
78. Compito del 26.06.2007
79. Compito del 10.07.2007
80. Compito del 07.09.2007
81. Compito del 19.12.2007
82. Compito del 16.01.2008
83. Compito del 31.01.2008
84. Compito del 13.02.2008
85. Compito del 21.04.2008
86. Compito del 18.06.2008
87. Compito del 02.07.2008
88. Compito del 03.09.2008
89. Compito del 18.12.2008
90. Compito del 15.01.2009
91. Compito del 29.01.2009
92. Compito del 12.02.2009
93. Compito del 21.04.2009
94. Compito del 10.06.2009
95. Compito del 24.06.2009
96. Compito del 08.07.2009
97. Compito del 09.09.2009
98. Compito del 16.12.2009
99. Compito del 27.01.2010
3
1
1.1
Compito del 17.12.1998
Testo
(1) Un’azienda sita in Firenze manda usualmente un proprio funzionario nelle sedi di Roma, Siena e
Bologna. Il viaggio sempre effettuato con le Ferrovie dello Stato: Firenze-Roma il 20% delle volte,
Firenze-Bologna il 55 % delle volte e il rimanente 25% Firenze-Siena. Il funzionario partito di prima
mattina ha comunicato solamente di essere arrivato in ritardo. (I) Quale la probabilit che esso sia a
Siena? (II) E che sia a Roma? Ricorrere alla Tabella 1 delle statistiche annuali di percorrenza.
Tabella 1: Statistiche annuali di percorrenza (numero treni nel 1997) sulle tratte considerate.
Tratta
Treni puntuali Treni totali
Firenze-Siena
2714
3252
Firenze-Bologna
6911
9897
Firenze-Roma
7555
9524
(2) In una classe delle medie superiori 3 studenti hanno elevate capacit ed elevato impegno, 6 studenti
impegno regolare e capacit elevate, 11 studenti con elevato impegno e capacit regolari ed 3 studenti con
impegno e capacit regolari. Un nuovo docente chiama tre studenti per un’interrogazione orale. Quale la
probabilit che i tre studenti siano: uno appartenente con elevato impegno e capacit, un’altro con gruppo
regolare impegno ed elevate capacit, un’altro con regolare capacit ?
(3) Nella Tabella 2 sono riportate le tonnellate di marmo estratte da 3 cave differenti (A,B,C) in 4 mesi.
Calcolare media, varianza, coeff. di variazione per il mese I, poi per il mese II . Calcolare un’adeguato
indice di connessione e ricavare la percentuale di variabilità spiegata dalla differenza tra cave.
Tabella 2: Tonnellate di marmo (in centinaia) estratte da tre cave differenti.
Cava - Mese
I
II
III
IV
A
4.773
4.116 5.6833 2.9673
B
7.0678 3.2368 8.2897 7.5859
C
2.1041 2.3533 1.204 1.7398
(4) Un’azienda produce fogli di materiale plastico trasparente di dimensione 3 m per 8 m, e con spessore assimilabile ad una variabile casuale gaussiana con media 0.528 mm e varianza uguale a 0.0124 .
Il prodotto ha mediamente 0.1 difetti per m2 . Al momento della consegna ogni foglio esaminato dal
compratore che chiede un risarcimento economico pari al numero di difetti riscontrati per lire 262 pi 799
se il foglio ha spessore non incluso nell’intervallo [ 0.467 , 0.567 ]. Quale il valore atteso del risarcimento
economico per un foglio prodotto da tale azienda? Si commenti brevemente la scelta della funzione di
massa di probabilit per la variabile casuale ‘numero di difetti’.
1.2
Soluzioni
(1) P(Ritardo) = 0.2486465
(I) P(Siena|Ritardo) = 0.1663372
(II) P(Roma|Ritardo) = 0.1662930
(2) P(1o = IE e CE) = 3/23, P(2o = IR e CE| 1o = IE e CE) = 6/22, P(3o = CR| 2o = IR e CE,1o =
IE e CE) = 14/21. Siccome non interessa l’ordine occorre moltiplicare per le permutazioni di questi 3
elementi (3! = 6). Risultato =3/23*6/22*14/21*6 = 0.142293
(3)
Media(I) = 4.6483 Media(II) = 3.2354
Varianza(I) = 4.1142 Varianza(II) = 0.5179
CV(I) = 0.43636 CV(II) = 0.22242
DevB = 44.17483 DevT = 64.18549 η 2 = 0.688237
4
(4)
E(Risarcimento) = 262*E(difetti) + 799*P(spessore ∈
/ (0.467,0.567))
= 262*0.1*3*8+799*0.65499885 = 1152.1441
5
2
Compito del 08.01.1999
2.1
Testo
(A) Una macchina industriale per la verniciatura impiega un certo solvente chimico. La verniciatura
ottimale richiede una quantit di solvente compresa tra 19.3071 e 26.1249 kg. Assumendo che la quantit
X di solvente impiegata dalla macchina sia assimilabile ad una variabile casuale Gaussiana con media
µ e varianza σ 2 , (1) come regolare il dispositivo di verniciatura perch la la probabilit dell’evento E1 =
{X < 19.3071} sia uguale a 0.0205 e la probabilit dell’evento E2 = {X > 26.1249} sia uguale a 0.0181?
Come sarebbe possibile ridurre i costi dovuti al solvente pur ottenendo una verniciatura ottimale?
(B) Un’azienda produce guanti in gomma, con un numero medio di micro-lacerazioni pari a 0.5239 per
guanto. Quale la probabilit che una coppia di guanti rechi complessivamente pi di 2 micro-lacerazioni?
(C) In una falegnameria industriale sono prodotti assi di legno con uno spessore che assimilabile ad
una variabile casuale Gaussiana. Usando i dati in tabella, (1) effettuare il test bilaterale dell’ipotesi
nulla H0 : σ 2 = 1.838 a tre diversi valori di probabilit dell’errore di primo tipo: 0.10, 0.05, 0.01. (2)
Commentare brevemente i risultati ottenuti.
Tabella 1: Campione di 10 osservazioni (spessori in mm).
32.0009
29.5421
30.632
29.8283
33.4661
28.4688
28.4654
28.3078
26.9319
31.3147
(D) Su 28 salumerie operanti in un certo comune e con medesimo ammontare di vendite, 14 appartengono
alla catena di negozi Appia e 14 alla catena di negozi Aurelia. Lo spessore della fetta di salume si
distribuisce come una variabile casuale Gaussiana, nella catena di negozi Appia con media 0.2235 e
varianza 0.16, mentre nella catena Aurelia con media 0.3782 e varianza 0.25. Quale la probabilit che una
fetta di salume adulterata sia stata acquistata in un negozio della catena Aurelia dato che il suo spessore
di 0.3266 mm?
2.2
Soluzioni
(A)
(1) µ = 22.67387 σ = 1.64753
(2) µ = 19.3071 σ = 0
(B) P (X > 2) = 1 − [P (X = 0) + P (X = 1) + P (X = 2)] = 0.0893005 da calcolare per X ∼ P oisson(λ =
2 ∗ 0.5239 = 1.0478).
(C) valore campionario della statistica test = 19.179671.
(I) α = 0.1: regione accettazione = [3.32511, 16.91898]
α = 0.05: regione accettazione = [2.70039, 19.02277]
α = 0.01: regione accettazione = [1.73493, 23.58935]
(II) Al diminuire di α = P (rif iutare|H0 ) aumenta 1 − α = P (accettare|H0 ) e quindi aumenta l’ampiezza
della regione di accettazione.
f (0.3266|Aurelia)
= 0.4513417
f (0.3266|Aurelia) + f (0.3266|Appia)
Note: f (0.3266|Aurelia) e f (0.3266|Appia) sono le densit della distribuzione normale corrispondente; le
probabilit a priori P (Aurelia) e P (Appia), essendo entrambe 1/2 sono state semplificate.
(D) P (Aurelia|x = 0.3266) =
6
3
3.1
Compito del 26.01.1999
Testo
( A ) Un produttore di nastri magnetici deve consegnare un lotto di 1174 unit. Prima di inviare il lotto,
vengono estratti casualmente e controllati 18 pezzi. Nel caso in cui non siano riscontrati difetti, il lotto
viene spedito, altrimenti si procede al controllo di ogni nastro.
Quale è la probabilità che il lotto non sia consegnato se si assume che:
1) vi siano 22 nastri con difetti nel lotto;
2) vi siano 25 nastri con difetti nel lotto
( B ) Il fatturato annuale di 5 aziende toscane è risultato nel 1997 pari a:
2.9638
; 2.0367
; 1.2293
;2.433
; 2.7007 miliardi di lire
1) Procedere al calcolo di un appropriato indice di variabilità;
2) Rappresentare graficamente la concentrazione del fenomeno.
( C ) Un catalizzatore chimico è impiegato per aumentare il prodotto utile di una reazione (in Kg).
La reazione è ripetuta in analoghe condizioni per 7 volte senza catalizzatore e per altre 7 volte con il
catalizzatore. Sapendo che il catalizzatore non modifica la varibilità dei risultati, si effettui un test delle
ipotesi per saggiare se vi siano differenze significative imputabili al catalizzatore. Effettuare i calcoli a
livello di significatività : 0.10 ed 0.01.
Tabella 1: Campione di 7 osservazioni (spessori in mm).
Senza:
Con:
2.3482
9.402
5.0204
6.2065
4.6712
6.7958
3.8549
7.5236
1.2232
9.8812
3.1651
8.2425
5.1555
9.2238
( D ) Il carico di rottura in Kg di una barra di materiale plastico assimilabile ad una variabile casuale
gamma, con parametro α = 26 e β incognito. Una barra prodotta con un nuovo procedimento ha mostrato
un carico di rottura pari a 62.1 Kg. Impiegando il rapporto di verosimiglianza, saggiare l’ipotesi nulla
H0 : β = 0.26 verso l’alternativa H1 : β nell’insieme {0.15, 0.30, 0.50}, con significativit uguale a 0.10, e
in seguito con con significativit pari a 0.01 (si usi un chiquadro con un grado di libert). La funzione di
densit di probabilit
gamma definita da:
βα
f (x; α, β) = Γ(α)
· xα−1 · e(−β·x) .
3.2
Soluzioni
(A)
1174 − 22
18
(1) P (N C) = 1 − P (X = 0) = 1 −
= 1 − 0.709622
1174
18
25
1174 − 25
0
18
(2) P (N C) = 1 − P (X = 0) = 1 −
= 1 − 0.676847
1174
18
Se si utilizza l’approssimazione binomiale i risultati vengono leggermente diversi.
22
0
(B)
(1) R =
(2)
i
pi
qi
∆
0.8266
=
= 0.181854
2M
2 ∗ 2.2727
1
0.2
0.1081
2
0.4
0.2874
3
0.6
0.5015
4
0.8
0.7392
5
1
1
7
(C) Occorre fare un confronto fra medie per dati non appaiati.
x = 3.63407, y = 8.1822, s2X = 2.17446, s2Y = 1.95372, s2p = 2.06409
Valore campionario della statistica test = 5.92246
α = 0.1: regione accettazione = [−1.7823, 1.7823]
α = 0.01: regione accettazione = [−3.0545, 3.0545]
(D) valore campionario della statistica test = 4.1961763
α = 0.1: regione accettazione = [0, 2.7055435]
α = 0.01: regione accettazione = [0, 6.6348966]
8
4
4.1
Compito del 10.02.1999
Testo
( A ) Dall’urna U contenente palline di tre colori diversi (Tabella 0) sono estratte due palline con
reimmissione. Se le due palline sono uguali allora si procede ad una terza estrazione da U.
(1) Quale è la probabilità di procedere alla terza estrazione?
(2) Quale è la probabilità che al termine dell’esperimento statistico si abbia almeno una pallina nera tra
le estratte?
Tabella 0: Urna U.
Bianche Rosse Nere
2
3
5
( B ) Si considerino 3 monete sbilanciate. In tabella 1 sono riportati i valori numerici impressi sulle due
facce di ogni moneta e la relative probabilità. Per un lancio simultaneo delle tre monete, si calcoli:
(I) La distribuzione campionaria del campo di variazione C;
(II) La probabilità dell’evento P [C ≥ 2].
Tabella 1: Caratteristiche di tre monete sbilanciate.
Faccia 1 Faccia 2 Prob. Faccia 1
Moneta 1:
79
80
0.27
Moneta 2:
78.5
80.5
0.41
Moneta 3:
80
81
0.40
(C) Il tempo richiesto per completare in corsa un giro di pista assimilabile ad una variabile casuale
gaussiana. Utilizzando i tempi ottenuti da un campione di 7 atleti (Tabella 2), eseguire il test delle
ipotesi sulla media con H 0 : µ = 123.6848 ed alternativa H 1 : µ > 123.6848. Si impieghi un livello di
significativi uguale a 0.10, ed in seguito 0.05.
Tabella 2: Tempi ottenuti da un campione di 7 atleti (secondi).
122.202 122.0359 135.6836 125.0614 125.7182 134.2323 126.1651
( D ) Il diametro esterno in millimetri dei tubi prodotti da un’azienda è assimilabile ad una variabile
casuale X con funzione di densità di probabilità:
f (X; α, β) = 3.308 · α
2
3 · α + (X − β)
2
con parametro α = 0.09 e β incognito. Una tubo prodotto dall’azienda ha diametro pari a 10.864 millimetri. Impiegando il rapporto di verosimiglianza, saggiare l’ipotesi nulla H0 : β = 10 verso l’alternativa
H1 : β nell’insieme {9, 11, 12}, con significativit uguale a 0.10, e in seguito con con significativit pari a
0.01 (si usi un chiquadro con un grado di libert).
4.2
Soluzioni
(A)
III estraz :0.38
Almeno una nera :0.815
(B)
Valori: 0.5; 1; 1.5; 2; 2.5
Probabilità:0.1723; 0.2584; 0.2277; 0.0956; 0.246
Probabilità evento:0.3416
(C)
Valore campionario della statistica test = 1.8549265
9
α = 0.10: Regione di rifiuto = (1.4398, +∞)
α = 0.05: Regione di rifiuto = (1.9432, +∞)
(D)
Valore campionario della statistica test = 5.03774
α = 0.10: Regione di rifiuto = (2.7055, +∞)
α = 0.01: Regione di rifiuto = (6.6349, +∞)
10
5
5.1
Compito del 08.06.1999
Testo
(A) In un mazzo regolare di 52 carte, due carte sono estratte senza reimmissione. (I) Sapendo che la
prima non una figura e che superiore a 5, calcolare la probabilit che essa non sia un 9 di colore rosso. (II)
Sapendo che la prima un 9, quale la probabilit che la seconda carta sia di picche?
( B ) Nella Tabella 1 riportato il numero di blocchi di marmo estratti da 3 cave differenti (1,2,3) in 3
mesi differenti (1,2,3). Calcolare un’adeguato indice di associazione e spiegare brevemente il risultato
ottenuto.
Tabella 1: Numero di blocchi di marmo estratti da tre cave differenti.
Cava - Mese
1
2
3
1
4
4
0
2
2
5
15
3
0
0
12
(C) L’effetto di un nuovo integratore alimentare viene saggiato impiegando un gruppo di 5 corridori
ciclisti. In Tabella 2 sono riportati i tempi di percorrenza della pista senza e con il nuovo integratore.
Effettuare il test delle ipotesi (con significativit 0.10) che l’integratore diminuisca il tempo di percorrenza.
La decisione finale sarebbe cambiata scegliendo un valore di significativit uguale a 0.01 ?
Tabella 2: Campione di 5 osservazioni (tempi).
Corridore
Senza:
Con:
I
61
57
II
64
56
III
55
53
IV
63
52
V
62
50
(D) Si ipotizzi che il voto medio negli esami universitari dipenda linearmente dal numero di ore dedicate al
sonno, a parit di ore di studio effettuate. Impiegare il metodo dei minimi quadrati per stimare coefficienti
del modello impiegando i dati in Tabella 3, e verificare statisticamente l’ipotesi formulata.
Tabella 3: Campione di 5 osservazioni (tempi).
Voto Medio:
Ore sonno:
5.2
18
5.9
30
7.8
20.5
5.9
27.5
7.1
23.7
7.1
Soluzioni
(A)
(1) P(1a non(9Rosso)|1a non(Figura) e maggiore di 5) = 1-2/(5*4) = 0.9
(2) P(2a picche|1a = 9) = 1/4 = 0.25
(B) Valori dei principali indici di associazione
C1
C2
C1 rel
C2 rel
T
0.18747 0.73168 0.1406 0.51737 0.26767
CP
0.590495
χ2
22.4848
(C) Dati appaiati. Valore campionario della statistica test = -3.8162586
α = 0.1: regione critica = (−∞, −1.533206)
α = 0.01: regione critica = (−∞, −3.746947)
(D)
(1) βb1 = 5.55086 βb0 = −13.58381 σ
b2 = 3.514926
(2) Valore campionario della statistica test = 4.947204; regione accettazione (-3.182446,3.182446).
11
6
6.1
Compito del 23.06.1999
Testo
(A) Una fotocopiatrice mediamente compie 3.67 errori per 1000 cm2 di area fotocopiata. Copiando un
foglio di dimensioni 21.7 cm per 29.7 cm:
(I) quale la probabilit che non vi siano errori?
(II) Quale la probabilit che il numero di errori sia compreso tra 3 e 5 (inclusi)?
(B) Un dado arrotondato ha probabilit 0.275 di fermarsi su di uno spigolo e probabilit 0.12083 per
ciascuna delle sei facce recanti i numeri da 1 a 6. In un esperimento casuale se il dado al primo lancio si
ferma sullo spigolo lanciato una seconda volta.
(I) Quale complessivamente la probabilit di non osservare alcun esito numerico?
(II) Quale complessivamente la probabilit di osservare il 6?
(C) In Tabella 1 sono riportate le misure di durezza relative ad un campione casuale di 5 leghe metalliche
differenti, effettuate con il metodo tradizionale e con un nuovo metodo elettronico economico. (I) Calcolare
un conveniente indice di associazione. (II) E’ ragionevole impiegare il nuovo metodo ? Perch?
Tabella 1: Campione di 5 misurazioni effettuate con due metodi differenti.
Tradizionale:
Elettronico:
6.8
6.3
6.2
6.5
4.3
3.7
9.4
6.1
4
4.2
(D) Un idrante agricolo eroga una media di 1201 Kg di acqua ad ogni operazione di irrigazione. In
Tabella 2 sono riportati i valori di un campione casuale di 5 misurazioni. Assumendo il modello normale,
(I) calcolare l’intervallo di confidenza (livello 90%) della varianza. (II) Sottoporre a test l’ipotesi che la
varianza sia uguale a 531.1 (alfa = 0.05), in alternativa ad un valore maggiore.
Tabella 2: Campione di 5 misurazioni dei Kg di acqua erogata all’irrigazione.
1193.4
6.2
1157.6
1243.5
1159.7
1213.1
Soluzioni
(A) X ∼ P oisson(λ = 2.365278)
(I) P (X = 0) = 0.0939232
(II) P (3 ≤ X ≤ 5) = 0.387572
(B)
T
(I) P (X1 = N SX2 = N ) = 0.075625
(II) P (X1 = N X2 = N ) = 0.1540625
(C)
(I) ρ = 0.757525
(D) Nota: µ nota
(I) Intervallo = (505.819,4888.508)
(II) Valore campionario della statistica test = 10.54353; regione critica = (11.070498, +∞)
12
7
7.1
Compito del 13.07.1999
Testo
(A) L’ufficio federale americano di investigazione effettua un controllo sulla regolarit delle assunzioni in
una azienda. Nei precedenti 10 anni, vi sono state 1271 domande da parte di bianchi e di neri, con
assunzioni riassunte in Tabella 1.
Tabella 1: Assunzioni per razza, dati decennali.
Assunti
Rifiutati
Bianchi
274
583
Neri
127
287
Utilizzando le frequenze in tabella:
(I) Quale la probabilit di assunzione per un bianco? E quale per un nero?
(II) Quale la probabilit che un nuovo assunto sia nero?
(B) Un reagente chimico prodotto in lotti. Sia X la variabile casuale associata alla qualit del lotto, con
funzione di massa di probabilit riportata in Tabella 2.
Tabella 2: Funzione di massa di probabilit.
X
-2
0
2
p(X) 0.269 0.494 0.237
L’utile ricavabile dalla vendita di un lotto all’estero dato da Y1 = 5x3 + 100, mentre dalla vendita in Italia
Y2 = 2x + 50. Sapendo che la probabilit di effettuare la vendita di un lotto all’estero 0.192,
(I) Quale l’utile atteso dalla vendita di un lotto?
(II) Quale la varianza dell’utile per la vendita all’estero, e quale la varianza complessiva?
(C) In uno studio sulla prontezza di riflessi, un campione casuale di 5 individui devono premere un
pulsante appena udito un segnale di allarme. In Tabella 3 sono riportati i tempi di risposta, assimilabili
ad una gaussiana con varianza 25 ms2 .
(I) Calcolare la stima puntuale e quella per intervallo (confidenza 90%) del parametro incognito.
(II) Effettuare il test d’ipotesi che il parametro sia uguale a 50 ms, in alternativa ad un valore maggiore
( α = 0.05 ).
Tabella 3: Campione di 5 osservazioni.
77 74 77 66 79
( D ) Un’azienda produce componenti elettronici la cui durata assimilabile ad una variabile casuale
gamma, con parametro α = 26 e β incognito. Un componente si guastato dopo 63.5 ore di funzionamento.
Saggiare l’ipotesi nulla H0 : β = 0.26 verso l’alternativa H1 : β nell’insieme {0.15, 0.30, 0.50}, ricorrendo
al rapporto di verosimiglianza con significativit uguale a 0.10, e in seguito con con significativit pari a
0.01. La funzione
di densit di probabilit gamma definita da:
βα
· xα−1 · e(−β·x) .
f (x; α, β) = Γ(α)
7.2
Soluzioni
(A)
127
274
= 0.319720, P (A|N ) =
= 0.3067633
274 + 583
127 + 287
127
(II) P (N |A) =
= 0.3167082
127 + 274
(I) P (A|B) =
(B)
(I) E(Y ) = 59.2508
13
(II) V (Y1 ) = 8.07962 V (Y2 ) = 807.9616 V (Y ) = 531.8312
(C)
(I) µ = 74.6, Intervallo per µ = [70.822,78.178]
(II) Valore campionario della statistica test = 11.0015; regione critica = (1.6448, +∞)
(D) valore campionario della statistica test = 3.524
α = 0.05: regione accettazione = [0, 3.84146]
α = 0.01: regione accettazione = [0, 6.6349]
14
8
8.1
Compito del 28.09.1999
Testo
(A) In un’intervista telefonica, 10 soggetti hanno riferito le proprie spese mensili alimentari (Tabella 1,
migliaia di lire). Calcolare:
(1) L’istogramma di frequenze relative con intervalli di base [500,750), [750,1500),[1500,5000] ed effettuarne la rappresentazione grafica.
(2) La mediana, il venticinquesimo ed il settantacinquesimo percentile, il coefficiente di variazione.
Tabella 1: Spese mensili alimentari di 10 soggetti (migliaia di lire).
707.1
721.6
504.5
1078.7
1141.6
1411.5
1772.5
1814.6
1504.2
1817
(B) Il numero atteso di reattori chimici venduti in un anno uguale a 1.458.
(1) Quale la probabilità di vendere almeno 3 reattori in due anni?
(2) Se in seguito ad un cambiamento del mercato il tasso di vendita dovesse diventare 6.384, quale sarebbe
il valore atteso del numero di reattori venduti in due anni? Quale la probabilità di non vendere alcun
reattore?
(C) In un confronto sul reddito pro-capite in due città diverse, si vuole calcolare il rapporto tra le varianze
nelle due città considerate. Disponendo dell’informazione campionaria riportata in Tabella 2, calcolare
l’intervallo di confidenza (livello 95%) per il rapporto delle varianze città A su B.
Tabella 2: Campione di 5 osservazioni per città (in milioni).
Città A 2.25 1.94 1.74 1.45 2.31
Città B 2.72 3.18 2.54 2.56 2.16
( D ) In un esperimento statistico, una moneta che reca sulle facce rispettivamente il numero 1 ed il
numero 2 è lanciata una volta, e l’esito riportato è 2. Sia θ la probabilità di un risultato pari ad 1 e 1 − θ
di un esito pari a 2.
(1) Sottoporre a test l’ipotesi H0 : θ = 0.95 in alternativa a H1 : θ = 0.0148, con significatività del 5%.
(2) Calcolare la potenza del test e discutere i risultati ottenuti.
8.2
Soluzioni
(A)
Ordinata 1 :0.0012
Ordinata 2 :0.0004
Ordinata 3 :0.0001143
Mediana 3 :1276.6
Q1 = 714.35 ; Q3 =1638.35
Coeff. variazione :0.39409 (usando la varianza corretta)
(B)
Pr. almeno 3 reattori in 2 anni :0.5577
Attesa due anni dopo cambiamento :12.77
Pr. vendita nessun reattore :0.000002851
(C)
Media A: 1.938
Dev.std A: 0.3581
Var A : 0.1283
Media B : 2.632
Dev.std B : 0.3689
Var B : 0.1361
15
rapporto varianze: 0.9423
Intervallo : 0.09811 ; 9.0506
(D)
Rifiuto
Potenza = 0.9852
16
9
9.1
Compito del 14.12.1999
Testo
(A) Tre tennisti A, B e C partecipano ad un torneo. L’ordine degli incontri è stabilito mediante il lancio
di una moneta. I tennisti che hanno ottenuto un esito identico giocano per primi. I lanci sono effettuati
in ordine alfabetico, prima il tennista A e poi il B, mentre il tennista C lancia la moneta solo se i primi
due lanci hanno dato esito diverso. Sapendo che la probabilità dell’evento testa è 0.898:
1) Quale è la probabilitè che A e C giochino insieme?
2) Quale è la probabilità che B e C giochino insieme dato che il lancio di A ha dato esito croce?
(B) Ad un campione casuale di 7 studenti universitari è stato chiesto di indicare il numero di ore di sonno
prima dell’esame di statistica ed il voto ottenuto il giorno successivo all’esame (Tabella 1).
Tabella 1: Campione di 7 studenti. Voto d’esame ed ore di sonno nella notte precedente.
Ore:
9.44 9.54
6
6.27
6.79
7.94 10.15
Voto: 25.52 23.5 18.47 23.58 25.51 29.54 18.48
(1) Rappresentare graficamente i risultati in tabella.
(2) Calcolare un indice relativo di associazione tra voto e ore di sonno.
(3) Discutere brevemente i risultati ottenuti.
(C) In uno studio sulle vendite annuali di formaggio nei supermercati, sono stati ottenuti i valori relativi
ad un campione casuale di 5 supermercati di caratteristiche similari. Impiegando i dati riportati in tabella
ed assumendo un modello normale:
(1) Effettuare la stima della media con affidabilità 0.99.
(2) Calcolare l’informatività ottenuta.
Tabella 2: Campione di 5 supermercati: vendite in migliaia di Kg.
153.8 143.4 149.9 147.3 151.6
( D ) Un corriere di Firenze consegna pacchi in tre regioni del nord Italia. Il 6% delle volte si reca in
Lombardia ed il numero medio di pacchi da consegnare è 54. Il 17% delle volte consegna in Veneto ed il
numero medio di pacchi è 58. In Piemonte il numero medio di pacchi per consegna è di 17. Il corriere
decide di partire nonostante abbia smarrito i documenti di consegna.
Verso quale regione deve dirigersi avendo da consegnare 56 pacchi? Perchè ?
9.2
Soluzioni
(A)
Pro[AC] = 0.0916
Pro[BC|A==C] = 0.8064
(B)
Correlaz: -0.019
Stat test: 0.0017
Valore critico: 6.6
(C)
Media : 149.2
Varianza : 16.16
Int.inf : 140.9
Int.sup : 157.5
Informatività : 16.6
(D)
Lombardia : 0.0513192
17
Veneto : 0.0514066
Piemonte: 4.6802e-014
Denominatore : 0.0118183
Post Lombardia : 0.260541
Post Veneto : 0.73269
Post Piemonte : 0
18
10
10.1
Compito del 11.01.2000
Testo
(A) Un’azienda produce fuochi d’artificio a doppia camera. Se la camera C1 esplode, la probabilità che
la camera C2 esploda è 0.841. Se la camera C1 non esplode, la probabilità che non esploda C2 0.723.
Sapendo che la camera C1 non esplode con probabilità 0.138:
1) Qual è la probabilità che effettuando il lancio non avvengano scoppi?
2) Avendo effettuato un lancio ed udito un solo scoppio, quale è la probabilità che esso sia avvenuto per
l’esplosione di C2 ?
(B) In una città vi sono 5 autoscuole. Il numero di promossi all’esame di guida durante il 1999 è riportato
in Tabella 1. Impiegando i dati riportati:
(1) Valutare l’equidistribuzione nel numero dei promossi per le autoscuole considerate.
(2) Rappresentare graficamente i valori componenti il calcolo effettuato al punto (1).
Tabella 1: Campione di 5 autoscuole: numero di promossi all’esame.
A1 A2 A3 A4 A5
490 100 360 490 170
(C) I risultati di un’indagine finanziaria sull’evasione fiscale in 1828 aziende sono stati riassunti per classi
di dimensione aziendale (D, numero di dipendenti) e per classi di ammontare evaso (M, milioni).
Tabella 2: Numero di aziende indagate per classi di evasione (M) e di dimensione (D).
D:
[1,50] (50,200] (200,∞)
M:
0
18
78
13
(0 , 99]
290
426
297
(99,∞)
270
191
245
(1) Tabellare la funzione di massa di probabilità condizionata di D dato M=0.
(2) Calcolare un indice di interconnessione relativo tra M e D che colga qualsiasi tipo di associazione
eventualmente esistente.
(D) Un’azienda effettua uno studio sull’efficacia del trattamento vitaminico SUPERLAV. Il rendimento
lavorativo è stato misurato su di un campione casuale di 4 segretarie che hanno assunto per un mese
il preparato SUPERLAV ed su un secondo campione casuale di 3 segretarie che non hanno assunto
SUPERLAV. Impiegando i dati riportati in tabella 2 ed assumendo un modello normale per la variabile
casuale rendimento lavorativo:
(1) Decidere circa l’efficacia del preparato SUPERLAV con probabilit di un errore di tipo I pari a 0.01,
assumendo che il preparato SUPERLAV non diminuisca il rendimento.
(2) Come aumentare la potenza senza cambiare la dimensione dei due campioni? Con quali ulteriori
effetti?
Tabella 3: Rendimento lavorativo di due campioni di segretarie.
Con SUPERLAV
36 49 48 55
Senza SUPERLAV 54 43 39
10.2
Soluzioni
(A)
Pro[0 botti] = 0.099774
P [C2|un solo scoppio] =
0.038226
= 0.21808
0.175284
(B)
19
Pi : 0.2
Pi : 0.4
Pi : 0.6
Pi : 0.8
Pi : 1
Qi : 0.06211
Qi : 0.1677
Qi : 0.3913
Qi : 0.6957
Qi : 1
R : 0.3416
(C)
C1Rel: 0.12706
C2Rel: 0.16237
Cp: 0.22381
Tschup: 0.026365
(D)
Media1 : 47
Media2 : 45.3333
Var 1 : 63.3333
Var 2 : 60.3333
Test stat : 0.276869
Valore critico : 3.36493
20
11
11.1
Compito del 02.02.2000
Testo
(A) La serratura a combinazione di una valigia è composta da due cifre. Per aprire la valigia occorre
scegliere un numero tra 1 e 8 sulla prima ed un numero tra 1 e 9 sulla seconda cifra. Avendo a disposizione
tre soli tentativi, e verificando l’apertura ad ogni estrazione:
(1) Quale è la probabilità di trovare la combinazione estraendo completamente a caso le due cifre per un
massimo di tre volte?
(2) Quale è la probabilità di trovare la combinazione estraendo a caso le due cifre per un massimo di tre
volte tenendo conto delle combinazioni già provate?
(B) La serie storica del numero di forme di grana padano richieste al distributore italiano in un semestre
è riportato in Tabella 1 sotto forma di numeri indice a base fissa (base = sesto mese).
(1) Calcolare il numero indice del terzo mese con base uguale al primo mese.
(2) Sapendo che il totale del numero di forme richieste nel semestre è di 3340, calcolare il numero di
richieste relative al sesto mese.
Tabella 1: Numeri indice del semestre (M = mese).
M1
M2
M3
M4
M5
M6
625 633.33 250 666.67 508.33 100
(C) Un macchinario produce chiodi di lunghezza nominale pari a 6 cm. Un campione casuale di 7 chiodi
è stato misurato per valutare la qualità dei chiodi prodotti. Assumendo un modello di tipo normale per
Y (lunghezza del chiodo):
(1) sottoporre a test l’ipotesi che il valore atteso della lunghezza sia uguale alla lunghezza nominale
(α = 0.05);
(2) spiegare formalmente come si potrebbe sottoporre a test l’ipotesi che la varianza nella lunghezza dei
chiodi prodotti sia inferiore of uguale al valore 0.6 verso l’alternativa che sia superiore al suddetto valore.
Tabella 2: Lunghezze (cm) in un campione di 7 chiodi.
6.6 4.4 6.6 5.1 6.4 5.8 4.4
(D) In uno studio sulla relazione tra investimento pubblicitario, X, e fatturato aziendale mensile, Y, sono
stati registrati i valori relativi ad un campione casuale di 5 aziende (vedi Tabella 3). Ipotizzando che il
fatturato sia assimilabile ad una variabile casuale gaussiana:
(1) Rappresentare graficamente i dati in tabella.
(2) Assumendo che E[Y ] = β0 + β1 X effettuare la stima puntuale dei parametri.
(3) Sottoporre a test l’ipotesi che il coefficiente della spesa pubblicitaria sia nullo (α = 0.01).
(4) Assumendo che un’azienda investa 167.7 milioni di lire in un certo mese, quale è l’intervallo di
confidenza (livello 0.95) per il valore del fatturato osservabile in tale mese?
Tabella 3: Fatturato osservato (miliardi) per investimento effettuato (milioni).
Fatturato
4.78 4.75 4.79 3.13 3.37
Investimento 192 183 188 107 116
11.2
Soluzioni
(A)
Pro1 = 0.041091
Pro2 = 0.041667
(B)
M 1 IM 3 : 0.4
M6 : 120
21
(C)
Media1 : 5.6143
Var 1 : 0.9681
Test stat : -1.0372
Critical value : 2.44691
(D)
β0 = : 1.02893
β1 = 0.0199432
TeststaT : 25.2531
TeststaF : 637.721
Prob : 0.000136169
Attesa Y : 4.3734
IntervInf : 4.14085
IntervaSup : 4.60595
22
12
12.1
Compito del 17.02.2000
Testo
(A) I motori appena assemblati sono sottoposti ad una prova di funzionamento in cui il numero di giri
spinto al massimo. Se il dispositivo di raffreddamento non funziona correttamente il motore si guasta con
probabilità 0.87. Se il raffreddamento funziona correttamente, il motore si guasta con probabilità 0.11.
Sapendo che la probabilità di un guasto al dispositivo di raffreddamento è 0.26:
(1) Calcolare la probabilità di esaminare un motore funzionante in cui il dispositivo di raffreddamento
funziona regolarmente.
(2) Calcolare la probabilità di trovare il raffreddamento guasto esaminando un nuovo motore che si è
guastato durante la prova.
(B) In uno studio condotto su 200 ospedali Americani, è stato riportato il numero di neonati nel 1972 ed
il numero di avvistamenti di cicogne nel medesimo anno.
(1) Calcolare un indice relativo per valutare il grado di associazione tra avvistamenti e neonati.
(2) Come interpretare i risultati ottenuti?
Tabella 1: Numero di ospedali classificati per numero di neonati ed avvistamenti.
Avvistamenti [0, 50] [51, ∞)
Neonati
[0, 50]
43
17
[51, ∞)
14
126
(C) Un macchinario viene impiegato per riempire di marmellata barattoli di vetro. Mediamente, la
quantità di marmellata erogata in un’operazione è di 125 grammi. Assumendo un modello di tipo normale
per Y (grammi erogati), ed impiegando i risultati provenienti da un campione di 7 barattoli (Tabella 2):
(1) calcolare l’intervallo di confidenza per la varianza (livello 0.95);
(2) spiegare formalmente come si potrebbe sottoporre a test l’ipotesi che la varianza della quantità erogata
sia inferiore of uguale al valore 84.7 verso l’alternativa che sia superiore al suddetto valore.
Tabella 2: Grammi di marmellata erogati in un campione casuale di 7 barattoli.
110 111.7 113.3 141.7 117.3 132.8 134.4
(D) Una moneta è stata ripetutamente lanciata a turno da 200 individui fino ad ottenere il primo esito di
tipo testa. In Tabella 3 è riportato il numero di insuccessi X prima di osservare testa (dati raggruppati).
Sottoporre a test (α = 0.05) l’ipotesi che la forma della distribuzione di X sia geometrica con parametro
π = 0.41 (probabilità di osservare testa).
Tabella 3: Frequenze assolute degli individui per classi di numero di insuccessi.
Frequenze
49 67
84
Numero di insuccessi 0
1 [2, ∞)
12.2
Soluzioni
(A)
T
(1) P (M R) = P (M |R)P (R) = (1 − 0.11) ∗ (1 − 0.26) = 0.6586
P (M |R)P (R)
0.87 ∗ 0.26
(2) P (R|M ) =
=
= 0.73537
0.3076
P (M )
(B)
C1rel : 0.518
C2rel : 0.626
CHI2 : 78.38
23
Tschu : 0.3919
(C)
VarStim : 146.59
l1 : 64.084
l2 : 607.24
Chisq1 : 1.6899
Chisq2 : 16.013
(D)
Attesa 0 = 82
Attesa 1 = 48.38
Attesa > 1 = 69.62
Valore campionario della statistica test = 23.4169
regione critica = (5.99146, +∞)
24
13
Compito del 03.05.2000
13.1
Testo
(A) Uno studente decide di recarsi negli Stati Uniti, acquistando il biglietto meno costoso. La probabilità
che tale biglietto sia della compagnia AIR FRANCE è uguale a 0.27, che sia della KLM è 0.1, che sia
di altre compagnie è 0.63. La probabilità che il bagaglio dello studente sia irreparabilmente danneggiato
durante il viaggio aereo è uguale a 0.92 se il biglietto è di AIR FRANCE, oppure 0.12 se della KLM o di
altre compagnie. La probabiltà di ricevere pieno risarcimento dato un danno irreparabile è uguale a 0.88
se il biglietto di AIR FRANCE, mentre è 0.7 con biglietto KLM oppure di altre compagnie.
(1)Quale la probabilità che lo studente effettui il viaggio con AIR FRANCE, riscontri un danno irreparabile al bagaglio e riceva pieno risarcimento?
(2) Sapendo che lo studente, effettuato il viaggio, ha riscontrato danni irreparabili al bagaglio, quale è la
probabilità che abbia viaggiato con AIR FRANCE ?
(B) La compagnia AEROFLOP durante il 1999 ha venduto un totale di 2001 biglietti aerei Firenze-San
Francisco. In Tabella 1 sono riportati i numeri di biglietti venduti per classe di viaggio: super economica,
economica, famiglia, lavoro, e lusso.
(1) Calcolare il primo ed il terzo quartile della distribuzione dei biglietti venduti.
(2) Rappresentare graficamente il grado di equidistribuzione delle vendite per tipo di biglietto e calcolare
un indice riassuntivo.
Tabella 1: Distribuzione dei biglietti venduti per classe di viaggio (costo in migliaia di lire).
Classe:
Super Econ. Econ. Famiglia Lavoro Lusso
Costo Biglietto:
870
1050
1350
1600
2500
Numero Biglietti:
508
300
134
107
952
(C)La compagnia aerea FASTFLIGHT dichiara di avere venduto nel periodo 1994-1998 metà dei biglietti
transoceanici totali venduti nel mondo. Un campione casuale di 84047 titolari di biglietto stato estratto
tra coloro che nel quinquennio citato hanno effettuato voli transoceanici, e 41924 hanno dichiarato di aver
volato con FASTFLIGHT. Sottoporre a test statistico la dichiarazione della compagnia FASTFLIGHT
in alternativa all’ipotesi che il numero di biglietti venduti sia inferiore al dichiarato (α = 0.05);
(D) Il carburante richiesto da un aereo di tipo JUMBO per compiere un volo di 1000 miglia a pieno
carico dipende, tra le altre cose, da quante ore di volo il JUMBO ha effettuato in passato. Il carburante
consumato Y da un campione casuale di 5 aerei JUMBO stato misurato su di un volo di 1000 miglia a
pieno carico , e per ogni aereo stato riportato il numero di ore X di volo gi effettuate (Tabella 2).
(1) Rappresentare graficamente i dati in tabella.
(2) Assumendo che E[Y ] = β0 + β1 X effettuare la stima puntuale dei parametri.
(3) Quale è il valore atteso del consumo per un aereo JUMBO con 13.9 ore di volo all’attivo?
Tabella 2: Consumo osservato (centinaia di Kg) ed ore di volo (in centinaia).
Consumo: 29.9 35.6 29.1 38 26.1
Ore:
19
16
6
17
9
13.2
Soluzioni
(A)
Pro1 = 0.21859
Pro 2 = 0.73929
(B)
Pi :
Pi :
Pi :
Pi :
Pi :
0.2539
0.4038
0.4708
0.5242
1
25
Qi : 0.1267
Qi : 0.217
Qi : 0.2688
Qi : 0.3179
Qi : 1
R : 0.2254
(C)
P : 0.49882
P0 : 0.5
sqrt(P0Q0/n) : 0.0017247
Z : -0.68642
Zcritico : -1.6449
(D)
β0 = 24.6097
β1 = 0.532109
E[Y] : 32.0061
26
14
14.1
Compito del 06.06.2000
Testo
(A) Uno pescatore sportivo si reca al lago GETFISH a pescare trote. Un pescatore della zona riferisce che
si pescano mediamente 3 trote in due ore. Si assuma che il numero di pesci pescati in intervalli di tempo
non sovrapposti siano indipendenti e che il numero medio di pesci pescati in un intervallo di tempo sia
proporzionale alla sua ampiezza. Quanti minuti il pescatore sportivo deve dedicare alla pesca per pescare
almeno una trota con probabilità 0.84?
(B) La probabilità di pescare trote al lago GETFISH in una giornata dipende dal clima. Siano definiti gli
eventi: W = clima piovoso, C = più di 15 kg di pesce pescati, T = pescato contenente trote. Impiegando
i dati riportati in Tabella 1, calcolare:
(1) La probabilità di pescare trote in una giornata piovosa.
(2) La probabilità che la giornata sia piovosa sapendo che vi sono trote tra il pesce che è stato pescato.
Tabella 1: Tavola dei valori di probabilità per diverse combinazioni di eventi.
Evento
Probabiltà
W ∩C ∩T
0.423
W ∩C ∩T
0.1795
W ∩C ∩T
0.1813
W ∩C ∩T
0.0769
W ∩C ∩T
0.0294
W ∩C ∩T
0.0125
W ∩C ∩T
0.0685
W ∩C ∩T
0.0291
(C) La quantità di pesce (in Kg) pescata in una giornata sul lago GETFISH da un pescatore sportivo
è assimilabile ad una variabile casuale Gaussiana. In Tabella 2 sono riportati i Kg di pesce pescati da
un campione casuale di 4 pescatori sportivi che impiegano la canna da pesca SUPERFISHING, ed i Kg
pescati da un campione casuale di 4 sportivi che usano la canna BADFISHING.
Sottoporre a test statistico l’ipotesi che non ci siano differenze di pescato imputabili alla scelta della
canna da pesca (α = 0.05 e medesima varianza σ 2 incognita).
Tabella 2: Peso in Kg del pescato da due campioni di sportivi.
SUPERFISHING 17.28 22.76 16.65 19.87
BADFISHING:
17.61 22.84 22.5
19.6
(D) Il lago GETFISH contiene principalmente 3 tipi di pesce: trota, pescegatto, alborella. In Tabella
3 è riportata la distribuzione di frequenze relativa ad un campione di pesci la cui grandezza è 4607.
Sottoporre a test (α = 0.05) l’ipotesi che le probabilità di pescare una trota, un pescegatto, un alborella
siano rispettivamente uguali a 0.2, 0.1, 0.5.
Tabella 3: Distribuzione di frequenze in un campione di pesci.
Trota Pescegatto Alborella Altro
Osservata 1073
462
966
2106
Ipotizzata
0.2
0.1
0.5
0.2
14.2
Soluzioni
(A)
Numero di minuti: 73.3
(B)
Prob[W ∩ T ] : 0.6043
Prob[W | T ] : 0.8606
27
(C)
Differenza medie : -1.4975
Denominatore : 1.8677
statistica t empirica : -0.80179
t tabellato : 2.4469
(D)
Attesa T = 921.4
Attesa P = 460.7
Attesa A = 2303.5
Attesa Altro = 921.4
Chi = 2324.53
Valore critico = 7.81473
28
15
15.1
Compito del 22.06.2000
Testo
(A) Il numero di clienti serviti nella pizzeria PIZZAFLAT in 2 giorni lavorativi è assimilabile ad una
variabile casuale di Poisson con media 68. Assumendo che vi siano 25 giorni lavorativi in un mese:
(1) Calcolare il coefficiente di variazione del numero di clienti serviti in un mese.
(2) Calcolare la probabilità che in un mese siano serviti meno di 821 clienti o più di 879 clienti ricorrendo
ad una conveniente approssimazione.
(B) La pizzeria PIZZAFLAT ha commissionato un’indagine per conoscere le preferenze dei potenziali
clienti. In un campione casuale di 7360 consumatori abituali, gli intervistati hanno indicato la propria
preferenza e la propria età (Tabella 1).
(1) Il tipo di pizza preferita dipende dall’età del cliente?
(2) Quale è la probabilità che un cliente chieda una pizza margherita dato che la sua età è un punto
nell’insieme {16, ..., 25} anni?
Tabella 1: Distribuzione degli intervistati per classe di età e preferenza di pizza.
Pizza margherita Altre pizze
≤ 15
295
442
{16, ..., 25}
736
2944
> 25
293
2650
(C) Nella pizzeria PIZZAFLAT, il miscelatore di impasto deve erogare una quantità nominale di lievito
pari a 7 grammi per pizza. In Tabella 2 sono riportati i grammi di lievito per pizza misurati in un
campione casuale di 5 pizze. Assumendo che la variabile grammi erogati sia assimilabile ad una variabile
casuale Gaussiana:
(1) Sottoporre a test statistico l’ipotesi il miscelatore funzioni correttamente (α = 0.05).
(2) Come regolereste teoricamente il dispositivo (media e varianza) per minimizzare i costi di produzione
dovuti al lievito?
Tabella 2: Quantità di lievito per pizza (in g) in un campione casuale di 5 pizze.
3.08 3.56 4.92 4.12 4.09
(D) Si assuma che il fatturato della pizzeria PIZZAFLAT nell’anno 2001 dipenda solo da tre scenari
relativi all’economia del paese: recessione (R), stasi (S), espansione (E). Per ognuno degli scenari, il
fatturato di PIZZAFLAT nel trimestre gennaio-marzo è assimilabile ad una variabile casuale gaussiana
con varianza 260 e con media µR = 50.6, µS = 100.5, µE = 250.6. Ammettendo che al termine del primo
trimestre PIZZAFLAT abbia fatturato 91.5 milioni:
(1) Valutare la bontà dell’ipotesi R (α = 0.05).
(2) Calcolare la probabilità che lo scenario sia di tipo S, ammettendo che a priori le probabilità di
verificarsi degli scenari siano rispettivamente P [R] = 0.2, P [S] = 0.3 e P [E] = 0.5.
15.2
Soluzioni
(A)
Coefficiente di variazione: 0.0343
Probabilità evento (via Gaussiana): 0.3199
(B)
C1rel : 0.1285
C2rel : 0.2277
CHI2: 381.4436
Probab. : 0.2
(C)
29
Media : 3.954
Dev.std : 0.6889
Statistica t empirica : -9.8869
t Student : 2.7764
(D)
Likelihood R : 0.000991569
Max Lik.denom : 0.0211726
Loglikelihood Rapporto (LR): 0.0468327
-2 LR = 6.12235
Valore critico = 3.84146
P [S|x] =0.969723
30
16
Compito del 12.09.2000
16.1
Testo
(A) Un investitore decide di comperare azioni sul mercato petrolifero. Il numero di azioni che riesce a
rastrellare assimilabile ad una variabile casuale X che assume valori {1000,3000,5000} con funzione di
massa di probabilit: p(X=1000) = 0.413, p(X=3000) = 0.421, p(X=5000) = 0.166. Si assuma che ad un
anno di distanza una singola azione renda una valore Z, variabile casuale che assume valori {1.1,1.3,1.6}
con funzione di massa di probabilit: p(Z=1.1) = 0.29, p(Z=1.3) = 0.292, p(Z=1.6) = 0.418. Assumendo
che il valore ad un anno sia dato da Y = Z · X, e che Z ed X siano indipendenti:
(1) Trovare la funzione di massa di probabilità di Y .
(2) Calcolare il valore atteso ed il coefficiente di variazione di Y .
(B) Il mercato petrolifero dominato da 7 compagnie, che producono barili (in milioni) secondo quanto
riportato in tabella.
(1) Calcolare la concentrazione.
(2) Rappresentare la Curva di Lorentz.
OilAsia
24
OilAfrica
384
CheapOil
162
MixOil
492
PexOil
450
PetrOil
96
SineOil
401
(C) Una compagnia di trivellazione effettua uno studio per valutare la profondit a cui situato il petrolio.
Impiegando 5 metodi diversi, ottiene i valori in tabella.
i=1
1379.8
2
1380
3
1382.2
4
1380.9
5
1381.3
Impiegando i risultati in tabella:
(1) si assuma il modello yi = µ + εi in cui µ la vera profondit e εi l’errore commesso dal i-esimo metodo
che fornisce l’indicazione yi ; stimare µ con i minimi quadrati.
(2) Sottoporre a test (α = 0.1) l’ipotesi µ = 1350 metri, assumendo che la distribuzione degli errori
(indipendenti) sia N(0,1).
(D) Si assuma che la profondit a cui si guastano le trivelle di perforazione petrolifera sia assimilabile ad
una variabile casuale Gaussiana, come media µ e varianza σ 2 . Se il coefficiente di variazione costante e
pari a 2.4%:
(1) Quanto deve essere grande il campione perch l’informativit dell’intervallo di confidenza (livello 0.95)
sia almeno pari a 15.7 se la µ = 883?
(2) Come cambierebbe il risultato ottenuto in (1) se il valore della media fosse 883 + 100?
16.2
Soluzioni
(A)
Valori : 1100,3300,5500,1300,3900,6500,1600,4800,8000
Probabilità : 0.11977,0.12209,0.04814,0.120596,0.122932,0.048472,0.172634,0.175978,0.069388
Attesa : 3427
CV : 60.135
(B)
Pi : 0.14286,0.28571,0.42857,0.57143,0.71429,0.85714,1
Qi : 0.011946,0.059731,0.14037,0.33151,0.53111,0.7551,1
R : 0.39008
(C)
Media: 1380.8
Denominatore : 0.44721
31
Statistica Z empirica : 68.96
Z critico : 1.6449
(D) Nota: il CV nel testo espresso in percentuale, cio CV = 2.4%.
Dimensione campione 1: 27.997
Dimensione campione 2: 34.698
32
17
17.1
Compito del 28.09.2000
Testo
(A) In uno studio sulla qualit dei panettoni prodotti da un’azienda, un campione casuale di 400 panettoni
stato analizzato contando il numero di canditi ed il numero di uvette presenti per panettone. Impiegando
i dati riportati in tabella :
(1) Quantificare il grado di associazione presente tra le due variabili.
(2) Saggiare l’ipotesi che la dipendenza statistica sia nulla (α = 0.05).
Canditi: [0, 50] (50,200]
Uvette:
[0, 50]
70
20
(50, 200]
40
270
(B) Il processo di cottura dei panettoni causa la diminuzione del peso. Per studiare il fenomeno, un
campione casuale di 5 panettoni stato pesato prima della cottura e dopo la cottura. Impiegando i dati
in tabella:
(1) Effettuare la stima puntuale della diminuzione media di peso.
(2) Saggiare l’ipotesi che la diminuzione di peso sia superiore a 141 (con α = 0.05), assumendo la normalit
della variabile casuale oggetto di studio.
Prima: 995 1007 1014 1003 994
Dopo: 831 856
797
767 778
(C) Il peso dei panettoni prodotti da una macchina industriale assimilabile ad una variabile casuale
gaussiana. La certificazione di qualit del processo produttivo richiede che la probabilit di ottenere un
panettone di peso inferiore a 1415.7 sia pari a 0.01.
(1) Assumendo che la varianza sia 17, come regolare il processo produttivo perch sia soddisfatto il requisito
di certificazione ed al contempo il costo del prodotto sia minimo?
(2) Se un panettone di peso inferiore alla soglia viene pagato lire 12500 e un panettone di peso superiore
alla soglia viene pagato 18500, quale il valore atteso del pagamento per un generico panettone ?
(D) Due macchinari M1 ed M2 producono panettoni. Il numero medio di canditi per Kg di panettone
pari a 21.5 per il macchinario M1 e 31.5 per M2.
(1) Quale il valore atteso del numero di canditi in un generico panettone da 2.250 Kg prodotto dal
macchinario M2?
Un panettone di 1.323Kg risulta bruciato al termine della lavorazione e l’esame rivela che contiene 27
canditi (bruciati). Assumendo che su 100 panettoni prodotti, 68 escano dal macchinario M1:
(2) Quale la probabilit che il panettone bruciato e sottoposto ad esame sia stato prodotto dal macchinario
M1?
17.2
Soluzioni
(A)
(1) C2: 0.60671
C1: 0.4525
C1rel: 0.4525
C2rel: 0.60671
CHI2: 147.238795
CP: 0.518708
Tschu: 0.368097
(2) Chiempi: 147.238795
Val.Critico: 3.841459
(B)
Stima : -196.8
Statistica t : 3.3689
P.Value : 0.014036
33
(C)
Media: 1425.291778
Attesa:18440
(D)
Attesa: 70.875
Probabilit a posteriori: 0.97519
34
18
18.1
Compito del 15.12.2000
Testo
(A) La compagnia di assicurazione ASSOSIC ha promosso uno studio sull’associazione esistente tra stato
di salute e preferenza alimentare. Impiegando i risultati riportati in Tabella 1:
(1) Calcolare un adeguato indice di interconnessione.
(2) Ricavare la distribuzione condizionata (frequenze relative) della preferenza alimentare data la modalit
‘Sano’ dello stato di salute.
Tabella 1: Numero di persone per stato di salute e preferenza alimentare.
Preferenza alimentare: Dolce Salato Piccante
Stato di salute:
Sano
10
40
20
Malato
10
4
50
(B) A met del ciclo produttivo, un lotto di sugo BELMONTE ha un valore di acidit che assimilabile
ad una variabile casuale normale con media 4.5 e coefficiente di variazione (non espresso in percentuale)
0.2222. Se l’acidit compresa tra 3.2 e 8.23 allora il lotto viene trattato termicamente, altrimenti esso
viene scartato. Se l’acidit di un lotto compresa tra 4.86 e 6.19 allora il lotto inscatolato con marchio
GRANDE CHEF dopo trattamento termico.
(1) Quale la probabilit che un lotto sia inscatolato?
(2) Quale la probabilit che un lotto sia trattato termicamente ma non inscatolato GRANDE CHEF?
(C) Il numero di scatole di conserva (in migliaia) prodotte da un macchinario HIGHSCAT in una settimana assimilabile ad una variabile casuale gaussiana. Un campione casuale di 6 macchinari ha fornito i
dati settimanali riportati in Tabella 2.
(1) Effettuare la stima per intervallo della media (livello di confidenza 0.99) e calcolare l’informativit.
(2) Quale elemento pivotale si potrebbe usare per calcolare la stima intervallare della varianza, se
sapessimo che la media 4?
Tabella 2: Numero di scatole di conserva (in migliaia).
4.6 3.6 2.6 3.6 4.6 2.6
(D) Il numero medio quadrimestrale di reattori venduti da un funzionario pari a 1.6. Il numero di
collaboratori che l’azienda in media mette a disposizione del funzionario in un certo anno pari 5 se nel
precedente anno il funzionario ha venduto 2 o pi reattori altrimenti uguale a 2.8. Si assuma l’indipendenza
di eventi riferiti ad intervalli di tempo non sovrapposti e la linearit della media rispetto all’ampiezza
dell’intervallo di tempo.
(1) Sapendo che il funzionario ha venduto nei 3 quadrimestri rispettivamente 0, 2, 1 reattori, Quale la
probabilit che al funzionario siano assegnati il successivo anno 0 oppure 1 collaboratore?
(2) Sapendo che per il 2001 l’azienda ha assegnato un numero di collaboratori ≤ 1, quale la probabilit
che il funzionario abbia venduto nel 2000 un numero di reattori ≥ 2?
18.2
Soluzioni
(A)
(1) C2: 0.5607
C1: 0.507908
C1rel: 0.507908
C2rel: 0.5607
CHI2: 42.127493
CP: 0.489068
Tschu: 0.314384
Freq. condiz: 0.14286 Freq. condiz: 0.57143 Freq. condiz: 0.28571
(B)
35
R1 : 0.31391
R2 : 0.58921
(C)
Media: 3.6
Devianza: 4
Varianza: 0.8
scarto: 0.894427
t stud.: 4.03214
Estremo1: 2.12767
Estremo2: 5.07233
Informativit: 2.94466
(D)
Lambda anno: 4.8
Probabilit (1): 0.040428
Probabilit (2): 0.7773
36
19
19.1
Compito del 15.01.2001
Testo
(A) Un carico di rottame metallico che giunge nella fonderia THESTEEL viene pesato con una delle 3
bilance (B1,B2,B3) e quindi viene mandato ad uno dei due forni (F1, F2) per la fusione. Impiegando i
dati relativi all’anno 2000 (Tabella 1):
(1) Quale la probabilit che un carico sia pesato con B3 e fuso con F2?
(2) Sapendo che un carico stato fuso con F2 quale la proabilit che sia stato pesato con B3?
Tabella 1: Numero di carichi di rottame del 2000 classificati per macchinario di pesatura e forno di
fusione.
Macchinario:
B1
B2
B3
Forno:
F1
1100 2200 560
F2
2000 290 1000
(B) Nella fonderia THESTEEL, durante il 2000, sono stati impiegati 5 macchinari per produrre acciaio.
Nel medesimo anno, ogni macchinario ha richiesto un certo numero di interventi di riparazione (Tabella
2).
(1) Valutare il grado di equidistribuzione del numero di interventi mediante un opportuno indice.
(2) Effettuare una rappresentazione grafica adeguata all’indice riassuntivo calcolato in (1)
Tabella 2: Numero di interventi effettuati per i macchinari M1, M2, M3, M4, M5.
Macchinario:
M1 M2 M3 M4 M5
Numero Interventi: 13
37
19 104
6
(C) Nella fonderia THESTEEL, un forno di fusione funziona a carbone. La quantit di carbone richiesta
per un carico di rottami metallici assimilabile ad una variabile casuale gaussiana. Un campione casuale
di 3 fusioni ha fornito i dati riportati in Tabella 3.
(1) Effettuare la stima per intervallo della media (livello di confidenza 0.90). Effettuare nuovamente la
stima per intervallo della media (livello di confidenza 0.90) assumendo che la varianza sia uguale a 0.36.
(2) Impiegare gli intervalli ottenuti per effettuare il test delle ipotesi che la media sia uguale a 29.82.
Tabella 3: Tonnellate di carbone.
30 13 13
(D) Un forno di fusione nella fonderia THESTEEL produce una colata che pu contenere impurit. L’amministratore della THESTEEL dichiara che 60% delle colate contiene impurit. Per saggiare quanto
dichiarato, stato esaminato un campione di 150 colate, e 85 sono risultate contenere impurit.
(1) Saggiare l’ipotesi che il valore dichiarato dall’amministratore sia il valore esatto (α = 0.1), con
alternativa che il valore sia di 57.5 %.
(2) Calcolare la potenza del test.
19.2
Soluzioni
(A)
Prob. marginale forno: ; 0.53986 ; 0.46014
Prob. marginale macchin.: ; 0.43357 ; 0.34825 ; 0.21818
Congiunta F1 by macch.: ; 0.15385 ; 0.30769 ; 0.078322
Congiunta F2 by macch.: ; 0.27972 ; 0.040559 ; 0.13986
(1) Prob.: 0.13986
(2) Denominatore: 0.46014
Prob.: 0.30395
37
(B)
Pi : 0.2
Pi : 0.4
Pi : 0.6
Pi : 0.8
Pi : 1
Qi : 0.03352
Qi : 0.1061
Qi : 0.2123
Qi : 0.419
Qi : 1
R : 0.6145
(C)
Media: 18.6667
Varianza: 96.3333
Dev.std: 9.81495
t-stud: 2.91999
Estremo1-t: 2.12008
Estremo2-t: 35.2133
Dev.std nota: 0.6
Z: 1.64485
Estremo1-z: 18.0969
Estremo2-z: 19.2365
(D)
Media0: 90
Varianza0: 36
Devstd0: 6
Z critico: -1.2816
Z empirico: -0.83333
Valore critico conteggio: 82.311
Media1: 86.25
Varianza1: 36.656
Devstd1: 6.0544
Potenza: 0.25764
38
20
20.1
Compito del 31.01.2001
Testo
(A) L’azienda SOLAS produce lampadine da alimentare a 220 Volt. In un test condotto su 10000
lampadine alimentate a 330 Volts, ci si aspetta che si guastino 2.8 lampadine in due ore.
(1) Per quanti minuti si può proseguire nell’esperimento perchè la probabilità che non si guastino
lampadine sia 0.11?
(2) Specificare le assunzioni impiegate per ottenere la risposta a (1).
( B ) La SOLAS possiede 3 stabilimenti per la produzione di lampadine da 60 W. La Tabella 1 riporta il numero di contratti effettuati dai tre stabilimenti nei 3 quadrimestri del 2000 (1,2,3). Calcolare
un’adeguato indice di interconnessione e spiegare brevemente il risultato ottenuto.
Tabella 1: Numero di ordini per stabilimento-quadrimestre.
Quadrimestre
Stabilimento
1
2
3
1
2
3
5
2
0
4
6
10
0
0
14
(C) La SOLAS produce lampadine da 60 W. In una relazione tecnica inerente l’anno 2000 la direzione
dichiara che il coefficiente di variazione percentuale della durata di una lampadina è pari a 3.5 ore. Un
campione casuale di 7 lampadine prodotte nel 2000 ha fornito i dati di durata riportati in Tabella 1.
Assumendo un modello di tipo normale per Y (durata di una lampadina) con E[Y ] = 103, effettuare un
test statistico per saggiare la bontà di quanto dichiarato nella relazione tecnica (α = 0.05);
Tabella 1: Durata (ore) di un campione di 7 lampadine.
106 101 106 107 99 103 102
(D) Il Chief Executive Officer della SOLAS ha analizzato i dati annuali relativi al decennio 1990-1999,
stimando il valore dei coefficienti β0 e β1 nel modello di regressione del fatturato annuo (Y , miliardi) sul
b
b
numero di settimane annue di pubblicità televisiva (X). Le stime
Pottenute sono
Pβ02 = −22.7 e β1 = 6.2.
Sapendo che la devianza residua è risultata pari a 2549.8, e che
xi = 151.7,
xi = 2596.9:
(1) Stimare la varianza di β0 e di β1 .
(2) Calcolare l’intervallo di stima di y quando x = 13.1, assumendo che i termini di errore siano
normalmente distribuiti, indipendenti e con medesima varianza (1 − α = 0.95).
20.2
Soluzioni
(A)
Numero di minuti: 94.6
(B)
C2: 0.757502
C1: 0.585366
C1rel: 0.439024
C2rel: 0.535635
CHI2: 23.52619
CP: 0.60382
Tschu: 0.286905
(C)
Varianza : 12.996
Test stat.: 4.2321
Crit. val. inf : 1.6899
39
Crit. val. sup : 16.013
(D)
Var β0 = : 279.995
Var β1 = 1.07819
Intervallo di stima: (15.058249,101.98175)
40
21
Compito del 15.02.2001
21.1
Testo
1
Un famoso lanciatore di coltelli interpella l’agenzia assicurativa Xsafe per una polizza di responsabilità
professionale. Per stabilire il premio, la Xsafe decide di analizzare la seguente serie storica, che riporta
il numero di incidenti causati da lanciatori di coltelli, durante manifestazioni o allenamenti, in Europa
negli ultimi 50 anni.
Anno
Num. incidenti
1950-59
7208
1960-69
7064
1970-79
6199
1980-89
5406
1990-99
2811
(a) Costruire la serie di numeri indici a base mobile e commentare i risultati ottenuti.
(b) Trasformare la serie di numeri indici a base mobile in quella a base fissa al 1970-79 e commentare i
risultati ottenuti.
2
È noto che la precisione nel lancio di un coltello dipende dal livello di adrenalina presente nel sangue del
lanciatore, che deve essere al di sotto di un certo livello di guardia (LG) nei 5 minuti prima del lancio.
In generale, la probabilità che LG sia superato è 0.0513 . Esiste un test che, in pochi secondi, verifica se
un individuo supera LG, ma non è completamente affidabile: se un lanciatore supera LG, il test fornisce
esito positivo (corrispondente al superamento della soglia) nel 98.99 % dei casi, mentre se un lanciatore
non supera LG, fornisce esito positivo nel 9.01 % dei casi. L’ordine professionale dei lanciatori decide
di utilizzare il test solo se la probabilità che il lanciatore sia sotto il livello di guardia, dato che il test è
risultato negativo, è almeno 0.99. Ritenete che l’ordine professionale deciderà di utilizzare il test?
3
Considerando un esperimento ipotetico in cui si pone il punto di mira sullo 0 di una retta orizzontale,
l’errore commesso su tale retta da un lanciatore professionista si distribuisce normalmente con mediana
pari a 0 ed il terzo quartile pari a 12 cm. Se il lanciatore vuole lanciare il coltello accanto all’orecchio
destro del proprio aiutante, qual è la distanza minima alla quale deve mirare per essere certo di evitare
di colpirlo con probabilità 0.9912 ?
4
L’assicurazione Xsafe scopre che la maggioranza dei lanciatori di coltelli italiani proviene da due scuole:
la Cut&Kill e la Cross–eyed. Decide quindi di analizzare due campioni casuali composti, rispettivamente,
da 68 e 112 lanciatori estratti dalle due scuole, ai quali è chiesto di effettuare un lancio verso un bersaglio
immobile. Viene quindi misurato l’errore (X) commesso rispetto alla direzione orizzontale, ottenendo i
seguenti risultati.
Cross–eyed
Cut&Kill
Media campionaria
1.078
1.864
Varianza campionaria corretta
18
20
Verificare con un test opportuno l’ipotesi che i lanciatori della Cross–eyed sbaglino meno di quelli della
Cut&Kill (con α = 0.05) e specificare quali assunzioni si ritengono necessarie.
21.2
Soluzioni
1
Anno
t−1 It
70−79 It
1950-59
116.28
1960-69
98.00
113.95
1970-79
87.75
100.00
1980-89
87.21
87.21
1990-99
52.00
45.35
41
2
P (< LG|−) =0.9994
3
σ = 17.7912
Distanza minima = 42.2552 cm.
4
test unilaterale con H1: µ1 < µ2
Testoss =-1.165 zα =-1.645
Accetto H0
42
22
22.1
Compito del 06.04.2001
Testo
(A) Un broker effettua un investimento. Si considerino gli eventi A1 = “investimento molto produttivo,
e A2 = “investimento produttivo, con A1 ⊆ A2 .
Sapendo che la probabilit di effettuare un investimento molto produttivo pari a 0.0967 e che l’investimenti
sia produttivo 0.6050:
(1) Calcolare la probabilit che si realizzi l’evento E1 = A1 ∩ A2 .
(2) Calcolare la probabilit che si realizzi E2 = A1 ∩ A2 (spiegare).
( B ) L’ammontare (miliardi) delle fatture protestate alla SuperBroker nel quinquennio 1990-1994 riportato in Tabella 1.
Tabella 1: Ammontare (miliardi delle fatture protestate).
1990
14
1991
19
1992
9
1993
12
1994
22
(1) Calcolare i numeri indici a base mobile (NON PERCENTUALI) per il quinquennio considerato.
(2) Calcolare un’opportuna media dei valori degli indici calcolati al punto (1).
(C) In una valutazione comparativa, le capacit previsive di due dipendenti (A e B) della SuperBroker sono
state messe a confronto. Ogni dipendente esprime il valore che prevede assumeranno 5 titoli di riferimento
in borsa dopo 180 giorni. In Tabella 2, sono riportati gli scostamenti zA,i e zB,i , con i = 1, . . . , 5, dei
valori previsti da quelli effettivamente realizzati. Assumendo (!) che le variabili casuali zA,i e zB,i siano
indipendentemente ed identicamente distribuite come normali con media 0 e varianza rispettivamente
2
2
:
e σB
pari a σA
(1) Quantificare la precisione previsiva dei dipendenti A e B mediante una opportuna statistica campionaria.
(2) Sottoporre a test l’ipotesi che la precisione di A sia identica a quella di B. (α = 0.01)
Tabella 2: Scarti dal valore realizzato dei titoli.
A 3.11 0.06 0.32 -1.74 2.91
B -3.04 8.36 -4.28 10.59 -7.19
(D) Alla SuperBroker si desidera investigare sull’ammontare delle spese sostenute nel 2000 dalle famiglie
italiane per spostamenti effettuati mediante la societ FRENITALIA. Assumendo che la spesa annuale
(centinaia di migliaia di lire) relativa agli spostamenti per una generica famiglia italiana sia assimilabile
ad una variabile casuale normale con varianza 40.03:
(1) Determinare il numero di famiglie da intervistare per ottenere un intervallo di confidenza la cui
informativit sia 10 e per il quale la affidabilit sia 0.99.
(2) Se la varianza fosse ignota, come cambierebbe l’informativit?
22.2
Soluzioni
(A)
(1) P [E1 ] = 0.5083
(2) P [E2 ] = 0.0967
(B)
(1)Indici = 1.357, 0.474, 1.333, 1.833
(2) Geometrica = 1.119; Aritmetica = 1.249
(C)
(1) Varianza con denominatore 5 : 4.25, 52.28
(2) Statistica test F: 0.081
Valori critici F5,5 = 0.07, 14.94
43
(D)
(1) z = 2.57, n = 11
44
23
23.1
Compito del 07.06.2001
Testo
(A) La quantit di conservante presente in un campione di n = 10 bottiglie di succo di frutta risultata
pari a: 12 , 12 , 19 , 15 , 20 , 24 , 24 , 23 , 12 , 12.
(1) Calcolare la moda e la mediana.
(2) Costruire l’istogramma di frequenze relative con intervalli di base pari a [10, 19.5), [19.5, 22.5),
[22.5, 28].
(B) Nel laboratorio chimico ANACHEM la funzione di massa di probabilit relativa all’errore X commesso
quantificando il contenuto di mercurio in una soluzione standard ha valore 0.2216 in x = −0.25, e 0.7784
in x = 0.25. Per un campioni casuali di 3 misurazioni:
(1) Ricavare la distribuzione campionaria del massimo campionario degli errori.
(2) Calcolare il valore atteso e la varianza della statistica al punto (1).
(C) Al laboratorio ANACHEM, si effettua uno studio sulla presenza di metanolo in un campione di 3
bottiglie di vino (Tabella 1). Il vino di ogni bottiglia viene esaminato con il metodo 1 (senza filtro) e con
il metodo 2 (con filtro). Assumendo che la concentrazione di metanolo sia assimilabile ad una variabile
casuale gaussiana :
(1) Saggiare statisticamente l’ipotesi che i due metodi non comportino differenze (prob. errore I tipo =
0.01) in alternativa a che la media per il metodo 2 sia maggiore a quella del metodo 1.
(2) Assumendo che la varianza delle differenze sia σ 2 = 4, calcolare la potenza del test (α = 0.05) in cui
l’alternativa prevede che la differenza tra media del metodo 2 e media del metodo 1 sia pari a 5.
Tabella 1: Contenuto di metanolo con due metodi.
Metodo 1:
Metodo 2:
19.7
23.3
21.1
26.4
18.7
24.9
(D) Alla ANACHEM si desidera investigare sulla valore medio di antibiotico bovino presente in cartoni
di latte da 1 litro. Assumendo che la variabile ‘contenuto di antibiotico’ sia assimilabile ad una gaussiana
con varianza 10:
(1) Determinare il numero cartoni da esaminare per ottenere un intervallo di confidenza la cui informativit
sia 3.7 e per il quale la affidabilit sia 0.99.
(2) Cosa cambierebbe nei calcoli precedenti se la varianza fosse ignota?
23.2
Soluzioni
(A)
Moda : 12
Mediana : 17
H1 : 0.063158
H2 : 0.033333
H3 : 0.054545
(B)
x = -0.25 : 0.01088
x = 0.25 : 0.9891
Media : 0.2446
Varianza : 0.002691
(C)
Diff medie: 5.03333
Varianza: 1.74333
Dev.std: 1.32035
t-empirico: 6.60277
t-critico: 6.96456
45
d-critico 1.64485
potenza: 0.977453
(D)
Numero di cartocci: 20
46
24
Compito del 26.06.2001
24.1
Testo
(A) Alla NetIntern si effettua uno studio sul numero di accessi alle pagine Web in base alla fascia oraria
ed al tipo di pagina (Tabella 1).
(1) Valutare quantitativamente l’interconnessione.
(2) Quale la moda della distribuzione condizionata alla fascia oraria del pomeriggio?
Tabella 1: Numero di accessi per fascia oraria ed argomento.
Fascia oraria: mattino pomeriggio notte
Argomento:
Sport
10
50
20
Altro
7
2
40
(B) Alla NetIntern, uno studio estensivo effettuato su 575000 pagine Web ha rivelato che solo 163 pagine
trattano di criptogeni. Assumendo che all’avvio del programma di accesso al Web venga selezionata
casualmente una pagina:
(1) Quale la probabilit che in un avvio non compaia l’argomento criptogeni?
(2) Quale la probabilit che su trecento accensioni pi di una selezioni l’argomento criptogeni?
(C) In uno studio estensivo la NetIntern ha valutato che il tempo medio di connessione via modem di un
utente serale pari a 42 minuti. Per quantificare la variabilit del fenomeno, la NetIntern ha misurato il
tempo di connessione di un campione casuale di 3 utenti come scostamento dalla media 42. Ha ottenuto
i valori: 1.7, -1, 0 minuti. Impiegando i risultati dello studio:
(1) Effettuare la stima puntuale della varianza.
(2) Effettuare la stima per intervallo del coeff. di variazione percentuale (livello di confidenza = 0.95).
(D) Alla NetIntern si desidera investigare sulla velocit di trasmissione dati ottenuta impiegando due
protocolli software differenti, ALFA e BETA. Sui calcolatori di un un campione casuale di 3 centri di
calcolo sono stati installati i due software, e si sono ottenuti i valori di velocit riportati in Tabella 2.
(1) Saggiare statisticamente l’ipotesi che i due software non comportino differenze di velocit (prob. errore
I tipo = 0.01) in alternativa a che vi siano differenze.
(2) Assumendo che la varianza delle differenze sia σ 2 = 4, calcolare la potenza del test (α = 0.05) in cui
l’alternativa prevede che la differenza sia pari a 5.
Tabella 2: Tempi di trasmissione.
ALFA:
BETA:
24.2
19.7
24.3
17.9
27.3
20.3
26.1
Soluzioni
(A)
(1) C2: 0.602026
C1: 0.550448
C1rel: 0.550448
C2rel: 0.602026
CHI2: 46.754161
CP: 0.515771
Tschu: 0.25628
Riga contenente: 50
(B)
Prob 1 : 0.9997
Prob 2 : 0.003418
(C)
S 2 : 1.29667
47
Intervallo CV = [0.015359,0.101089]
(D)
Diff medie: 6.6
Varianza: 6.24
Dev.std: 2.498
t-empirico: 4.57628
t-critico: 9.92484
d-critico 1.64485
potenza: 0.99638
48
25
Compito del 11.07.2001
25.1
Testo
(A) La compagnia UNPROFIT ha ricevuto sottoscrizioni per sovvenzionare gli interventi sanitari in sud
Africa. In Tabella 1 sono riportati i valori delle sottoscrizioni e le frequenze assolute dei versamenti.
(1) Calcolare il rapporto di concentrazione R.
(2) Rappresentare la spezzata di Lorenz (diagramma).
Tabella 1: Distribuzione delle sottoscrizioni (milioni di lire).
Valore sottoscrizione : 0.500
1
0.250 10
5
Numero Versamenti:
501
350
119
169 862
(B) Alla UNPROFIT si ricevono sottoscrizioni per interventi sanitari in sud Africa. La probabilit di
ricevere una sottoscrizione pari a X ≤ x data dalla funzione in Tabella 2.
(1) Calcolare la differenza interquartile.
(2) Calcolare la probabilit che un versamento abbia valore inferiore-uguale a 0.300 oppure sia superiore
a 2.5.
Tabella 2: Probabilit dell’evento X ≤ x (milioni di lire).
Probabilit
Intervallo della x
0 + 2.6 · x
[0,0.05)
0.086667 + 0.86667 · x
[0.05,0.5)
0.50316 + 0.033684 · x
[0.5,10)
0.83984 + 1.6016 · 10−5 · x
[10, 10000)
1.0
[10000,∞)
(C) Alla UNPROFIT stato esaminato un campione casuale di 5 container contenenti granaglia diretta
in sud Africa. Il peso in tonnellate risultato pari a: 60, 62, 52, 63, 65. Assumendo che il peso di ogni
container sia assimilabile ad una variabile casuale gaussiana con momento secondo rispetto all’origine
pari a 5000:
(1) Saggiare statisticamente l’ipotesi che mediamente un container pesi 70 tonnellate (prob. errore I tipo
= 0.1) in alternativa a che la media sia inferiore a 70 tonnelate.
(2) Calcolare il p-value della statistica media campionaria.
(D) Alla UNPROFIT stato effettuato uno studio sulla propensione ai versamenti di solideriat per la salute
in sud Africa. In nord Italia 3052 intervistati su 12992 hanno dichiarato di effettuare annualmente versamenti. Al sud, 3161 intervistati su 15993 hanno dichiarato di effettuare versamenti annuali. Assumendo
che i due campioni siano casuali:
(1) Effettuare un test statistico per saggiare se vi siano differenze tra propensione al nord ed al sud Italia
nei confronti dei versamenti annuali (α = 0.07).
(2) Se l’interesse si fosse limitato a due piccoli paesi, il primo situato in nord Italia e costituito di 39
abitanti, il secondo al sud con 18 abitanti, ed i campioni fossero stati di 5 e di 7 persone, come si sarebbe
dovuto procedere per effettuare il test?
25.2
(A)
Pi :
Pi :
Pi :
Pi :
Pi :
Qi :
Qi :
Soluzioni
0.05947
0.3098
0.4848
0.9155
1
0.004487
0.04227
49
Qi : 0.09506
Qi : 0.7451
Qi : 1
R : 0.4547
(B)
Q0.75 − Q0.25 : 7.14
Prob. : 0.7593
(C)
Media: 60.4
Varianza: 100
Dev.std: 10
z-empirico: -2.14663
z-critico: -1.28
P-value 0.0159116
(D)
pnord: 0.2349
psud: 0.1976
dev.std.diff: 0.00484687
z-empirico: 7.69568
z-critico: -1.81
50
26
26.1
Compito del 20.09.2001
Testo
(A) La vasca HOTTUB possiede un dispositivo di riscaldamento dell’acqua. Si definiscano le variabili
casuali seguenti: X riferita al riscaldamento (0 spento, 1 acceso), Y numero di bagnanti in vasca, Z
riferita alla presenza di nuvole (0 assenti, 1 presenti). Conoscendo i valori di probabilit per gli eventi
riportati in Tabella 1:
(1) Quale la probabilit che il riscaldamento sia acceso e che i bagnanti siano 2?
(2) Si assuma che la vasca sia aperta 22 ore al giorno e che il numero Y di bagnanti in vasca in una
giornata sia distribuita come una Poisson. Se il riscaldamento acceso, il tasso pari a 0.1 bagnanti per ora,
se il riscaldamento spento il tasso 0.1
2 . La probabilit di accensione del riscaldamento a priori pari a 0.6.
Avendo saputo che vi sono stati 2 bagnanti in vasca nella giornata del 15 Agosto, quale la probabilit che
sia stato acceso il riscaldamento?
Tabella 1: Probabilit di alcuni eventi di interesse.
Evento {(X, Y, Z)} Prob.
{(1, 2, 0)}
0.0483
{(1, 2, 1)}
0.1126
(B) stato effettuato uno studio per valutare se il dispositivo automatico di riscaldamento dell’acqua nella
vasca HOTTUB venga acceso in dipendenza dalla presenza di nuvole in cielo. In Tabella 2 riportato il
numero giorni in cui stata riscaldata l’acqua con e senza nuvole in cielo, analogamente per i giorni in cui
l’acqua non stata riscaldata.
Tabella 2: Numero di giorni per tipologia di giornata e di acqua.
Riscaldata
Non Riscaldata
Nuvoloso
901
120
Sereno
230
161
(1) Valutare il grado di interconnessione tra riscaldamento e nuvolosit.
(2) Come ci si aspetterebbe di modificare Tabella 2 qualora la nuvolosit fosse un antecedente perfetto per
spiegare il riscaldamento dell’acqua (esempio: Nuvoloso implica Riscaldamento)?
(C) Un campione casuale di 26 vasche HOTTUB stato esaminato per valutare a quanto ammonta la
variabilit nel numero di ore di funzionamento prima che
si guasti una delle
P26
P26 guarnizioni della vasca. Le
statistiche campionarie derivate dell’esperimento sono: i=1 xi = 2625, i=1 x2i = 266109. Assumendo
per le variabili casuali Xi una distribuzione di tipo normale:
(1) Calcolare il valore del coefficiente di variazione campionario non percentuale.
(2) Assumendo che la media di popolazione sia 100 ore, sottoporre a test l’ipotesi che il coefficiente di
variazione (non percentuale) della popolazione si pari al 0.045 (α = 0.1) in alternativa a che sia maggiore
di tale valore.
(D) La vasca HOTTUB prodotta impiegando una sostanza chimica S che aumenta la resistenza della
superficie alla rottura in accordo al modello di regressione lineare semplice Yi = β0 + β1 xi + ui , in cui
Y il carico di rottura ed X la concentrazione di sostanza S. Si assuma che la varianza d’errore σ 2 sia
nota e pari a 33.3. In uno studio sulla resistenza sono stati scelti tre valori di concentrazione X della
sostanza S: 0.25, 0.5, 0.75 (g/Kg). Impiegando i dati ipotetici di Tabella 3, scegliere il pi conveniente dei
tre esperimenti in modo che l’intervallo di previsione per x0 = 1 (livello 0.93) abbia informativit uguale
o inferiore a 1.
Tabella 3: Esperimenti sulla resistenza.
P
2
Esperimento
n
x̄
i (xi − x̄)
E1
250 0.5
982
E2
500 0.5
1733
E3
1000 0.5
3853
51
26.2
Soluzioni
(A)
(1)Probabilit che il riscaldamento sia acceso e che i bagnanti siano 2: 0.1609
(2) Probabilit che il riscaldamento sia stato acceso dato che i bagnanti sono stati 2: 0.6664
(B)
(1)
C2 = 0.3298, C1 = 0.2357,
C1rel = 0.2357, C2rel = 0.3298,
CHI2 = 153.6, CP = 0.3132
Tschu = 0.1087
(2)
Nuvoloso Sereno
Riscaldata
1131
0
Non Riscaldata
0
281
(C)
(1)
Media = 100.9615
Varianza = 43.39846
Coeff. Variazione Campionario= 0.0652501
(2) Impiegando la media di popolazione, S 2 =
la varianza campionaria 42.65385
la statistica test Chi quadro 54.76543
Chi Quadro critico 35.56317
P26
i=1
x2i
n
− 2µ
P26
i=1
n
xi
+ µ2 , quindi:
(D)
Per le dimensioni campionarie in gioco il t di Student numericamente indistinguibile dalla normale
standardizzata.
z: 1.811911
La differenza tra estremi dell’intervallo di previsione
E1: 1.364009
E2: 0.968339
E3: 0.6824018
I due esperimenti E2 ed E3 soddisfano il requisito ma, per quanto noto, E2 il meno costoso in termini di
numero di unit statistiche coinvolte, dunque il prescelto.
52
27
27.1
Compito del 19.12.2001
Testo
1
Sei stato assunto da Blockbuster, dove ti chiedono di decidere quale calendario promuovere per il 2002,
tra quello di George Clooney e quello di Brad Pitt. Decidi di intervistare un campione casuale di 453
ragazze tra le clienti di Blockbuster, chiedendo loro di scegliere tra l’acquisto di un calendario di GC o
di BP: 203 preferiscono GC e 250 BP. (1) Stimare la proporzione di ammiratrici di GC con confidenza
pari a 0.99; (2) calcolarne l’informatività.
2
Hai cambiato città e lavoro e sei stato assunto come manager della discoteca GoGo; devi decidere se
esporre una gigantografia di GC o BP. Intervisti un campione di 297 ragazze tra coloro che entrano
una sera in discoteca, ma qui 193 preferiscono GC e 104 BP. (1) Ti viene un dubbio: la proporzione di
ammiratrici di GC tra le ragazze clienti di Blockbuster (vedi esercizio 1) è veramente diversa da quella
delle frequentatrici del GoGo, o la differenza osservata è dovuta al caso (fissare α = 0.05)? (2) Arrivereste
alla stessa conclusione calcolando un intervallo di confidenza?
3
Come manager del GoGo, devi analizzare il problema delle risse in discoteca. In una sera a caso, la
probabilità che il buttafuori sia Ugo è pari a 0.320 , che sia Pietro è 0.047 . La probabilità che avvenga
una rissa è pari a 0.599 se è di turno Ugo, mentre è pari a 0.364 se sono di turno Pietro o altri buttafuori.
La probabilità che la rissa sia prontamente sedata è uguale a 0.860 se è di turno Ugo, mentre è pari a
0.836 con Pietro oppure con altri buttafuori. (1) Qual è la probabilità che una sera a caso sia di turno
Ugo e non si verifichino risse? (2) Sapendo che la rissa è stata prontamente sedata, quale è la probabilità
che sia stato di turno Ugo?
4
Finalmente sei stato assunto come direttore delle risorse umane dalla società FIND. Decidi di effettuare
una verifica sull’assegnazione dei premi di produzione ai dipendenti. La tabella seguente riporta la
distribuzione di frequenza del valore dei premi (in milioni di lire) rispetto al settore di provenienza.
Premi in milioni
1
5
10
Totale
Settore A
78
29
15
122
Settore B
19
37
88
144
Totale
97
66
103
266
(1) Calcolare un indice di connessione tra il valore del premio ed il settore di appartenenza; (2) calcolare
la percentuale di variabilità spiegata dalla differenza tra i settori.
27.2
Soluzioni
1
p̂ = 0.4481
Intervallo di confidenza per p: [0.3879; 0.5083]
Informatività = 0.1204
2
Test d’ipotesi bilaterale sulla differenza tra proporzioni con H0 : pB − pG = 0.
σp̂B −p̂G = 0.0373
p̂G = 0.6498
Zoss = −5.4117
Zcrit = ±1.9600
Rifiuto H0
53
3
P(Ugo, nessuna rissa)= 0.128
P(Ugo | rissa, sedata) = 0.443
4
Si calcola η per la dipendenza in media
M = 5.4774
MA = 3.0574
MB = 7.5278
devB = 1319.8774 . devW = 2746.4872 . devTOT = 4066.3647
η = 0.5697 Variab spiegata = 32.4584 %
54
28
28.1
Compito del 09.01.2002
Testo
(A) In Tabella 1 sono riportati i numeri indici a base mobile relativi al fatturato dell’azienda TOMATIS
Inc. per il primo semestre del 2000. Si calcoli:
1) il numero indice 1 I6 percentuale;
2) il fatturato del mese di gennaio 2000, sapendo che il fatturato semestrale pari a 1214.
Tabella 1: Numeri indici percentuali a base mobile del fatturato mensile.
Mese 1 2
3
4
5
6
Indice - 91 100 100 100 104
(B) Alla TOMATIS Inc. si sta effettuando uno studio per confrontare il costo per minuto della pubblicit
in TV. In un campione casuale di 5 regioni stato rilevato il costo in emittenti pubbliche e private come
da tabella seguente:
Tabella 2: Costo per minuto di pubblicit in emittenti private e pubbliche.
Private
97
97
98 103 102
Pubbliche 105 108 106 111 111
1) Si calcoli un adeguato indice di associazione.
2) Si sottoponga a verifica (α = 0,05) l’ipotesi che non ci siano differenze di costo medio per i due tipi di
emittenti, assumendo che la differenza tra i costi sia normalmente distribuita.
(C) Facendo riferimento ai dati della tabella 2 ed assumendo che il prezzo della pubblicit per minuto nelle emittenti pubbliche Y sia determinato da quello stabilito nelle emittenti private x secondo la
relazione,Yi = β0 + β1 xi + ei (con gli ei ∼ N (0, σ 2 ) indipendentemente distribuiti):
1) determinare l’intervallo di confidenza per σ 2 (livello 0.90);
2) cosa cambierebbe in (1) se β0 e β1 fossero noti?
(D) L’introduzione nel 2002 delle nuove norme di sicurezza per il lavoro in aziende conserviere riduce
il numero medio mensile di infortuni per 1000 dipendenti da 32.5461 a 0.3079. Per un’azienda di 32
dipendenti:
1) valutare la probabilit di avere meno di 2 infortuni in azienda nel 2002;
2) sapendo che nel 2001 si sono verificati 2 infortuni e che la probabilit dell’introduzione 0.040, determinare
la probabilit che la nuova normativa sia gi stata introdotta nel 2001.
28.2
Soluzioni
(A)
1) Dalla relazione 1 I6 =1 I22 I33 I44 I55 I6 si ha 1 I6 percentuale = 94.64.
2) Il valore di x1 217.31348.
(B)
1) Codevianza = 28.6, Devianze: 33.2, 30.8. Il coeff. di correlazione lineare 0.89438.
2) Stima varianza = 1.7. Stima errore standard della differenza = 0.5831. t empirico = 15.0919. t critico
= 2.7764.
(C) Dal modello di regressione la stima dei due parametri 22.5723 e 0.8614.
1) La somma dei residui al quadrato diviso per sigma2 un χ23 . Quantili del χ23 : 0.3518463 e 7.814728, da
cui l’intervallo [0.7885944,17.515177].
2) Il χ2 avrebbe 5 gradi di libert.
(D) Assumendo un modello di Poisson, ottenuti i due parametri conteggio medio per anno per totale
dipendenti, si ottengono i valori di probabilit:
55
1) 0.9935377
2) 0.000528446
56
29
29.1
Compito del 23.01.2002
Testo
(A) La probabilit che un quattordicenne impieghi un veicolo per spostarsi 0.67. La probabilit che il
veicolo sia un motorino 0.95. La probabilit che il quattordicenne causi un danno mentre alla guida di un
veicolo diverso dal motorino 0.69; se il veicolo un motorino allora essa 0.15. In Tabella 1 sono riportate le
distribuzioni di probabilit per il valore del danno Y causato in dipendenza dal tipo di veicolo. Si calcolino:
1) la distribuzione del valore del danno senza distinzione per tipologia di veicolo.
2) la probabilit che 5 quattordicenni su 10 casualmente scelti impieghino un veicolo che non un motorino
e causino un danno.
Tabella 1: Distribuzione di probabilit per il valore del danno (centinaia di euro) condizionatamente al
tipo di veicolo adoperato.
Valore Danno: 0.1
1
5
Se motorino:
0.15 0.3 0.55
Se altri veicoli:
0.75 0.15 0.1
(B) Alla YUMAMOTO Inc. sono state vendute motociclette di 4 cilindrate differenti (Tabella 2). Si
ottengano:
1) i quantili 0.33 e 0.88.
2) la rappresentazione grafica della funzione di distribuzione.
Tabella 2: Frequenze di vendita per 4 cilindrate differenti (centimetri cubici).
Cilindrata:
900 500 250 125
Moto vendute: 846 449 652 620
(C) Il comune di S.DONNINO prender provvedimenti se la frequenza degli incidenti dovuti ai motorini
superiore al 10%. Nell’ultimo anno,il numero di incidenti causati da motorini stato 60 dei totali 349
dovuti a veicoli.
1) Calcolare l’errore standard della stima puntuale.
2) Calcolare il p-value assumendo che la varianza della variabile frequenza relativa sia 0.0007.
(D) Per valutare le velocit massime di tre marche di motorini differenti sono stati provati campioni di 2
motorini appartenenti a 3 marche differenti (Tabella 3):
1) La tipologia di motorino determina cambiamenti medi di velocit?;
2) Assumendo che la velocit sia normalmente distribuita ed abbia la medesima varianza σ 2 per ogni
marca, effettuare la stima per intervallo di σ 2 (1 − α = 95%).
Tabella 3: Velocit per tipologia
ASPES
51
GALLETTO 66
AQUILOTTO 46
29.2
di motorino.
61
56
66
Soluzioni
(A) Siano rispettivamente V , M , D le variabili casuali uso Veicolo, veicolo tipo Motorino, Danno. Y il
valore del danno.
1) Siano V = v, v; M = m, m; D = d, d. Le probabilit sono P (V = v) = 0.67, P (M = m|V = v) = 0.95,
P (D = d|V = v, M = m) = 0.69, P (D = d|V = v, M = m) = 0.15. Allora, con i = m, m,
X
P (Y = y|V = v, D = d) =
P (Y = y|D = d, V = v, M = i)P (M = i|D = d, V = v)
i
57
dove
P (M = i|D = d, V = v) =
P (D = d|M = i, V = v)P (M = i|V = v)
P (D = d|V = v)
e
P (D = d|V = v) =
X
P (D = d|V = v, M = i)P (M = i|V = v) = 0.69 ∗ 0.05 + 0.15 ∗ 0.95 = 0.177.
i
0.69 ∗ 0.05
0.15 ∗ 0.95
= 0.80508 e P (M = m|D = d, V = v) =
=
Quindi P (M = m|D = d, V = v) =
0.177
0.177
0.19496.
Infine P (Y = 0.1|V = v, D = d) = 0.26695, P (Y = 1|V = v, D = d) = 0.27076, P (Y = 5|V = v, D =
d) = 0.46229
2) La probabilit che un quattordicenne causi un danno spostandosi con un veicolo non motorino
P (M = m, D = d, V = v) = P (D = d|V = v, M = m)P (M = m|V = v)P (V = v) = 0.023115.
Assumendo l’indipendenza di eventi relativi a quattordicenni differenti, la variabile causale che conta gli
eventi binomiale, da cui il risultato 0.00000141794.
(B) Dopo avere ordinato in senso crescente i valori di cilindrata e diviso per il totale delle vendite, si
ottiene la distribuzione di frequenze relative. Il pi piccolo valore tra quelle x che soddisfano F (x) ≥ q il
quantile xq .
1) x0.33 = 250; x0.88 = 900
2) Frequenze cumulate: =0.24152707, = 0.4955201 = 0.6704324
(C)
1) La stima puntuale del parametro proporzione di incidenti dovuta a motorini ha errore standard
0.02019698.
2) Stima puntuale della proporzione 0.1719198; p-value= 0.003280798
(D)
1) Il coeff. Di Gini 0.3162278, η 2 0.1
2) La migliore stima della varianza S 2 la pooled per i tre gruppi che viene 100. In tal caso 3S 2 /σ 2 ∼ χ23 .
L’intervallo dato da [32.09104, 1390.206]
58
30
30.1
Compito del 12.02.2002
Testo
La New.Net decide di proporsi come fornitore di accessi ad Internet. Effettua quindi un’analisi del mercato
rilevando la distribuzione degli utenti riportata nella tabella seguente.
Fornitori
Num. utenti
Tin
4442
Ciaoweb
1885
Libero
3500
Kataweb
2401
Tiscali
6275
(1) Valutare il grado di concentrazione degli utenti mediante un indice opportuno.
(2) Effettuare una rappresentazione grafica dell’indice cal colato.
2
Agli utenti New.Net viene proposto un concorso a premi via Web. Nel sito del concorso ci sono due porte
ed il concorrente deve sceglierne una. Nella prima sono lanciati due dadi: se esce (6,6) si vince 16 euro,
altrimenti si vince 2 euro. Nella seconda porta viene lanciata 9 volte una moneta: se esce testa 7 volte si
vince 160 euro, altrimenti si vince 2 euro.
(1) Calcolare la vincita attesa.
(2) Estraendo a caso un utente c he ha vinto 2 euro, calcolare la probabilità che questi abbia scelto la
prima porta .
3
Per impostare una campagna pubblicitaria la New.Net consulta un noto esperto: questi suggerisce una
pubblicità mediante un banner su un noto portale, asserendo che tale tipo di pubblicità non è notata solo
dal 28.30 % degli internauti. La New.Net effettua quindi un’indagine su un campione di 427 utenti, da
cui risulta che 148 non hanno notato il banner.
(1) Verificare, al livello di significatività del 5%, l’ipotesi che la frequenza relativa di coloro che non notano
il banner sia quella dichiarata dall’esperto contro un’ipotesi alternativa che tale frequenza sia maggiore;
(2) Calcolare la probabilità dell’errore di seconda specie nel caso in cui l’ipotesi alternativa ponga tale
frequenza relativa pari a 0.39 .
4
Per valutare la diversità di comportamento degli utenti si misura la durata delle connessioni (in minuti)
per Tin e Tiscali su un campione di 60 accessi per Tin e di 70 per Tiscali. La varianza osservata è 121.31
per Tin e 34.91 per Tiscali. Sapendo che in generale la durata delle connessioni è distribuita normalmente
con media 17 , (1) calcolare gli intervalli di confidenza (1 − α = 0.95) del coefficiente di variazione per
entrambi i portali; (2) tali intervalli suggeriscono una diversità tra le due popolazioni ?
30.2
Soluzioni
1
pi = 0.20
qi = 0.1019
R = 0.2924
0.40
0.2316
0.60
0.4208
0.80
1.00
0.6609 1.0000
2
Vincita attesa = 7.7491
P(porta1| vincita)= 0.5112
3
Test d’ipotesi unilaterale su una proporzione
Zoss = 2.9177
Zcrit = 1.6449 Rifiuto H0
β = 0.0009
4
59
Tin: (0.5499 ; 0.7888 )
Tiscali: (0.2983 ; 0.4165 )
60
31
31.1
Compito del 04.04.2002
Testo
(A) Al magazzino MYMOTOR sono disponibili volanti di ricambio. La casa produttrice consegna il 4.5%
di volanti difettosi.
1) Assumendo che la MYMOTOR abbia ricevuto 31 volanti, quale la probabilit che ve ne siano 6 difettosi?
2) Un meccanico acquista 2 volanti di ricambio alla MYMOTORS che ne ha in magazzino 6. Quale la
probabilit che vi sia almeno un volante difettoso tra quelli acquistati dal meccanico, sapendo che nel
magazzino della MYMOTOR vi sono al massimo 2 volanti difettosi?
(B) In un esperimento riguardante un dispensatore di bevande stato considerato un campione casuale di
1000 richieste di bevanda. Per ogni richiesta stata memorizzata la tipologia di bevanda (variabile Y) e
la temperatura esterna (variabile X, bassa=-1, media=0, alta=1). In Tabella 2 riportata la distribuzione
congiunta delle frequenze relative.
Tabella 1: Distribuzione congiunta della
Y:
1
X:
-1 0.039
0 0.052
1 0.047
tipologia di bevanda e della temperatura esterna.
2
3
4
0.173
0.061
0.043
0.023
0.057
0.003
0.216
0.113
0.172
1) Data una temperatura esterna di valore medio, ricavare la distribuzione della tipologia di bevanda?
2) Calcolare un opportuno indice per valutare il grado di associazione tra temperatura esterna e bevanda
prescelta.
(C) Si consideri la variabile diametro relativa al foro filettato di un bullone. Un campione casuale di
dimensione pari a 39 proveniente dall’azienda SECURHOLE ha fornito le seguenti statistiche campionarie:
media = 13.1, varianza corretta = 4. Un campione casuale di dimensione pari a 20 proveniente dall’azienda
PERFECTHOLE ha fornito le seguenti statistiche campionarie: media = 14.4 e varianza corretta = 4.1.
Assumendo la normalit della variabile casuale diametro:
1) Effettuare la stima del rapporto tra varianze con affidabilit 0.95.
2) Assumendo che le varianze delle due popolazioni siano uguali a σ 2 , effettuare la stima puntuale di σ 2 .
(D)Considerando il problema ( C), in particolare il punto (2):
1) saggiare statisticamente l’uguaglianza del diametro medio dei bulloni prodotti dalle due aziende
(probabilit di accettare l’ipotesi di lavoro quando essa di fatto vera = 0.99).
2) Se la varianza fosse nota cosa cambierebbe nel test al punto (1)?
31.2
Soluzioni
(A.1) Conoscendo la probabilit che il produttore consegni un volante difettoso, il modello adeguato alla
probabilizzazione del numero di volanti difettosi consegnati alla MYMOTOR dato il totale dei consegnati
binomiale: 0.001933762.
(A.2) Dato il numero dei difettosi nel magazzino, il modello dei difettosi acquistati ipergeometrico. Tuttavia, occorre ricavare la distribuzione del numero dei difettosi in magazzino e marginalizzare opportunamente: 0.08679442
(B.1) Ottenuta la distribuzione marginale della variabile X, si divida la congiunta p(X = 0, Y )/p(X = 0)
per ogni Y : 0.1837456, 0.2155477, 0.2014134, 0.3992933.
(B.2) Uno degli indici di interconnessione stocastica adeguato, C1= 0.2879636, C2= 0.3722192, C1rel =
0.2159727, C2rel= 0.2631987, chi2=0.1384086, CP=0.3488376, Tcshuprov=0.05656162.
(C.1) Il rapporto tra varianze 0.9756098. I quantili di F sono 0.4748059 e 2.342687. L’intervallo dato da
[0.416449,2.054755].
61
(C.2) La migliore stima di σ 2 la varianza pooled per i due gruppi, che viene 4.033333
(D.1) La differenza tra medie -1.3, la deviazione standard della differenza 0.5523454. Il t-empirico -2.3536,
il t-critico (alfa=0.01) 2.66487.
(D.2) La statistica test sarebbe distribuita normalmente ed il test risultante pi potente. Cambierebbe
anche σ 2 se diversa da quella stimata.
62
32
32.1
Compito del 11.06.2002
Testo
1
Un’agenzia di viaggi pubblicizza vacanze in un’isola tropicale affermando che il numero medio di ore al
giorno di pieno sole è 10. Effettuate un periodo di vacanze di 20 giorni sull’isola e rilevate un numero
medio di ore al giorno di pieno sole pari a 7.50 con una deviazione standard corretta di 1.28. Se il numero
di ore di pieno sole fosse distribuito normalmente:
(a) avreste motivo di lamentarvi di essere stati ingannati? (porre α = 0.05)
(b) E se la varianza del numero di ore di pieno sole fosse stata nota e pari ad 1?
2
Si supponga che la probabilità che una hostess di una compagnia aerea sia gentile è 0.79 , mentre tale
probabilità è pari a 0.49 per uno stewart. Gli equipaggi vengono formati estraendo a caso due individui
del personale, con una probabilità, ad ogni estrazione, di selezionare una hostess pari 0.75 (0.25 per uno
stewart).
(a) Calcolare la probabilità che un equipaggio estratto a caso, nessuno sia gentile.
(b) Sapendo che un viaggiatore è stato servito da una sola persona e che questa è stata gentile, calcolare
la probabilità che il viaggiatore sia stato servito da una hostess.
3
Si vuole delineare il profilo del turista italiano. Si effettua un’indagine campionaria rilevando le preferenze
in termini di località (X = mare, montagna, altro) e di tipo di alloggio (Y=albergo, villaggio, altro). I
dati rilevati sono riportati nella tabella seguente.
Y
X
Mare
Montagna
Altro
Albergo
Villaggio
Altro
68
130
76
205
42
21
17
22
138
(a) Calcolare un (solo) indice di interconnessione relativo tra le due variabili.
(b) Derivare, in base alle frequenze relative, la distribuzione di probabilità condizionata del tipo di alloggio
dato che X = mare.
4
Si vuole studiare se il numero di giorni trascorsi in vacanza nell’anno precedente (X) sia una variabile
influente per il numero di giorni trascorsi in vacanza nell’anno successivo (Y). La tabella seguente riporta
i dati rilevati su un campione casuale di 5 individui.
X
Y
14
13
18
20
18
19
14
15
16
20
(a) Calcolare i coefficienti di regressione.
(b) Verificare l’ipotesi che X non abbia effetto
su Y,
P
P specificando
P 2le assunzioni
P 2 necessarie. (N.B. Per
velocizzare i calcoli si tenga presente che
xi = 80
yi = 87
xi = 1296
yi = 1555 )
32.2
Soluzioni
1
Test d’ipotesi unilaterale sulla media.
(a)toss = −8.7287
tcrit = −1.7291
Rifiuto H0
(b)zoss = −11.1803
63
Zcrit = −1.6449
Rifiuto H0
2
P(H) = 0.75 ; P(S)= 0.25
(a) P (G) = P (G|H)P (H) + P (G|S)P (S) = 0.715
(b) P (H | G) = 0.82867
3
(a)
C1 = 0.6485
C1r = 0.4864
CM = 0.3242
P (G, G) = 0.081225
C2 = 0.7246
C2r = 0.5124
CP = 0.5868
CT schuprov = 0.3713
(b)
Y |Mare
Albergo
0.2345
Villaggio
0.7069
Altro
0.0586
4
(a) Modello di regressione
semplice : βb = 1.3750 e α
b = −4.6000
P
(b) s2 = 3.6500 e (xi − x)2 = 16.0000
toss = 2.8788
tcrit = ±3.1824 gdl=2
Accetto H0
64
33
33.1
Compito del 26.06.2002
Testo
(A) In Tabella 1 sono riportati i numeri indici (percentuali) a base fissa 2 Ij relativi alle spese per la
materia prima presso l’azienda HOTMILK per il secondo semestre del 2001. Determinare:
1) il numero indice 1 I6 percentuale;
2) Rappresentare graficamente la serie semestrale interpretando brevemente l’andamento riscontrato.
Tabella 1: Numeri indici del semestre.
Mese
1
2
3
4
5
6
Indice 92 100 103 103 107 110
(B) Alla HOTMILK si sta effettuando uno studio per valutare il tempo di pulitura richiesto dai recipienti
di sterilizzazione con un nuovo metodo termico. Ad un campione casuale di 5 recipienti stata applicata
la pulitura a 150 gradi (Tabella2):
Tabella 2: Tempi di pulitura.
Tempi 10 13 9 10 11
1) Riassumere i risultati sperimentali con un indice di posizione ed uno di variabilit (indice relativo).
2) Sapendo che la varianza relativa ai tempi di pulitura con il metodo standard pari a 5 minuti quadrati,
valutare se la nuova procedura termica diminuisce significativamente la varianza del tempo di pulitura(α
= 0,05, modello normale per la variabile casuale tempo).
(C) Considerando il latte imbottigliato alla HOTMILK, il numero atteso di batteri per litro pari a 20
se sterilizzato in modo standard, oppure 2.5 se sterilizzato con procedura HIGHGRADE. Si consideri un
bicchiere di latte da 10 centilitri versato da una bottiglia prodotta alla HOTMILK:
1) Quale il numero di batteri attesi se la procedura HIGHGRADE, quale se la procedura standard?
2) Si assuma che la probabilit che una bottiglia da un litro sia sterilizzata con il vecchio metodo sia pari
a 0.5. Se l’analisi rivelasse che il bicchiere di latte in (1) contiene 7 batteri, quale sarebbe la probabilit
che la bottiglia da cui stato versato sia stata sterilizzata con la procedura HIGHGRADE?
(D) In un esperimento sulla qualit del latte stato contato il numero di batteri presenti in un campione
di 7 autobotti per il trasporto latte della HOTMILK. Si assuma che il numero di batteri dipenda dalla
temperatura di sterilizzazione secondo la relazione Yi = β0 + β1 xi + ei , (con gli ei ∼ N (0, σ 2 ) e indipendentemente distribuiti). Sapendo che i parametri stimati con il metodo dei minimi quadrati sono risultati
pari a βb0 = 2839.18 e βb1 = −18.96 e σ
b2 = 78.67,che la media delle x 105 e che la devianza delle x 700:
1) Determinare l’intervallo di confidenza per (livello 0.90);
2) Calcolare l’intervallo entro cui si situa con affidabilit 90% il numero atteso di batteri alla temperatura
di 112 gradi.
33.2
Soluzioni
(A)
1) 1 I6 =2 I6 /2 I1 ∗ 100 = 110/92 ∗ 100 = 119.6.
2) Situando i mesi sulle ascisse e gli indici sulle ordinate possiamo concludere che le spese sono aumentate
al passare dei mesi.
(B)
1) La media aritmetica = 10.6. Varianza = 1.84. CV = 12.8%
2) Stima varianza corretta = 2.3. Chi-quadro empirico = 1.84. Chi-quadro critico = 0.7107. Accetto
l’ipotesi nulla.
65
(C) Si consideri il modello di Poisson per il conteggio dei batteri.
1) Essendo 10 centilitri = 0.1 litri i due valori attesi sono 0.25 e 2.0, rispettivamente.
2) X = numero batteri in un bicchiere di latte da 10 centilitri; H = 1 se sterilizzato con HIGHGRADE,
0 se sterilizzato con procedura standard. Assumendo che X abbia distribuzione di Poisson (ovviamente
con un λ diverso a seconda del metodo, come chiarito nel punto precedente) abbiamo: X|H = 1 ∼
P oisson(λ1 = 0.25), X|H = 0 ∼ P oisson(λ0 = 2), P (H = 1) = 0.5 e P (H = 0) = 0.5.
Allora, utilizzando la formula di Bayes, P (H = 1|X = 7) = P (X = 7|H = 1)P (H = 1)/P (X =
7) = 0.000002744, dove: P (X = 7|H = 1) = 0.00000000943139, P (X = 7|H = 0) = 0.003437087,
P (X = 7) = P (X = 7|H = 1)P (H = 1) + P (X = 7|H = 0)P (H = 0) = 0.001718548 (formula della
probabilit marginale).
(D)
1) La varianza stimata ha 7-2=5 gradi di libert, da cui l’intervallo basato sul chi-quadro [35.53, 343.39]
2) Si tratta dell’intervallo di previsione per il valore atteso =715.6, ovvero [707.35, 723.86]
66
34
34.1
Compito del 16.07.2002
Testo
1
L’azienda produttrice di gelati FRITZ sa che il 21% dei propri clienti preferisce il gusto limone, il 31%
fragola ed il 48% cioccolato. L’8% dei clienti che preferiscono il gusto limone acquista il gelato al bar,
mentre tale percentuale scende al 5% per coloro che preferiscono fragola e al 3% per cioccolato. (a) Se
si sceglie un cliente a caso che ha comprato il gelato al bar, determinare la probabilità che questi abbia
scelto il gusto limone.
(b) Sapendo che, per ciascun gelato venduto al bar, la FRITZ guadagna 0.25 euro per un gelato al limone
ed il doppio per gli altri gusti, calcolare il guadagno atteso da un gelato venduto al bar.
2
Si effettua un’indagine campionaria per verificare una relazione tra gusto di gelato preferito e tendenze
politiche. Si misura la preferenza di gusto (X = limone, fragola, cioccolato) e la tendenza politica
(Y=Sinistra, Centro, Destra). Le frequenze rilevate riportate nella tabella seguente.
Y
X
Limone
Fragola
Cioccolato
Sinistra
Centro
Destra
46
152
64
161
39
30
26
33
168
(a) Calcolare un (solo) indice di interconnessione relativo tra le due variabili.
(b) Derivare, in base alle frequenze relative, la distribuzione di probabilità condizionata delle tendenze
politiche dato che X = limone.
3
La FRITZ ha acquistato un nuovo macchinario che distribuisce le amarene nelle coppe di gelato. La ditta
fornitrice asserisce che il macchinario distribuisce il numero di amarene prestabilito il 98% delle volte. La
FRITZ effettua un’indagine su un campione di 500 coppe di gelato, da cui risulta che 36 presentano un
numero di amarene diverso da quello preimpostato.
(a) Verificare, al livello di significatività del 5%, l’ipotesi che la frequenza relativa degli errori sia quella
dichiarata dalla ditta fornitrice del macchinario ;
(b) Come avreste dovuto procedere se il campione di coppe fosse stato di dimensione 10?
4
Si vuole studiare se il numero di cartelloni pubblicitari esposti contemporaneamente in una città (X) sia
una variabile influente per il numero di bar che, in quella città, richiedono una fornitura della FRITZ
(Y). La tabella seguente riporta i dati rilevati su un campione casuale di 5 città.
X
Y
14
13
18
20
18
19
14
15
16
20
(a) Calcolare i coefficienti di regressione.
(b) Verificare l’ipotesi che X non abbia effetto su Y, specificando
necessarie.
P le assunzioni
P
P 2
P 2
(N.B. Per velocizzare i calcoli si tenga presente che
xi = 80
yi = 87
xi = 1296
yi =
1555 )
34.2
Soluzioni
1
(a) Formula di Bayes. B= comprato al bar
P(B)= 0.0467
P(limone |B)=0.3597
67
(b) P(fragola |B) + P(cioccolato |B)= 0.3319 + 0.3084 =0.6403
Y=guadagno dalla vendita al bar di un gelato
0.25 p = 0.3597
Y =
0.50 p = 0.6403
E[Y ] = 0.25 · 0.3597 + 0.50 · 0.6403 = 0.41 euro.
2
(a)
C1 = 0.6735
C1r = 0.5051
CM = 0.3368
C2 = 0.7245
C2r = 0.5123
CP = 0.5867
CT schuprov = 0.3712
(b)
Y |Mare
Albergo
0.1974
Villaggio
0.6910
Altro
0.1116
3
(a) toss = 8.3054
Zcrit = 1.6449
Rifiuto H0
(b) Calcolo del p-value mediante distribuzione binomiale
4
(a) Modello di regressione
semplice : βb = 1.3750 e α
b = −4.6000
P
2
(b) s = 3.6500 e (xi − x)2 = 16.0000
toss = 2.8788
tcrit = ±3.1824 gdl=2
Accetto H0
68
35
35.1
Compito del 17.12.2002
Testo
Esercizio 1
La probabilit di superare un esame, se non si seguono regolarmente le lezioni, 0.69 , mentre se le lezioni
sono seguite regolarmente 0.87 . Il 76 % degli studenti ha superato l’esame in questione.
In quale proporzione essi hanno seguito regolarmente le lezioni?
Esercizio 2
Il management del gruppo STARTEL, una compagnia che produce elettronica per le telecomunicazioni,
sta mettendo a punto un piano di ristrutturazione. La sua attenzione rivolta in particolare alla produzione
di telefoni cellulari, riguardo alla quale sta confrontando i dati di produttivit pervenuti dai responsabili
dei 4 stabilimenti del gruppo.
Tabella: Principali statistiche sulla produttivit dei 4 stabilimenti del gruppo STARTEL. I dati di base
sui quali sono state calcolate le statistiche sono a cadenza mensile.
Stabilimento
China 1 China 2 Reno Limerick
Numero mesi
20
14
30
12
Media mensile
67.4
68.6
48.1
87.3
Varianza mensile
46.6
28.8
40.2
64.5
Si valuti come la produttivit spiegata dagli stabilimenti attraverso un opportuno indice.
Esercizio 3
Il responsabile marketing della STARTEL Italia ha commissionato alla NELSON, un’agenzia di ricerche di
mercato, una rilevazione campionaria per conoscere quanto le famiglie italiane spenderanno in elettronica
di consumo (telefonia, computer, hi-fi, ecc.) nei prossimi 2 anni (2002-2003). Le principali statistiche
campionarie sul campione casuale semplice intervistato sono riportate in tabella.
Tabella: Principali statistiche campionarie sulla spesa delle famiglie italiane in elettronica di consumo
nel 2002-2003 (valori in Euro)
Famiglie intervistate 1o quartile mediana 3o quartile media varianza (non corretta)
1543
0
894.2
1060.3
713.8
218628
(A) Costruire l’intervallo di confidenza al 99.5 % per la vendita media, specificando le ipotesi e i principali
risultati teorici utilizzati per ricavarlo.
(B) Alla NELSON stata commissionata una rilevazione analoga per il mercato spagnolo. Per stabilire
la dimensione del campione da intervistare, la NELSON decide di sfruttare i risultati della rilevazione
italiana, accrescendo prudenzialmente la varianza (non corretta) del 30 %. Su questa base, quanto deve
essere n per ottenere un intervallo al 99.5 % per la spesa media di informativit pari a 34 ?
Esercizio 4
Dalla rilevazione effettuata in Italia di cui all’esercizio precedente emerso che non tutte le famiglie hanno
intenzione di fare acquisti di elettronica di consumo. In particolare fra le 1543 famiglie intervistate, quelle
che non hanno intenzione di acquistare nel biennio 2002-2003 il tipo di beni indicati sono state 424 .
(A) Sottoporre a test l’ipotesi nulla secondo la quale la percentuale di coloro che non hanno intenzione
di acquistare del 30 % contro l’alternativa che sia del 26 % mediante il p-value.
(B) Sulla base dei dati di cui al punto (A) determinare la potenza del test.
35.2
Soluzioni
Esercizio 1
69
Siano E = ”esame superato”; S = ”lezioni seguite regolarmente”. Si risolve attraverso la formula della
probabilit totale:
P (E) = P (E|S)P (S) + P (E|S)[1 − P (S)]
da cui sapendo P (E) = 0.76, P (E|S) = 0.87, P (E|S) = 0.69 si ricava P (S) = 0.38889.
Esercizio 2
Si risolve calcolando quanta parte della variabilit complessiva della produttivit spiegata dalla variabile
”stabilimento” (che forma i gruppi)
η2 =
14570.8
DevB
=
= 0.81465.
DevT
17886
Per il calcolo di DevB si dispone delle medie (xj ) e delle numerosit (nj ) di ciascun gruppo: prima si
calcola x = 63.1447 mediante la propriet di associativit e poi si applica la relativa formula. Il calcolo di
DevT deve essere fatto mediante
DevT = DevB + DevW = 14570.8 + 3315.2
DevW si trova prima trasformando le varianze (V arj ) di ciascun gruppo in P
devianze mediante Devj =
V arj nj (valori ottenuti: 932 , 403.2 , 1206 , 774 ) e poi calcolando DevW = j Devj .
Esercizio 3
(A) Il campione sufficientemente elevato per invocare il teorema del limite centrale (ed altre propriet
asintotiche) e considerare come pivot
X −µ
√ ≈ N (0, 1).
S/ n
√
Poiché x = 713.8, s2 = 218769.78, s = 467.73, n = 39.28, z = 2.807, l’intervallo al 99.5 % risulta
[680.38 ,747.22 ].
2zs
(B) Nelle condizioni dell’esercizio, l’informativit data da I = √ . Poiché l’aumento prudenziale della
n
varianza non corretta fornisce s2 = 284400.72, s = 533.29 ed inoltre I = 34, z = 2.807, si ottiene
n = 7755.
Esercizio 4
(A) Nelle ipotesi dell’esercizio, come variabile test si pu utilizzare
pb − p
p
≈ N (0, 1)
pq/n
p
dove: sotto H0 p = 0.3, sotto H1 p = 0.26. Poiché pb = 424/1543 = 0.2748, n = 1543, p0 q0 /n = 0.01167,
pb − p0
allora il valore della statistica test sotto H0 -2.161 , mentre il p-value P ( p
< −2.161|H0 ) =
p0 q0 /n
0.01535.
pb − p0
(B) Considerato α = 0.05 allora Regione di rifiuto per p
= (−∞, z = −1.645). Poniamo inoltre
p0 q0 /n
p
p
s0 = p0 q0 /n ed s1 = p1 q1 /n. Allora
γ = P(
pb − p0
pb − p1
p0 + zs0 − p1
< z|H1 ) = P (b
p < p0 +zs0 |H1 ) = P (
<
|H1 ) = P (Z < 1.864|H1 ) = 0.96882
s0
s1
s1
70
36
36.1
Compito del 08.01.2003
Testo
Esercizio 1
La BIGFRUIT una compagnia Neozelandese che produce ed esporta frutta. La produzione di kiwi,
proveniente per il 34 % dal consorzio NORD e per la parte restante dal consorzio SUD, commercializzata
in piccole cassette da 15 pezzi ciascuna. Per la stagione corrente i controlli effettuati hanno mostrato che
stata messa in commercio una media di 0.22 kiwi difettosi per cassetta nel consorzio NORD e una media
di 0.477 kiwi difettosi per cassetta nel consorzio SUD.
(A) Presa a caso una cassetta di kiwi BIGFRUIT, calcolare la probabilit che essa contenga almeno un
kiwi difettoso.
(B) Sapendo che in una cassetta non stato trovato alcun kiwi difettoso, determinare la probabilit che
questa provenga dal consorzio NORD.
Esercizio 2
La seguente tabella riporta la serie degli numeri indice a base mobile, rispetto all’anno precedente ed
espressi in percentuale, dei prezzi al consumo dei kiwi.
Anno
Indici a base mobile
1996
108.9
1997
95.9
1998
106.6
1999
91.6
2000
102.5
2001
107
2002
105.3
(A) Calcolare la serie dei numeri indice a base fissa con base 2000 = 100.
(B) La seguente tabella riporta il prezzo medio annuale (per kg e in $NZL) dei kiwi BIGFRUIT. Si
tuttavia persa memoria dei prezzi 1996 e 1997. Completare la tabella.
Anno
Prezzo BIGFRUIT
1996
...
1997
...
1998
0.7
1999
0.68
2000
0.52
2001
0.79
2002
0.83
Esercizio 3
Esportando prevalentemente in Europa Continentale, le vendite della BIGFRUIT possono risentire del
tasso di cambio $NZL-Euro. La tabella seguente riporta alcune statistiche calcolate sui dati annuali del
periodo 1985-2001 (V = Vendite BIGFRUIT in milioni di $NZL in Europa Continentale; T = tasso di
cambio $NZL-Euro).
Statistiche
Valori
M edia(V )
3282
M edia(T )
1.71
Dev(V )
161225
Dev(T )
3.3
Codev(V, T )
-620.3
(A) Si formuli un opportuno modello di regressione e se ne stimino i parametri (Aiuto: per la stima di
σ 2 si utilizzi la relazione Dev(residui) = Dev(y) − βb12 Dev(x)).
(B) Si sottoponga a test l’ipotesi che le vendite non siano significativamente influenzate dal tasso di
cambio.
Esercizio 4
La BIGFRUIT sta sperimentando un programma di lotta integrata per diminuire la quantit di pesticidi
utilizzati nella coltivazione dei kiwi. Per la lotta contro il pico-parassita, due campioni casuali di piante
sono stati sottoposti al trattamento tradizionale e a quello di lotta integrata con i risultati riportati nella
seguente tabella (variabile rilevata = numero di pico-parassiti catturati dalle trappole messe su ciascuna
pianta).
Statistiche
Tradizionale
Lotta integrata
piante
28
23
Q1
1809
1697
mediana
1911
1787
Q3
2011
1853
media
1921
1805
varianzacorretta
15057
29366
(1) Si formuli un opportuno modello e si sottoponga a test l’ipotesi nulla che il nuovo programma di lotta
integrata non sia migliore del vecchio (α = 0.005 ).
(2) Si calcoli il p-value utilizzando le tavole a disposizione.
71
36.2
Soluzioni
Esercizio 1
Xi = numero di kiwi difettosi nel consorzio i, con i = N, S. Allora (X|N ) ∼ Bi(n = 15, pN ) e (X|S) ∼
Bi(n = 15, pS ). Da E(X|N ) = npN = 0.22 ed E(X|S) = npS = 0.477 si ricava pN = 0.01467 e
pS = 0.0318.
(A) P (X ≥ 1) = 1 − P (X = 0) = 1 − 0.67887 = 0.32113 dove P (X = 0) = P (X = 0|N )P (N ) + P (X =
0|S)P (S) = 0.80121 ∗ 0.34 + 0.61585 ∗ 0.66 = 0.67887
(B) P (N |X = 0) =
0.80121 ∗ 0.34
P (X = 0|N )P (N )
=
= 0.40127
P (X = 0)
0.67887
Esercizio 2
xt
xt xt−1
=
partendo da x00 /x00 =
x00
xt−1 x00
xt
xt /xt+1
= 107. Per gli anni t < 2000 si utilizza iterativamente la relazione
=
=
x00
x00 /xt+1
(A) Per gli anni t > 2000 si utilizza iterativamente la relazione
100 e x01 /x00
xt+1 /x00
partendo da x00 /x00 = 100 e x00 /x99 = 102.5. Cos facendo si ottiene la serie
xt+1 /xt
Anno
Indici a base 2000
1996
104.2
1997
99.9
1998
106.5
1999
97.6
2000
100
2001
107
2002
112.7
(B) 97 I98 = x98 /x97 implica x97 = x98 /97 I98 = 0.7/1.066 = 0.6567. Sfruttando tale risultato x96 =
x97 /96 I97 = 0.6567/0.959 = 0.6847.
Esercizio 3
Modello: Vi = β0 + β1 Ti + ui dove ui ∼ (0, σ 2 ), con le solite ipotesi sugli ui
Codev(V, T )
−620.3
(A) βb1 =
=
= −188; βb0 = V − βb1 T = 3282 − −188 ∗ 1.71 = 3603.4; σ
b2 =
Dev(T )
3.3
[Dev(V ) − βb12 Dev(T )]/(n − 2) = (161225 − −1882 ∗ 3.3)/(17 − 2) = 2975.2
(B) H0 : β1 = 0 contro H1 : β1 6= 0. Come statistica test si utilizza
βb1 − β1
∼ T (n − 2), dove
σ
b(βb1 )
−188
βb1
=
= −6.2602
30.026
σ
b(βb1 )
σ
b2
. Il valore campionario della statistica test sotto H0
Dev(T )
σ
b2
2975.2
(b
σ 2 (βb1 ) =
=
= 901.56) mentre la regione di accettazione [-2.1314 ,2.1314 ].
Dev(T )
3.3
σ
b2 (βb1 ) =
Esercizio 4
(A) Si supponga XT ∼ (µT , σ 2 ) e XL ∼ (µL , σ 2 ). Allora H0 : µT − µL = 0 contro H1 : µT − µL > 0. Nelle
(X T − X L ) − (µT − µL )
condizioni dell’esercizio, come variabile test si pu utilizzare T = q
∼ T (n − 2). Il
Sp2 (1/nT + 1/nL )
valore campionario della statistica test sotto H0 q
dove (Sp2 =
XT − XL
Sp2 (1/nT + 1/nL )
=p
1921 − 1805
21481.45(1/28 + 1/23)
= 2.81,
ST2 (nT − 1) + SL2 (nL − 1)
15057 ∗ 27 + 29366 ∗ 22
=
= 21481.4) mentre la regione di rifiuto
nT + nL − 2
49
(2.68, +∞].
(B) p − value = P (T > 2.8124|H0 ) = 0.003527 con la T oppure 0.002458 con la Normale.
72
37
37.1
Compito del 23.01.2003
Testo
Esercizio 1
Al Manicomio del gelato, famosa gelateria gestita da un gelataio matto, un inserviente robot sceglie a
caso uno tra tre possibili gusti: nocciola, cioccolato e pistacchio con probabilità rispettivamente 0.17 ,
0.48 e 0.35 . Il gelataio matto aggiunge una ciliegia al gelato preparato dal robot con probablità 0.43 se
il gelato è alla nocciola, 0.52 se il gelato è al cioccolato oppure non aggiunge nulla.
(a) Con quale probabilità si riesce ad avere un gelato senza la ciliegina?
(b) Sapendo che ci è toccata la ciliegina sul gelato, con che probabilità ci è capitato un gelato al gusto di
nocciola ?
Esercizio 2
Il gelataio matto afferma di regalare una cialda ai clienti totalmente a caso. Sono stati osservati i clienti
della gelateria durante un weekend registrandone il sesso e se avevano ottenuto o meno la cialda in regalo.
I dati osservati sono riportati nella seguente tabella.
Sesso
Maschio
Femmina
Totale
Cialda in regalo
Si
No
31
55
153
22
184
77
Totale
86
175
261
(a) Calcolare un indice descrittivo che misuri l’indipendenza stocastica dell’assegnazione della cialda in
regalo dal sesso del cliente.
(b) Considerando i dati osservati come un campione casuale, calcolare un intervallo di confidenza al 99%
per la probabilità di ricevere una cialda in regalo.
Esercizio 3
Considerando i dati nella tabella dell’esercizio precedente come un campione casuale,
(a) verificare statisticamente che la proporzione di clienti di sesso femminile del Manicomio del gelato sia
pari a quella maschile, contro l’ipotesi che sia superiore (α = 0.05).
(b) Fissando nell’ipotesi alternativa la proporzione di femmine a 0.55, calcolare la probabilità dell’errore
di seconda specie. Il valore ottenuto mette in discussione il test statistico? Commentare.
Esercizio 4
Supponiamo di avere una popolazione di 5 numeri: {1, 3, 5, 7, 9 } e si supponga di estrarre un campione
di dimensione 3.
(a) Descrivere la distribuzione campionaria della mediana campionaria.
(b) La statistica del punto (a) viene utilizzata per stimare la mediana; calcolare la distorsione dello
stimatore.
37.2
Soluzioni
Esercizio 1
ΩG = {N, CC, P } per il gusto e ΩC = {C, C} per la ciliegina.
P (N ) = 0.1700
P (CC) = 0.4800
P (P ) = 0.3500
P (C|N ) = 0.4300
P (C|CC) = 0.5200
P (C|P ) = 0
P (C|N ) = 0.5700
P (C|CC) = 0.4800
P (C|P ) = 1
(a) P (C) = P (C|N ) · P (N ) + P (C|CC) · P (CC) + P (C|P ) · P (P ) = 0.6773
)·P (N )
(b) P (N |C) = P (C|N
= 0.2265
P (C)
Esercizio 2
(a)
C1 = 0.4541
C2 = 0.5296
73
C1r = 0.4541
C2r = 0.5296
CM = 0.4541/2
CP = 0.4680
(b) Intervallo di confidenza. p̂ = 0.7050
Intervallo di confidenza per p: [0.6323; 0.7777]
Esercizio 3
(a) Test d’ipotesi unilaterale su una proporzione con
H0 : p = 0.5 vs H1 : p > 0.5
p̂ = 0.6705 e σ0 = 0.0309
Zoss = 5.5090
Zcrit = 1.6449
Rifiuto H0
(b) β = P (P̂ < C0 |H1 ) = P (P̂ < 0.5 + 1.6449σ0 |H1 ) =
= P (P̂ < 0.5509|H1 ) = P (Z < 0.0295) = 0.5117
Il valore di β è elevato, ma, avendo rifiutato H0 , non si corre il rischio di commettere un errore di secondo
tipo.
Esercizio 4
(a) Ω = {(1, 3, 5)(1, 3, 7), (1, 3, 9), (1, 5, 7), (1, 5, 9), (1, 7, 9), (3, 5, 7), (3, 5, 9), (3, 7, 9), (5, 7, 9)}

3
 3 p = 10
4
5 p = 10
Me =

3
7 p = 10
(b) E[M e] = 5.00
d = M − E[M e] = 0
Mediana = M = 5
74
38
38.1
Compito del 10.02.2003
Testo
Esercizio 1
Siete un manager di una azienda. Per favorire un buon clima lavorativo, lo scorso anno avete offerto
pasticcini in quantità variabile. Fate una verifica sull’efficacia dell’incentivo misurando negli ultimi 8
mesi le variabili: X = spesa mensile per pasticcini in euro e Y = indicatore di produttività. I dati sono
riportati nella tabella seguente.
X
Y
196
59
232
53
187
64
203
62
245
47
242
49
191
65
238
51
(a) Calcolare un indice che misuri la dipendenza lineare tra X e Y e commentare.
(b) Si stimi un modelloPdi regressionePsemplice specificando
le ipotesi
P 2
P 2necessarie.
Si tenga presente che:
xi = 1734,
yi = 450,
xi = 380132,
yi = 25666.
Esercizio 2
Da un vostro collaboratore, ricevete un fax che contiene la seguente frase: “ Abbiamo condotto < numero
illeggibile forse di 3 cifre > interviste telefoniche, rilevando il possibile interesse all’acquisto del nostro
nuovo prodotto. I risultati indicano che la percentuale di persone interessate all’acquisto è compresa tra
il 18% e il 29% con confidenza 90% ”. Secondo voi, quante persone sono state intervistate?
(Suggerimento: per ricavare p̂, si noti che l’intervallo di confidenza è simmetrico rispetto a p̂)
Esercizio 3
Si consideri le seguenti funzioni:
0
F1 (x) =
1 2
8x
x≤0
altrove
F2 (x) =
1 − e−3x
0
0≤x<∞
altrove
(a) Quali di queste è una funzione di ripartizione?
(b) Calcolare la mediana della variabile aleatoria la cui funzione di ripartizione è stata individuata al
punto precedente.
Esercizio 4
Si conduce un esperimento per valutare l’efficacia del profumo al bergamotto sulla produttività. Viene
individuato un campione di 5 impiegati, a cui viene misurata la produttività in due giornate scelte a caso,
in una delle quali viene diffuso nel suo ufficio un leggero profumo di bergamotto. I dati ottenuti sono
riportati nella tabella seguente.
Impiegato
Produttività senza bergamotto
Produttività con bergamotto
A
70
81
B
81
81
C
60
62
D
66
69
E
73
78
(a) Ipotizzando che l’indicatore di produttività si distribuisca normalmente, si valuti, mediante opportuno
test, se il profumo migliora in media la produttività (α = 0.05).
(b) Si calcoli la potenza del test fissando nell’ipotesi alternativa l’incremento medio di produttività pari a
8.5. (Considerare nella tavola il valore più prossimo a quello che cercate, ricordando che la distribuzione
simmetrica).
38.2
Soluzioni
Esercizio 1
Coefficiente di correlazione ρ = −0.9727
Ipotesi classiche. Coefficienti di regressione α̂ = 116.788 β̂ = −0.2793.
Esercizio 2
75
La variabile di interesse ha distribuzione binomiale.
q
p̂)
Se n è abbastanza grande, l’intervallo per il parametro p è ⇒ p̂ ± zα\2 p̂(1−
n
Data la simmetria dell’intervallo rispetto a p̂, p̂ = 0.233 . zα\2 = 1.645
q
0.287 − 0.178 = 0.1092 · 1.645 0.233·0.767
da cui n ∼
= 162.
n
Esercizio 3
(a) F2 è una funzione di ripartizione; F1 non lo è in quanto non tende a 1.
(b) X continua. Me=mediana t.c. 0.5 = P (X ≤ M e) = F (M e) = 1 − e−2M e ⇒ M e = 0.231
Esercizio 4
(a) Test unilaterale per il confronto tra medie in campioni dipendenti.
Pongo D= (Prod con bergamotto) - (Prod senza bergamotto)
H0 : µD = 0 vs H1 : µD > 0
d = 4.200 σ̂D = 4.207 .
toss = 2.232 e tα = 2.132
Rifiuto H0
(b) 1 − β = P (d > C0 |H1 ) = P (d > 0 + 2.132σ̂D |H1 ) =
= P (d > 4.011|H1 ) = P (t > −2.386) = 0.962
N.B. Questo il valore esatto; l’uso delle tavole comporta necessariamente un’approssimazione.
76
39
39.1
Compito del 23.04.2003
Testo
Esercizio 1
La VEDALEC spa una catena di supermercati. I responsabili di tale catena per una certa zona territoriale
hanno in progetto di cambiare l’orario di apertura dei punti vendita situati nella zona di competenza. Per
saggiare il gradimento nei confronti del nuovo orario stata effettuata una rilevazione campionaria presso
la clientela VEDALEC. Il risultato della rilevazione riportato nella seguente tabella.
Maschi
Femmine
Maschi e femmine
Favorevoli
285
401
686
Contrari
355
288
643
Totale
640
689
1329
(A) Si sottoponga a test l’ipotesi nulla che ”la maggioranza non favorevole” al nuovo orario di apertura.
(B) Si determini la potenza del test in corrispondenza dell’ipotesi alternativa ”il 53 % della clientela
favorevole” al nuovo orario.
Esercizio 2
I responsabili VEDALEC hanno giudicato interessante approfondire se, in relazione al problema di cui
al precedente esercizio, maschi e femmine tendono a manifestare un diverso gradimento nei confronti del
nuovo orario.
(A) Si vuole misurare il diverso gradimento di maschi e femmine per il nuovo orario di apertura: si
proponga uno stimatore e se ne indichi la distribuzione (approssimata). Si fornisca inoltre una stima
delle grandezza d’interesse e della deviazione standard dello stimatore utilizzato.
(B) Si determini un intervallo di confidenza al 90 % per valutare la differenza di gradimento del nuovo
orario fra maschi e femmine.
Esercizio 3
Si assuma che i clienti VEDALEC siano alcuni milioni e che, estratto casualmente un cliente, la probabilit
che questo sia favorevole al nuovo orario sia esattamente quella stimata al punto A dell’esercizio 1. Estratti
a caso 383 clienti:
(A) Determinare media e varianza del numero di favorevoli al nuovo orario fra i 383 estratti.
(B) Utilizzando opportune approssimazioni, si determini l’intervallo, simmetrico rispetto alla media, entro
il quale si colloca il numero di favorevoli fra i 383 estratti col 98 % di probabilit.
Esercizio 4
Sulla base dei dati della rilevazione VEDALEC di cui all’esercizio 1, si misuri il grado di associazione fra
sesso e giudizio sul nuovo orario mediante un opportuno indice. Commentare il risultato.
39.2
Soluzioni
Esercizio 1
X ∼ Be(p), dove 1 = ’favorevole’ e 0 = ’non favorevole’. H0 : p ≤ 0.5 (da trasformare nella pratica in
H0 : p = 0.5) contro H1 : p > 0.5.
(A) La dimensione del campione autorizza a considerare come statistica test
pb − p0 H0
Z0 = p
≈ N (0, 1)
p0 q0 /n
dove p0 = 0.5. Poiché α = 0.05 allora la regionep
di rifiuto per
p Z0 (z = 1.6449,√+∞); inoltre pb =
686/1329 = 0.5162, p0 = 0.5 ed n p
= 1329 implicano p0 q0 /n = 0.5 ∗ 0.5/1329 = 0.000188 = 0.0137
e quindi z − empirico = (b
p − p0 )/ p0 q0 /n = 1.1795.
77
(B) Poniamo s0 =
Allora
γ = P(
p
p
p
√
p0 q0 /n = 0.0137 e s1 = p1 q1 /n = 0.53 ∗ (1 − 0.53)/1329 = 0.000187 = 0.0137.
pb − p0
pb − p1
p0 + zs0 − p1
> z|H1 ) = P (b
p > p0 +zs0 |H1 ) = P (
>
|H1 ) = P (Z > −0.5435|H1 ) = 0.70659
s0
s1
s1
Esercizio 2
(A) Come stimatore di pM − pF si pu utilizzare X M - X F , la cui distribuzione, in base alla dimensione
dei campioni di maschi e di femmine, pu essere approssimata da
N (pM − pF ,
pM qM
pF qF
+
).
nM
nF
Pertanto possiamo stimare pM con xM = 285/640 = 0.4453, pF con xF = 401/689 = 0.582, pM qM /nM
)/nF = 0.582(1 −
con xM (1 − xM )/nM = 0.4453(1 − 0.4453)/640 = 0.000386, pF qF /nF con xF (1 − xF √
0.582)/689
=
0.000353
e
infine
p
−p
con
0.4453−0.582
=
−0.1367
e
σ(X
−X
)
con
0.000386 + 0.000353 =
M
F
M
F
√
0.000739 = 0.027185.
(B) Dato che α = 0.9 allora z = 1.6449, che unito a quanto detto sopra porta all’intervallo di confidenza
cercato [−0.1367 − 1.6449 ∗ 0.0272, −0.1367 + 1.6449 ∗ 0.0272] = [−0.1814, −0.092].
Esercizio 3
(A) In base alle ipotesi dell’esercizio, l’opinione
Pnespressa da ciascun estratto, Xi si distribuisce come una
Bernoulli(p) e il numero di favorevoli X = i=1 Xi come una Binomiale(n, p). Allora E(X) = np =
383 ∗ 0.516 = 197.696 e V (X) = npq = 383 ∗ 0.516 ∗ 0.484 = 95.65.
(B) Il numero di unit abbastanza grande per giustificare l’approssimazione Binomiale(n, p) ≈ N (np, npq),
√
√
per cui l’intervallo cercato [np − z npq, np + z npq] = [197.696 − 2.326 ∗ 9.78, 197.696 + 2.326 ∗ 9.78] =
[174.944, 220.448].
Esercizio 4
nij
Maschi
Femmine
Favorevoli
285
401
Contrari
355
288
n∗ij
Maschi
Femmine
Favorevoli
330.35
355.65
Contrari
309.65
333.35
C1 = C1rel = 0.1365, C2 = C2rel = 0.13667, χ2 = 24.82362, φ2 = T = 0.01868, Cp = 0.135411.
78
40
40.1
Compito del 29.05.2003
Testo
Esercizio 1
In base alle quotazioni dell’ORO (X1 ) e del PALLADIO (X2 ) in un certo periodo, quotazioni espresse in
Euro per grammo, sono stati determinati i seguenti momenti: E(X1 ) = 9.75, E(X2 ) = 4.16, σ(X1 ) = 0.82,
σ(X2 ) = 0.49, ρ(X1 , X2 ) = 0.53 (si assuma che i momenti riportati siano quelli ”veri”, non quelli
campionari). Supponiamo di acquistare un portafoglio metalli pregiati costituito da 5.9 kg di ORO e 5.1
kg di PALLADIO.
(A) Si determini il valore atteso e la deviazione standard del portafoglio acquistato.
(B) Si determini la probabilit che il valore del portafoglio salga sopra i 78483 Euro (prezzo al quale
il portafoglio stato acquistato) assumendo che le quotazioni dei due metalli si distribuiscano in modo
Normale.
Esercizio 2
La quotazione di due titoli azionari del settore bancario, BANCA AQUILA e BANCA PECORA, stata
oggetto di osservazione per un periodo di 78 settimane. La seguente tabella riporta alcune statistiche
calcolate sui rendimenti settimanali (riportati su base annuale) delle due azioni confrontate con quelle
dell’intero settore bancario:
BANCA AQUILA
BANCA PECORA
Settore bancario
media
28.55
2.31
8.13
dev. st. corretta
36.8
19.57
9.92
1o quartile
1.67
-9.97
1.07
mediana
26.13
-0.41
7.85
3o quartile
57.89
11.69
14.27
(A) Per le sue analisi, un tizio vi ha chiesto un intervallo, affidabile al 98 %, per il rapporto fra le volatilit
dei 2 titoli bancari (N.B. dopo avergli chiesto una spiegazione il tizio vi ha detto che per volatilit dovete
intendere la deviazione standard). Utilizzando gli strumenti statistici da voi conosciuti, rispondete
alla sua richiesta dopo aver formulato le assunzioni necessarie, ivi inclusa l’assunzione che i rendimenti
delle due azioni siano indipendenti.
(B) La rivista specializzata PUNTO FINANZA pubblica periodicamente le proprie valutazioni. Per la
volatilit del titolo Banca Aquila la rivista ha pubblicato 3 stelle (ogni stella rappresenta una volatilit
pari a 10). Secondo voi la rivista ha previsto la volatilit in modo corretto? Si risponda alla domanda
formulando il problema in termini di test delle ipotesi ed esplicitando le assunzioni necessarie.
Esercizio 3
Con riferimento ai dati dell’esercizio precedente:
(A) Si sottoponga a test l’affermazione, contenuta in un articolo di PUNTO FINANZA, ”i due titoli
bancari considerati sopra si equivalgono dal punto di vista del rendimento medio”. Si risponda alla
domanda dopo aver formulato le assunzioni necessarie, ivi inclusa l’assunzione che i rendimenti delle due
azioni siano indipendenti.
(B) Si calcoli la potenza del test utilizzato al punto precedente, in corrispondenza di una formulazione
dell’ipotesi alternativa ”rendimento di Banca Pecora inferiore di 7 punti a quello di Banca Aquila”.
Esercizio 4
Partendo dai dati sui quali sono state calcolate le statistiche dell’esercizio 2, PUNTO FINANZA ha
stimato con i minimi quadrati un modello lineare per analizzare in che modo i rendimenti di BANCA
PECORA sono legati a quelli dell’intero settore bancario. Del modello ha pubblicato soltanto le seguenti
stime: βb0 = −0.441, βb1 = 0.338.
(A) Si fornisca la stima dei minimi quadrati di σ.
(B) Si calcoli l’intervallo di previsione per il rendimento di Banca Pecora nel caso in cui il mercato abbia
un rendimento pari a 27 .
79
40.2
Soluzioni
Esercizio 1
(A) Valore atteso e varianza del portafoglio metalli preziosi possono essere ricavati facilmente dalle formule dei momenti per combinazioni lineari di v.c.: E(port.) = E(p1 X1 + p2 X2 ) = p1 E(X1 ) + p2 E(X2 )
V (port.) = V (p1 X1 + p2 X2 ) = p21 V (X1 ) + p22 V (X2 ) + 2p1 p2 C(X1 , X2 ). Sostituendo p1 = 5900, p2 =
5100, E(X1 ) = 9.75, E(X2 ) = 4.16, V (X1 ) = 0.822 = 0.67, V (X2 ) = 0.492 = 0.24, p
C(X1 , X2 ) =
V (port.) =
ρσ(X
)σ(X
)
=
0.53
∗
0.82
∗
0.49
=
0.213
si
ottiene
E(port.)
=
78741,
σ(port.)
=
1
2
√
42466816.72 = 6516.66.
(B) Si sfrutta la propriet che la combinazione di v.c. Normali a sua volta Normale. Quindi, in base ai
calcoli fatti sopra, P (port. > 78483) = P (Z > (78483 − 78741)/6516.66) = P (Z > −0.0396) = 0.5158.
Esercizio 2
(A) X = rendimento di BANCA AQUILA, Y = rendimento di BANCA PECORA: si assume X ∼
2
2
N (µX , σX
), Y ∼ N (µY , σY2 ) indipendenti. Prima si costruisce l’intervallo di confidenza per σX
/σY2
2
s2X
SY2
s2X
σX
utilizzando come pivot 2 2 ∼ F (n − 1, m − 1), ovvero [ 2 , 2 ] = [2.0708, 6.038] dove s2X =
σY S X
sY c2 sY c1
36.82 = 1354.24, s2Y = 19.572 = 382.9849 sono ricavati dalle statistiche della tabella mentre c1 = 0.5856
e c2 = 1.7076 sono ricavati dalle tavole della F (77, 77) (1 − α = 0.95); poi si fa la radice quadrata dei 2
estremi di tale intervallo per ricavare quello cercato [1.439 , 2.4572 ].
(B) Come sopra si assume X ∼ N (µ, σ 2 ) e si sottopone a test H0 : σ = 30 contro H1 : σ 6= 30. Come v.c.
test si utilizza (n − 1)S 2 /σ 2 ∼ χ2 (n − 1), che sotto H0 vale ((n − 1)S 2 /σ02 |H0 ) ∼ χ2 (n − 1). La regione di
accettazione per la statistica indicata (scegliendo α = 0.05) data da [54.6234 ,103.1581 ], da confrontare
col valore campionario (n − 1)s2 /σ02 = (78 − 1) ∗ 36.82 /302 = 115.8628.
Esercizio 3
(A) Le assunzioni sono identiche a quelle formulate al punto A dell’esercizio precedente. Si deve sottoporre
a test H0 : µX − µY = 0 contro H1 : µX − µY 6= 0. Considerata la dimensione dei campioni a disposizione,
X − Y − (µX − µY )
X −Y
≈ N (0, 1), che sotto H0 vale ( p 2
|H0 ) ≈
si pu utilizzare la v.c. test p 2
2
2 /n
SX /mp
+ SY /n
S
/m
+
S
X
Y
p
N (0, 1). Indicando per brevit s =
s2X /m + s2Y /n =
36.82 /78 + 19.572 /78 = 4.7193, la regione
di accettazione per la statistica X − Y (scegliendo α = 0.05) allora data da [c1 , c2 ] = [−zs, zs] =
[−9.2497, 9.2497], dove z = 1.96. La regione di accettazione deve essere confrontata col valore campionario
x − y = 28.55 − 2.31 = 26.24.
(B) La formulazione dell’alternativa µX − µY = 7. Allora γ = P (campione ∈ R|H1 ) = 1 − P (campione ∈
A|H1 ) = 1 − P (c1 ≤ X − Y ≤ c2 |H1 ) = 1 − P [(c1 − 7)/s ≤ Z ≤ (c2 − 7)/s|H1 ) = 1 − P [−3.4432 ≤ Z ≤
0.4767|H1 ) = 1 − (0.6832 − 0.0003) = 0.3171.
Esercizio 4
(A) y = BANCA PECORA e x = settore bancario, la stima dei minimi quadrati di σ pu essere ottenuta
con la formula seguente: σ
b2 = (dev(y) − β12 dev(x))/(n − 2) = (29489.8373 − 0.3382 ∗ 7577.2928)/(78 − 2) =
376.6339, da cui σ
b = 19.4071. Le due devianze sono calcolate dalle deviazioni standard: dev(x) =
(n − 1)s2X = (78 − 1) ∗ 9.922 = 7577.2928, dev(y) = (n − 1)s2Y = (78 − 1) ∗ 19.572 = 29489.8373.
c2 (E[y(x
\0 )] = βb0 + βb1 x0 = −0.441 + 0.338 ∗ 27 = 8.685, s2 = σ
\0 )]) = (1/n + (x −
(B) m = E[y(x
2
2
2
x0 ) /dev(x))b
σ = (1/78 + (8.13 − 27) /7577.2928) ∗ 376.6339 = 22.5277, da cui s = 4.7463. L’intervallo
allora [m − ts, m + ts] = [−0.7681, 18.1381], dove t = 1.9917.
80
41
41.1
Compito del 04.06.2003
Testo
Esercizio 1
S
Sia Ω uno spazio campionario e siano A e B due eventi di Ω, con P (A) = 0.36 e P (A B) = 0.91 . Si
calcoli P (B) nei seguenti due casi:
(a) I due eventi sono indipendenti.
(b) I due eventi sono incompatibili. In questo caso sono indipendenti?
Esercizio 2
In un sondaggio condotto su 100 fiorentini è stato rilevato che 48 si recheranno a votare per il prossimo
referendum e 52 no. Per la validità del referendum più del 50% degli aventi diritto deve recarsi alle urne.
(a) Calcolare l’intervallo di confidenza per la proporzione di coloro che andranno a votare (1 − α = 0.95).
(b) E’ possibile affermare che il quorum verrà raggiunto? Rispondere al quesito utilizzando un appropriato
test d’ipotesi (α = 0.05).
Esercizio 3
Si vuole verificare se il reddito lordo medio dei non intenzionati a votare è superiore di quello degli
intenzionati a votare. Il sondaggio ha fornito i seguenti risultati.
Statistiche calcolate sul campione sottoposto a sondaggio
Numerosità
Media del reddito
Devianza del reddito
Intenzionati a votare
48
18457
1992729600
Non intenzionati a votare
52
21475
3701505600
(a) Sia X 2 il reddito medio campionario dei non intenzionati a votare e X 1 quello degli intenzionati a
votare. Indicare la distribuzione campionaria di X 2 − X 1 specificando le assunzioni necessarie.
(b) Si sottoponga a verifica l’ipotesi ”il reddito medio dei non intenzionati a votare non è superiore a
quello degli intenzionati a votare” (α = 0.01).
(c) Calcolare la potenza del test nel caso in cui l’ipotesi alternativa sia ”il reddito medio dei non votanti
supera quello dei votanti di 5000 euro”, assumendo che la varianza ”vera” del reddito sia 41515149 per i
votanti e 71182745 per i non votanti.
Esercizio 4
La stessa indagine dell’esercizio 2 è stata condotta a Milano su un campione di 140 residenti: 41 intervistati hanno dichiarato che intendono recarsi alle urne e 99 no.
(a) Indicare uno stimatore corretto della differenza tra la proporzione di votanti a Firenze e a Milano ed
la sua deviazione standard. Fornire una stima di tale deviazione standard.
(b) Verificare se i risultati campionari evidenziano una diversa tendenza alla partecipazione al referendum
tra milanesi e fiorentini.
41.2
Soluzioni
Esercizio
1
S
T
P (A S B) = P (A) + P (B) − P (A B) = P (A) + P (B) − P (A)P (B), da cui: P (B) = 0.8594
P (A B) = P (A) + P (B), da cui P (B) = 0.5500
Esercizio 2
p̂ = 0.4800
(a) Intervallo di confidenza per p: [0.3821; 0.5779]
81
(b) Test d’ipotesi unilaterale su una proporzione con H0 : p ≥ 0.5 e H1 : p < 0.5.
Zoss = −0.4000, Zcrit = −1.6449, Accetto H0
Esercizio 3
(X 2 − X 1 ) − (µ2 − µ1 )
p
∼ T (m + n − 2);
Spooled 1/m + 1/n
oppure, assumendo che Xi ∼ N (µi , σi2 ), i = 1, 2, e sfruttando la dimensione sufficientemente grande dei
(X 2 − X 1 ) − (µ2 − µ1 )
p
≈ N (0, 1)
due campioni, si ha che
S22 /n + S12 /m
(b) Test d’ipotesi unilaterale su differenza tra medie per (campioni indipendenti): H0 : µ2 −µ1 ≤ 0 contro
H1 : µ2 − µ1 > 0.
s1 =6511.413
, s2 =8519.304 , spooled = 7622.627 , numeratore(Z) = x2 −x1 = 3018.000 , denominatore(Z) =
p
spooled 1/m + 1/n = 1525.746 , Zoss =1.978 Zcrit = 2.326 , Accetto H0
oppure
p
s1 =6511.413 , s2 =8519.304 , numeratore(Z) = x2 −x1 = 3018.000 , denominatore(Z) = s21 /m + s22 /n
= 1524.862 , Zoss =1.979 Zcrit = 2.326 , Accetto H0
(c) Potenza: 0.8459
a) Assumendo che Xi ∼ N (µi , σ 2 ), i = 1, 2, si ha che
Esercizio 4
p̂F q̂F
p̂M q̂M
+
=0.0630
(a) Stimatore: p̂M − p̂F . σ(p̂M − p̂F ) :
nM
nF
(b) Test d’ipotesi bilaterale sulla differenza tra proporzioni con Hp
0 : pF − pM = 0 e α = 0.05.
p̂q̂(1/m + 1/n) = 0.0632 dove p̂ =
p̂F = 0.4800 p̂M = 0.2929, per cui, sotto H0 σ(p̂F − p̂M ) =
(p̂F m + p̂M n)/(m + n) = 0.3708
Zoss = (p̂F − p̂M )/σ(p̂F − p̂M ) = 2.9591
Zcrit = ±1.9600
Rifiuto H0
82
42
42.1
Compito del 25.06.2003
Testo
Esercizio 1
L’UNIONE INDUSTRIALI di Lecco ha effettuato, presso le imprese associate, una rilevazione congiunturale per conto della CONFINDUSTRIA. A ciascuna impresa stato chiesto se, rispetto al semestre in
corso, nel prossimo si aspetta ordinativi in calo, stabili o in crescita. Le risposte sono riportate nella
seguente tabella.
Tendenza ordinativi
In calo
32
Stabili
72
In crescita
28
Totale
132
Si consideri la v.c. che associa alla ”tendenza degli ordinativi”, secondo le classi indicate, rispettivamente
i valori -1, 0 ed 1 con probabilit uguali alle frequenze relative ricavabili dalla tabella.
(A) Si disegni la funzione di massa della v.c.
(B) Si determini il valore atteso e la deviazione standard della v.c.
(C) Si disegni la funzione di ripartizione della v.c.
Esercizio 2
L’UNIONE INDUSTRIALI di Lecco ha anche chiesto a ciascuna delle 132 imprese associate di indicare,
in percentuale, di quanto variato il proprio fatturato nel semestre in corso rispetto a quello precedente.
Le principali statistiche della rilevazione sono riportate nella seguente tabella.
Variazione % fatturato
media
-1.5
varianza corretta
240.57
1o quartile
-13.08
mediana
-2.46
3o quartile
10.48
Si indichi con X la variazione del fatturato rispetto al semestre precedente e si assuma che la sua
distribuzione sia approssimativamente normale.
(A) Fornire una stima puntuale e una stima per intervallo (1 − α = 0.9) della deviazione standard di X.
(B) Sfruttando le informazioni di questa rilevazione si determini la dimensione del campione da intervistare nel caso in cui si voglia ottenere un intervallo di confidenza per la media di X di ampiezza 4.42 al
livello di confidenza 0.99 .
Esercizio 3
Negli ultimi 10 giorni lavorativi, all’UNIONE INDUSTRIALI di Lecco sono giunte le seguenti richieste
di CIG (Cassa integrazione guadagni):
Lu 2 Ma 3 Me 4 Gio 5 Ve 6 Lu 9 Ma 10 Me 11 Gio 12 Ve 13
Richieste di CIG
3
5
5
5
6
2
7
5
8
6
(A) Si scelga, fra quelli noti, il modello probabilistico pi opportuno per rappresentare la v.c. ”numero di
richieste giornaliere di CIG” e stimarne il parametro.
(B) Sulla base del campione sottoporre a test l’affermazione, fatta dall’UNIONE INDUSTRIALI di Lecco,
”in questo periodo si riceve una media di 4.7 richieste di CIG al giorno” contro l’affermazione alternativa ”la media delle richieste giornaliere di CIG inferiore a quanto dichiarato” (α = 0.1). Malgrado la
dimensione del campione sia modesta, si risolva il problema ricorrendo ad opportune approssimazioni.
Esercizio 4
Si considerino i dati e il problema di cui all’esercizio 3:
(A) Si determini la potenza del test costruito all’esercizio precedente in corrispondenza dell’ipotesi
alternativa ”il numero medio di richieste giornaliere di CIG 4.2 ”.
(B) Nelle condizioni di cui al punto A si determini la dimensione del campione necessaria per ottenere
una potenza del test pari a 0.87 .
83
42.2
Soluzioni
Esercizio 1
Sia X la v.c. considerata. Le soluzioni si ricavano in base al prospetto di calcolo sotto riportato: la
funzione di massa data dalle prime
due righe;
E(X) = −0.0303; V (X) = E(X 2 ) − E(X)2 = 0.4545 −
p
√
2
−0.0303 = 0.4536; σ(X) = V (X) = 0.4536 = 0.6735; la funzione di ripartizione riportata nelle
ultime due righe.
x
f (x)
xf (x)
x2 f (x)
x
F (x)
-1
0.2424
-0.2424
0.2424
< −1
0
0
0.5455
0
0
∈ [−1, 0)
0.2424
1
0.2121
0.2121
0.2121
∈ [0, 1)
0.7879
altrove
0
0
0
≥1
1
Totale
1
E(X) = -0.0303
E(X 2 ) = 0.4545
Esercizio 2
√
(A) Stima puntuale: s = 240.57 = 15.5103. Stima per intervallo: 1. prima si costruisce l’intervallo per
σ 2 mediante il pivot (n − 1)S 2 /σ 2 ∼ χ2 (n − 1): [(n − 1)s2 /c2 , (n − 1)s2 /c1 ] = [198.5652, 298.5468], dove
n = 132, S 2 = 240.57, α = 0.1, c1 = 105.5602, c2 = 158.7119; 2. poi si fa la radice dei due estremi per
trovare l’intervallo per σ: [14.0913, 17.2785].
√
(B) L’ampiezza dell’intervallo per µ data da A = 2zσ/ n. Ricavando n si ottiene n = (2zσ/A)2 =
18.07782 = 326.8068 ' 327 dove α = 0.01, z = 2.5758, A = 4.42 e σ stimato con 15.5103 .
Esercizio 3
Sia X la v.c. ”numero di richieste giornaliere di CIG”. Si assume X ∼ P oisson(λ).
b = x = 52/10 = 5.2.
(A) λ
(B) H0 : λ = λ0 contro H1 : λ < λ0 , dove λ0 = 4.7. Ricorrendo all’approssimazione normale si ha
X ' N (λ,pλ/n) per cui, sotto H0 , (X|H0 ) ≈ N (λ0 , λ0 /n). Per decidere si confronta z − empirico =
(x − λp
0 )/ λ0 /n = 0.7293 contro R = (−∞, z = −1.2816)
p oppure x = 5.2 contro R = (−∞, c =
λ0 + z λ0 /n = 3.8214, dove α = 0.1, n = 10, λ0 /n = 0.47, λ0 /n = 0.6856.
Esercizio 4
Rispetto all’esercizio precedente abbiamo H1 : λ = λ1 , dove λ1 = 4.2.
p
p
(A) γ = P (X ∈ R|H1 ) = P (X < c|H1 ) = P [(X
p− λ1 )/ λ1 /n < (c − λ1 )/ λ1 /n|H1 ] = P (Z <
−0.5842) = 0.2796, dove c = 3.8214, λ1 /n = 0.42 e λ1 /n = 0.6481.
p
(B) Sfruttando i passaggi visti
p sopra abbiamo γ = P [Z < (c − λ1 )/ λ1 /n|H1 ]. Essendo γ = 0.87
allora, dalle tavole, (c − λ1 )/ λ1 /n = 1.1264. Sostituendo a c la sua espressione
(non il suo valore,
p
perché questo calcolato
con
n
=
10,
non
con
l’n
da
trovare!)
cio
c
=
λ
+
z
λ
/n,
possiamo
ricavare n:
0
0
p
√
√
√
√
√
√
1.1264 = (c − λ1 )/ λ1 /n = n(λ0 − λ1 )/ λ1 + z λ0 / λ1 = n0.244 + −1.3557, da cui n = 10.1735
e n = 103.5002 ' 104.
84
43
43.1
Compito del 17.07.2003
Testo
Esercizio 1 Un’associazione di consumatori ritiene che troppe confezioni di gelato IceIce siano sottopeso.
Un rappresentante si reca in un supermercato e ne compra 8 a caso.
(a) Se nel bancofrigo del supermercato c’erano in tutto 26 confezioni, di cui 11 sottopeso, qual è la
probabilità che nel campione acquistato ve ne siano più di 6 sottopeso?
(b) Si supponga ora di non sapere quante delle 26 confezioni del bancofrigo siano sottopeso, ma solo che
la loro proporzione è identica a quella prodotta dalla IceIce. Si vuole sottoporre a test l’ipotesi H0 che
la proporzione delle confezioni sottopeso sia 0.5 contro l’ipotesi alternativa che sia > 0.5 utilizzando la
regola decisionale ”si rifiuta H0 se il campione ha più di 6 confezioni sottopeso”. Calcolare la probabilità
di commettere un errore di primo tipo utilizzando la definizione
Esercizio 2 Si decide di valutare anche il peso delle confezioni. Si comprano 5 nuove confezioni a caso.
Il peso delle confezioni campionate è riportato nella tabella seguente.
Peso in grammi
495.5
498.8
501.2
499.2
500.0
(a) Verificare se il peso medio delle confezioni di gelato sia pari a 500gr contro l’ipotesi che sia inferiore
(α = 0.05), ipotizzando che il peso si distribuisce normalmente.
(b) Determinare l’intervallo di confidenza per la deviazione standard del peso delle confezioni (1 − α =
0.99).
Esercizio 3 La IceIce si giutifica dicendo che il problema si limita al macchinario che confeziona il gusto
cioccolato. L’associazione effettua quindi un’indagine estesa, classificando le confezioni sia per peso che
gusto. Le frequenze ottenuti sono riportate nella tabella seguente.
Cioccolato
Altri gusti
Sottopeso
36
31
Non sottopeso
26
32
(a) Sulla base delle frequenze riportate ricavare le distribuzioni probabilità condizionate del peso dato
cioccolato e del peso dato altri gusti.
(b) Verificare la veridicità della giustificazione delle IceIce mediante un test del confronto fra proporzioni
in sottopeso per i due gusti (α = 0.05).
Esercizio 4 Ancora una volta si decide di esaminare il peso delle confezioni. Si estraggono due campioni
di confezioni, uno al cioccolato, l’altro di altri gusti. Alcune statistiche dei due campioni sono riportati
nella tabella seguente.
Gusto
Cioccolato
Altri gusti
numero osservazioni
5
5
media
494.80
500.20
deviazione standard corretta
2.80
3.70
(a) Sottoporre a test l’ipotesi di uguaglianza fra le varianze del peso per i due gusti (α = 0.01).
(b) Calcolare un intervallo di confidenza per la differenza del peso medio delle confezioni nei due gusti
(1 − α = 0.95)
43.2
Soluzioni
Esercizio 1
(a) P (X ≥ 7) = P (X = 7) + P (X = 8) = 0.00317 +0.00011 = 0.00327 , calcolata dalla ipergeometrica
con N =26 , K =11 , n =8
(b) α = P (campione ∈ R|H0 ) = P (X ≥ 7|H0 ) = P (X = 7|H0 ) + P (X = 8|H0 ) = 0.01428 +0.00082
85
=0.01510 , calcolata dalla ipergeometrica con N =26 , K = N p0 = 13 , n =8
Esercizio 2
(a) Test d’ipotesi unilaterale su una media, con varianza ignota.
H0 : µ = 500 vs H1 : µ < 500
x = 498.9400, toss = −1.1127 e tα = −2.1318
Accetto H0
(b) L’intervallo deriva da quello per la varianza, media ignota.
1.2215 ≤ σ 2 ≤ 87.6954 .
1.1052 ≤ σ ≤ 9.3646 .
Esercizio 3
(a)
P (sottop.|ciocco.) = 0.5806 P (nonsottop.|ciocco.) = 0.4194
P (sottop.|altri) = 0.4921 P (nonsottop.|altri) = 0.5079
(b) Test per il confronto tra proporzioni.
cioccolato e pa quella degli altri gusti.
H0 : pc − pa = 0 vs H1 : pc − pa > 0
p̂c = 0.5806
p̂a = 0.4921
zoss = 0.9970
Zcrit = 1.6449
Accetto H0
Chiamo pc la proporzione di sottopeso delle confezioni al
Esercizio 4
(a) Test per il confronto tra varianze.
H0 : σc2 = σa2 vs H1 : σc2 6= σa2
σ̂a2 = 13.6900
σ̂c2 = 7.8400
Foss = 0.5727
Fcrit,α/2 = 0.0432
Fcrit,(1−α/2) = 23.1545
Accetto H0
(b) Intervallo di confidenza per la differenza di medie, sapendo, che le variabili sono Normali e, dal
punto precedente, che le varianze sono uguali.
−10.1852 ≤ µc − µa ≤ −0.6148.
86
44
44.1
Compito del 05.09.2003
Testo
Esercizio 1
Una legge di un Paese straniero stabilisce che il limite di velocit sulle strade extra-urbane deve essere fissato
secondo criteri statistici. Una rilevazione effettuata su un certo tratto di strada misurando la velocit di
percorrenza dei veicoli, secondo i criteri stabiliti in tale legge, ha fornito i risultati della seguente tabella.
Velocit (km/h)
Autovetture
[0,50)
97
[50,60)
583
[60,70)
1587
[70,90)
2780
[90,110)
198
[110,150]
1
Totale
5246
(A) Si rappresenti graficamente la distribuzione della velocit.
(B) Supponendo di disporre soltanto dei dati della tabella, si determini a quale valore dovrebbe essere
fissato il limite di velocit, che secondo la legge deve essere pari al terzo quartile della distribuzione di tale
variabile.
Esercizio 2
Un’analisi grafica della distribuzione della velocit di cui al precedente esercizio suggerisce che la stessa
pu essere rappresentata abbastanza bene mediante una distribuzione Normale.
(A) Si ricavi il valore dei parametri di tale distribuzione uguagliando i valori teorici della mediana e dello
scarto interquartile ai corrispondenti valori empirici.
(B) In base alla distribuzione normale ottenuta, entro quale intervallo, simmetrico rispetto alla media,
compresa la velocit del 80 % delle autovetture?
Esercizio 3
Al fine di limitare gli incidenti stata introdotta una nuova disposizione di legge. La seguente tabella
confronta il numero di incidenti rilevati su un certo tratto di strada nelle stesse 5 settimane del 2002 e
del 2003:
Settimana
Incidenti anno 2002
Incidenti anno 2003
4a Giugno
17
19
1a Luglio
28
17
2a Luglio
20
16
3a Luglio
19
19
4a Luglio
20
14
(A) Si sottoponga a test l’ipotesi nulla che, in media, il nuovo provvedimento legislativo non abbia
diminuito il numero di incidenti, specificando le ipotesi necessarie.
(B) Si determini la potenza del test in corrispondenza dell’ipotesi alternativa ”nel tratto di strada considerato si avuta in media una diminuzione di 8 incidenti alla settimana” (pur non essendo completamente
giustificata si utilizzi l’approssimazione Normale della v.c. test considerata).
Esercizio 4
Per aumentare il livello di sicurezza, sono stati aumentati i controlli sulle strade, con particolare riguardo
al livello di alcool nel sangue. A questo proposito, in uno studio condotto su un campione di 67 individui
di sesso maschile stato utilizzato il modello di regressione y = β0 + β1 x + u per valutare la relazione
fra x = tasso di alcool nel sangue in g/l e y = tempi di reazione ad uno stimolo (come un ostacolo
in avvicinamento) in secondi. Le stime ottenute sono state βb0 = 0.287, βb1 = 0.7696, σ
b = 0.05017,
b
b
b
b
d
σ
b(β0 ) = 0.01277, σ
b(β1 ) = 0.01829, Cov(β0 , β1 ) = −0.0002.
(A) Si costruisca un intervallo di confidenza al 99 % per σ.
(B) Si stimi il residuo per l’osservazione di coordinate (xi , yi ) = (1.1959 , 1.2278 ).
(C) Si sottoponga a test l’ipotesi nulla che ”ad un livello di alcool nel sangue pari a 0.8 g/l (limite di
legge) i tempi medi di reazione sono pari a 0.9 secondi”.
44.2
Soluzioni
Esercizio 1
(A) Variabile continua raggruppata in classi: rappresentazione grafica istogramma.
87
Velocit (km/h)
Autovetture
ampiezza di classe (basi)
densit di frequenza (altezze)
[0,50)
97
50
1.94
[50,60)
583
10
58.3
[60,70)
1587
10
158.7
[70,90)
2780
20
139
[90,110)
198
20
9.9
[110,150)
1
40
0.025
Totale
5246
(B) La classe contenente Q3 [70 , 90 ], che ha densit 139 e lascia a sinistra una frequenza pari a 2267 .
Allora Q3 = 70 + (0.75 ∗ 5246 − 2267)/139 = 81.996.
Esercizio 2
(A) Per le caratteristiche della distribuzione Normale abbiamo µ = mediana empirica, Q3 = µ + σz0.75
e Q1 = µ + σz0.25 = µ − σz0.75 , da cui µ = mediana empirica = 72.561 , σ = (Q3 − Q1 )/(2z0.75 ) =
(63.979 − 81.996)/(2 ∗ 0.674) = 13.356.
(B) 0.8 = P (a ≤ X ≤ b) = P [(a − µ)/σ ≤ (X − µ)/σ ≤ (b − µ)/σ] = P (−z ≤ Z ≤ z). Dalle tavole
z = 1.282 e quindi a = µ − σz = 55.445, b = µ + σz = 89.678.
Esercizio 3
Test per dati appaiati. Si lavora sulle differenze D = X2002 − X2003 ipotizzando D ∼ N [µD , σ 2 ], con
H0 : µD ≤ 0 vs H1 : µD > 0. L’ipotesi nulla, sulla base della teoria, trasformata in H0 : µD = 0 e il
campione estratto da D risulta
Settimana
d
4a Giugno
-2
1a Luglio
11
2a Luglio
4
3a Luglio
0
4a Luglio
6
(A) La v.c.
[D −
√ test D, la cui distribuzione, nelle assunzioni di cui sopra, data in generale da √
µD ]/[SD / n] ∼ T (n − 1). Allora 0.05 = P [campione ∈ R|H0 ] = P [D > c|H0 ], dove c = 0 + tSD / n =
6.3556 (t = 2.7764, SD = 5.1186, n = 5), da confrontare col valore campionario d = 3.8.
√
√
(B) γ = P [campione ∈ R|H1 ] = P [D > c|H1 ] = P [(D − 8)/(SD / n) > (c − 8)/(SD / n)|H1 ] = P [T >
−0.7184|H1 ] = 0.7439 se si usa la T (4) oppure = 0.7637 se si usa l’approssimazione Normale.
Esercizio 4
(A) Pivot: (n − 2)b
σ 2 /σ 2 ∼ χ2 (n − 2). L’intervallo al 99 % per σ 2 [b
σ 2 (n − 2)/c2 , σ
b2 (n − 2)/c1 ] =
2
[0.001668, 0.004154], dove c1 = 39.3831, c2 = 98.1051, σ
b = 0.002517 e n = 67. Per trovare l’intervallo
per σ basta fare la radice dei due estremi dell’intervallo per σ 2 : [0.040837, 0.064453].
(B) u
bi = yi − βb0 − βb1 xi = 1.2278 − 0.287 − 0.7696 ∗ 1.1959 = 0.020435.
(C) Per brevit si indichi E(y|x = 0.8) = β0 + β1 0.8 = m. Allora H0 : m = 0.9 vs H1 : m 6= 0.9. La v.c.
test m
b = βb0 + βb1 0.8, il cui valore
q campionario 0.287 + 0.7696 ∗ 0.8 = 0.9027, la√cui deviazione standard
b2 (βb0 ) + 0.82 σ
b2 (βb1 ) + 2 ∗ 0.8 ∗ Cov(βb0 , βb1 ) = 5.72e − 005 = 0.00756 e
pu essere stimata con σ
b(m)
b = σ
la cui distribuzione, nelle assunzioni di cui sopra, data in generale da [m
b − m]/b
σ (m)
b ∼ T (n − 2). Allora
0.95 = P [campione ∈ A|H0 ] = P [c1 ≤ m
b ≤ c2 |H0 ], dove c1 = 0.9 − tb
σ (m)
b = 0.8849, c2 = 0.9 + tb
σ (m)
b =
0.9151 (t = 1.9971 ), da confrontare col valore campionario m
b = 0.9027.
88
45
Compito del 18.09.2003
45.1
Testo
Esercizio 1
Un dirigente della GIKE-sport ha deciso di analizzare il comportamento di acquisto dei clienti del principale punto vendita. Dopo aver estratto un campione casuale di scontrini relativi al semestre INVERNALE
ottobre-marzo, su suggerimento ha iniziato a studiare la variabile X = logaritmo naturale dell’importo
di uno scontrino. Dai dati del campione ha ricostruito la seguente distribuzione di frequenza per X.
x
n. scontrini
[2.3,3.4)
44
[3.4,4.1)
47
[4.1,4.7)
39
[4.7,5.3)
25
[5.3,6)
14
[6,7]
1
Totale
170
(A) Si rappresenti graficamente la distribuzione di X rilevata nel campione.
(B) Un cliente sta pagando la merce acquistata ad una cassa riservata a coloro che spendono meno di
200 Euro (N.B. arrotondato, il logaritmo naturale di 200 5.3). Ipotizzando che il cliente sia stato estratto
casualmente secondo la distribuzione di probabilit ricavabile dalla tabella, determinare la probabilit che
egli spenda meno di 60 Euro (N.B. arrotondato, il logaritmo naturale di 60 4.1).
Esercizio 2
Il dirigente della GIKE-sport ha proseguito nell’analisi. Dal grafico di cui al punto precedente egli ha
notato che la distribuzione di X pu essere bene approssimata da una Normale. Sul campione ha allora
calcolato le seguenti statistiche:
Media
4.036
Varianza corretta
0.828
Mediana
4.022
(A) Si suggerisca, fornendone l’espressione analitica, uno stimatore per la media di X e uno per la
deviazione standard di X, giustificando la scelta. In base a questi si fornisca la stima della media e la
stima della deviazione standard dello stimatore della media.
(B) Si determini l’intervallo di confidenza al 98 % per la media di X.
Esercizio 3
Con riferimento al testo dell’esercizio precedente:
(A) Si determini quanto avrebbe dovuto essere la dimensione del campione per avere un intervallo per la
media di X, al livello di confidenza indicato, di ampiezza pari a 0.092 .
(B) Si determini l’intervallo di confidenza al 99 % per la deviazione standard di X.
Esercizio 4
Il dirigente ha infine deciso di confrontare quanto spende la clientela ESTIVA rispetto a quella INVERNALE. Ha estratto un campione casuale di scontrini relativi al semestre ESTIVO aprile-settembre, e sul
logaritmo naturale dell’importo ha calcolato le seguenti statistiche campionarie:
totale scontrini
170
Media
4.471
Varianza corretta
3.073
Mediana
4.459
(A) Si sottoponga a test l’ipotesi nulla ”la variabilit del logaritmo naturale della spesa uguale nei due
periodi”.
(B) Si sottoponga a test l’ipotesi nulla ”mediamente i clienti spendono pi in inverno che in estate”.
45.2
Soluzioni
Esercizio 1
(A) Variabile continua raggruppata in classi: rappresentazione grafica istogramma.
89
x
n. scontrini
ampiezza di classe (basi)
densit di frequenza (altezze)
[2.3,3.4)
44
1.1
40
[3.4,4.1)
47
0.7
67.143
[4.1,4.7)
39
0.6
65
[4.7,5.3)
25
0.6
41.667
[5.3,6)
14
0.7
20
[6,7]
1
1
1
Totale
170
T
(B) S = spesa; X = ln S. Allora P (S < 60|S < 200) = P (X < 4.1|X < 5.3) = P [(X < 4.1) (X <
5.3)]/P (X < 5.3) = P (X < 4.1)/P (X < 5.3) = (44 + 47)/(44 + 47 + 39 + 25) = 0.587.
Esercizio 2
Pn
Pn
2
2
2
(A) Siano µX = E(X) e σX
= V (X). Allora µ
bX = X = i=1 Xi /n e σ
bX
= SX
= i=1 (Xi −X)2 /(n−1)
sono stimatori dei parametri
q corrispondenti dalle ottime propriet. Allora x = 4.036 e, poich V (X) =
p
p
[ = V
\
b2 /n = 0.828/170 = 0.07.
σ 2 /n, abbiamo σ(X)
(X) = σ
X
X
√
√
√
(B) Il pivot (X − µX )/(SX / n) ∼ T (n − 1). L’intervallo per µX al 98 %: [x − tsX / n, x + tsX / n] =
[3.872, 4.2], dove x = 4.036, sX = 0.91, n = 170, t = 2.349.
Esercizio 3
(A) A = ampiezza intervallo. Utilizzando la N (0, 1) come distribuzione approssimata del pivot (ricordare
che n incognito) allora, n = (2zsX /A)2 = 2118, dove z = 2.3263, A = 0.092 e sX = 0.9099 una stima di
σX .
2
2
2
(B) Il pivot SX
(n − 1)/σX
∼ χ2 (n − 1). Intervallo per σX
al 99 %: [(n − 1)s2X /c2 , (n − 1)s2X /c1 ] =
[0.6358, 1.1159], dove sX = 0.9099, n = 170, c1 = 125.4012, c2 = 220.1025. Corrispondente intervallo per
2
.
σX : [0.7973, 1.0563], dove gli estremi sono la radice quadrata degli estremi dell’intervallo per σX
Esercizio 4
Y = ln(spesa estiva)
2
2
2
|H0 ) ∼ F (m − 1, n − 1), da cui:
6= 1. La v.c. pivot (SY2 /SX
= 1 contro H1 : σY2 /σX
(A) H0 : σY2 /σX
regione accettazione [0.7389 ,1.3533 ], da confrontare col valore campionario 3.073 /0.828 = 3.7114 .
(B) L’ipotesi in oggetto pu, in ultima analisi, essere testata sottoponendo a test H0 : µX − µY = 0 vs
H1 : µX − µY < 0. Viste le dimensioni dei due campioni
e la possibilit di rifiutare l’ipotesi di cui al punto
p
2 /n + S 2 /m|H ≈ N (0, 1). In questo caso: la regione
(A), ragionevole utilizzare la v.c. test (X − Y )/ SX
0
X
p
2 /n + S 2 /m = 0.1515).
di rifiuto [−∞, −1.6449] da confrontare col valore campionario -2.8716 ( SX
X
Nel caso in
cui
l’ipotesi
di
cui
al
punto
(A)
venga
accettata,
l’ipotesi
pu
essere
testata
mediante
la v.c. test
q
Sp2 (1/n + 1/m)|H0 ∼ T (n+m−2), la regione di rifiuto [−∞, −1.6494] da confrontare col valore
q
campionario -2.8716 (s2p = (s2X (n − 1) + s2Y (m − 1))/(n + m − 2) = 1.9505, s2p (1/n + 1/m) = 0.1515).
In realt si pu dimostrare che il valore campionario delle due statistiche, nel caso in cui m = n, identico;
cambia solo, leggermente, la regione critica per effetto della diversa distribuzione.
(X −Y )/
90
46
46.1
Compito del 17.12.2003
Testo
Esercizio 1
Ad un centro trasfusionale si presentano donatori dell’associazione LA-VIE e di altre associazioni. Le
informazioni a disposizione del centro trasfusionale sono le seguenti: 1) ogni 100 donatori, 62 sono associati
LA-VIE e 38 di altre associazioni; 2) il numero medio di donazioni annue 3.2 per i donatori LA-VIE e
0.9 per i donatori di altre associazioni. Assumendo che il numero di donazioni in un anno si distribuisce
secondo una Poisson:
(A) Calcolare la probabilit che un donatore faccia almeno 2 donazioni;
(B) Calcolare la probabilit che un donatore appartenga ad altre associazioni sapendo che egli ha fatto
almeno 2 donazioni.
Esercizio 2
Prima di effettuare un prelievo di sangue, ai donatori viene misurato il livello di emoglobina. Le misurazioni effettuate sui donatori che si sono presentati una mattina hanno dato i risultati riportati in tabella
(dati in g/dl).
Maschi
Femmine
15.2
14.5
15.2
14.7
14.1
13.8
15.2
13.9
(A) Calcolare, in percentuale, quanta parte della variabilit del livello di emoglobina spiegata dal sesso e
commentare il risultato.
(B) Riempiendo la tabella seguente, fare un esempio di situazione in cui il sesso spiega il 100% della
variabilit del livello di emoglobina.
Maschi
Femmine
......
......
......
......
......
......
......
......
Esercizio 3
Con riferimento ai dati dell’esercizio precedente, si assuma che il livello di emoglobina si distribuisca
normalmente sia nei maschi che nelle femmine.
(A) Si determini un intervallo di confidenza al 99.5 % per la deviazione standard del livello di emoglobina
nei maschi.
(B) Si assuma che la deviazione standard sia la stessa nei due sessi. Con l’obiettivo di stimare tale
deviazione standard, si scelga un opportuno stimatore, se ne fornisca l’espressione analitica, se ne indichi
la distribuzione e si fornisca la stima puntuale del parametro in oggetto.
Esercizio 4
Con riferimento ai dati dell’esercizio 2 e mantenendo le assunzioni di normalit e di uguaglianza delle
deviazioni standard fra maschi e femmine:
(A) Si sottoponga a test l’ipotesi nulla che maschi e femmine hanno lo stesso livello di emoglobina contro
l’ipotesi che quella dei maschi sia maggiore (α = 0.1 ).
(B) Si determini la potenza del test per l’ipotesi nulla di cui al punto precedente, in corrispondenza
dell’ipotesi alternativa ”il livello di emoglobina dei maschi superiore di 0.63 g/dl a quello delle femmine”,
assumendo che la deviazione standard nei due sessi nota e pari a 0.854 .
46.2
Soluzioni
Esercizio 1
Indichiamo LA-VIE = L. Sappiamo che: P (L) = 0.62, P (L) = 0.38, X|L ∼ P oisson(λL = 3.2), X|L ∼
P oisson(λL = 0.9).
91
(A) Mediante la formula della probabilit marginale si ha: P (X ≥ 2) = P (X ≥ 2|L)P (L) + P (X ≥
2|L)P (L) = 0.60031, dove:
P (X ≥ 2|L) = 1 − [P (X = 0|L) + P (X = 1|L)] = 0.8288
P (X ≥ 2|L) = 1 − [P (X = 0|L) + P (X = 1|L)] = 0.22752
P (X = 0|L) = exp(−λL ) = 0.04076, P (X = 1|L) = exp(−λL )λL = 0.13044,
P (X = 0|L) = exp(−λL ) = 0.40657, P (X = 1|L) = exp(−λL )λL = 0.36591.
(B) P (L|X ≥ 2) = P (X ≥ 2|L)P (L)/P (X ≥ 2) = 0.14402 (gli elementi per il calcolo sono stati trovati
al punto precedente).
Esercizio 2
Indichiamo MASCHIO = M e FEMMINA = F.
(A) y M = 73.6/5 = 14.72, y F = 43/3 = 14.3333, y = 116.6/8 = 14.575, da cui Dev(B) = 0.2803,
Dev(T ) = 2.475. Il sesso spiega quindi il 11.33 % della variabilit complessiva.
(B) Affinch il sesso spieghi il 100% della variabilit complessiva occorre che la devianza within sia 0, cio
che non ci sia variabilit sia fra i maschi che fra le femmine. Esempio:
Maschi
14.5 14.5 14.5 14.5 14.5
Femmine 13.4 13.4 13.4
Esercizio 3
Indichiamo con X ed Y , rispettivamente, il livello di emoglobina dei maschi e delle femmine.
2
(5 − 1)/σ 2 , la cui distribuzione, in base alle assunzioni fatte, χ2 (4). Intervallo di confidenza
(A) Pivot: SX
2
2
per σ : [4sX /c2 , 4s2X /c1 ] = [0.10643, 12.06625] dove c1 = 0.14487 e c2 = 16.42394 sono ricavati dalle
tavole della χ2 (4), mentre s2X = 0.437. L’intervallo per σ si ottiene facendo la radice quadrata dei due
estremi dell’intervallo precedente: [0.32624 , 3.47365 ].
2
(5 − 1) + SY2 (3 −
(B) Stimatore per la varianza comune σ 2 : varianza campionaria pooled SP2 = [SX
2
e SY2 sono rispettivamente le varianze campionarie di X e di Y . Distribuzione:
1)]/(5 + 3 − 2), dove SX
SP2 (5+3−2)/σ 2 ∼ χ2 (6). Come stimatore di σ possiamo considerare la radice quadrata di SP2 . Sostituendo
i valori campionari s2X = 0.437 e s2Y = 0.22333 si ottiene s2P = 0.36578 e la stima cercata risulta
sP = 0.6048.
Esercizio 4
p
(A) H0 : µX − µY = 0, H1 : p
µX − µY > 0. V.c. test [(X − Y ) − (µX − µY )]/ SP2 (1/m + 1/n) ∼ T (6), che
sotto H0 diviene (X − Y )/ SP2 (1/m + 1/n) ∼ T (6). La regione di rifiuto per la statistica
di cui sopra
p
2
2
[t = 1.43976, +∞], mentre il valore campionario 0.87544 (SP (1/m + 1/n) = 0.19508, SP (1/m + 1/n) =
0.44168).
(B) Essendo
σ nota occorre prima ricalcolare la regione di rifiuto.
V.c. test [(X − Y ) − (µX −
p
p
µY )]/ σ 2 (1/m + 1/n) ∼ N (0, 1), che sotto H0 diviene (X − Y )/ σ 2 (1/m + 1/n) ∼ N (0, 1). La regione
di rifiuto per la statistica
di cui sopra [z√= 1.28155, +∞].
p
Indichiamo ora s = σ 2 (1/m + 1/n) = 0.38897 = 0.62367. Allora γ = P (X ∈ R|H1 ) = P ((X −Y )/s >
z|H1 ) = P ((X − Y ) > sz|H1 ) = P ((X − Y − 0.63)/s > z − 0.63/s|H1 ) = P (Z > 0.27141|H1 ) = 0.39304.
92
47
47.1
Compito del 13.01.2004
Testo
Esercizio 1 Volete valutare se sia necessario acquistare un software anti-spam nella vostra società. In
un giorno qualunque, chiedete al tecnico di contare quanto sia lo spam in arrivo nelle caselle email del
vostro dominio. Il tecnico vi riferisce di aver trovato 10 mail spam su un totale di 18 mail analizzate.
(a) Scegliendo a caso 6 mail tra quelle analizzate, qual è la probabilità che non troviate alcuna spam?
(b) Qual è la probabilità che, leggendo una mail dopo l’altra, estratta a caso con reimmissione da un pc
tra quelle analizzate, la prima spam sia la 7◦ ?
Esercizio 2 Effettuate una ricerca sullo spam ricevuto in un giorno in 5 uffici. In un giorno scelto a caso,
avete rilevato i dati riportati nella tabella seguente.
Uffici
Num. spam
A
424
B
129
C
192
D
241
E
27
(a) Valutare il grado di concentrazione del numero di e-mail spam tra i vostri uffici mediante un indice
opportuno.
(b) Rappresentate graficamante la curva di Lorenz.
Esercizio 3 Installate una versione di prova del software antispam su 5 computer dei 10 di un ufficio.
Per valutarne l’efficacia, si confrontano il numero di email spam in arrivo in un giorno a caso tra i due
gruppi di pc, ciascuno con un indirizzo email. I dati ottenuti sono riportati nella tabella seguente.
N. e-mail spam in pc con software
N. e-mail spam in pc senza software
24
48
6
13
14
13
8
10
5
5
Si ipotizzi che il numero di email spam in arrivo, con e senza software, si distribuisca normalmente con
deviazione standard 7 e che il software sia reputato efficace se rende minore in media il numero di emal
spam ricevute.
(a) Si verifichi l’efficacia del software anti-spam (α = 0.05).
(b) Vi comunicano un intervallo di confidenza della differenza tra numero medio di spam senza software
e con software: [−10.48; −2.32]. Calcolarne il livello di confidenza.
Esercizio 4 Si vuole ora confrontare il numero di email spam con e senza software, indirizzo per indirizzo:
utilizzando solo i 5 computer dell’ufficio ancora senza software, si contano le email spam in arrivo, in un
giorno, prima di installare il software anti-spam e, successivamente, dopo avervi installato il software. I
dati ottenuti sono riportati nella tabella seguente.
N. spam prima dell’installazione
N. spam dopo l’installazione
45
17
13
10
21
13
14
8
12
8
(a) Ipotizzando che il numero di email spam in arrivo, con e senza software, si distribuisca normalmente
con varianza ignota, si calcoli l’interv allo di confidenza per la media della differenza del numero di spam
in arrivo (prima - dopo), con 1 − α = 0.95.
(b) Se, invece di effettuare un opportuno test, si decidesse di valutare efficace il software se la media
campionaria della differenza tra il numero di spam prima e dopo è superiore a 3 , a quanto ammonterebbe
la probabilità di commettere un errore del primo tipo? (Approssimare in base alle tavole).
47.2
Soluzioni
Esercizio 1
(a) X ha distribuzione ipergeometrica.
P (X = 0) = 0.0015.
(b) Y ha distribuzione geometrica. p= 0.5556.
P (Y = 7) = 0.0043.
93
Esercizio 2
Calcolo dell’indice relativo della concentrazione.
Per prima cosa ordinare i dati: Ufficio E
B
C
pi = 0.20
0.40
0.60
0.80
1.00
qi = 0.0267 0.1540 0.3435 0.5814 1.00
R = 0.4472
D
A
Esercizio 3
Sia X1 ∼ N (µ1 , 49) = num. spam con software
Sia X2 ∼ N (µ2 , 49) = num. spam senza software
(a) Test d’ipotesi unilaterale per confronto tra medie con varianza nota.
H0 : µ1 − µ2 = 0 vs H1 : µ1 − µ2 < 0
X 1 = 11.400 , X 2 = 17.800 ,
zoss = −1.4456
zcrit = −1.6449 ⇒
Accetto H0
(b) Intervallo diq
confidenza per confronto tra medie con varianza nota:
(x1 − x2 ) ± z α2 (
σ12
n1
+
σ22
n2
q 2
σ2
σ
Da cui (x1 − x2 ) + z α2 ( n11 + n22 = −2.3200
z α2 = ±0.9216
1 − α = 0.6433
Esercizio 4
Sia X1 ∼ N (µ1 , 49) = num. spam prima dell’installazione Sia X2 ∼ N (µ2 , 49) = num. spam dopo
l’installazione
Sia XD = X1 − X2
X D = 9.8000 Var. campionaria corretta
= 107.2000
Dati campionari xD : 28 3 8 6 4
q
(a) Intervallo di confidenza per una media, varianza ignota: xD ± t α2 ,4
L’intervallo cercato: [−3.0559; 22.6559].
(b) P (X D > 3.0000 | H0 ) = 0.2762
94
2
SD
n−1
48
48.1
Compito del 27.01.2004
Testo
Esercizio 1
Relativamente al credito verso le persone fisiche, la BANCA DEL PONTE attiva nelle linee mutui casa e
credito al consumo. Dalle valutazioni effettuate risulta che se un credito va in sofferenza, la banca perde
mediamente il 17 % del credito nei mutui casa e il 26 % nel credito al consumo. Tuttavia questa solo
una valutazione media, dato che la perdita percentuale su un credito una variabile casuale che risulta
N (17, 5) nei mutui casa e N (26, 34) sul credito al consumo.
Sapendo che nel 2003 sono andati in sofferenza crediti per 278 milioni nei mutui casa e 105 milioni nel
credito al consumo (valori in Euro) e che le perdite percentuali sono indipendenti:
(A) Determinare la distribuzione della perdita complessiva, ivi compresi i suoi parametri, nel 2003.
(B) Determinare il valore al di sopra del quale la perdita complessiva 2003 si colloca con probabilit del
2.5 %.
Esercizio 2
L’ufficio titoli della BANCA DEL PONTE sta valutando l’andamento in borsa di due titoli azionari dello
stesso settore. Sui rendimenti settimanali (espressi in percentuale e su base annua) rilevati negli ultimi 2
anni e sulla differenza fra tali rendimenti sono state calcolate le seguenti statistiche:
Titolo
n. osservazioni
media
varianza corretta
BigGas
104
27.2
2415
T erGas
104
16.9
1186
BigGas − T erGas
104
10.3
1446
(A) Possiamo concludere che due titoli hanno la stessa varianza?
(B) Dai dati riportati in tabella ricavare il valore campionario del coefficiente di correlazione fra i rendimenti dei due titoli. Indicare quale delle ipotesi necessarie per applicare il test di cui sopra messa in
dubbio dal valore calcolato.
Esercizio 3
Con riferimento ai dati dell’esercizio precedente si assuma che la variabile differenza D = BigGas −
2
).
T erGas ∼ N (µD , σD
(A) Fornire un intervallo di confidenza al 90 % per la differenza media dei rendimenti dei due titoli.
(B) Sottoporre a test l’ipotesi che il titolo BigGas ha avuto un rendimento medio superiore rispetto a
T erGas (α = 0.1 ).
Esercizio 4
La relazione fra i rendimenti dei due titoli stata studiata anche analizzando la combinazione fra i loro
segni, ricavando la tabella seguente:
BigGas\T erGas
+
Totale
18
11
29
+
14
61
75
Totale
32
72
104
(A) Si calcoli l’indice di associazione C1 relativo e si commenti il risultato.
(B) Mantenendo la numerosit complessiva rilevata, si faccia un esempio di situazione in cui l’indice
indicato al punto (A) sarebbe stato 1.
48.2
Soluzioni
Esercizio 1
X1 ∼ N (17, 5) e X2 ∼ N (26, 34) sono le perdite percentuali, c1 = 278 e c2 = 105 le sofferenze. X1 e X2
sono indipendenti.
95
(A) La perdita complessiva combinazione lineare delle perdite nelle due linee di credito:
X = c1 X1 +c2 X2 ∼ N (µ = 7456, σ 2 = 761270), dove in base alle ipotesi µ = E(X) = c1 E(X1 )+c2 E(X2 ),
σ 2 = V (X) = c21 V (X1 ) + c22 V (X2 ).
(B) Bisogna trovare b tale che P (X > b) = 0.025. 0.025 = P (X > b) = P [Z > (b − µ)/σ = z]. Dalle
tavole z = 1.96 implica b = µ + σz = 9166.084 (σ = 872.508).
Esercizio 2
(A) Assunzioni: X1 ∼ N (µ1 , σ12 ), X2 ∼ N (µ2 , σ22 ), X1 e X2 indipendenti. Ipotesi: H0 : σ12 /σ22 = 1,
H1 : σ12 /σ22 6= 1. La v.c. test S12 /S22 che sotto H0 ha distribuzione F (m − 1, n − 1) = F (103, 103). Valore
campionario della statistica test = 2415/1186 = 2.0363; regione di accettazione [0.6781, 1.4746].
(B) In generale V (X1 − X2 ) = V (X1 ) + V (X2 ) − 2C(X1 , X2 ). Sostituendo in questa relazione i valori
campionari e ricavando C(X1 , X2 ) abbiamo C(X1 , X2 ) = [V (X1 ) + V (X2 ) − V (X1 − X2 )]/2 = [2415 +
1186 − 1446]/2 = 1077.5. Da questo ricavo ρ = C(X1 , X2 )/[σ(X1 )σ(X2 )] = 1077.5/(49.1426 ∗ 34.4384) =
0.6367. Un valore campionario di ρ cos elevato mette in forte dubbio l’ipotesi di indipendenza fra X1 e
X2 .
Esercizio 3
2
) (dati appaiati).
Assunzioni: D = X1 − X2 ∼ N (µD , σD
√
(A) Pivot: (D − µD )/(SD / n), la cui distribuzione,
√
√ in base alle assunzioni fatte, T (n − 1) = T (103).
Intervallo di confidenza per√µD : [d−tsd / n, d+tsd / n] = [4.11103, 16.48897] dove t = 1.65978, d = 10.3
s2d = 1446, sd = 38.02631 n = 10.19804.
√
(B) Ipotesi: H0 : µD = 0, H1 : µD > 0. La v.c. test D/(SD / n) che sotto H0 ha distribuzione
T (n − 1) = T (103). Valore campionario della statistica test = 2.76229; regione di rifiuto [1.28982, +∞].
Esercizio 4
(A) C1rel = 0.34911
n∗ij
+
8.92 23.08
+ 20.08 51.92
(B) Va bene una qualsiasi situazione un cui su una delle due diagonali ci sia 0. Esempio:
BigGas\T erGas
+ Totale
49 0
49
+
0 55
55
Totale
49 55
104
96
49
49.1
Compito del 10.02.2004
Testo
Esercizio 1
Nella vostra città hanno aperto un piccolo casinò. Dopo due settimane, un vostro amico vi confida che
la perdita attesa di un cliente, secondo quando dichiarato dal casinò, è 237 euro; secondo voi, invece,
tale media è 289 euro. Volendo verificare se il casinò abbia dichiarato il vero e sapendo che la perdita si
distribuisce normalmente con varianza 9216, effettuate un’indagine su 50 clienti ed ottenete una media
campionaria pari a 263.
(1) Concludereste che la dichiarazione del casinò sia falsa (α = 0.01)?
(2) Calcolare quanti clienti avreste dovuto intervistare per garantirvi una probabilità di commettere un
errore del secondo tipo inferiore a 0.01.
Esercizio 2
La tabella seguente riporta la distribuzione frequenza della variabile X = numero di vincite con le slot
machine Lucky in una serata.
Xi
ni
3
25
1
79
2
88
0
173
(1) Calcolare la mediana e il coefficiente di variazione di X.
(2) Calcolare gli stessi indici per Y = numero di vincite con le slot machine LuckyPlus in una serata,
sapendo che Y = 2 + 2X.
Esercizio 3
Una delle roulette ha una ruota composta da 38 buche: una con 0, una con 00, e le altre con numeri da
1 a 36. Il croupier fa girare la ruota e se esce 0 o 00 il banco vince. Un visitatore si ferma ad osservare
892 giri: 0 o 00 escono ben 71 volte.
(1) Ha ragione il visitatore di supporre che la roulette sia truccata (α = 0.01)?
(2) In base a quanto osservato, si stimi, con affidabilità 0.90, la probabilità che il banco vinca in una
singola giocata.
Esercizio 4
Per promuovere il casinò, si regalano gettoni per le slot-machine mediante un gioco: si deve scegliere a
caso tra due scatole apparentemente identiche. Nella prima c’è un dado: se in sei lanci non esce mai 6,
si vincono 100 gettoni. Altrimenti non si vince nulla. Nella seconda c’è un’urna con 36 palline, di cui 6
rosse. Si devono estrarre 6 palline in blocco: se nessuna è rossa si vincono 100 gettoni. Altrimenti non si
vince nulla.
(1) Calcolare la probabilità di vincere 100 gettoni.
(2) Verificare se le variabili X = numero di gettoni vinti e Y = scatola scelta, sono indipendenti.
49.2
Soluzioni
Esercizio 1
Test sulla media, varianza nota, con H0 : µ = 237
σ = 96
(1) x = 263
α = 0.01.
zα = 2.33.
H1 : µ = 289.
zoss = 1.9151.
Accetto H0 .
(2) β = P ( Accettare H0 | H1 vera) =0.01.
Accetto H0 se zoss =
Chiamo c =
2.33·96
√
n
x−µ
√0
σ/ n
< 2.33 ovvero se
x<
2.33·96
√
n
+ 237
97
+ 237
β = P (x < c | H1 vera ) = 0.01.
c−µ
√1 | H1 ) = 0.01, se e solo se
Dato che β = P (Z < σ/
n
√
( 2.33·96
237)−(289)
n
√
96/ n
= −2.33.
c−µ
√1
σ/ n
= −2.33.
n = 74.0129 ⇒ n = 75.
Esercizio 2
La distribuzione ordinata dei dati è la seguente
X(i)
ni
Ni
0
173
173
1
79
252
2
88
340
3
25
365
(1) n =365 (dispari) N2+1 = 183 MedianaX = 1
µX = 0.904 σX = 0.990 CVX = 1.095
(2) Y = 2 + 2X. Usando le proprietà di media, mediana e varianza,
MedianaY = 4
µY = 3.808
σY = 1.980
CVY = 0.520
Esercizio 3
Sia p la probabiità che il banco vinca in una singola giocata.
2
= 0.053
Se la roulette non truccata p = 38
(1) Test su una proporzione, con H0 := 0.053
H1 : p > 0.053
p̂ = 0.080
zoss = 3.607
zcrit = 1.645
Rifiuto H0 .
α = 0.05 .
(2) Intervallo di confidenza per p.
zα/2 = ± 1.645
da cui : [0.06469 ; 0.0945 ]
Esercizio 4
(1) ΩY = {1, 2} con P (Y = 11) = P (Y = 2) = 0.5
Se Y = 1 ⇒ X | (Y = 1) ∼ Bin(6, 1/6),
se Y = 2 ⇒ X | (Y = 2) ∼ Ipergeometrica.
P (X = 100 | Y = 1) = 0.335
P (X = 100 | Y = 2) = 0.305
P (X = 100) = 0.5 · P (X = 100 | Y = 1) + 0.5 · P (X = 100 | Y = 2) = 0.320
(2) Dato che
P (X = 100 | Y = 1) 6= P (X = 100 | Y = 2),
X e Y non sono indipendenti.
98
50
50.1
Compito del 15.04.2004
Testo
Esercizio 1
Le quotazioni di borsa del titolo SMART sono state confrontate con quelle dell’intero mercato nel quale
il titolo quotato. Negli ultimi 5 anni sono stati rilevati i seguenti valori (rendimenti percentuali espressi
in base annua):
Anno
rendimento SMART
rendimento mercato
1999
-15.5
-12.9
2000
4.3
0.9
2001
3.2
12.3
2002
7.3
2.4
2003
15.9
10.6
(A) Fornire un’opportuna rappresentazione grafica dei dati rilevati.
(B) Mediante un opportuno indice statistico, mettere in evidenza il grado di associazione fra rendimento
di SMART e rendimento del mercato. Commentare il risultato.
Esercizio 2
Con riferimento ai dati dell’esercizio 1, si assuma che la differenza D = rendimento di SMART meno
2
rendimento del mercato sia distribuita secondo una N (µD , σD
).
(A) Sottoporre a test l’ipotesi nulla che, in media, il rendimento di SMART uguagli il rendimento del
mercato (α = 0.01).
(B) Se la differenza tra i due rendimenti medi sotto l’ipotesi alternativa fosse uguale a 3.1 , che valore
2
sia esattamente quella osservata?
assumerebbe la potenza del test assumendo che la vera varianza σD
Esercizio 3
Con riferimento ai dati dell’esercizio 1, approfondire l’analisi mediante un modello di regressione lineare
che faccia dipendere il rendimento di SMART dal rendimento del mercato.
(A) Determinare i coefficienti della retta di regressione.
(B) Determinare i residui di regressione relativi agli ultimi due semestri.
Esercizio 4
Il rischio di un investimento dato dalla volatilit, generalmente misurata con la deviazione standard riferita
ad un certo periodo di tempo.
(A) Secondo voi, il fatto che i dati a disposizione siano medie annuali invece che giornaliere sottostima
o sovrastima la volatilit quinquennale? Motivare la risposta.
(B) Trascurando le considerazioni fatte al precedente punto (A), sulla base dei dati a disposizione calcolate
un intervallo di confidenza al 95 % per la volatilit del titolo SMART.
50.2
Soluzioni
Esercizio 1
Simboli: X = ”rendimento del mercato”, Y = ”rendimento di SMART”.
(A) ”Scatterplot” dei 5 punti individuati dalle coppie dei rendimenti relativi a ciascun anno.
(B) Dai dati si ricavano i seguenti valori campionari: coefficiente di correlazione ρ = codev(x, y)/
q
dev(x)dev(y) =
0.84402, dove codev(x, y) = 388.808, dev(x) = 401.252, dev(y) = 528.872, x = 2.66, y = 3.04.
Esercizio 2
2
Test sulla differenza fra medie per dati appaiati. Assunzioni: D = Y − X ∼ N (µD , σD
).
p
2 /n che per le assunzioni fat(A) Ipotesi: H0 : µD = 0, H1 : µD 6= 0. La v.c. test (D − µD )/ SD
te distribuita come una T (n − 1). Sotto H0 , dove dobbiamo metterci per costruire A/R, abbiamo
99
p
p
2 /n|H ∼ T (n − 1). Valore campionario della statistica test sotto H : d/ s2 /n = 0.1376;
D/ SD
0
0
D
p
2 /n = 2.7614)
regione di accettazione [−4.6041, 4.6041] (d = 0.38, s2D = 38.127, SD
2
(B) Notare le differenze rispetto al punto (A): 1. Si assume σD
= 38.127, cio varianza nota; 2. H1 : µD =
3.1 (il test cio a una coda, non a due). Questo costringe a p
ricalcolare anche la regione di accettazione.
2
Assumendo di conoscere la varianza, la v.c. test (D − µD )/ σ
pD /n distribuita come una N (0, 1). Sotto
2
H0 , dove dobbiamo metterci per costruire A/R, abbiamo D/
p σD /n|H0 ∼ N (0, 1). Regione
p di rifiuto
2
2 /n|H ).
(z = 2.3263, +∞). γ = P (campione ∈ R|H1 ) = P (D/ σD /n p
> z|H1 ) = P (D > z σD
1
2
Standardizzandop
D sotto H1 abbiamo alla fine γ = P (Z > z − µD1 / σD /n) = P (Z > 1.2037) = 0.1143,
2 /n = 2.7614.
dove µD1 = 3.1, σD
Esercizio 3
(A) βb1 = codev(x, y)/dev(x) = 0.96899, βb0 = y − βb1 x = 0.46249
(B) Dopo aver calcolato i valori teorici yb4 = βb0 + βb1 x4 = 2.78806 e yb5 = βb0 + βb1 x5 = 10.73376 abbiamo i
seguenti residui: u4 = y4 − yb4 = 4.51194, u5 = y5 − yb5 = 5.16624.
Esercizio 4
(A) Il fatto di considerare medie annuali sottostima la volatilit quinquennale. Infatti, ragionando non
sulle deviazioni standard ma sulle devianze, la volatilit quinquennale legata alla devianza totale del
rendimento nei 5 anni, mentre quella calcolata sulle medie annuali invece legata alla devianza between,
che come sappiamo sempre non superiore a quella totale.
(B) Pivot: S 2 (n−1)/σ 2 che ha una distribuzione χ2 (n−1). Intervallo per σ 2 : [s2 (n−1)/c2 , s2 (n−1)/c1 ] =
[47.46104, 1091.7666], dove s2 = 132.218, c1 = 0.48442, c2 = 11.14329. Per ricavare l’intervallo per σ
basta fare la radice quadrata degli estremi dell’intervallo precedente: [6.8892, 33.04189].
100
51
51.1
Compito del 28.05.2004
Testo
Esercizio 1
La CORNACCHINI & MINGOZZI ha in progetto di costruire e vendere posti auto privati in una zona di
Milano. A questo scopo commissiona alla BINGHIRILLI una ricerca di mercato in cui viene chiesto, alle
famiglie della zona che non dispongono di posto auto di propriet, se nei prossimi 4 anni hanno intenzione
di acquistarne uno. Si indichi p = probabilit che una famiglia decida di acquistare un posto auto.
(A) Quanto deve essere la dimensione del campione per ottenere un intervallo di confidenza per p, al
livello di confidenza 0.95 , di ampiezza 0.046 ? (Si supponga di non disporre di alcuna informazione
ausiliaria per rispondere a questa domanda).
(B) A prescindere dal calcolo fatto al punto A, sono state intervistate 1397 famiglie, delle quali 69 hanno
manifestato intenzione di acquistare un posto auto. Fornire una stima per intervallo per p al livello di
confidenza 0.95 .
Esercizio 2
Con riferimento al problema dell’esercizio precedente, la BINGHIRILLI ha valutato in circa 43 -mila il
numero di persone della zona che non hanno ancora un posto auto di propriet. Quindi, ognuna delle 43
-mila famiglie pu decidere di acquistare o non acquistare un posto auto nei prossimi 4 anni. Supponiamo
che dalla indagine di mercato sia emerso che p = probabilit che una famiglia decida di acquistare un
posto auto = 0.0494 .
(A) Indicare come si distribuisce la variabile casuale ”numero totale di famiglie che decidono di acquistare”. Nel rispondere, indicare i valori dei parametri della distribuzione ed esplicitare le approssimazioni
utilizzate nel caso in cui se ne faccia uso.
(B) Calcolare la probabilit che la CORNACCHINI & MINGOZZI riesca a vendere tutti i 2038 posti auto
che vuole costruire. Nel calcolo si assuma che ogni famiglia acquisti al massimo un posto auto e che non
esistano altri posti auto sul mercato.
Esercizio 3
L’ osservatorio indipendente Anti-STROZZO sta analizzando se e come i tassi d’interesse sui mutui immobiliari sono legati alla durata del finanziamento. L’osservatorio ha preso come riferimento un campione
di contratti di mutuo a tasso fisso (per ragioni di omogeneit dell’analisi i dati sono relativi all’ultimo anno
e per importi compresi fra 100-mila e 200-mila Euro) dal quale sono state ricavate le seguenti statistiche
campionarie (i tassi d’interesse sono espressi in percentuale, la durata in anni):
dimensione del campione = 263
media(tasso) = 5.97
devianza(tasso) = 405.67
media(durata) = 19.97
mediana(tasso) = 5.97
codevianza(tasso,durata) = 1871.61
mediana(durata) = 20.11
devianza(durata) = 9626.44
(A) Formulare un opportuno modello lineare per studiare il problema illustrato e stimarne tutti i
parametri.
(B) Si fornisca una stima della deviazione standard del coefficiente angolare. Indicare a quale scopo utile
fornire una stima di tale grandezza.
Esercizio 4
Con riferimento all’esercizio precedente:
(A) Calcolare il p-value che si ottiene nel sottoporre a test l’ipotesi nulla che, tendenzialmente, ”all’aumentare di 1 anno della durata, il tasso d’interesse aumenta di 0.197 punti percentuali”. Il valore calcolato
che decisione fa prendere in merito all’ipotesi H0 ?
(B) Determinare l’intervallo di previsione del tasso d’interesse per un mutuo di durata pari a 24 anni.
51.2
Soluzioni
Esercizio 1
101
X = ”famiglia decide di acquistare entro 4 anni” ∼ Be(p)
(A) Calcolo della dimensione del campione in funzione dell’ampiezza dell’intervallo di confidenza per p:
n = (z/A)2 = 1816, dove z = 1.96 il quantile 0.975 della N(0,1) (ricordare che α = 0.05 ) e A = 0.046
l’ampiezza dell’intervallo.
q
(B) Intervallo di confidenza per p: il pivot da usare nella pratica (X−p)/ X(1 − X)/n la cui distribuzione
p
p
approssimativamente N (0, 1). L’intervallo
− x)/n, x + z x(1 − x)/n] = [0.038, 0.0608],
pallora [x − z x(1
√
dove x = 69 /1397 = 0.0494 , z = 1.96, x(1 − x)/n = 3.4e − 005 = 0.005797 .
Esercizio 2
Xi = ”famiglia i-ma decide di acquistare entro 4 anni” ∼ Be(p = 0.0494); n = 43000 il numero complessivo
di famiglie considerate.
Pn
(A) X = totale di famiglie intenzionate ad acquistare = i=1 Xi ∼ Bi(n = 43000, p = 0.0494) (somma
di Bernoulli).
(B) In base al testo, la probabilit di vendere tutti i posti auto esattamente la probabilit che coloro che
decidono di acquistare, X, sia ≥ 2038 . Per il calcolo si ricorre, valendo tutti i presupposti,
√ all’approssi√
mazione Normale della Binomiale: P (X ≥ 2038) = P [(X − np)/ npq ≥ (2038 − 2124.2)/ 2019.2645] =
P (Z ≥ −1.9183) = 0.9725 .
Esercizio 3
(A) Modello lineare: yi = β0 + β1 xi + εi , dove εi ∼ N (0, σ 2 ), y il tasso d’interesse e x la durata del mutuo.
Stimatori dei minimi quadrati dei parametri: βb1 = codev(x, y)/dev(x) = 1871.61/9626.44 = 0.19442,
βb0 = y − β1 x = 5.97 − 0.19442 ∗ 19.97 = 2.08735, σ
b2 = [dev(y) − βb12 dev(x)]/(n − 2) = (405.67 − 0.194422 ∗
9626.44)/(263 − 2) = 0.16009.
(B) Si tratta di stimare σ(βb1 ), la cui importanza sta nel fornire una misura del grado di precisione dello
b(βb1 ) =
stimatore utilizzato
nello stimare il parametro incognito. Poich V (βb1 ) = σ 2 /dev(x), allora σ
p
√
σ
b2 /dev(x) = 2e − 005 = 0.00408.
Esercizio 4
(A) Nel modello precedente si tratta di sottoporre a test H0 : β1 = 0.197 contro H0 : β1 6= 0.197.
la v.c. test βb1 . La distribuzione campionaria data da (βb1 − β1 )/b
σ (βb1 ) ∼ T (n − 2) e sotto H0 diviene
b
b
(β1 −0.197)/b
σ (β1 )|H0 ∼ T (n−2). Per una dimensione campionaria cos elevata si pu tuttavia approssimare
T (n − 2) ' N (0, 1). Il valore campionario della statistica test sotto H0 allora z − camp = (βb1 −
0.197)/b
σ (βb1 ) = (0.19442 − 0.197)/0.00408 = −0.6317.
p − value = P (’valore campionario della statistica test ancora pi spostato verso H1 rispetto a quello
rilevato’|H0 ) = 2P [(βb1 − 0.197)/b
σ (βb1 ]) > | − 0.6317||H0 ] = 2P (Z > 0.6317) = 2 ∗ 0.26379 = 0.52758
(B) Per brevit usiamo i seguenti simboli: parametro da stimare θ = β0 + β1 x0 , stimatore θb = βb0 + βb1 x0 ,
b = σ 2 [1/n + (x − x0 )2 /dev(x)].
varianza dello stimatore V (θ)
b
b
Pivot: (θ − θ)/b
σ (θ) che ha una distribuzione T (n − 2) ≈ N (0, 1) (n elevato). Intervallo per θ: [θb −
√
b θb + zb
b = [6.6954, 6.8116], dove z = 1.96, θb = 6.7535, σ
b = 0.00088 = 0.02964.
zb
σ (θ),
σ (θ)]
b(θ)
102
52
52.1
Compito del 03.06.2004
Testo
Esercizio 1
Si estrae un campione casuale di dimensione n = 35 da una popolazione X Normale con media µ incognita
e deviazione standard σ = 8. Per determinare il valore di µ si sa inoltre che P (X ≤ 64) = 0.876,
(a) Indicare la distribuzione campionaria di X̄, ivi compreso il valore assunto dai parametri.
(b) Calcolare la probabilità di ottenere una media campionaria superiore a 51.
Esercizio 2
Si vuole stabilire se le aziende dell’Italia centro settentrionale abbiano profitti superiori a quelli dell’Italia
meridionale. Allo scopo vengono estratti due campioni casuali di aziende, 5 nel Centro-Nord e 5 nel Sud
Italia, rilevandone il profitto settimanale (in migliaia di euro). I dati sono riportati nella tabella seguente:
Profitto settimanale in migliaia di euro.
Aziende del Centro-Nord 19.5 27.6
Aziende del Sud Italia
28.2 32.6
32.2
26.6
32.5
32.2
31.1
30.1
Si ipotizzi che la variabile profitto di distribuisca secondo una Normale.
(a) Si sottoponga a test l’ipotesi che i due gruppi di aziende abbiano la stessa varianza (con α = 0.05).
(b) Si costruisca un intervallo di confidenza per la differenza delle medie dei profitti delle due popolazioni
(1 − α = 0.95).
Esercizio 3
Si consideri ora il campione di 10 aziende dell’esercizio precedente come un intero campione casuale
estratto dal settore oggetto di studio. Per fornire una descrizione del campione rispetto alla sola variabile
profitto settimanale,
(a) si calcoli il terzo quartile del profitto settimanale;
(b) si costruisca l’istogramma per tale variabile, utilizzando le seguenti classi: [15 − 25) , [25 − 27),
[27 − 30), [30 − 40).
Esercizio 4
In un nuovo studio, vengono estratti casualmente due campioni di aziende: 113 aziende del Sud ed altrettante del Centro-Nord.
(a) Tra le aziende estratte, hanno registrato un trend positivo nei profitti 56 aziende del Sud e 62 del
Centro-Nord. Tale differenza di comportamento dovuta ad un trend peggiore nelle aziende del Sud? Si
risponda alla domanda formulando il problema in termini di test d’ipotesi ed utilizzando il p-value.
(b) Nei due campioni di aziende estratte, il tasso di crescita del profitto risultato avere media 12 e varianza campionaria corretta 32 nel Centro-Nord, mentre risultato avere media 8, e varianza campionaria
corretta 20 nel Sud. Sottoporre a test l’ipotesi nulla che i tassi medi nelle due aree geografiche siano
identici, contro l’ipotesi che il tasso medio di crescita sia superiore al Centro-Nord (α = 0.05).
52.2
Soluzioni
Esercizio 1
Dato che P (X ≤ 64) = 0.876, allora P (Z ≤
(a) X̄ ∼ N (54.7584, 1.8286).
(b) P (X̄ ≥ 51) = 0.9973.
Esercizio 2
X1 = Profitto aziende del Centro-Nord,
(a) Test confronto tra varianze.
64−µ
8 )
= 0.876 ⇒
64−µ
8
= 1.1552 ⇒ X ∼ N (54.7584, 64).
X2 = Profitto aziende del Sud.
103
s21 = 29.557, s22 = 6.598
Foss = 4.4797, Fcrit = 0.1041; 9.60453,
Accetto H0
(b) Intervallo di confidenza per la differenza tra medie con campioni indipendenti
x̄1 = 28.58, x̄2 = 29.94, s21 = 29.557, s22 = 6.598, tα/2 = ±2.306
Intervallo: [−7.5611
; 4.8411].
Esercizio 3
Dati: 19.5 27.6 32.2 32.5 31.1 28.2 32.6 26.6 32.2 30.1
(a) Dati ordinati: 19.5 26.6 27.6 28.2 30.1 31.1 32.2 32.2 32.5 32.6
Q3 = 32.2
(b) Frequenze: 1 1 2 6
Ampiezza classi: 10 2 3 10
Densità di frequenza: 0.1 0.5 0.7 0.6 .
Esercizio 4
(a) p1 = Proporzione di aziende con trend positivo al Sud
p2 = Proporzione di aziende con trend positivo al Centro-Nord
Test sulla differenza tra due proporzioni con n grande.
H0 : p 1 − p 2 = 0
H1 : p1 − p2 < 0
p̂1 = 0.4956 p̂2 = 0.5487 p̂ = 0.5221
zoss = −0.799, p-value = 0.2121 Accetto H0
(b) X1 = Tasso di crescita delle aziende del Centro-Nord
X2 = Tasso di crescita delle aziende del Sud
Test confronto tra medie con campioni indipendenti.
H0 : µ1 − µ2 = 0
H1 : µ1 − µ2 > 0
x̄1 = 12, x̄2 = 8, s21 = 32, s22 = 20
toss = 5.8965, tcrit = 1.6517
Rifiuto H0
104
53
53.1
Compito del 18.06.2004
Testo
Esercizio 1
La PIPPOLI&NINNOLI spa ha attivato da alcuni mesi un numero verde a disposizione dei propri clienti
per una serie di servizi. Per verificare il grado di utilizzo del numero nella fascia oraria di punta (9.0013.00), i responsabili hanno raccolto un campione di chiamate relative a 30 giorni lavorativi. Il tempo
stato diviso in intervalli di lunghezza costante prefissata e la variabile misurata , appunto, il numero di
chiamate ricevute per intervallo di tempo. Il campione sintetizzato nella seguente tabella:
numero chiamate
frequenza
0
49
1
150
2
262
3
332
4
278
5
159
6
118
7
53
8
26
9
13
(A) Rappresentare graficamente la distribuzione della variabile numero di chiamate nel campione, tenendo
presente che l’ottica quella di confrontare la distribuzione ottenuta con quella teorica delle variabili casuali
a voi note.
(B) Calcolare il 90o percentile della variabile numero di chiamate nel campione.
Esercizio 2
Il campione di cui all’esercizio precedente stato poi utilizzato per fare inferenza statistica.
(A) Fra quelli noti, scegliere il modello (distribuzione) che vi sembra pi opportuno per rappresentare la
variabile d’interesse e fornire una stima puntuale del parametro o dei parametri del modello scelto.
(B) Sottoporre a test l’ipotesi nulla (formulata dai responsabili prima dell’attivazione del servizio) che il
numero medio di chiamate per intervallo 3.6 (α = 0.01).
Esercizio 3
L’analisi della durata delle chiamate effettuate al numero verde della PIPPOLI&NINNOLI ha rivelato
una certa differenza fra quelle effettuate da privati e quelle effettuate da aziende: quelle dei privati durano
in media 6.85 minuti, con una deviazione standard 2.06; quelle delle aziende durano in media 7.05 minuti,
con una deviazione standard 2.82. Sapendo che ogni 100 chiamate se ne ricevono 65 da privati e le altre
da aziende e assumendo che la durata delle chiamate abbia distribuzione normale:
(A) Calcolare la probabilit che una chiamata presa a caso duri pi di 9.73 minuti.
(B) Sapendo che una chiamata durata pi di 9.73 minuti, calcolare la probabilit che questa sia stata
effettuata da un’azienda.
Esercizio 4
Nei 30 giorni in cui sono stati raccolti i dati di cui agli esercizi precedenti, a conclusione della telefonata
al numero verde sono state effettuate alcune domande per valutare il grado di soddisfazione relativo al
servizio reso. In base alle risposte date il grado di soddisfazione stato tradotto in un punteggio. L’obiettivo
analizzare, mediante un modello di regressione lineare, se il punteggio ottenuto legato alla durata della
chiamata. Le principali statistiche campionarie sono riportate nella seguente tabella.
dimensione del campione = 471
media(punteggio) = -0.62
devianza(punteggio) = 184193
media(durata) = 9.65
mediana(punteggio) = -0.6
codevianza(punteggio,durata) = 11676
mediana(durata) = 6.9
devianza(durata) = 35981
(A) Si espliciti nel modo pi completo possibile il modello utilizzato e se ne stimino i parametri (ricordare
che devianza(residui) = (devianza(y) − βb12 devianza(x)).
(B) Mediante il calcolo del p-value, sottoporre a test l’ipotesi nulla che non vi sia relazione fra grado di soddisfazione e durata della chiamata, contro l’alternativa che il grado di soddisfazione aumenti
all’aumentare della durata.
53.2
Soluzioni
Esercizio 1
105
X = ”numero di chiamate nell’intervallo prefissato”
(A) Calcolo e disegno della distribuzione delle frequenze relative. Conviene utilizzare un ”diagramma a
spaghetti”, dove ciascuno spaghetto rappresenta la frequenza relativa fi in corrispondenza del numero di
chiamate xi di volta in volta considerato.
xi
ni
fi
0
49
0.034
1
150
0.104
2
262
0.182
3
332
0.231
4
278
0.193
5
159
0.11
6
118
0.082
7
53
0.037
8
26
0.018
9
13
0.009
(B) posizione 90o percentile = (n + 1)0.9 = (1440 + 1)0.9 = 1296.9. 90o percentile: x(0.90) = 6.
Esercizio 2
b = x = 4981/1440 = 3.459.
(A) Modello di Poisson: si suppone allora X ∼ P o(λ). λ
(B) H0 : λp
= 3.6 contro H1 : λ 6= 3.6. La v.c. test X. La sua distribuzione campionaria sotto Hp
0 data da
(X − λ0 )/ λ0 /n|H0 ≈ N (0, 1) (λ0 ilpvalore di λ sotto H0 ). 1 − α = 0.99 = P (−z ≤ (X − λ0 )/ λ0 /n ≤
z|H
campionario: (x−λ0 )/ λ0 /n = −2.8194; regione di accettazione: [−z, z] = [−2.576, 2.576]
p 0 ). Valore
√
( λ0 /n = 0.0025 = 0.05).
Esercizio 3
Eventi: A = ”chiama un’azienda”, A = ”chiama un privato”. X v.c. ”durata chiamata”. X|A ∼ N (µA =
7.05, σA = 2.82); X|A ∼ N (µA = 6.85, σA = 2.06).
(A) Formula delle probabilit marginali (o totali): P (X > c = 9.73) = P (X > c|A)P (A) + P (X >
c|A)P (A) = 0.17097 ∗ 0.35 + 0.08105 ∗ 0.65 = 0.11252 (per il calcolo di P (X > c|A) e P (X > c|A)
ricordare che X|A e X|A hanno distribuzione normale).
(B) Formula di Bayes: P (A|X > c) = P (X > c|A)P (A)/P (X > c) = 0.17097 ∗ 0.35/0.11252 = 0.5318.
Esercizio 4
(A) Modello lineare: yi = β0 + β1 xi + εi , dove εi ∼ N (0, σ 2 ), y il punteggio e x la durata della telefonata.
Stimatori dei minimi quadrati dei parametri: βb1 = codev(x, y)/dev(x) = 11676/35981 = 0.3245, βb0 =
y − β1 x = −0.62 − 0.3245 ∗ 9.65 = −3.75147, σ
b2 = [dev(y) − βb12 dev(x)]/(n − 2) = (184193 − 0.32452 ∗
35981)/(471 − 2) = 384.66.
(B) H0 : β1 = 0 contro H0 : β1 > 0. La v.c. p
test βb1 . La distribuzione
campionaria sotto H0 data
p
√
da (βb1 − 0)/b
σ (βb1 )|H0 ∼ T (n − 2), dove σ
b(βb1 ) = σ
b2 /dev(x) = 384.66/35981 = 0.01069 = 0.1034.
Per una dimensione campionaria cos elevata si pu tuttavia approssimare T (n − 2) ' N (0, 1). Il valore
campionario della statistica test sotto H0 allora z − camp = (βb1 − 0)/b
σ (βb1 ) = 0.3245/0.1034 = 3.1385.
p − value = P (”valore campionario della statistica test ancora pi spostato verso H1 rispetto a quello
rilevato”|H0 ) = P [(βb1 − 0)/b
σ (βb1 ) > 3.1385|H0 ] = P (Z > 3.1385) = 0.00085.
106
54
54.1
Compito del 07.07.2004
Testo
Esercizio 1
Per la progettazione di una politica economica a favore della famiglia stato commissionato uno studio
specifico. Viene effettuata un’indagine ad hoc misurando, su un campione di 203 giovani famiglie, alcune
variabili demografiche ed economiche. La tabella seguente riporta la composizione del campione rispetto
al numero di figli.
Numero di figli
frequenza
0
62
1
63
2
35
3
28
oltre 3
15
(a) Si calcoli la media e la mediana del numero di figli, sapendo che il numero totale di figli nella classe
oltre 3 48 .
(b) Si sottoponga a test l’ipotesi (nulla) che la proporzione di famiglie senza figli in Italia sia ≤ 0.3
(α = 0.01).
Esercizio 2
Si vuole stabilire se le famiglie con almeno due figli abbiano redditi superiori a quelle con 0 o 1 figlio.
Allo scopo vengono estratti due campioni casuali di 5 famiglie, uno dalla sottopopolazione di famiglie
con almeno due figli e l’altro da quella con meno di 2 figli, rilevandone il reddito annuale (in migliaia di
euro). I dati sono riportati nella tabella seguente:
Reddito delle famiglie con almeno due figli
Reddito delle famiglie con meno di due figli
34.5
28.1
41.1
36.8
53
28.6
48.8
39.1
40
32.2
Si ipotizzi che il reddito si distribuisca secondo una Normale.
(a) Si sottoponga a test l’ipotesi che la varianza del reddito sia uguale nei due gruppi di famiglie (con
α = 0.05).
(b) Si costruisca un intervallo di confidenza per la differenza delle medie dei redditi delle due popolazioni
(1 − α = 0.95).
Esercizio 3
Nell’indagine riportata nell’esercizio 1, stata rilevata anche
di interventi pubblici a sostegno della famiglia: Y = 0 per
’incrementi nei servizi alla famiglia’ (asili nido, spazi gioco,
dicotomizzata (0 − 1) relativa al numero di figli. I dati sono
Y ↓ X→
0: Incentivi a pioggia
1: Incremento dei servizi
0: Meno di 2 figli
69
56
la variabile Y sulla preferenza tra due tipi
’incentivi monetari a pioggia’ e Y = 1 per
eccetera); con X viene indicata la variabile
riportati nella tabella seguente.
1: Almeno di 2 figli
39
39
(a) Utilizzando la definizione frequentista di probabilit (si assuma che il numero di prove sia sufficientemente elevato) si ricavi la funzione di massa della variabile casuale doppia (X, Y ) e se ne calcoli il
coefficiente di correlazione.
(b) Si sottoponga a test l’ipotesi nulla che la proporzione di famiglie con almeno due figli non sia superiore fra coloro che preferiscono incremento dei servizi rispetto a quelli favorevoli ad incentivi a pioggia
(α = 0.05).
Esercizio 4
Si consideri l’esperimento di estrazione casuale di famiglie dal campione riportato all’esercizio 3, in modo
similare all’estrazione di palline da un’urna.
(a)Indicare la distribuzione di probabilit della variabile X. Se si estrae a caso una famiglia dal campione,
sapendo che la famiglia estratta preferisce un incremento dei servizi, qual’ la probabilit che abbia almeno
2 figli?
(b) Si estrae (con reimmissione) 10 famiglie dal campione: qual la probabilit che al massimo 3 abbiano
almeno 2 figli? Per il calcolo si utilizzi un’opportuna approssimazione della distribuzione di probabilit.
107
54.2
Soluzioni
Esercizio 1
(a) Calcolo della mediana: la posizione della mediana (N + 1) ∗ 0.5 = (203 + 1) ∗ 0.5 = 102. Confrontando
tale valore con le frequenze cumulate si ricava immediatamente che il valore della Mediana 1.
Media = Totale/N = (0*62+1*63+2*35+3*28+48)/203 = 265/203 = 1.305419
(b) Definisco la variabile dicotomica X: X = 1 se la famiglia non ha figli, X = 0 altrimenti. Test su
una proporzione con n grande. H0 : p ≥ 0.3 contro H1 : p > 0.3 da trasformare in H0 : p = 0.3 contro
H1 : p > 0.3. p̂ = 62/203
p = 0.3054187. Il valore campionario delle statistica test (standardizzata) sotto
H0 zoss = (p̂ − 0.3)/ 0.3(1 − 0.3)/203 = 0.1684748; la regione di rifiuto [zcrit , +∞) = [2.3263, +∞) per
cui accetto H0 .
Esercizio 2
X1 = Reddito famiglie con almeno 2 figli,
X2 = Reddito famiglie con meno di 2 figli.
(a) Test confronto tra varianze: H0 : σ12 /σ22 = 1 contro H0 : σ12 /σ22 6= 1.
x̄1 = 43.48, x̄2 = 32.96 s21 = 54.337, s22 = 23.913. Valore della statistica test sotto H0 : Foss = s21 /s22 =
2.2723; regione di accettazione [0.1041, 9.6045] (da trovare dalle tavole della F (4, 4) per cui accetto H0 .
(b) Intervallo di confidenza per la differenza tra medie con campioni indipendenti
x̄1 = 43.48, x̄2 = 32.96, s21 = 54.337, s22 = 23.913, tα/2 = ±2.306
Intervallo: [1.3975
; 19.6425].
Esercizio 3
(a) Funzione di massa della variabile doppia (X, Y ):
Y ↓ X→
0: Incentivi a pioggia
1: Incremento dei servizi
Totale
0: Meno di 2 figli
0.3399
0.2759
0.6158
1: Almeno di 2 figli
0.1921
0.1921
0.3842
Totale
0.532
0.468
1
Calcolo del coefficiente di correlazione: E(X) = 0.3842, E(Y ) = 0.468, V (X) = 0.6158 ∗ 0.3842 = 0.2366,
V (Y ) = 0.532 ∗ 0.468 = 0.2490, C(X, Y ) = E(XY
√ ) − E(X)E(Y ) = 0.1921 − 0.468 ∗ 0.3842 = 0.01229,
Corr(X, Y ) = C(X, Y )/[σ(X)σ(Y )] = 0.01229/ 0.2366 ∗ 0.2490 = 0.050634
(b) p1 = proporzione di famiglie con almeno 2 figli tra coloro che preferiscono un incremento dei servizi;
p2 = proporzione di famiglie con almeno 2 figli tra coloro che preferiscono un incentivo a pioggia. Test
sulla differenza tra due proporzioni con n grande. H0 : p1 − p2 = 0 contro H1 : p1 − p2 > 0. p̂1 =
39/(39 + 69) = 0.3611; p̂2 = 39/(39 + 56) = 0.4105; p̂ = (39 + 39)/(39 + 39 + 69 + 56) = 0.3842;
m = 69 + 39 =p108, n = 56 + 39 = 95. Il valore osservato della statistica test sotto H0 zoss =
((p̂1 − p̂2 ) − 0)/ p̂q̂(1/m + 1/n) = −0.7220; la regione di rifiuto [zcrit , +∞) = [1.6449, +∞), per cui
accetto H0 .
Esercizio 4
(a) Distribuzione marginale di X2 :
X2 →
probabilit
0: Meno di 2 figli 1: Almeno di 2 figli
0.616
0.384
T
P (X = 1|Y = 1) = P (X = 1 Y = 1)/P (Y = 1) = 0.1921/0.468 = 0.4105.
(b) Y = ’numero di famiglie che, su 10 estrazioni, hanno almeno 2 figli’ ha distribuzione Binomiale(n =
10, p = 0.3842). Nel testo si consiglia di utilizzare l’approssimazione Normale, per cui Y ≈ N (µ = np =
10 ∗ 0.3842 = 3.842, σ 2 = npq = 10 ∗ 0.3842 ∗ 0.6158 = 2.3659). Allora P (Y ≤ 3) = P (Z ≤ −0.5474) =
0.2920
108
55
Compito del 14.09.2004
55.1
Testo
Esercizio 1
La WINorLOSS una grossa agenzia di giochi e scommesse. Utilizzando un campione casuale di giocate
al LOTTO ha elaborato la seguente tabella, in cui sono riportate le frequenze e altre statistiche.
Giocate (Euro)
Maschi
Femmine
(0, 5]
42
18
(5, 20]
42
49
(20, 50]
44
44
(50, 100]
28
34
> 100
41
13
Totale
197
158
Media
61.127
38.723
(Var. corretta)1/2
80.832
39.283
(A) Rappresentare graficamente la distribuzione marginale della variabile giocate nel campione, tenendo
presente che l’ottica di tale rappresentazione confrontare la distribuzione ottenuta con quella teorica delle
variabili casuali a voi note.
(B) 1) Poisson; 2) Normale; 3) nessuna delle due. Sia sulla base del grafico costruito che di considerazioni teoriche, scegliete fra le 3 alternative proposte il modello probabilistico che vi sembra pi opportuno
per rappresentare la variabile giocate. Motivare la risposta.
Esercizio 2
Con riferimento ai dati dell’esercizio 1:
(A) Limitatamente a coloro che giocano pi di 50 Euro, stimare la probabilit che un giocatore preso a caso
sia un Maschio e fornire una stima della deviazione standard dello stimatore utilizzato.
(B) Determinare l’intervallo di confidenza al 95% per la probabilit di cui al punto precedente.
Esercizio 3
Con riferimento ai dati dell’esercizio 1:
(A) Nel giocare al LOTTO, non tutti i maschi giocano la stessa somma e, allo stesso modo, non tutte le
femmine giocano la stessa cifra. In altri termini, le giocate presentano in ciascuno dei due sessi una certa
variabilit. Utilizzando i dati del campione possibile stabilire se la variabilit delle giocate la stessa nei due
sessi? Formulare il problema in termini di test delle ipotesi.
(B) Costruire l’intervallo di stima al 98% per la differenza fra quanto giocano in media i maschi rispetto
alle femmine.
Esercizio 4
In un’altra analisi, la WINorLOSS ha messo in relazione le giocate con l’et del giocatore per capire
se vi una qualche relazione. Ha formulato alcuni modelli lineari nei coefficienti e quello che ha dato
risultati migliori fa dipendere il logaritmo naturale della giocata (y) dal logaritmo naturale dell’et (x). Le
statistiche calcolate sul campione sono le seguenti:
n
n = 152
n
1X
(xi − x)2 = 0.138
n i=1
1X
xi = 3.611
n i=1
n
1X
(yi − y)2 = 24.492
n i=1
n
n
1X
yi = 3.954
n i=1
1X
(xi − x)(yi − y) = 0.001
n i=1
(A) In base al modello formulato le giocate sono legate all’et del giocatore?
(B) In base al modello formulato, quanta parte della variabilit del logaritmo naturale delle giocate spiegata
dalla variabile x?
(Aiuto: Ricordare che σ
b2 = [Dev(y) − βb12 Dev(x)]/(n − 2))
55.2
Soluzioni
Esercizio 1
X = ”giocata in Euro”
109
(A) Calcolo e disegno dell’istogramma delle densit relative. Notare che per il calcolo della densit dell’ultima classe la classe va chiusa (possibilmente ad un valore ragionevole). Le densit sono state moltiplicate
per 100 per evitare troppi decimali.
classi
(0, 5]
(5, 20] (20, 50] (50, 100] [100, 500] Totale
Frequenze marginali
60
91
88
62
54
355
Frequenze marginali relative
0.169 0.2563 0.2479
0.1746
0.1521
1
densit relative×100
3.3803 1.7089 0.8263
0.3493
0.038
(B) La risposta pi opportuna nessuna delle due. Infatti la Poisson da escludere perch la variabile
continua; la Normale non appropriata per l’elevata asimmetria che emerge dall’istogramma.
Esercizio 2
X ∼ Be(p), dove X = 1 se maschio e 0 se femmina.
b stimatore di p dalle ottime propriet. La stima puntuale pb = x = 69/116 = 0.5948. La
(A) pb = X
p
p
√
d
deviazione standard di tale stimatore σ(b
p) = pbqb/n = 0.5948 ∗ 0.4052/116 = 0.00208 = 0.04558
d
(B) Pivot: (b
p − p)/σ(b
p) ≈ N (0, 1). In base ai calcoli di cui al punto precedente, l’intervallo di confidenza
d
d
richiesto [b
p − z σ(b
p), pb + z σ(b
p)] = [0.5055, 0.6842], dove z = 1.96.
Esercizio 3
Assunzioni: X1 = ”giocata in Euro di un maschio” ∼ N (µ1 , σ12 ), X2 = ”giocata in Euro di una femmina”
∼ N (µ2 , σ22 ). In realt le dimensioni campionarie sono abbastanza grandi da permettere di essere un po’
elastici su tali assunzioni.
(A) Test delle ipotesi: H0 : σ12 /σ22 = 1 contro H1 : σ12 /σ22 6= 1. La v.c. test S12 /S22 che sotto H0 ha
distribuzione F (n1 − 1, n2 − 1) = F (196, 157) Il valore campionario della statistica test allora s21 /s22 =
6533.81/1543.15 = 4.2341, da confrontare con la regione di accettazione [0.7443, 1.3503].
(B) Intervallo di confidenza per µ1 − µ2 per dati non appaiati. Essendo p
la dimensione campionaria
sufficientemente elevata possiamo utilizzare il pivotp
[(X 1 − X 2 ) − (µ1 − µ2 )]/ s21 /n1 + s22 /n2 ≈ N (0, 1).
√
Calcoli: x1 − x2 = 61.127 − 38.723 = 22.404, s = s21 /n1 + s22 /n2 = 42.93336 = 6.55236, z = 2.326.
Allora l’intervallo [(X 1 − X 2 ) − zs, (X 1 − X 2 ) + zs] = [7.1609, 37.6471].
Esercizio 4
Prima alcuni calcoli: dev(x) = 0.138 ∗ 152 = 20.976, dev(y) = 24.492 ∗ 152 = 3722.784, codev(x, y) =
0.001 ∗ 152 = 0.152, βb1 = codev(x, y)/dev(x) = 0.00725, σ
b2 = [Dev(y) − βb12 Dev(x)]/(n − 2) = 24.82.
b
(A) H0 : β1 = 0 contro H0 : β1 > 0. La v.c. test
campionaria sotto H0 data
p β1 , la cui distribuzione
p
√
b
b
b
da (β1 − 0)/b
σ (β1 )|H0 ∼ T (n − 2), dove σ
b ( β1 ) = σ
b2 /dev(x) = 24.82/20.976 = 1.18319 = 1.08774.
Per una dimensione campionaria cos elevata si pu tuttavia approssimare T (n − 2) ' N (0, 1). Il valore
campionario della statistica test sotto H0 allora z − camp = (βb1 − 0)/b
σ (βb1 ) = 0.00725/1.08774 = 0.0067,
da confrontare con la regione di accettazione [-1.96,1.96].
(B) In pratica si chiede l’indice R2 = Dev(regressione)/Dev(totale) che nel caso in oggetto pu essere
calcolato come corr(x, y)2 = Codev(x, y)2 /[Dev(x)Dev(y)] = 2.959e − 07.
110
56
56.1
Compito del 15.12.2004
Testo
Esercizio 1
La ditta GGP, produttrice di palline da golf, vuole immettere sul mercato un nuovo modello di palline.
Decide di far analizzare da alcuni professionisti i 5 modelli di palline pi venduti sul mercato. Nella tabella
seguente sono riportati i giudizi medi dei professionisti per i 5 modelli di palline in termini di Durezza
all’impatto e Resa al lancio.
Marca
Durezza all’impatto
Resa al lancio
Strata
51.6
21.5
Nike
59.7
68.6
Callaway
82
77.9
Titleist
82.9
69.3
Wilson
37
31.4
(a) Calcolare un indice descrittivo di associazione tra le due variabili considerate.
(b) Calcolare la mediana della variabile Resa al lancio. Indicare inoltre quale delle due variabili presenta
maggiore variabilit confrontando gli indicatori opportuni.
Esercizio 2
La GGP decide di condurre un esperimento per verificare la qualit del nuovo modello di palline da golf
in termini di distanza percorsa. L’esperimento consite nel far lanciare le palline da una macchina con
un angolo ed una velocit prestabiliti. Assumendo che la distanza percorsa dalla pallina si distribuisca
normalmente con varianza (secondo il parere di un esperto) assumibile pari a 5600 cm2 ,
(a) di quanti lanci deve essere composto l’esperimento se la GGP desidera ottenere una stima per intervallo
con confidenza per la distanza media percorsa 99 % ed ampiezza massima 23 cm?
(b) Per problemi atmosferici, si riesce ad effetture un esperimento di soli 32 lanci, osservando una distanza
percorsa media pari a 2050 cm ed una varianza campionaria corretta pari a 2025 cm2 . Calcolare una
stima della distanza media con confidenza 99 %.
Esercizio 3
La GGP ritiene che sia vantagioso immettere sul mercato il nuovo modello di palline solo se le distanza
media del lancio dalla macchina superiore a 1957 cm.
(a) Sulla base dei risultati dell’esperimento riportati nell’esercizio 2(b), consigliereste alla GGP di lanciare
il nuovo modello di palline? (porre il livello di significativit α = 0.05 )
(b) Dato che la variabilit del lancio determina anch’essa la qualit del nuovo modello in termini di precisione, la GGP ritiene di poter vendere il nuovo modello di palline ad un prezzo elevato solo se la variabilit
risulta inferiore a quella degli altri modelli di palline GGP, pari a 1369 cm2 . Cosa consigliate alla GGP?
(porre il livello di significativit α = 0.05 )
Esercizio 4
Pare che il macchinario che stampa il marchio della GGP sul nuovo modello di palline sia difettoso: da
indicazioni fornite da un tecnico, sembra che la probabilit di produrre una pallina non marchiata sia pari
a 0.01 .
(a) Qual la probabilit che in una confezione di 15 palline ve ne sia almeno una non marchiata?
(b) L’operaio addetto alla macchina ritiene per che la probabilit che la macchina produca palline non
marchiate superiore a quanto dichiarato dal tecnico. Per verificare chi abbia ragione, viene effettuata un
indagine analizzando un campione casuale di 203 palline: tra le palline analizzate sono state trovate 20
non marcate. Dareste ragione al tecnico o all’operaio? (porre il livello di significativit α = 0.05 )
56.2
Soluzioni
Esercizio 1
Le due variabili sono quantitative. Chiamo X = Durezza all’impatto e Y = Resa.
(a) MediaX = 62.64 MediaY = 53.74 VarX = 314.6424 VarY = 517.0264
Coefficiente di correlazione = ρXY = 0.8271 .
(b) MedianaY = 68.6 .
Confronto mediante i coefficienti di variazione: CVD = 0.2832 CVR = 0.4231
111
Esercizio 2
Chiamo X = Distanza percorsa dalla pallina.
(a) X ∼ N (µ, 5600). Livello di confidenza = 1 − α = 0.99 zα/2 = ± 2.58
√
= 23 . Da cui n = 282
Ampiezza dell’intervallo = 2 · zα/2 · 74.8331
n
2
(b) X ∼ N (µ, σ ) con varianza ignota. tn−1, α2 = ± 2.744 .
Intervallo di confidenza: [2028.1716
; 2071.8284].
Esercizio 3
(a) Test su una media con varianza ignota.
H0 : µ = 1957
H1 : µ > 1957
valore osservato = 11.6908
valore critico = 1.6955
Rifiuto H0 consiglio di immettere il nuovo modello sul mercato
(b) Test su una varianza con media ignota.
H0 : σ 2 = 1369
H1 : σ 2 < 1369
valore osservato = 45.8546
valore critico = 19.2806
Accetto H0 , consiglio di non immettere il nuovo modello sul mercato con prezzo elevato
Esercizio 4
Chiamo X = Presenza del marchio sulla pallina ⇒ X ∼ Ber(p)
(a) Chiamo Y = Numero di palline non marchiate in una confezione ⇒ Y ∼ Bin(n, p), con n = 15 e p =
0.01
n! 0
p (1 − p)n = 0.1399
P (Y ≥ 1) = 1 − P (Y = 0) = 1 − 0!n!
(b) Test su una proporzione con n grande.
H0 : p = 0.01
H1 : p > 0.01
p̂ = 0.0985
zoss = 12.676, zcrit = 1.6449
Rifiuto H0
112
57
Compito del 11.01.2005
57.1
Testo
Esercizio 1. La Questura, per proprie finalit, ha costruito la seguente distribuzione di probabilit
congiunta per le variabili casuali X e Y (entrambe possono assumere solo valori 0 o 1):
X=0
X=1
Y =0
0.282
0.56
Y =1
0.021
0.137
(A) Ricavare le distribuzioni di probabilit condizionata di Y dato X = 0 e di Y dato X = 1. Commentare
brevemente il risultato.
(B) Calcolare il coefficiente di correlazione fra X e Y .
Esercizio 2. Per stimare il numero di partecipanti a manifestazioni pubbliche che si tengono in una
certa zona di propria competenza, la Questura ha suddiviso l’intera zona in un 17364 aree della stessa
superficie. Utilizzando come informazione campionaria i conteggi delle persone che si trovano in un
campione di queste aree possibile stimare il totale dei partecipanti.
I conteggi effettuati durante una manifestazione politica nelle 76 aree che formano il campione sono stati
sintetizzati nella seguente tabella:
persone conteggiate
frequenza
0
7
1
14
2
13
3
22
4
8
5
7
6
3
7
2
Totale
76
(A) Rappresentare graficamente la distribuzione della variabile ’numero di persone conteggiate per area’,
considerando che l’ottica di tale rappresentazione deve essere quella di confrontare la distribuzione
ottenuta con quella teorica delle variabili casuali a voi note.
(B) 1) Bernoulli; 2) Poisson; 3) Normale. Sia sulla base del grafico costruito che di considerazioni teoriche,
scegliete fra le 3 alternative proposte il modello probabilistico che vi sembra pi opportuno per la variabile
’numero di persone conteggiate per area’ e stimarne il parametro o i parametri.
Esercizio 3. Con riferimento ai dati e al problema di cui all’esercizio precedente:
(A) Ricordando che l’intera zona di competenza composta, in base alla suddivisione della Questura, da
17364 aree, costruire uno stimatore del numero totale di persone presenti alla manifestazione in oggetto.
Fornire una stima sia della grandezza d’interesse che della deviazione standard dello stimatore utilizzato.
(B) Costruire un intervallo di confidenza al 98% per il numero totale di persone presenti alla manifestazione.
Esercizio 4. Il contratto degli addetti alla pubblica sicurezza (p.s.) prevede indennizzi in caso di incidenti
che provochino agli stessi danni fisici. Indicata con X la variabile indennizzo (per singolo addetto e per
singolo evento) in manifestazioni sportive e con Y l’analoga variabile in altro tipo di manifestazioni, i
dati campionari relativi agli indennizzi sono stati elaborati nelle seguenti statistiche sintetiche (dati in
migliaia di Euro):
m
m = 14
n = 13
1 X
xi = 2.524
m i=1
n
1X
yi = 2.15
n i=1
m
1 X
(xi − x)2 = 0.077
m − 1 i=1
n
1 X
(yi − y)2 = 0.115
n − 1 i=1
Ipotizzando la normalit delle distribuzioni degli indennizzi:
(A) Sottoporre a test l’uguaglianza delle varianze delle due distribuzioni (α = 0.02).
(B) Sottoporre a test l’ipotesi nulla che i due tipi di manifestazioni comportano in media gli stessi
indennizzi contro l’alternativa in cui quelli per manifestazioni sportive risultano maggiori (α = 0.05).
113
57.2
Soluzioni
Esercizio 1
(A) Si devono costruire 2 funzioni di massa: fY (y|X = 0) e fY (y|X = 1). Calcolo: fY (0|X = 0)
esattamente P (Y = 0|X = 0) = P (X = 0, Y = 0)/P (X = 0) = 0.282/(0.282 + 0.021) = 0.9307. Gli altri
si calcolano in modo analogo. Risultati:
y
0
1
fY (y|X = 0)
0.9307
0.0693
y
0
1
fY (y|X = 1)
0.8034
0.1966
p
√
(B) ρ(X, Y ) = C(X, Y )/ V (X)V (Y ) = 0.026874/ 0.211191 ∗ 0.133036 = 0.1603. Infatti: 1) si nota
che X e Y sono due v.c. di Bernoulli, cio X ∼ Be(0.697) e Y ∼ Be(0.158). Quindi E(X) = 0.697,
V (X) = 0.697 ∗ (1 − 0.697) = 0.211191, E(Y ) = 0.158, V (Y ) = 0.158 ∗ (1 − 0.158) = 0.133036. 2)
Per la covarianza, C(X, Y ) = E(XY ) − E(X)E(Y ) = 0.137 − 0.697 ∗ 0.158 = 0.026874, dove E(XY ) =
0 ∗ 0 ∗ 0.282 + 0 ∗ 1 ∗ 0.021 + 1 ∗ 0 ∗ 0.56 + 1 ∗ 1 ∗ 0.137 = 0.137.
Esercizio 2
(A) Grafico della distribuzione delle frequenze relative:
x
frequenza
frequenza relativa
0
7
0.0921
1
14
0.1842
2
13
0.1711
3
22
0.2895
4
8
0.1053
5
7
0.0921
6
3
0.0395
7
2
0.0263
Totale
76
1
(B) Fra quelli considerati il modello probabilistico pi ragionevole il modello di Poisson: X ∼ P oisson(λ).
b = x = 205/76 = 2.6974.
Stimatore di λ dalle ottime propriet la media campionaria: λ
Esercizio 3
(A) Sia N = 17364 il numero totale di pezzi in cui la Questura ha suddiviso l’area d’interesse. Al punto
(B) stato stimato (λ) il numero medio di persone per area. Il totale T sar allora dato da: T = N λ e
b Stima puntuale: Tb = N λ
b
potr essere stimato dallo stimatore Tb = N λ.
p = 17364 ∗ 2.6974 = 46837.1053;
b
b
deviazioneqstandard dello stimatore: σ(T ) = σ(N λ) = N σ(λ) = N λ/n, che pu essere stimata con
p
[) = N λ/n
b = 17364 ∗ 2.6974/76 = 3271.2453.
σ(T
(B) Poich T = N λ, per costruire un intervallo di confidenza per T basta costruirne uno per λ eqpoi trasformarlo opportunamente nel corrispondente intervallo per T . Intervallo per λ: pivot (X − λ)/ X/n ≈
p
p
N (0, 1); intervallo: [x − z x/n, x + z x/n] = [2.2591, 3.1356], dove x = 2.6974, n = 76, z = 2.3263,
α = 0.02. Intervallo per T = N λ: [N ∗ 2.2591, N ∗ 3.1356] = [39227.0506, 54447.1599].
Esercizio 4
2
X = ”indennizzo evento sportivo” ∼ N (µX , σX
), Y = ”indennizzo altri eventi” ∼ N (µY , σY2 ); X e Y
indipendenti.
2
2
(A) Test delle ipotesi: H0 : σX
/σY2 = 1 contro H1 : σX
/σY2 6= 1. La v.c. test S12 /S22 che sotto H0
ha distribuzione F (n1 − 1, n2 − 1) = F (13, 12) Il valore campionario della statistica test allora s21 /s22 =
0.077/0.115 = 0.6696, da confrontare con la regione di accettazione [0.2525, 4.0999].
(B) Test delle ipotesi: H0 : µX −µY = 0 contro H1 : µX −µY > 0 per dati non appaiati. Lapv.c. test X −Y
e, ipotizzando σX = σY , la distribuzione sotto H0 della v.c. test la seguente: (X −Y )/[Sp 1/m + 1/n] ∼
2
T (m + n − 2), dove Sp2 = [(m − 1)SX
+ (n − 1)SY2 ]/(m + n − 2). Il valore campionario della statistica
p
test allora (x − y)/[sp 1/m + 1/n] = 3.14641, da confrontare con la regione di rifiuto [1.7081, +∞] (per
i calcoli: m = 14, n = 13, x = 2.524, y = 2.15, s2X = 0.077, s2Y = 0.115, s2p = 0.09524, sp = 0.30861,
p
sp 1/m + 1/n = 0.11887).
114
58
Compito del 26.01.2005
58.1
Testo
Esercizio 1
Siano X ed Y due variabili casuali con la seguente distribuzione di probabilit congiunta:
X
Y
0
1
0
1
2
0.32
0.16
0.18
0.09
0.06
0.19
(a) Calcolare il valore atteso e la mediana della variabile X. Rappresentare graficamente la sua funzione
di ripartizione.
(b) Si derivino le tre distribuzioni condizionate di Y data X e sulla base di queste si deduca se Y e X
sono stocasticamente indipendenti.
Esercizio 2
Alla gara dei 3000 siepi partecipano 9 atleti, tra i quali due italiani. Assumendo che tutti i partecipanti
abbiano la stessa probabilit di vittoria,
(a) qual la probabilit che i due italiani si classifichino nelle prime tre posizioni?
(b) Sapendo che nel superamento di una barriera un atleta (di cui non si conosce la nazionalit) cade ed
costretto ad abbandonare la corsa, qual la probabilit che vinca un italiano?
Esercizio 3
Le misure ottenute da un certo atleta nel lancio del peso sono assimilabili ad una v.c. X con distribuzione
normale. I due atleti classificatisi alle prime due posizioni in una certa gara hanno ottenuto i seguenti
risultati (i valori riportati sono misurati in metri):
Atleta primo classificato
Atleta secondo classificato
20.2
17.5
16.7
19.1
19.9
16.1
(a) Si calcoli una stima per intervallo della lunghezza media di lancio del primo classificato con confidenza
0.99 .
(b) In base ai risultati ottenuti si verifichi se in media il vincitore pi bravo del secondo classificato
(α = 0.01).
Esercizio 4
Si vuole studiare l’uso e l’efficacia della pappa reale per migliorare le prestazioni di un atleta:
(a) In uno studio su un campione casuale di 109 atleti, si rileva che 54 fanno uso di pappa reale. Sapendo
che il 31 % della popolazione italiana usa la pappa reale, possibile affermare, sulla base dei risultati
campionari, che la proporzione degli atleti che ne fa uso superiore a quella della popolazione italiana?
(α = 0.1)
(b) Si effettua un esperimento ad hoc su un campione casuale di 4 lanciatori del disco che vengono
sottoposti ad un mese di trattamento con pappa reale. La lunghezza del miglior lancio in una giornata
di allenamento viene misurata all’inizio dello studio e, successivamente, dopo il mese di trattamento con
pappa reale. I valori relativi al miglior lancio in una giornata di allenamento dei 4 atleti prima e dopo il
trattamento sono riportati nella tabella seguente:
Valori medi prima del trattamento
Valori medi dopo il trattamento
47.2
50.8
41.4
43.9
44.7
42.7
41.1
42.8
Si valuti l’efficacia del trattamento (α = 0.05), specificando le assunzioni necessarie.
58.2
Soluzioni
Esercizio 1
(a)
115
X
p(x)
F(x)
0
0.48
0.48
1
0.27
0.75
2
0.25
1
E[X] = 0.77
Mediana[X] = 1.
(b) Le distribuzioni condizionate non sono tutte identiche tra loro, per cui le due variabili non sono
indipendenti.
0
1
P (Y | X = 0)
0.667
0.333
P (Y | X = 1)
0.667
0.333
P (Y | X = 0)
0.24
0.76
P (Y )
0.56
0.44
Esercizio 2
(a) Chiamo X = Numero di atleti italiani classificatisi nelle prime 3 posizioni.
⇒ X ∼ Ipergeometrica con N = 9 N1 = 2, n = 3.
(N1 )(N −N1 )
Quindi P (X = 2) = 2 Nn−2 = 0.0833
(n)
(b) L’informazione incompleta tale da non modificare la mia conoscenza sulla nazionalit del vincitore,
quindi non modifica la probabilit di verificarsi dell’evento:
P ( vince un italiano | qualcuno caduto ) = P ( vince un italiano ) = 0.2222
Esercizio 3
X1 = Lunghezza del lancio in metri del primo classificato
(a) Stima per intervallo della media di X1 . X1 ∼ N (µ1 , σ12 ). Varianza ignota.
X = 18.9333
Varianza campionaria corretta = 3.7633
t2, α2 = ±9.9248
Intervallo di confidenza: [7.8174 ; 30.0492].
(b) X2 = Lunghezza del lancio in metri del primo classificato ∼ N (µ2 , σ22 )
Si assume l’uguaglianza delle due varianze: σ12 = σ22 .
Test confronto tra medie con campioni indipendenti.
H0 : µ1 − µ2 = 0
H1 : µ1 − µ2 > 0
α = 0.01 x̄1 = 18.9333, x̄2 = 17.5667, s21 = 3.7633, s22 = 2.2533
toss = 0.965, tcrit = 3.7469 gdl = 4
Accetto H0
Esercizio 4
(a) Chiamo X la variabile dicotomica X = 1 se l’atleta fa uso di pappa reale e X = 0 altrimenti.
X ∼ Bin(p)
Test su una proporzione con n grande.
H0 : p = 0.31
H1 : p > 0.31
α = 0.1 p̂ = 0.4954
zoss = 4.1855, zcrit = 1.2816
Rifiuto H0
(b) Chiamo D = lancio migliore dopo il trattamento – lancio migliore prima del trattamento
D 3.6 2.5 -2 1.7
Test confronto tra medie con campioni dipendenti
H0 : µ1 − µ2 = 0
H1 : µ1 − µ2 > 0
2
x̄D = 1.45, σ̂D
= 5.8967
toss = 1.1942, tcrit = 2.3534
Accetto H0
116
59
59.1
Compito del 10.02.2005
Testo
Esercizio 1
La MAGNA–MAGNA spa produce pizze surgelate. L’esperienza ha mostrato che il peso alla commercializzazione non sempre uguale a quanto rilevato alla data di fabbricazione, anche quando il prodotto
viene conservato correttamente. Un’analisi estensiva ha mostrato che la variazione percentuale del
peso fra la fabbricazione e la commercializzazione in media del -4.1%, con una deviazione standard 4.7.
Assumendo che la variazione percentuale di peso ha una distribuzione normale:
(A) Determinare la distribuzione del peso alla commercializzazione per una pizza che alla data di
fabbricazione pesa 238g.
(B) Determinare quale deve essere il peso di fabbricazione se si vuole che, alla commercializzazione, solo
il 2.5% delle pizze pesi meno dei 250g dichiarati nella confezione.
Esercizio 2
Per ridurre le variazioni di peso successive alla produzione, la MAGNA–MAGNA sta studiando la possibilit di modificare il processo produttivo delle pizze surgelate. In particolare, l’uso di un nuovo addensante
nell’impasto ha prodotto, su un campione di 5 pizze, i risultati riportati in tabella (i valori rappresentano
la variazione percentuale di peso fra la data di fabbricazione e quella di commercializzazione). Tenendo presente che per situazione usuale si intende quella dell’analisi estensiva sintetizzata nell’esercizio
precedente:
pizza
variazione % del peso
1
3.4
2
-0.9
3
4.1
4
-1.8
5
-4.5
(A) Verificare se il nuovo ingrediente effettivamente efficace nel limitare il calo medio di peso rispetto alla
situazione usuale (livello di significativit = 0.005).
(B) Verificare se la varianza del nuovo procedimento significativamente diversa da quella usuale (livello
di significativit = 0.05).
Esercizio 3
La MAGNA–MAGNA effettua controlli di qualit anche sulla presenza di eventuali difetti estetici presenti
nelle pizze prodotte, quali bruciacchiature, bolle, residui di lavorazione, ecc. I controlli effettuati su un
campione di 20 pizze hanno prodotto i risultati riportati in tabella (A = ’nessun difetto visibile’, D =
’difetti lievi’, DD = ’difetti importanti’):
D
DD
D
A
DD
A
A
A
A
A
D
A
DD
A
A
A
A
A
A
D
(A) Sintetizzare i dati osservati in una distribuzione di frequenza, in modo che si possano confrontare i
risultati con quelli di campioni di dimensioni diverse.
(B) Calcolare un opportuno indice di posizione.
Esercizio 4
Alcuni tecnici vorrebbero utilizzare il campione di cui all’esercizio precedente per stimare la proporzione
di pizze con difetti estetici ma ritengono che il campione sia di dimensioni troppo limitate.
(A) Calcolare la dimensione del campione per ottenere un intervallo di confidenza per la proporzione di
pizze con difetti di ampiezza 0.18 al livello di confidenza 0.98.
(B) E’ stato estratto un campione di dimensione pari a quella calcolata al punto A, dal quale si rilevato
che il 38.6% delle pizze presenta difetti estetici. Fornire una stima puntuale della grandezza d’interesse
(la proporzione di pizze con difetti) e una stima della deviazione standard dello stimatore utilizzato.
59.2
Soluzioni
Esercizio 1
117
(A) X = variazione % del peso ∼ N (µX = −4.1, σX = 4.7). Allora il peso alla commercializzazione di
una pizza da 238g la v.c. Y = 238(1 + X/100). Poich si tratta di una trasformazione lineare di una v.c.
Normale abbiamo Y ∼ N (µY = 228.242, σY = 11.186), dove µY = 238(1 + µX /100) e σY = 238/100σX .
(B) Y = peso alla commercializzazione; P0 = peso alla fabbricazione (incognito). Allora, indicato con
y = 250 il peso in g dichiarato nella confezione si ha: 0.025 = P (Y < y) = P (P0 (1 + X/100) < y) =
P [X < 100(y/P0 − 1)] = P [Z < [100(y/P0 − 1) − µX ]/σX ] (dopo aver standardizzato ambo i membri).
Poich il termine [100(y/P0 − 1) − µX ]/σX uno z che lascia a sx una probabilit 0.025, dalle tavole si ricava
[100(y/P0 − 1) − µX ]/σX = z = −1.96, da cui P0 = 100y/(zσX + µX + 100) = 100 ∗ 250/86.6882 = 288.39.
Esercizio 2
Assunzioni: X = variazione % di peso col nuovo addensante ∼ N (µ, σ 2 ).
√
(n − 1), che sotto H0
(A) Test di H0 : µ = −4.1
√ contro H1 : µ > −4.1. V.c. test (X − µ)/(S/ n) ∼ T
2
n)|H
∼
T
(n
−
1).
Calcoli:
n
=
5,
x
=
0.3/5
=
0.06,
s
= 52.652/4 = 13.163,
diviene (X − −4.1)/(S/
0
√
√
s = 3.6281, s/ n = 1.6225; valore campionario = (x − −4.1)/(s/ n) = 2.5639, regione di rifiuto al 0.5%:
(4.6041, +∞).
(B) Test di H0 : σ 2 = 4.72 contro H1 : σ 2 6= 4.72 . V.c. test (n − 1)S 2 /σ 2 ∼ χ2 (n − 1), che sotto H0
diviene (n − 1)S 2 /4.72 ∼ χ2 (n − 1). Dai valori riportati al punto A si ricava: valore campionario =
(n − 1)S 2 /4.72 = 2.3835, regione di accettazione al 5%: [0.4844, 11.1433].
Esercizio 3
(A) Distribuzione delle frequenze relative o percentuali:
modalit
frequenze relative
A
0.65
D
0.2
DD
0.15
(B) Come indice di posizione possibile calcolare sia la moda che la mediana: moda = A, mediana = A.
Esercizio 4
X = ”pizza con difetti estetici” ∼ Be(p).
(A) Dimensione del campione pu essere calcolata con la formula n = (z/A)2 = 167.034 da arrotondare a
168 (nei calcoli A = 0.18 l’ampiezza dell’intervallo, 0.02 il livello di confidenza e z = 2.326 dalle tavole).
(B) Si vuole stimare la proporzione di pizze con difetti. Uno stimatore dalle
p buone propriet pb = X. La
stima puntuale allora pb = x = 0.386 la cui deviazione standard σ(b
p) = pq/n pu essere stimata con
p
p
√
d
σ(b
p) = \
pq/n = pbqb/n = 0.00141 = 0.0376.
118
60
60.1
Compito del 31.05.2005
Testo
Esercizio 1. La CIABATTI spa una societ che produce piccoli mobili (mobili tv e computer, carrelli,
piccole scaffalature, ecc.). L’impresa possiede stabilimenti sia in Italia che altri Paesi, ma sta valutando la
possibilit di delocalizzare interamente le proprie produzioni in un paese dell’Est europeo, dove ritiene che
i costi siano pi bassi. Si tratta per di valutare se questo non vada a discapito della qualit. Per verificare
questo, un nuovo prodotto stato messo in produzione sia in uno stabilimento italiano che in uno collocato
in Romania. Il test comparativo ha dato i risultati mostrati in tabella.
numero difettosi
numero non difettosi
stabilimento italiano
6
129
stabilimento rumeno
27
139
Indicate con p1 e p2 le proporzioni di prodotti difettosi, rispettivamente, nello stabilimento italiano e in
quello rumeno (di cui la tabella costituisce un campione) rispondere alle seguenti domande:
(A) La qualit delle produzioni fra i due stabilimenti diversa? Formulare il problema in termini di test
delle ipotesi su p1 − p2 ed effettuare il test (α = 0.02).
(B) Calcolare il p–value del test costruito al punto precedente. Il p–value ottenuto che considerazioni
suggerisce?
Esercizio 2. Relativamente ai costi, una delle variabili di maggiore importanza riguarda come noto
quelli relativi al personale. La tabella seguente mostra alcune statistiche relative alla retribuzioni orarie
dei dipendenti dei due stabilimenti (valori monetari espressi in euro).
numero dipendenti
media
retribuzioni orarie
√
varianza corretta delle retribuzioni orarie
stabilimento italiano
58
16.54
2.92
stabilimento rumeno
63
3.89
1.32
Dopo aver specificato le assunzioni necessarie:
(A) Fornire una stima puntuale della differenza fra le retribuzioni orarie medie nei due stabilimenti e
della deviazione standard dello stimatore utilizzato.
(B) Costruire l’intervallo di confidenza (1 − α = 0.9) per la differenza fra le retribuzioni orarie medie.
Esercizio 3. Naturalmente l’analisi del costo del lavoro deve essere pi correttamente valutata in termini
di produttivit. Per analizzare questo aspetto la CIABATTI ha raccolto alcuni bilanci di imprese italiane
direttamente concorrenti e per ciascuna societ ha calcolato l’indicatore valore aggiunto/costo del personale
(in pratica il reciproco dell’indice CLUP). I dati sono riportati in tabella.
Valore dell’indicatore
Frequenza
[0,0.7]
1
(0.7,1.2]
6
(1.2,1.5]
5
(1.5,1.9]
7
(1.9,2.5]
6
(2.5,3.5]
4
(A) Rappresentare graficamente la distribuzione.
(B) Calcolare lo scarto interquartile.
Esercizio 4. Con riferimento al test comparativo di cui all’esercizio 1:
(A) Ilie, nuovo addetto alla qualit dello stabilimento rumeno, ha il compito di saggiare la qualit di solo 6
fra i 166 totali prodotti nel suo stabilimento per il test comparativo. Calcolare la probabilit che Ilie non
trovi prodotti difettosi.
(B) Utilizzando le informazioni ricavabili dai dati dell’esercizio 1, calcolare quanto devono essere le dimensioni n1 ed n2 dei due campioni (cio il numero totale di prodotti in ciascuno dei due stabilimenti
per il test comparativo) se si vuole un intervallo di confidenza per p1 − p2 di ampiezza 0.142 al livello di
confidenza 0.98 e si assume n1 = n2 .
119
60.2
Soluzioni
Esercizio 1
Assunzioni: X1 = ’difettoso/non difettoso stabilimento italiano’∼ Be(p1 ), X2 = ’difettoso/non difettoso
stabilimento rumeno’∼ Be(p2 ).
(A) Test per H0 : p1 −pp2 = 0 contro H1 : p1 − p2 6= 0 (α = 0.02). La v.c. test (standardizzata)
[X 1 − X 2 − (p1 − p2 )]/p p1 q1 /n1 + p2 q2 /n2 la distribuzione , approssimativamente, N (0, 1). Sotto H0
abbiamo [X 1 − X 2 − 0]/ pbqb(1/n1 + 1/n2 )|H0 ≈ N (0, 1), dove pb la stima pooled di p sotto H0 e qb = 1 − pb.
Regione di accettazione per la statistica standardizzata = [−2.326, 2.326], con cui occorre confrontare il
= 0.0444, x2 = 27/166
valore campionario -3.2645 della statistica test. (Calcoli: x1 = 6/135p
√ = 0.1627,
pb = (6 + 27)/(135 + 166) = 33/301 = 0.1096, qb = 1 − 0.1096 = 0.8904, pbqb(1/n1 + 1/n2 ) = 0.001311 =
0.036209.)
p
(B) p − value = 2P ([X 1 − X 2 − 0]/ pbqb(1/n1 + 1/n2 ) > | − 3.2645||H0 ) = 2P (Z > 3.2645) = 2 ∗ 5e − 04 =
0.001.
Esercizio 2
Assunzioni: X1 = ’retribuzione oraria stabilimento italiano’∼ [µ1 , σ12 ], X2 = ’retribuzione oraria stabilimento rumeno’[µ2 , σ22 ]. Le dimensioni campionarie sono abbastanza elevate da poter utilizzare criteri di
inferenza di tipo asintotico senza dover specificare la forma delle distribuzioni delle due v.c. Parametro
su cui fare inferenza: µ1 − µ2 .
(A) Stimatore puntuale p
di µ1 − µ2 : X 1 − X 2 , la cui distribuzione campionaria approssimata data da
[X 1 − X 2 − (µ1 − µ2 )]/ S12 /n1 + S22 /n2 ≈ N (0,p1). Stima puntuale:
= 12.65.
p x1 − x2 = 16.54 − 3.89
√
2
2
2
2
Stima della deviazione standard dello stimatore: s1 /n1 + s2 /n2 = 2.92 /58 + 1.32 /63 = 0.1747 =
0.4179.
(B) L’output dell’esercizio precedente
serve anche per costruire
l’intervallo di confidenza per µ1 − µ2
p
p
all’1 − α = 0.9: [x1 − x2 − z s21 /n1 + s22 /n2 , x1 − x2 + z s21 /n1 + s22 /n2 ] = [11.9626, 13.3374], dove
z = 1.645.
Esercizio 3
(A) Istogramma di frequenza (assolute o relative a scelta dello studente):
Valore dell’indicatore
Densit assolute
Densit relative
[0,0.7]
1.429
0.049
(0.7,1.2]
12
0.414
(1.2,1.5]
16.667
0.575
(1.5,1.9]
17.5
0.603
(1.9,2.5]
10
0.345
(2.5,3.5]
4
0.138
(B) Q1 = 1.215, Q3 = 2.175. Quindi lo scarto interquartile Q3 − Q1 = 0.96.
Esercizio 4
(A) X = ’numero difettosi fra quelli di Ilie’ ∼ Ipergeometrica(N = 166, K = 27, n = 6). Allora P (X =
0) = 0.3386. Se si fosse utilizzata l’approssimazione binomiale (di cui, nelle condizioni dell’esercizio,
esistono i presupposti) avremmo avuto X ∼ Binomiale(n = 6, p = 0.1627) e quindi P (X = 0) = 0.3447.
p
(B) L’ampiezza dell’intervallo di confidenza per p1 − p2 data da A = 2z x1 (1 − x1 )/n1 + x2 (1 − x2 )/n2 .
Assumendo n1 = n2 e, in base alle informazioni dell’esercizio
1, x1 = 0.0444 e x2 = 0.1627 possiamo
p
ricavare np
(ed
n
che
uguale)
come
incognita:
n
=
[2z
x
(1
−
x1 ) + x2 (1 − x2 )/A]2 = 191.8099 ' 192.
1
2
1
1
√
(Calcoli: x1 (1 − x1 ) + x2 (1 − x2 ) = 0.178665 = 0.4227 e z = 2.326, dato che α = 0.02).
120
61
61.1
Compito del 09.06.2005
Testo
Esercizio 1. L’ASSOFIDI un’associazione che vigila sul mondo del credito al consumo. In uno studio
l’associazione ha presentato un’analisi comparativa sul credito al consumo fra Nord–Est e Sud. In un
commento ha dichiarato che ’. . . a livello territoriale, l’importo medio dei finanziamenti concessi risultato
sostanzialmente uguale nelle due aree, con una variabilit pi elevata nella prima’. La tabella seguente
sintetizza i dati campionari sui quali sono basate tali considerazioni (valori monetari espressi in euro).
numero finanziamenti
media dell’importo finanziato
√ mediana dell’importo finanziato
varianza corretta dell’importo finanziato
Nord–Est
126
357.49
360.59
125.44
Sud
146
330.51
332.02
73.56
(A) Sottoporre a test l’affermazione di ASSOFIDI sulle medie dei finanziamenti concessi nelle due aree
territoriali (α = 0.1).
(B) Determinare l’intervallo di confidenza al livello di confidenza 0.998 per la differenza fra le medie degli
importi finanziati nelle due aree territoriali.
Esercizio 2. In base ai dati dell’esercizio 1:
(A) Costruire l’intervallo di confidenza per il rapporto fra le deviazioni standard degli importi finanziati
nelle due aree territoriali (1 − α = 0.98).
(B) Utilizzando le informazioni desumibili dai dati dell’esercizio 1, quale dovrebbe essere la dimensione
del campione al Sud per ottenere un intervallo di confidenza per la media di ampiezza 16.53 al livello
di confidenza 0.998? Nel calcolo si assuma che la varianza dell’importo finanziato al Sud sia identica a
quella rilevata nel campione.
Esercizio 3. ASSOFIDI ha comunicato inoltre che, come numero, il 56.6% dei crediti sono stati erogati
nel Nord–Est e il rimanente 43.4% al Sud. Assumendo che, nelle due aree territoriali considerate, l’ammontare degli importi finanziati siano indipendenti e abbiano distribuzione normale con momenti identici
a quelli rilevabili dal campione:
(A) Calcolare la probabilit che, estratto a caso un finanziamento, questo riguardi un importo maggiore
di 469 euro.
(B) Calcolare la probabilit che un finanziamento superiore 469 euro venga effettuato al Nord–Est.
Esercizio 4. La ricerca di ASSOFIDI di cui all’esercizio 1 risultata interessante anche per un interlocutore
americano, che per in base alla sua esperienza desidera qualche informazione supplementare.
(A) L’interlocutore preferisce ragionare sulle mediane piuttosto che sulle medie: possibile fornirgli il valore
delle due mediane (al Nord–Est e al Sud) se si utilizza come unit monetaria il dollaro americano (1 euro
= 1.25 dollari)? Se s, calcolare quali sono i valori; se no, dire perch.
(B) L’interlocutore preferisce ragionare sul coefficiente di variazione piuttosto che sulla deviazione standard: possibile fornirgli il valore dei due coefficienti di variazione (al Nord–Est e al Sud) se si utilizza
come unit monetaria il dollaro americano (1 euro = 1.25 dollari)? Se s, calcolare quali sono i valori; se
no, dire perch.
61.2
Soluzioni
Esercizio 1
Assunzioni: X1 = ’importo finanziato nel Nord-Est’∼ N (µ1 , σ12 ), X2 = ’importo finanziato nel Sud’∼
N (µ2 , σ22 ).
(A) Test per H0 : µ1 − p
µ2 = 0 contro H1 : µ1 − µ2 6= 0 (α = 0.1). La v.c. test (standardizzata)
[X 1 − X 2 − (µ1 − µ2 )]/ S12 /n1 + S22 /n2 la cui distribuzione , approssimativamente, N (0, 1) (n1 ed
121
n2 sono sufficientemente
elevate da poter utilizzare criteri di inferenza asintotici). Sotto H0 abbiamo
p
[X 1 − X 2 − 0]/ S12 /n1 + S22 /n2 |H0 ≈ N (0, 1). Regione di accettazione per la statistica standardizzata
= [−1.645, 1.645], con cui occorre confrontare il valore campionario 2.1201 della statistica
p test. (Calcoli:
2
2
x
=
357.49,
x
=
330.51,
s
=
125.44,
s
=
73.56,
s
s21 /n1 + s22 /n2 =
=
15735.19,
s
=
5411.07,
2
1
2
1
2
√1
161.9446 = 12.7257.)
p
−x
−z
s21 /n1 + s22 /n2 , x1 −
(B) Intervallo
di
confidenza
per
µ
−µ
(livello
di
confidenza
1−α
=
0.998):
[x
1
2
1
2
p
2
2
x2 + z s1 /n1 + s2 /n2 ] = [−12.3454, 66.3054] (Calcoli: z = 3.09; gli altri dati all’esercizio precedente.)
Esercizio 2
Assunzioni: le stesse dell’esercizio precedente.
(A) Intervallo di confidenza per σ12 /σ22 (livello di confidenza 1−α = 0.98): [c1 s21 /s22 , c2 s21 /s22 ] = [1.9368, 4.3421]
(Calcoli: c1 = 0.666, c2 = 1.4932; gli altri dati all’esercizio precedente.) Il corrispondente intervallo di
confidenza per σ1 /σ2 allora [1.3917, 2.0838].
(B) Utilizzando le informazioni desumibili dal campione si ricava n = (2zs/A)2 = 27.5042 = 756.45 ' 757,
dove: z = 3.09 (α = 0.002), s = 73.56, A = 16.53.
Esercizio 3
Assunzioni: X = ’importo finanziamento’, S = ’finanziamento effettuato al Sud’; abbiamo X|S ∼ N (µS =
330.51, σS = 73.56), X|S ∼ N (µS = 357.49, σS = 125.44), P (S) = 0.434, P (S) = 0.566.
(A) Formula della probabilit marginale (o totale): P (X ≥ 469) = P (X ≥ 469|S)P (S) + P (X ≥
469|S)P (S) = 0.0299 ∗ 0.434 + 0.187 ∗ 0.566 = 0.1188.
(B) Formula di Bayes: P (S|X ≥ 469) = P (X ≥ 469|S)P (S)/P (X ≥ 469) = 0.187 ∗ 0.566/0.1188 =
0.8909.
Esercizio 4
(A) La mediana un operatore equivariante: considerata una trasformazione strettamente crescente, ’la
mediana della trasformazione la trasformazione della mediana’. Quindi: M e(importo in dollari) =
M e(1.25×importo in euro) = 1.25 × M e(importo in euro). Al Nord–Est: M e(importo in dollari) =
1.25 × 360.59 = 450.7375; al Sud: M e(importo in dollari) = 1.25 × 332.02 = 415.025.
(B) Dalle propriet della media e della deviazione standard abbiamo in definitiva che CV (importo in
dollari) = CV (importo in euro). Infatti: µ(importo in dollari) = µ(1.25×importo in euro) = 1.25 ×
µ(importo in euro) e σ(importo in dollari) = σ(1.25×importo in euro) = 1.25 × σ(importo in euro),
per cui CV (importo in dollari) = σ(importo in dollari)/µ(importo in dollari) = 1.25 × σ(importo in
euro)/[1.25 × σ(importo in euro)] = σ(importo in euro)/µ(importo in euro) = CV (importo in euro).
Allora: al Nord–Est CV (importo in dollari) = 125.44/357.49 = 0.3509 e al Sud CV (importo in dollari) =
73.56/330.51 = 0.2226.
122
62
Compito del 28.06.2005
62.1
Testo
Esercizio 1
Considerate la seguente distribuzione di probabilit discreta:
X
0
1
2
0
0.05
0.21
0.08
Y
1
0.10
0.11
0.15
2
0.03
0.19
0.08
(a) Calcolate P (X < 2 ∩ Y > 0); P (X < 2 | Y = 1).
(b) Calcolate Var[Y ] e Var[Y | X = 1].
Esercizio 2
Alcune aziende stanno sperimentando l’orario flessibile, in cui ogni impiegato pu scegliere l’orario di lavoro
pi adatto alle proprie esigenze, entro certi limiti. Si ritiene che l’orario flessibile riduca l’assenteismo.
L’azienda CUP ha registrato nel periodo 2000-03 un numero medio di giorni di assenza pari a 6.3 l’anno.
Nel 2004 la Cup ha introdotto l’orario flessibile. Alla fine del 2005 stato estratto un campione di 101
impiegati, registrando in media 5.3 giorni di assenza con varianza campionaria corretta 8.41 giorni2 . Si
assuma che la variabile giorni di assenza abbia distribuzione Normale.
(a) Potreste affermare che l’orario flessibile ha ridotto l’assenteismo rispetto al 2000-03? (livello di
significativit α = 0.05)
(b) Riportate una stima per intervallo della varianza del numero di giorni di assenza (livello di confidenza
1 − α = 0.99).
Esercizio 3
La CUP vuole verificare se vi siano differenze in termini di puntualit tra i dipendenti della filiale CUP-1st
e quelli della CUP-2nd. A tal fine, rileva la variabile scarto in minuti = orario di arrivo del dipendente
- orario ufficiale di inizio lavoro del personale su un campione di 5 dipendenti della CUP-1st e di altri 5
dipendenti della CUP-2nd. I dati sono riportati nella tabella seguente:
Scarto in minuti per dipendente CUP-1st
Scarto in minuti per dipendente CUP-2nd
-23
42
40
-10
57
-5
-10
12
1
23
Si noti che con dipendente puntuale si intende dipendente non in ritardo rispetto all’orario ufficiale di
inizio lavoro.
Assumendo che gli scarti in minuti si distribuiscano normalmente con uguale varianza nota e pari a 302.5:
(a) stimare un intervallo di confidenza di livello 0.90 che confronti le medie degli scarti in minuti nelle
due filiali.
(b) si effettui un test d’ipotesi per capire se i dipendenti della CUP-2sd siano pi puntuali di quelli della
CUP-1st, utilizzando il p–value.
Esercizio 4
La CUP ritiene che il livello di assenteismo sia diferrenziato per settore. Nella tabella seguente riporta
alcune statistiche per i 4 settori della filiale CUP-1st.
Settore
Settore
Settore
Settore
Settore
A
B
C
D
media gg. assenza
6.7
4.7
3.8
8.5
n. dipendenti
35
51
20
12
(a) Calcolare il numero medio di giorni di assenza nella intera filiale CUP-1st.
(b) Un dirigente ha intenzione di penalizzare i settori con alto livello di assenteismo e propone come
123
variabile d’interesse Y = (numero di giorni di assenza)2 . possibile ottenere per ciascun settore la media
della variabile Y utilizzando i dati riportati in tabella? Se s, effettuare il calcolo, altrimenti spiegare il
motivo.
62.2
Soluzioni
Esercizio 1
(a) P (X < 2∩Y > 0) = P (X = 0∩Y = 1)+P (X = 0∩Y = 2)+P (X = 1∩Y = 1)+P (X = 1∩Y = 2) =
= 0.10 + 0.03 + 0.11 + 0.19 = 0.43.
P (X < 2 | Y = 1) = P (X < 2 ∩ Y = 1)/P (Y = 1) = (0.10 + 0.11)/(0.10 + 0.11 + 0.15) = 0.583̄
(b)Y assume valori 0, 1, e 2 con probabilit 0.34 , 0.36 e 0.30 rispettivamente.
Quando X = 1, Y assume valori 0, 1, e 2 con probabilit 0.41 , 0.22 e 0.37 rispettivamente.
Da cui E[Y ] = 0 · 0.34 + 1 · 0.36 + 2 · 0.30 = 0.96
Var[Y ] = (0 − 0.96)2 · 0.34 + (1 − 0.96)2 · 0.36 + (2 − 0.96)2 · 0.30 = 0.6384.
E[Y | X = 1] = 0 · 0.41 + 1 · 0.22 + 2 · 0.37 = 0.96 Var[Y | X = 1] = (0 − 0.96)2 · 0.41 + (1 − 0.96)2 · 0.22 +
(2 − 0.96)2 · 0.37 = 0.7784.
Esercizio 2
X = numero di giorni di assenza ∼ N (µ, σ 2 ).
(a) Test d’ipotesi: H0 : µ = 6.3 contro H1 : µ < 6.3, α = 0.05. Varianza ignota ma n grande.
zoss = √5.3−6.3 = −3.465. zcrit = −1.645. Rifiuto H0 .
8.41/101
2
(b)Media ignota: (n−1)S
∼ χ2n−1 .
σ2
2
2
χn−1,α/2 = 67.3275, χn−1,1−α/2 = 140.1697 (sono indicati i quantili della distribuzione - come da tavole).
Intervallo di confidenza: [5.9999 ; 12.4912].
Esercizio 3
X1 = scarto in minuti per la CUP-1st ∼ N (µ1 , 302.5);
∼ N (µ2 , 302.5). Campioni indipendenti.
σ2
(a) X̄1 − X̄2 ∼ N µ1 − µ2 , n11 +
x̄1 = 13
x̄2 = 12.4
σ22 n2
X2 = scarto in minuti per la CUP-2nd
con n1 = n2 = 5 e σ12 = σ22 = 302.5.
zα/2 = ±1.645. Da cui l’intervallo cercato [−17.495 ; 18.695].
(b) Test d’ipotesi: H0 : µ1 = µ2 contro H1 : µ1 > µ2 , α = 0.05. Varianza nota.
Variabile test (sotto H0 ): Z =
X̄1 −X̄2
r
2
σ1
n1
σ2
∼ N (0, 1).
+ n2
2
√
zoss = (13−12.4)−0
= 0.0545. p-value ' P (Z > 0.05) = 1 − 0.51994 = 0.48006. Accetto H0 .
2∗302.5/5
Esercizio 4
(a)
µCU P = (6.7 · 35 + 4.7 · 51 + 3.8 · 20 + 8.5 · 12)/118 = 5.5271.
(b) Non possibile effettuare il calcolo, in quanto la Y non una trasformazione lineare della X.
124
63
63.1
Compito del 13.07.2005
Testo
Esercizio 1. Nel mese di maggio la COXXA ha condotto una ricerca sui bilanci delle societ di capitale con
sede nella provincia di Siena. Durante il convegno in cui ha presentato i risultati della ricerca, un relatore
della COXXA ha affermato che ’. . . nel 2003 il settore agricolo ha mostrato una redditivit mediamente
superiore rispetto agli altri’. Tali conclusioni sono basate sulle statistiche (presentate in tabella) relative
a due campioni di bilanci, dove la redditivit misurata con l’indice ’ROI = reddito operativo/capitale
investito’ espresso il percentuale.
numero bilanci
media ROI
√
varianza corretta del ROI
Agricoltura
56
9.35
6.19
Altri settori
215
4.36
5.5
(A) Sottoporre a test l’affermazione di COXXA sulla maggiore redditivit media del settore agricolo
(α = 0.1).
(B) Determinare la potenza del test costruito al punto precedente, in corrispondenza dell’ipotesi alternativa ’la differenza fra i ROI medi (agricoltura – altri settori) pari a 1.3’. Nel calcolo si assuma che le
varianze campionarie coincidano con quelle vere.
Esercizio 2. In base ai dati dell’esercizio 1:
(A) Fornire stima puntuale e per intervallo (1 − α = 0.998) della deviazione standard del ROI nel settore
agricolo.
(B) Si assuma ora che il vero valore della deviazione standard del ROI in agricoltura sia esattamente
quello stimato al punto precedente. In tale caso, quanto vale il terzo quartile del suo stimatore?
Esercizio 3. Analizzando pi in dettaglio il ROI del settore agricolo, la COXXA ha ricavato la distribuzione di frequenza riportata nella seguente tabella.
Valore del ROI
Frequenza
[-5,0]
3
(0,4]
7
(4,6]
4
(6,8]
9
(8,12]
17
(12,20]
16
Totale
56
Supponendo di disporre dei soli dati riportati in tabella:
(A) Determinare la moda del ROI in agricoltura.
(B) Determinare la mediana del ROI in agricoltura.
Esercizio 4. Un politico intervenuto al convegno non ha chiaro il modo in cui la COXXA ha tratto
le conclusioni di cui all’esercizio 1. Con questo pretesto ha ’agganciato’ alcuni interlocutori della societ
durante il buffet: gli hanno parlato anche del concetto di ’distribuzione campionaria’ ma alla fine non ne
ha ricavato molto.
In questo ambito si assuma che una variabile casuale X assuma solo valori nell’insieme {8, 32, 16}, ciascuno
dei quali con probabilit 1/3. Supponendo di estrarre con reimmissione campioni di dimensione n = 2:
(A) Ricavare la distribuzione campionaria della media campionaria.
(B) La media campionaria uno stimatore corretto della media della variabile casuale X? Giustificare la
risposta.
63.2
Soluzioni
Esercizio 1 Assunzioni: X1 = ’ROI del settore agricolo’∼ N (µ1 , σ12 ), X2 = ’ROI degli altri settori’∼
N (µ2 , σ22 ).
(A) Test per H0 : µ1 − p
µ2 = 0 contro H1 : µ1 − µ2 > 0 (α = 0.1). La v.c. test (standardizzata)
[X 1 − X 2 − (µ1 − µ2 )]/ S12 /n1 + S22 /n2 la cui distribuzione , approssimativamente, N (0, 1) (n1 ed
n2 sono sufficientemente
elevate da poter utilizzare criteri di inferenza asintotici). Sotto H0 abbiamo
p
[X 1 − X 2 − 0]/ S12 /n1 + S22 /n2 |H0 ≈ N (0, 1). Regione di accettazione per la statistica standardizzata
125
= (−∞, z.critico = 1.282], con cui occorre confrontare il valore campionario
test.
p 5.4941 della statistica
√
(Calcoli: x1 = 9.35, x2 = 4.36, s1 = 6.19, s2 = 5.5, s21 = 38.32, s22 = 30.25, s21 /n1 + s22 /n2 = 0.8249 =
0.9082.)
(B) In base al testo σ1 = s1 = 6.19 e σ2 = s2 = 5.5. Seppure con questa modifica facile verificare
che la regionepdi rifiuto R rimane inalterata, anche se adesso deve essere riferita alla variabile test
σ22 /n2 che sotto H0 ha una distribuzione N (0, 1). Potenza = γ = P (campione ∈
[X 1 −X 2 −0]/ σ12 /n1 + p
R) p
= P ([X 1 − X 2 − 0]/ σ12 /n1 + σ22 /n2 > z.critico|H1 ). Sotto H1 , la distribuzione di [X 1 − X 2 −
0]/ σ12 /n1 + σ22 /n2 non pi (approssimativamente) N (0, 1), dato che sotto H1 si ha µ1 − µ2 = 1.3,
non pi µ1 − µ2 = 0. Allora, in pratica, bisogna ’togliere la standardizzazione
basata su H0 e mettere
p
2 /n + σ 2 /n > z.critico|H ) =
quella sotto H1 ’. Riprendendo
i
passaggi:
γ
=
P
([X
−
X
−
0]/
σ
1
2
2
1
1p 1
2
p
σ12 /n1 + σ22 /n2 |H1 ) = P ([X 1 − X 2 − 1.3]/ σ12 /n1 + σ22 /n2 > z.critico −
P (Xp
1 − X 2 > z.critico ∗
1.3/ σ12 /n1 + σ22 /n2 |H1 ) = P (Z > 1.282 − 1.3/0.9082|H1 ) = P (Z > −0.1498|H1 ) = 0.55953.
Esercizio 2 Assunzioni: X = ’ROI del settore agricolo’∼ N (µ, σ 2 ).
(A) Stima puntuale di σ: s = 6.19. Intervallo di confidenza per σ 2 relativo al settore agricolo (livello
di confidenza 1 − α = 0.998): [(n − 1)s2 /c2 , (n − 1)s2 /c1 ] = [22.6216, 74.8089] (Calcoli: c1 = 28.1731,
c2 = 93.1675 dalle tavoleχ2 (n − 1); n = 56, s2 = 38.32). Il corrispondente intervallo di confidenza per σ
allora [4.7562, 8.6492].
(B) In pratica si richiede il valore x tale che P (S > x) = 0.75, assumendo di conoscere che σ = 6.19.
Nel calcolo opportuno ricondursi ad una variabile di cui ’si sa maneggiare la distribuzione’, ovvero (n −
1)S 2 /σ 2 ∼ χ2 (n − 1). Allora 0.75 = P (S < x) = P (S 2 < x2 ) = P ((n − 1)S 2 /σ 2 < (n − 1)x2 /σ 2 = c).
Quindi c =p
(n − 1)x2 /σ 2 il √
quantile 0.75 della χ(n − 1) dove n = 56: dalle tavole c = 61.665, da cui si
ricava x = cσ 2 /(n − 1) = 42.9637 = 6.5547.
Esercizio 3
Valore del ROI
Frequenza
Densit
[-5,0]
3
0.6
(0,4]
7
1.75
(4,6]
4
2
(6,8]
9
4.5
(8,12]
17
4.25
(12,20]
16
2
Totale
56
(A) Moda (per modalit raggruppate in classi) = valore centrale della classe con densit pi alta = 7.
(B) Mediana (per modalit raggruppate in classi) = 9.1765.
Esercizio 4
(A) Per determinare la distribuzione campionaria basta fare: 1) la lista di tutti i possibili campioni
di dimensione n = 2 con ripetizione; 2) calcolare di ognuno la corrispondente probabilit e la statistica
desiderata (nell’esercizio la media); 3) tabulare la distribuzione ottenuta. Risultato:
x
P (X = x)
8
0.1111
12
0.2222
16
0.1111
20
0.2222
24
0.2222
32
0.1111
Totale
1
(B) Dai dati dell’esercizio si ha che E(X) = 18.6667 mentre dalla distribuzione campionaria di cui sopra
si ricava immediatamente che E(X) = 18.6667. La media campionaria allora uno stimatore corretto di
E(X). Si poteva anche rispondere argomentando che la media campionaria in generale uno stimatore
corretto di E(X) (purch la media di X, come nel caso dell’esercizio, esista).
126
64
64.1
Compito del 16.12.2005
Testo
Esercizio 1
Il sig. Rossi afferma di avere poteri extrasensoriali e di poter indovinare il risultato del lancio di una
comune moneta da 1 euro.
(a) Se il sig. Rossi dicesse il falso, quale sarebbe la probabilit che egli indovini il risultato del lancio della
moneta per 4 volte di seguito e sbagli solo alla 5a volta?
(b) Il sig. Rossi viene sottoposto ad un esperimento composto da 10 prove: noto che, per ciascuna prova,
la probabilit di indovinare il risultato 0.5 se non si hanno poteri extrasensoriali e 0.68 con poteri extrasensoriali. Ponendo come equiprobabile il fatto che il sig. Rossi possa avere o meno poteri extrasensoriali,
quale la probabilit che egli indovini esattamente 7 risultati?
Esercizio 2
Un istituto di ricerca interessato a valutare quale sia la proporzione di italiani che credono di avere poteri
extrasensoriali.
(a) L’Istituto desidera ottenere una stima per intervallo con un errore di al massimo ±0.1 per tale
proporzione, al livello di confidenza 0.99. Quale dovrebbe essere la dimensione del campione?
(b) Per motivi contingenti, l’indagine viene effettuata su un campione di 221 individui, di cui 77 hanno
dichiarato di avere poteri extrasensoriali. Sapendo che la proporzione di inglesi che ritengono di avere
poteri extrasensoriali 0.07 , si verifichi se gli italiani ritengono di avere poteri extrasensoriali in proporzione
superiore agli inglesi. (α = 0.01)
Esercizio 3
Al sig. Rossi viene chiesto di effettuare una prova multipla, composta da due esperimenti: al primo, X,
egli pu ottenere un punteggio di 0, 1 e 10; al secondo, Y , egli pu ottenere un punteggio di 0 e 1. La
tabella seguente riporta la distribuzione delle frequenze relative congiuntamente per i due esperimenti.
Y =0
Y =1
X=0
0.28
0.04
X=1
0.14
0.11
X = 10
0.16
0.27
(a) Calcolare un indice di associazione tra i punteggi ottenuti nei due esperimenti.
(b) Sia W una variabile casuale N (µ, σ 2 ) avente moda e 90o percentile identici a quelli della distribuzione
condizionata di X dato Y = 0. Si determini il valore dei parametri µ e σ 2 .
Esercizio 4
Sia X ∼ N (µ, σ 2 ). Si estrae un campione di dimensione n = 111 da tale popolazione e si intende stimare
µ mediante uno dei seguenti stimatori:
n
T1 = 8X1
1X
T2 =
Xi
n i=1
T3 =
X3 + Xn−3
2
(a) Calcolare la distorsione dei tre stimatori.
(b) Calcolare la varianza dei tre stimatori ed effettuare una scelta motivata tra i tre stimatori proposti,
sulla base anche di quanto ottenuto al punto (a).
64.2
Soluzioni
Esercizio 1
(a) Se il sig. Rossi dice il falso, allora egli indovina a caso l’esito del lancio di una moneta con probabilit
0.5.
Ogni lancio una prova bernoulliana con X = 1 se egli indovina. Le prove sono indipendenti. Y = numero
di lanci fino al primo errore.
P (Y = 5) = 0.55 = 0.0312
(b) X = 1 se il sig. Rossi ha poteri extrasensoriali, 0 altrimenti. X ∼ Ber(0.5).
127
Y = Numero di risultati indovinati su n = 10 prove ∼ Bin(n, p).
Y | X = 0 ∼ Bin(n, 0.5), e Y | X = 1 ∼ Bin(n, 0.68).
P (Y = 7) = P (Y = 7 | X = 0)P (X = 0) + P (Y = 7 | X = 1)P (X = 1) = 0.1908.
Esercizio 2
Chiamo X = 1 se l’unitqstatistica ritiene di avere poteri extrasensoriali e 0 altrimenti. Allora X ∼ Ber(p).
(a) Si desidera che z α2 p(1−p)
≤ 0.1 con livello di confidenza = 1 − α = 0.99 . Posta la varianza di X
n
pari al suo valore massimo, ossia p(1 − p) = 0.25 , si ottiene n = 167
(b) Test su una proporzione con n grande.
H0 : p = 0.07
H1 : p > 0.07
α = 0.01 p̂ = 0.3484
zoss = 16.2218, zcrit = 2.3263
Rifiuto H0
Esercizio 3
(a) X e Y sono due variabili quantitative. Un indice di associazione lineare ρ.
E(X) = 4.55 E(Y ) = 0.42 V ar(X) = 22.5475 V ar(Y ) = 0.2436.
CovXY = 0.899 ρXY = 0.3836
(b) Distribuzione condizionata di X | Y = 0
prob
X=0
0.48
X=1
0.24
X = 10
0.28
Moda di X | Y = 0: 0 90o percentile: 10
W ∼ N (0, σ 2 ) con P (W ≤ 10) = 0.75.
Da cui σ 2 = 60.8875
Esercizio 4
(a) Per le propriet del valore atteso, E(T1 ) = 8µ per cui D = E(T1 ) − µ = 7µ.
E(T2 ) = µ per cui D = 0.
E(T3 ) = µ+µ
per cui D = 0.
2 =µ
(b) Per le propriet della varianza
2
V ar(T1 ) = 82 σ 2 . V ar(T2 ) = σn . V ar(T3 ) = 14 σ 2 + 14 σ 2 = 12 σ 2 .
128
65
65.1
Compito del 19.01.2006
Testo
Esercizio 1. Sia X una distribuzione Normale, con media µ = 4 e deviazione standard σ = 3, da cui
viene estratto un campione casuale semplice di dimensione n = 3.
(A) Determinare la distribuzione campionaria di ciascuno dei seguenti stimatori della media:
T1 =
2X1 + X2
3
T2 =
X1 + X2 + X3 − 0.2
3
(B) Dovendo sceglierne uno, quale fra i due stimatori di µ risulta preferibile? Giustificare la risposta.
Esercizio 2. SNOWBUZZ spa progetta e costruisce attrezzature sportive per lo sci. Attualmente sta
studiando nuovi materiali per lo sci di fondo. La scorsa settimana i tecnici dell’impresa hanno svolto
una prova comparativa nella quale hanno confrontato i nuovi sci con quelli attualmente in produzione in
un test di scorrevolezza su due prove indipendenti di sci. I risultati del test sono riassunti in tabella: i
numeri riportati sono i secondi impiegati a percorrere un tratto di pista innevato.
Nuovi sci
Vecchi sci
23.8
30.9
19.3
20.2
23.1
37
33.2
27.3
26.7
24.1
Facendo le opportune assunzioni sulla variabile casuale ’tempo impiegato a percorrere il tratto di pista’
rispondere alle seguenti domande:
(A) I nuovi sci sono più veloci dei vecchi? (α = 0.05). (Ai fini della formulazione delle ipotesi, tenere
presente che si vuole evitare di produrre i nuovi sci se non sono più veloci dei vecchi.)
(B) Calcolare il p-value del test di cui al punto precedente assumendo che le vere varianze risultino
identiche a quelle calcolate.
Esercizio 3. Con riferimento all’esercizio precedente, si considerino ora solo i dati relativi ai nuovi sci e
si indichi con X la variabile casuale ’tempo di percorrenza del tratto di pista innevato’.
(A) Fra quelle note, scegliere la distribuzione che vi sembra più adatta per la variabile X e stimarne i
parametri.
(B) Assumendo ora che i parametri stimati al punto precedente coincidano con il valore vero degli stessi,
determinare il terzo quartile di X.
Esercizio 4. La velocità di uno sci non è però l’unico aspetto da tenere presente: risultano assai
importanti anche stabilità, controllo, maneggevolezza e altre caratteristiche che risultano tuttavia non
facilmente misurabili in modo oggettivo. A questo proposito SNOWBUZZ spa si serve di alcuni atleti di
alto livello come tester: dal loro giudizio viene ricavato un indice sintetico, chiamato FUN, per valutare
la bontà dei nuovi attrezzi relativamente questo insieme di caratteristiche. Elaborando i test effettuati è
stato valutato che: per i nuovi sci il FUN ha media 4.5 e deviazione standard 1.9; per i vecchi il FUN ha
media 4.9 e deviazione standard 2.1. Si assuma che il FUN abbia distribuzione Normale sia per i vecchi
che per i nuovo sci.
(A) Un atleta sta provando un paio di sci: egli lo ha scelto casualmente fra due paia, di cui uno del vecchio
tipo e uno del nuovo. Nessuno ci ha però informati sul tipo scelto dall’atleta. Calcolare la probabilità
che l’atleta attribuisca un FUN superiore a 5.5.
(B) Con riferimento alla situazione di cui al punto precedente, sapendo che l’atleta ha attribuito un FUN
superiore a 5.5, calcolare la probabilità che gli sci testati siano del nuovo tipo.
65.2
Soluzioni
Esercizio 1 Assunzioni: X ∼ N (µ = 4, σ = 3). X = (X1 , X2 , X3 ) campione casuale semplice estratto
da X.
(A) I due stimatori proposti sono combinazioni lineari di X1 , X2 , X3 e quindi di v.c normali indipendenti.
La loro distribuzione è allora Normale con media e varianza calcolabile in base alle proprietà dei valori
129
attesi. E(T1 ) =
2µ + µ
µ+µ+µ−4
4σ 2 + σ 2
= 4; E(T2 ) =
= 3.93333; V (T1 ) =
= 5; V (T2 ) =
3
3
9
σ2 + σ2 + σ2
=3
9
(B) T1 è corretto ma la sua varianza è maggiore di quella di T2 . La scelta può allora basarsi sull’MSE:
M SE(T1 ) = V (T1 ) + bias(T1 )2 = 5 + 02 = 5, M SE(T2 ) = V (T2 ) + bias(T2 )2 = 3 + −0.066672 = 3.00444.
Preferibile quello con MSE più piccolo.
Esercizio 2 Assunzioni: X1 = ’tempo impiegato dai nuovi sci’∼ N (µ1 , σ12 ), X2 = ’tempo impiegato dai
vecchi sci’∼ N (µ2 , σ22 ).
(A) Test per H0 : µ1 − µ2 = 0 contro H1 : µ1 − µ2 < 0 (α = 0.05). Stante l’esigua dimensione
p campionaria
−
µ
)]/[S
1/n1 + 1/n2 ]
occorre assumere σ1 = σ2 . La v.c. test da utilizzare quindi [X 1 − X 2 − (µ
2
p
p1
la cui distribuzione T (n1 + n2 − 2). Sotto H0 abbiamo [X 1 − X 2 − 0]/[Sp 1/n1 + 1/n2 ]|H0 ∼ T (n1 +
n2 − 2). Regione di rifiuto per la statistica standardizzata = (−∞, t.critico) = (−∞, −1.8595), con
cui occorre confrontare il valore campionario −0.72495 della statistica test. (Calcoli: n1 = n2 = 5,
s2 (n1 − 1) + s22 (n2 − 1)
x1 = 25.22, x2 = 27.9, s21 = 26.857, s22 = 41.475, s2p = 1
= 34.166, sp = 5.84517,
n1 + n2 − 2
p
sp 1/n1 + 1/n2 = 3.69681)
(B) In base al testo dell’esercizio σ12 = s21 = 26.857 epσ22 = s22 = 41.475. Dato che le varianze sono adesso
note la statistica test divienep[X 1 − X 2 − (µ1 − µ2 )]/ σ12 /n1 + σ22 /n2 la cui distribuzione
p è N (0, 1). Sotto
2
2
2
2
H0 abbiamo [X 1 − X 2 − 0]/ σ1 /n1 + σ2 /n2 ∼ N (0, 1). p-value = P ([X 1 −
pX 2 − 0]/ σ1 /n1 + σ2 /n2 <
2
2
z.camp|H
0 ) = P (Z < z.camp|H0 ) = 0.23424, dove z.camp = [x1 − x2 − 0]/ σ1 /n1 + σ2 /n2 = −0.72495,
p
√
σ12 /n1 + σ22 /n2 = 13.6664 = 3.69681.
Esercizio 3 Assunzioni: X = ’tempo impiegato dai nuovi sci’∼ N (µ, σ 2 ).
c2 = s2 = 26.857 (alte info: P5 x2 = 3287.67).
(A) µ
b = x = 25.22; σ
i=1 i
(B) In base al testo, X ∼ N (µ = 25.22, σ = 5.18237). Si tratta di trovare il valore Q3 tale che P (X ≤
Q3 ) = 0.75. Standardizzando (la distribuzione di X è Normale) e facendo i conti si ha: Q3 = µ + σz0.75 =
25.22 + 5.18237 ∗ 0.674 = 28.71546.
Esercizio 4 Assunzioni: X =’FUN’; N =’nuovi sci’. X|N ∼ N (µ1 = 4.5, σ1 = 1.9), X|N =∼ N (µ2 =
4.9, σ2 = 2.1). P (N ) = P (N ) = 0.5.
(A) P (X > 5.5) = P (X > 5.5|N )P (N ) + P (X > 5.5|N )P (N ) = 0.34344, dove P (X > 5.5|N ) = P (Z >
0.52632) = 0.29933 e P (X > 5.5|N ) = P (Z > 0.28571) = 0.38755.
(B) P (N |X > 5.5) =
P (X > 5.5|N )P (N )
= 0.43579.
P (X > 5.5)
130
66
Compito del 02.02.2006
66.1
Testo
Esercizio 1. Sia X una variabile casuale, avente media µ = 3 e deviazione standard pari a σ = 4, da cui
viene estratto un campione casuale semplice di dimensione n = 4.
(A) Cosa è possibile dire circa la distribuzione campionaria dei seguenti stimatori di µ?
T1 =
7X1 + 5X2
12
T2 =
6X2 + 2X3 + 12X4
20
(B) Dovendo sceglierne uno, quale fra i due stimatori di µ risulta preferibile? Giustificare la risposta.
Esercizio 2. BV spa è una piccola società che commercializza vini. In collaborazione con alcune
pizzerie–ristoranti della zona ha rilevato per alcuni giorni dati relativi agli abbinamenti fra tipologia di
vino (bianco/rosso) e pasto ordinato (pizza/altro). I dati raccolti (numero di clienti) sono riportati in
tabella.
Pasto
pizza
altro
Vino
rosso bianco
57
46
134
60
Oggetto d’interesse è la differenza di comportamento, relativamente alla tipologia di vino scelto, fra chi
ordina pizza e chi non la ordina. Si indichino con p1 e p2 le proporzioni di clienti che ordinano vini rossi,
rispettivamente, fra chi consuma pizza e chi consuma altro e si assuma che queste due popolazioni siano
indipendenti.
(A) Proporre uno stimatore puntuale per p1 − p2 e se ne indichi la distribuzione campionaria. Sulla base
di questo fornire una stima puntuale di p1 − p2 e una stima della deviazione standard dello stimatore
utilizzato.
(B) È possibile concludere che le proporzioni p1 e p2 sono diverse? Impostare il problema come test delle
ipotesi e risolverlo utilizzando il p–value.
Esercizio 3. Con riferimento al campione di cui all’esercizio precedente, BV spa ha calcolato che i clienti
che hanno ordinato pizza hanno speso in media 26.28 Euro con una deviazione standard 6.89 Euro, mentre
coloro che non hanno ordinato pizza hanno speso in media 38.71 Euro con una deviazione standard 10.26
Euro.
(A) I dati a disposizione consentono di ricavare quanto hanno speso in media tutti i clienti inclusi nel
campione? Se sı̀ calcolare il valore, altrimenti spiegare il perché.
(B) Fornire una stima per intervallo (1 − α = 0.98) della differenza di spesa media fra i due tipi di pasto.
Esercizio 4. A scopo promozionale, BS spa ha indetto un concorso fra vini. Al termine della gara, i due
vini finalisti sono stati giudicati da 6 enologi mediante assegnazione di un punteggio. I punteggi assegnati
dagli enologi a ciascuno dei vini sono riportati in tabella.
Vino
vinoA
vinoB
Dario
7
6.4
Carlo
4.3
4.9
Enologo
Piero Rocco
7
3
7.2
5.3
Gianni
3.3
2.4
Enrico
3.5
4.4
Specificando le assunzioni necessarie:
(A) I due vini differiscono quanto a punteggio medio? (α = 0.1)
(B) Utilizzando le informazioni che è possibile ricavare dalla tabella, quanti enologi occorrerebbe interpellare (in una eventuale futura rilevazione) per ottenere un intervallo di confidenza per la differenza di
punteggio medio fra i due vini che abbia ampiezza 0.48 al livello di confidenza 0.9?
131
66.2
Soluzioni
Esercizio 1 Assunzioni: X ∼ N (µ = 3, σ = 4). X = (X1 , X2 , X3 , X4 ) campione casuale semplice
estratto da X.
(A) I due stimatori proposti sono combinazioni lineari di X1 , X2 , X3 , X4 , v.c. indipendenti. La loro
distribuzione ha allora media e varianza calcolabile in base alle proprietà dei valori attesi. E(T1 ) =
6µ + 2µ + 12µ
49σ 2 + 25σ 2
7µ + 5µ
= 3; E(T2 ) =
= 3; V (T1 ) =
= 0.5139 ∗ σ 2 = 8.222; V (T2 ) =
12
20
144
36σ 2 + 4σ 2 + 144σ 2
= 0.46 ∗ σ 2 = 7.36.
400
(B) Sia T1 che T2 sono corretti: quindi per entrambi l’MSE coincide con la varianza. Preferibile quello
con varianza più piccola.
Esercizio 2 Assunzioni: X1 ∼ Be(p1 ), X2 ∼ Be(p2 ).
(A) ’Buon’ stimatore di p1 − p2 è X 1 − X 2 , la cui distribuzione campionaria è, approssimativamente,
N (p1 − p2 , p1 q1 /n1 + p2 q2 /n2 ) (q1 = 1 − p1 , q2 = 1 − p2 ). Stima p
puntuale di p1 − p2 è pb1 −
√pb2 = −0.1373,
mentre una stima della sua deviazione standard è data da:
pb1 qb1 /n1 + pb2 qb2 /n2 = 0.00350066 =
0.059166 (calcoli: pb1 = x1 = 57/103 = 0.5534, pb2 = x2 = 134/194 = 0.6907).
(B) Test per H0 : p1 − p2 = 0 contro H1 : p1 − p2 6= 0. La v.c. test è p
X1 − X2
, che sotto
pbqb(1/n1 + 1/n2 )
H0 ha una distribuzione, approssimativamente, N (0, 1) (b
p = (X 1 n1 + X 2 n2 )/(n1 + n2 ) è il p–pooled e
x1 − x2
qb = 1 − pb). Allora: valore campionario della statistica test è zcamp = p
= −2.35071,
pbqb(1/n1 + 1/n2 )
per cui p − value = 2P (Z > |zcamp ||H
0 ) = 2 ∗ 0.00937 = 0.01874 (calcoli:
p0 ) = 2P (Z > | − 2.35071||H
√
pb = 0.6431, qb = 1 − 0.6431 = 0.3569, pbqb(1/n1 + 1/n2 ) = 0.00341 = 0.05841 .
Esercizio 3
(A) La media della spesa per l’intero campione si ricava dalla proprietà di associatività della media:
x1 n1 + x2 n2
10216.58
26.28 ∗ 103 + 38.71 ∗ 194
x=
=
= 34.3993.
=
n1 + n2
103 + 194
297
2
2
(B) Assunzioni: X1 ∼ (µ1 , σ1 ) e X2 ∼ (µ2 , σ2 ), dove X1 e X2 indicano, rispettivamente, la spesa per pasti
a base di pizza e a base di altro. La dimensione campionaria è sufficientemente elevata da poter invocare
X 1 − X 2 − (µ1 − µ2 )
la cui distriproprietà asintotiche anche senza assunzioni sulle distribuzioni. Pivot p 2
S1/n1 + S22 /n2
q
q
buzione è, approssimativamente, N (0, 1). Intervallo di confidenza per µ1 −µ2 : x1 − x2 − z s21 /n1 + s22 /n2 , x1 − x2 + z s
2
2
[−14.76043,
−10.09957]
p
√ (calcoli: 1 − α = 0.98, α = 0.02, z = 2.326, s1 = 47.4721, s2 = 105.2676,
2
2
s1 /n1 + s2 /n2 = 1.00351 = 1.00175).
2
Esercizio 4 Assunzioni: trattasi di dati appaiati, per cui D = X1 − X2 ∼ N (µD , σD
), dove X1 =
’giudizio sul vinoA’ e X2 = ’giudizio sul vinoB’.
D−0
√ , che sotto H0 ha una distribuzione
SD / n
d−0
√ = −0.88644, mentre la regione
T (n−1). Allora: valore campionario della statistica test è tcamp =
sD / n
di accettazione
è [−2.015, 2.015]
√
√ (calcoli: di = 0.6, −0.6, −0.2, −2.3, 0.9, −0.9, d = −2.5/6 = −0.41667,
sD = 1.32567 = 1.15138, sD / n = 0.47005).
(A) Test per H0 : µD = 0 contro H1 : µD 6= 0. La v.c. test è
2
(B) n = (2zsd /A) = 7.891052 = 62.26864 ' 63 (calcoli: 1 − α = 0.9, α = 0.1, z = 1.645, sd = 1.15138,
A = 0.48).
132
67
67.1
Compito del 16.02.2006
Testo
Esercizio 1
Il Belushi’s bar famoso a Londra per i suoi aperitivi. La probabilit di trovare tutti i tavoli occupati
alle happy hours 0.81 . Inoltre, noto che il numero di tavoli liberati dai clienti in tale fascia oraria si
distribuisce secondo una Poisson con varianza pari a 7.4 in un intervallo temporale di 20 minuti.
(a) Qual la probabilit che recandosi per un aperitivo al Belushi’s bar ci si sieda ad un tavolo entro un
minuto dall’ingresso nel bar (nessun altro in attesa di un tavolo)?
(b) Sapendo che un vostro amico non ha aspettato neanche un minuto per ottenere un tavolo, qual la
probabilit che il locale fosse pieno?
Esercizio 2
Si vuole misurare la spesa per tavolo dei visitatori del Belushi’s bar. I dati riportati nella seguente
tabella riguardano il conto per tavolo in un campione di 4 tavoli da due persone occupati da amici ed in
un campione di 4 tavoli occupati da coppie di fidanzati.
Fidanzati
Amici
18.00
7.00
16.00
15.00
21.00
14.00
19.00
10.00
(a) Si indichi se il valore 18.00 : (i) un parametro, (ii) una modalit, (iii) una frequenza assoluta,
una frequenza percentuale.
(b) Si calcoli il primo quartile della spesa per tavolo, indipendentemente dal tipo di occupanti.
(iv)
Esercizio 3
Si considerino i dati riportati all’esercizio precedente.
(a) Si calcoli l’intervallo di confidenza (1−α = 0.95) della varianza del conto per tavolo nei tavoli occupati
da amici. Si specifichino le assunzioni necessarie.
(b) Si verifichi se nei tavoli occupati da amici la spesa per tavolo sia mediamente inferiore a quella delle
coppie. Si specifichino le assunzioni necessarie.(α = 0.05)
Esercizio 4
Si consideri la seguente tabella (incompleta).
X
F (x)
(−∞, 0)
[0, 1)
0.04
[1, 2)
0.27
[2, 3)
0.71
[3, +∞)
(a) Si completi la tabella in modo che siano soddisfatte le condizioni affinch F (x) possa essere la funzione
di ripartizione di una variabile discreta X. Se ne derivi la funzione di massa di probabilit.
(b) In base a quanto ottenuto al punto (a), calcolare il valore atteso e la varianza della variabile X.
67.2
Soluzioni
Esercizio 1
(a) Sia A l’evento tutti i tavoli sono occupati e Ā l’evento complementare. P (A) = 0.81, mentre P (Ā) =
1 − P (A) = 0.19
X =numero di tavoli liberati in un intervallo temporale I
X ∼ P oi(λ) con λ20 = 7.4 se I= 20 minuti. Per I=1 minuto, λ1 = 0.37
(a) Se il locale non pieno, la probabilit di non aspettare pari a 1. Se il locale pieno, la probabilit di non
aspettare corrisponde alla probabilit che in un intervallo di 1 minuto si liberi almeno un tavolo ovvero
λ0
P (X ≥ 1) = 1 − P (X1min = 0) = 1 − (e−λ1 0!1 ) = 0.3093
Si indichi con B l’evento non aspettare per avere un tavolo.
Allora, P (B) = 1 · P (Ā) + P (A) · P (X ≥ 1) = 0.4405
P (A)·P (X≥1)
(b) P (A | B) = P P(A∩B)
= 0.5687
(B) =
P (B)
133
Esercizio 2
(a) Una modalit.
(b) N = 8. N · 41 = 2.0 . Si cercano le unit 2a e 3a nella distribuzione ordinata.
La modalit relativa alla seconda unit : 10 quella relativa alla terza : 14 . Il primo quartile la media tra i
due: 12
Esercizio 3
(a) Si assume che la variabile X = conto per tavolo si distribuisca secondo una N (µ, σ 2 ).
Intervallo di confidenza per la varianza con media ignota
x̄ = 11.5, σ̂ 2 = 13.6667 gdl= 3 , χ2α/2 = 0.2158 χ21−α/2 = 9.3484
Intervallo: [4.3858
; 189.9953].
(b) Si assume che la variabile X1 = conto per tavolo di fidanzati si distribuisca secondo una N (µ1 , σ 2 ) e
che X2 = conto per tavolo di fidanzati si distribuisca secondo una N (µ2 , σ 2 ).
Test confronto tra medie con campioni indipendenti.
H0 : µ1 − µ2 = 0
H1 : µ1 − µ2 > 0
α = 0.05 x̄1 = 18.5, x̄2 = 11.5, s21 = 4.3333, s22 = 13.6667
toss = 3.2998, tcrit = 1.9432 gdl = 6
Rifiuto H0
Esercizio 4
(a) La tabella completa la seguente:
X
F (x)
(−∞, 0)
0
[0, 1)
0.04
[1, 2)
0.27
[2, 3)
0.71
[3, +∞)
1
La funzione di massa di probabilit :
X
0
1
2
3
otherwise
f (x) 0.04 0.23 0.44 0.29
0
(b)E[X] = 1.98
, V ar[X] = 0.6796
134
68
68.1
Compito del 16.03.2006
Testo
Esercizio 1. AT è un’azienda che effettua servizio di trasporto urbano in una grande città. Durante la
stagione invernale gli autisti AT hanno ricevuto un timer per registrare i tempi effettivi di percorrenza
su certe tratte e in certe fasce orarie dei giorni feriali. Dall’elaborazione del campione raccolto è stata
ricavata la seguente tabella: la parte sinistra riguarda distribuzioni di frequenza, la parte destra alcune
statistiche. Si evidenzia che ciascun tempo di percorrenza misurato dagli autisti è stato espresso (per motivi di confrontabilità) come ’scostamento percentuale rispetto al tempo di percorrenza fissato dall’orario
ufficiale’. La tabella si riferisce a tale variabile, da ora in poi indicata con X.
Meteo
pioggia
no pioggia
totale
X = Scostamento % rispetto all’orario ufficiale
tabella di frequenza (modalità in classi)
statistiche
√
[−10, 0) [0, 10) [10, 25) [25, 50) [50, 100) [100, 200) media
var. corretta
16
25
43
26
11
20
59.3
131
60
186
122
111
72
38
31.4
47.6
76
211
165
137
83
58
(A) Dai dati della tabella è possibile ricavare l’esatta media campionaria della variabile X nell’intero
campione a disposizione? Se sı̀ effettuare il calcolo, altrimenti spiegare perchè non è possibile.
(B) Ricavare quanti viaggi, in percentuale, hanno una durata che si discosta di oltre il 30% da quanto
prefissato dall’orario ufficiale (qualora risulti necessario suddividere una classe, assumere distribuzione
uniforme delle frequenze all’interno della stessa).
Esercizio 2. A partire dalla tabella di frequenza relativa alla variabile X si costruisca una nuova
variabile casuale Y nel modo seguente: 1) si assegni a ciascuna delle classi, in ordine crescente, un numero
progressivo intero a partire da 0; 2) si ricavi la distribuzione di probabilità corrispondente definendo la
probabilità come frequenza relativa nel campione.
(A) Rappresentare graficamente la funzione di massa di probabilità della variabile casuale Y |pioggia.
(B) Calcolare media e deviazione standard della variabile casuale Y |pioggia.
Esercizio 3.
(A) I dati del campione fanno pensare che i tempi medi di percorrenza (espressi come scostamento
percentuale) quando piove e quando non piove siano diversi. Indicando con θ la differenza fra i tempi
medi di percorrenza nei giorni di pioggia rispetto a quelli in cui non piove, proporre uno stimatore puntuale
di θ e se ne indichi la distribuzione campionaria (almeno approssimata). Sulla base di questo fornire una
stima puntuale di θ e una stima della deviazione standard dello stimatore proposto.
(B) È possibile concludere che, mediamente, la pioggia provoca un aumento dei tempi di percorrenza
(espressi come scostamento percentuale)? Impostare il problema come test delle ipotesi e risolverlo
utilizzando il p–value.
Esercizio 4.
(A) Costruire l’intervallo di confidenza (1 − α = 0.99) per la deviazione standard della variabile casuale
X in caso di pioggia (si assuma X distribuita in modo normale).
(B) AT ha in programma di ripetere fra 2 anni una rilevazione analoga. Facendo uso delle informazioni
a disposizione, da quante osservazioni dovrebbe essere composto il campione in presenza di pioggia per
avere un intervallo di confidenza per la media con margine di errore pari a ±9 al livello di confidenza
1 − α = 0.9?
68.2
Soluzioni
Esercizio 1
135
(A) È possibile applicando la proprietà associativa della media aritmetica: x = (x1 n1 +x2 n2 )/(n1 +n2 ) =
(59.3 ∗ 141 + 31.4 ∗ 589)/(141 + 589) = 26855.9/730 = 36.79.
(B) I viaggi che si discostano per meno del 30% sono pari alla frequenza cumulata fino a 30, data dalla
somma di due componenti: 1) la frequenza cumulata fino a 25; 2) la frequenza da 25 a 30 (da calcolare
sfruttando l’ipotesi di distribuzione uniforme all’interno della classe). Quindi 452 + 27.4 = 479.4, che in
percentuale corrisponde a 479.4/730 = 65.67%. I viaggi che si discostano per più del 30% sono allora il
34.33%.
Esercizio 2
(A, B) Funzione di massa (da disegnare) della variabile Y |pioggia e prospetto di calcolo di media e
varianza della stessa (nota: per brevità si omette il condizionamento |pioggia):
y
f (y)
yf (y)
y 2 f (y)
0
0.1135
0
0
1
0.1773
0.1773
0.1773
2
0.305
0.6099
1.2199
3
0.1844
0.5532
1.6596
4
0.078
0.3121
1.2482
5
0.1418
0.7092
3.5461
totale
1
2.361702
7.851064
da cui consegue
che E(Y ) = 2.361702, V (Y ) = E(Y 2 ) − E(Y )2 = 7.851064 − 2.3617022 = 2.273427,
p
σ(Y ) = V (Y ) = 1.507789
Esercizio 3. Simbologia e assunzioni: X1 = ’tempo percorrenza (come scostamento % rispetto all’orario
ufficiale) con pioggia’ ∼ [µ1 , σ12 ]; X2 = ’tempo percorrenza (come scostamento % rispetto all’orario
ufficiale) senza pioggia’ ∼ [µ2 , σ22 ].
(A) Il parametro d’interesse è θ = µ1 −µ2 . Stimatore proposto è X 1 −X 2 , la cui distribuzione campionaria
X 1 − X 2 − (µ1 − µ2 )
(approssimata in base alla ’elevata’ dimensione del campione) è espressa da p 2
≈
S1 /n1 + S22 /n2
N (0, 1). La corrispondente stima puntuale di µ1 − µ2 è allora
31.4 = 27.9; la deviazione
p x1 − x2 = 59.3 −p
2 /n + s2 /n =
standard
dello
stimatore
proposto
può
essere
stimata
con
s
1312 /141 + 47.62 /589 =
1
2
1
2
√
125.556 = 11.205.
X 1 − X 2 − (µ1 − µ2 )
(B) Test per H0 : µ1 − µ2 = 0 contro H1 : µ1 − µ2 > 0. La variabile test è p 2
che sotto
S1 /n1 + S22 /n2
H0 ha una distribuzione, approssimativamente, N (0, 1). Allora: valore campionario della statistica test
x1 − x2
= 2.49, per cui p − value = P (Z > zcamp |H0 ) = P (Z > 2.49|H0 ) = 0.00639.
è zcamp = p 2
s1 /n1 + s22 /n2
Esercizio 4. Assunzioni: X ∼ N (µ, σ 2 ).
(A) Il pivot per σ 2 è (n − 1)S 2 /σ 2 , la cui distribuzione è χ2 (n − 1). L’intervallo di confidenza per
2
σ√
è quindi √[(n − 1)s2 /c2 , (n − 1)s2 /c1 ] = [12858.34, 23869.1], da cui si ottiene che quello per σ è
[ 12858.34, 23869.1] = [113.3946, 154.4963] (calcoli: α = 0.01, c1 = 100.6548, c2 = 186.8468, s = 131,
s2 = 17161, n = 141).
2
(B) In base all’intervallo di confidenza per µ si ottiene n = (2zs/A) = 23.94182 = 573.2078 ' 574
(calcoli: α = 0.1, z = 1.645, s = 131, A = 2 ∗ 9 = 18).
136
69
69.1
Compito del 31.05.2006
Testo
Premessa: Da mesi si sono diffuse voci di irregolarità nell’amministrazione della PinOIL company, tanto
che l’assemblea degli azionisti ha deciso di sostituire il vertice del management. Prima di iniziare il proprio
lavoro, il nuovo management ha però deciso di fare esaminare i conti della PinOIL al fine conoscere la reale
situazione dell’impresa. L’analisi della contabilità è stata commissionata alla AAC, una multinazionale
che si occupa di revisione dei conti e che fino ad ora non aveva mai avuto rapporti di affari con PinOIL.
Esercizio 1. Nell’impossibilità di vagliare tutte le scritture contabili, AAC ha proceduto con controlli
a campione. Nel caso specifico, AAC ha esaminato un campione di 631 operazioni, dalle quali è emerso
che il 9.23% sono irregolari. Sapendo che, nella prassi dei controlli contabili, viene considerato fisiologico
un tasso di irregolarità del 7%, rispondere alle seguenti domande.
(A) Le scritture della PinOIL presentano un tasso di irregolarità superiore a quello considerato fisiologico?
Rispondere impostando il problema come test delle ipotesi e risolverlo utilizzando il p–value.
(B) Calcolare la potenza del test per un livello di significatività del 1% ed una l’ipotesi alternativa ’le
operazioni irregolari sono il 11%’.
Esercizio 2. Sono state poi analizzate solo scritture ritenute irregolari. L’obiettivo era saggiare, mediante
un modello di regressione, se la percentuale irregolare, calcolata rispetto al valore dichiarato, è legata a
quest’ultimo. Si indichi con A l’ammontare dichiarato (in milioni di Euro) e con P la percentuale, rispetto
ad A, identificata come irregolare. Sono state calcolate le seguenti statistiche campionarie: n = 102,
n
n
n
n
n
1X
1X
1X
1X
1X
pi = 12.521,
ai = 1.01,
(pi − p)2 = 1.695,
(ai − a)2 = 0.538,
(ai − a)(pi − p) =
n i=1
n i=1
n i=1
n i=1
n i=1
0.168.
(A) Il modello evidenzia un legame di P con A? (α = 0.01).
(B) Costruire un intervallo di confidenza per la deviazione standard della componente residua del modello
(1 − α = 0.99).
Esercizio 3. La squadra AAC che ha revisionato i conti è stata divisa in due team: uno per la parte
operativa, l’altro per la parte finanziaria della contabilità PinOIL. In termini relativi, è stato valutato
che il 73.8% delle operazioni PinOIL riguardano la gestione operativa mentre le rimanenti hanno natura
finanziaria. Alla fine del controllo ciascuno dei due team ha prodotto un prospetto nel quale ha riassunto le principali statistiche risultanti dalla propria attività di ispezione. La variabile misurata è P =
percentuale irregolare rispetto all’ammontare dichiarato.
Prospetto del team ’gestione operativa’.
valori di P
[0, 10] (10, 20] (20, 30]
frequenze relative 0.197
0.248
0.277
[30, 50)
0.228
> 50
0.05
√ media = 23.49
var. corretta = 14.79
Prospetto del team ’gestione finanziaria’.
valori di P
[0, 10] (10, 20] (20, 30]
frequenze relative 0.407
0.346
0.148
[30, 50)
0.099
> 50
0
√ media = 14.91
var. corretta = 10.85
(A) Calcolare lo scarto interquartile della variabile P nell’ambito della gestione operativa.
(B) Dai dati a disposizione, è possibile ricostruire un’unica tabella delle frequenze relative congiunte per
le variabili P e tipologia della gestione (nelle due modalità operativa e finanziaria)? Se sı̀ effettuare
l’operazione altrimenti spiegare il perchè.
Esercizio 4. Nella situazione di cui all’esercizio precedente, si assuma che i due campioni siano costituiti,
rispettivamente, da 101 operazioni di carattere ’operativo’ e 81 operazioni di carattere ’finanziario’ e che
la variabile P abbia distribuzione Normale (quest’ultima non è completamente giustificata).
(A) Sottoporre a test l’ipotesi nulla che le deviazioni standard della variabile P fra le due gestioni siano
uguali (α = 0.1).
137
(B) Sfruttando le informazioni a disposizione, si dica quanto dovrebbe essere grande il campione di
operazioni esaminate nella gestione operativa per ricavare un intervallo di confidenza per la media di P
di ampiezza 3 al livello di confidenza 0.98.
69.2
Soluzioni
Esercizio 1
Assunzioni: X =’Una scrittura contabile è irregolare’∼ Be(p).
p
(A) Test di H0 : p = 0.07 contro H1 : p > 0.07. La v.c. test è (X −pp0 )/ p0 q0 /n, che sotto H0 ha
) = P (Z >
distribuzione, approssimativamente,pN (0, 1). p − value = P ((X − p0 )/ p0 q0 /n > zcamp |H0p
√
2.1955) = 0.01406. Calcoli utili:
p0 q0 /n = 0.00010317 = 0.01016, zcamp = (x − p0 )/ p0 q0 /n =
(0.0923 − 0.07)/0.01016 = 2.1955. Per brevità si è posto 0.07 = p0 .
(B) Calcolo potenza per H0 : p = 0.07 contro
H1 : p = 0.11 e α = 0.01. La variabile test è descritta sopra.
p
0.01 = P (X ∈ R|H0 ) = P ((X − p0 )/ p0 q0 /n > zcritico |H0 ) = P (Z > zcritico ) implica chepla regione
critica per la variabile standardizzata
è (zcritico , ∞) = (2.3263, ∞).pPotenza = P ((X p
− p0 )/ p0 q0 /n >
p
>
p
+
p
q
/nz
|H
)
=
P
((X
−
p
)/
p
q
/n
>
(p
+
p0 q0 /nzcritico −
zcritico
|H
)
=
P
(X
0
0 0
critico
1
1 p 1 1
p 1
√ 0
p1 )/ p1 q1 /n|H1 ) = P (Z > −1.3138) = 0.90554. Calcoli utili:
p1 q1 /n = 0.00016 = 0.01246. Per
brevità si è posto 0.11 = p1
Esercizio 2
Assunzioni: Modello di regressione lineare semplice pi = β0 + β1 ai + ui , dove ui ∼ N (0, σ 2 ).
p
b2 /dev(x), che
(A) Test di H0 : β1 = 0 contro H1 : β1 6= 0 (α = 0.01). La v.c. test è (βb1 − 0)/ σ
sotto H0 ha una distribuzione
T
(n
−
2).
0.01
=
P
(campione
∈
R|H
)
implica
0.99
=
P (campione ∈
0
p
2
b
A|H0 ) = P (−t ≤ (β1 − 0)/ σ
b /dev(x) ≤ t|H0 ) = P (−t ≤ T ≤ t|H0 ). La regione di accettazione
per la variabile
standardizzata
è [−t, t] = [−2.6259, 2.6259]. Il valore campionario della statistica test
p
è (βb1 − 0)/ σ
b2 /dev(a) = 1.78715. Calcoli utili: n = 102, dev(a) = n ∗ 0.538 = 54.876, dev(p) =
n ∗ 1.695 = 172.89, codev(a, p) = n ∗ 0.168 = 17.136, βb1 = codev(p, a)/dev(a) = 0.312268, σ
b2 = (dev(p) −
p
√
2
βb1 dev(a)/(n − 2) = 1.67539, σ
b2 /dev(a) = 0.03053 = 0.17473.
(B) Il pivot per σ 2 è (n − 2)b
σ 2 /σ 2 , con distribuzione χ2 (n√− 2). L’intervallo
al (1 − α) = 0.99 per σ 2
√
2
2
è [(n − 2)b
σ /c2 , (n − 2)b
σ /c1 ] = [1.1953, 2.4884], per σ è [ 1.1953, 2.4884] = [1.0933, 1.5775]. Calcoli
utili: c1 = 67.3276, c2 = 140.1695.
Esercizio 3.
(A) Q1 sta nella classe 10,20, per cui Q1 = 10 + (0.25 − 0.197)/0.0248 = 12.1371. Q3 sta nella classe
30, 50, per cui Q3 = 30 + (0.75 − 0.722)/0.0114 = 32.4561. Scarto interquartile = Q3 − Q1 = 20.319.
(B) Le frequenze riportate nei due prospetti sono frequenze relative condizionate. Moltiplicandole per le
corrispondenti frequenze relative marginali (rispettivamente 0.738 per la gestione operativa e 0.262 per
la finanziaria) si ottengono quelle congiunte:
Tipo gestione
operativa
finanziaria
[0, 10]
0.1454
0.1066
(10, 20]
0.183
0.0907
valori di P
(20, 30] [30, 50)
0.2044
0.1683
0.0388
0.0259
> 50
0.0369
0
Esercizio 4. Assunzioni: X1 ∼ N (µ1 , σ12 ), X2 ∼ N (µ2 , σ22 ), dove X1 , X2 indipendenti; 1 = ’operativa’,
2 = ’finanziaria’; si è posto X invece di P .
(A) Test di H0 : σ12 /σ22 = 1 contro H1 : σ12 /σ22 6= 1 (α = 0.1). La v.c. test è S12 /S22 , che sotto H0 ha
una distribuzione F (n1 − 1, n2 − 1). 0.9 = P (campione ∈ R|H0 ) implica 0.9 = P (campione ∈ A|H0 ) =
P (−c1 ≤ S12 /S22 ≤ c2 |H0 ) = P (c1 ≤ F ≤ c2 |H0 ). La regione di accettazione è [c1 , c2 ] = [0.7069, 1.4259].
Il valore campionario della statistica test è s21 /s22 = 218.7441/117.7225 = 1.8581. Calcoli utili: n1 = 101,
n2 = 81.
138
2
(B) In base all’intervallo di confidenza per µ si ottiene n = (2zs/A) = 22.93782 = 526.1422 ' 527
(calcoli: α = 0.02, z = 2.326, s = 14.79, A = 3).
139
70
70.1
Compito del 21.06.2006
Testo
Premessa: AzTraMe spa è una società che effettua raccolta di rifiuti urbani. In collaborazione con alcuni
tecnici, uno dei comuni serviti da AzTraMe sta cercando di pianificare in modo più sistematico l’attività
svolta.
Esercizio 1. All’interno del comune, AzTraMe vuole allocare sul territorio 12 piazzole identiche per la
raccolta dei rifiuti. I tecnici ritengono che in ogni piazzola verrà portata, ogni giorno, una media di 432
kg di rifiuti con una deviazione standard pari a 43 kg.
Assumendo che la quantità di rifiuti raccolta ogni giorno in ciascuna piazzola si distribuisca Normalmente
e che le quantità raccolte in piazzole diverse siano indipendenti, sfruttare le congetture dei tecnici per
rispondere alle seguenti domande.
(A) Dopo aver indicato come si distribuisce la quantità totale di rifiuti depositati ogni giorno nell’insieme
delle 12 piazzole, ivi compreso il valore dei parametri, si calcoli la probabilità che, in una data giornata,
vengano superati i 5400 kg di rifiuti totali.
(B) Se, invece di essere indipendenti, le quantità raccolte fossero positivamente correlate (cioè tutte con
covarianza maggiore di 0) la probabilità di cui al punto precedente subirebbe variazioni? Argomentare la
risposta senza effettuare calcoli.
Esercizio 2. Dopo aver raggiunto nell’anno passato gli obiettivi del decreto Ronchi, il comune in questione ha pianificato per l’anno in corso di incrementare ulteriormente la percentuale di raccolta differenziata
(RD) in rapporto al totale dei rifiuti solidi urbani (RSU). A questo fine sta monitorando l’andamento
delle raccolte: quelle effettuate nei primi tre mesi dell’anno hanno consentito di predisporre la seguente
tabella.
RD/RSU% (classi)
frequenza
[20, 30]
1
(30, 35]
12
(35, 40]
28
(40, 45]
14
(45, 50]
5
(50, 60]
1
(A) Rappresentare graficamente la distribuzione della percentuale di RD, tenendo presente che l’ottica è
quella di un confronto con l’andamento grafico delle distribuzioni delle variabili casuali a voi note.
(B) Determinare lo scarto interquartile della percentuale di RD.
Esercizio 3. L’obiettivo del comune per l’anno in corso è quello di portare la percentuale di RD oltre il
36% in rapporto al totale dei RSU. Nelle raccolte effettuate nei primi tre mesi dell’anno, la percentuale
media di RD è stata pari a 38.2, con una deviazione standard (corretta) pari a 4.83. Assumendo che
la percentuale di RD sui RSU si distribuisca in modo normale, si utilizzino i dati relativi alle raccolte
effettuate (considerati come un casuale semplice) per rispondere alle seguenti domande.
(A) Calcolare l’intervallo al livello di confidenza 1 − α = 0.98 per la deviazione standard della percentuale
di RD.
(B) In base all’informazione del campione, gli obiettivi di raccolta differenziata verranno raggiunti? Si
risponda alla domanda formulando il problema in termini di test delle ipotesi (α = 0.1).
Esercizio 4. Nella situazione di cui all’esercizio precedente, punto (B), si assuma ora che: α sia fissato
allo stesso valore; l’ipotesi nulla sia la stessa; l’ipotesi alternativa sia ’la percentuale media di raccolta
differenziata è pari a 37’; la deviazione standard campionaria della percentuale di RD raccolta coincida
con quella vera.
(A) Se fosse vera l’ipotesi nulla, quale sarebbe la probabilità di prendere la decisione errata? Rispondere
argomentando.
(B) Se invece fosse vera l’ipotesi alternativa, quale sarebbe la probabilità di prendere la decisione errata?
Rispondere argomentando.
140
71
Soluzioni
Esercizio 1 Assunzioni: Xi = ’quantità rifiuti al giorno nella piazzola i’∼ N (µ = 432, σ 2 = 432 ) per
i = 1, . . . , 12.
(A) T = ’Totale rifiuti al giorno nelle 12 piazzole’ =
12
X
Xi ∼ N (µT = 12µ, σT2 = 12σ 2 ), dove µT =
i=1
12µ = 12 ∗ 432 = 5184, σT2 = 12σ 2 = 12 ∗ 432 = 22188. P (T > 5400) = P (Z > (5400 − µT )/σT ) = P (Z >
1.45) = 0.07352. Calcoli utili: σT = 148.9564.
(B) Chiamiamo T ∗ la somma delle Xi in presenza di correlazioni positive fra le Xi . SfruttandoX
le proprietà
∗
2
2
dei momenti, è possibile verificare che µT ∗ = µT , mentre σT ∗ > σT . Infatti µT ∗ = E(T ) =
E(Xi ) =
i
X
XX
X
µT mentre σT ∗ = V (T ∗ ) =
V (Xi ) + 2
Cov(Xi , Xj ) >
V (Xi ) = σT2 , dato che le covarianze
i
i<j
i
sono per assunzione tutte positive. Questo implica che, rispetto al punto precedente, la probabilità
aumenta. Infatti P (T ∗ > 5400) = P (Z > (5400 − µT ∗ )/σT ∗ ) > P (Z > (5400 − µT )/σT ) = P (T > 5400),
dato che (5400 − µT ∗ )/σT ∗ < (5400 − µT )/σT .
Esercizio 2
(A) Istogramma delle frequenze relative (le frequenze cumulate servono per il punto (B)):
RD/RSU% (classi)
Densit relative
Frequenze cumulate
[20, 30]
0.0016
1
(30, 35]
0.0393
13
(35, 40]
0.0918
41
[40, 45)
0.0459
55
[45, 50)
0.0164
60
[50, 60]
0.0016
61
(B) Q1 sta nella classe 35,40, per cui Q1 = 35 + (15.25 − 13)/5.6 = 35.4018. Q3 sta nella classe 40, 45,
per cui Q3 = 40 + (45.75 − 41)/2.8 = 41.6964. Scarto interquartile = Q3 − Q1 = 6.2946.
Esercizio 3 Assunzioni: X = ’RD/RSU in percentuale’ ∼ N (µ, σ 2 ).
(A) Il pivot per σ 2 è (n − 1)S 2 /σ 2 , con distribuzione χ2 (n
al (1 − α) = 0.98 per σ 2 è
√ − 1). L’intervallo
√
2
2
[(n − 1)s /c2 , (n − 1)s /c1 ] = [15.8378, 37.3413], per σ è [ 15.8378, 37.3413] = [3.9797, 6.1108]. Calcoli
utili: c1 = 37.4849, c2 = 88.3794.
√
(B) Test di H0 : µ = 36 contro H1 : µ > 36 (α = 0.1). La variabile test è (X − 36)/(S/ n), che sotto H0
ha una distribuzione T (n − 1). 0.1 = P (campione ∈ R|H
√0 ) implica che la regione di rifiuto è√(1.2958, ∞).
Il valore campionario
della
statistica
test
è
(x
−
36)/(s/
n) = 3.5575. Calcoli utili: n = 61, n = 7.8102,
√
s = 4.83, s/ n = 0.6184.
Esercizio 4 Assunzioni: X = ’RD/RSU in percentuale’ ∼ N (µ, σ 2 = 23.329). Test di H0 :√µ = 36 contro
H1 : µ = 37. Per brevità indichiamo 36 = µ0 e 37 = µ1 . La variabile test è (X − µ0 )/(σ/ n), che sotto
H0 ha una distribuzione N (0, 1).
(A) L’evento ’decisione errata|ipotesi nulla vera’, ovvero ’campione ∈ R|H0 ’, è per definizione l’errore di
primo tipo. La sua probabilità α è il livello di signicatività, fissato nell’esercizio a 0.1.
(B) L’evento ’decisione errata|ipotesi alternativa vera’, ovvero ’campione ∈ A|H1 ’, è per definizione
l’errore di secondo tipo. La sua probabilità β, è da calcolare in base ai dati.
Prima occorre determinare R. 0.1 = P (campione ∈ R|H0 ) implica che la regione di rifiuto per la variabile
standardizzata è (zcritico = 1.282, ∞), mentre quella
√ di accettazione è (−∞, zcritico = 1.282].
√
β = P (’campione
∈
A|H
)
=
P
((X
−
µ
)/(σ/
n)√≤ zcritico |H1 ) = P (X ≤ µ0 + σ/ nzcritico
1
0
√
√
√ |H1 ) =
P ((X − µ1 )/(σ/ n) ≤ (µ0 + σ/ nzcritico − √
µ1 )/(σ/ n)|H1 ) = P (Z ≤ z√
critico + (µ0 − µ1 )/(σ/ n)|H1 ) =
P (Z ≤ −0.335) = 0.36863. Calcoli utili: σ/ n = 0.6184, (µ0 − µ1 )/(σ/ n) = −1.617.
141
72
72.1
Compito del 12.09.2006
Testo
Premessa: Gourmet spa gestisce una catena di ristoranti di fascia medio–alta. Il management della
società ha commissionato una serie di rilevazioni per guidare le proprie strategie.
Esercizio 1. Da tempo la scelta della lista vini è centralizzata a livello di catena, con l’obiettivo di
contenere i costi. Ai clienti consumatori di vino è stato chiesto: ’Nel complesso, come giudica la nostra
lista vini?’. Le risposte sono state elaborate nella seguente tabella.
Giudizio
Frequenza
insufficiente
18
sufficiente
52
medio
71
buono
59
ottimo
40
(A) Quali indici di posizione (di tipicità) ha senso costruire per la variabile ’Giudizio’ ? Argomentare la
risposta e calcolare tali indici.
(B) Ha senso calcolare il terzo quartile della variabile ’Giudizio’ ? Se sı̀ effettuare il calcolo, altrimenti
spiegare il perché.
Esercizio 2. In base ai dati dell’esercizio precedente, costruire la variabile casuale X che associa alle
modalità del ’Giudizio’, nell’ordine indicato, i numeri interi da −2 a +2 inclusi. Si derivino le relative
probabilità in base alle frequenze relative ricavabili dalla tabella. Trattando la X come una pura e
semplice variabile casuale:
(A) Disegnare la funzione di ripartizione di X.
(B) Calcolare media e deviazione standard di X.
Esercizio 3. Per seguire meglio le esigenze della clientela, il management ha deciso di decentrare la
scelta della lista vini ai singoli esercizi. Una rilevazione analoga a quella di cui all’esercizio 1 è stata
ripetuta dopo tale provvedimento. Per valutare la decisione, i giudizi espressi dai singoli clienti sono stati
opportunamente sintetizzati, ricavando un ’voto’ (su una scala continua da 0 a 10) alla lista vini di ciascun
ristorante. I voti ottenuti dai 5 esercizi del campione prima e dopo il provvedimento di decentramento
sono riportati in tabella. Si assuma che la variabile voto si distribuisca normalmente.
Ristorante
voto ante–decentramento
voto post–decentramento
Abete
6.7
7.3
Bra
4.4
3.7
Cantoni
3.4
1.4
Duecento
4.9
3.6
Ercole
7.2
5.7
(A) Il provvedimento di decentramento ha modificato il voto medio? Rispondere formulando il problema
in termini di test delle ipotesi (α = 0.01).
(B) Fornire una stima per intervallo della deviazione standard del voto dopo il decentramento (1 − α =
0.99).
Esercizio 4. Lo studente si concentri ora sul campione rilevato in seguito all’operazione di decentramento e assuma che la deviazione standard ’vera’ sia esattamente quella stimata dal campione. Prima
della rilevazione corrispondente, un manager ha espresso la seguente opinione: ’Il voto medio dopo il
decentramento sarà inferiore a 5’.
(A) Il campione dà ragione al manager? Rispondere formulando il problema in termini di test delle ipotesi
(α = 0.1).
(B) Si calcoli la potenza del test dell’ipotesi di cui al punto (A) in corrispondenza dell’alternativa ’il voto
medio dopo il decentramento è 4.3’.
72.2
Soluzioni
Esercizio 1 Il ’Giudizio’ è una variabile qualitativa ordinabile. Questa considerazione è la base per
risolvere (A) e (B).
142
(A) Come indici di posizione (tipicità) hanno senso sia la moda (che non sfrutta la possibilità di ordinare
le osservazioni) che la mediana (la quale invece sfrutta la possibilità di ordinare le osservazioni): Moda
= medio, Mediana = medio.
(A) Ha senso calcolare il terzo quartile perchè: al pari della mediana, la statistica in oggetto richiede che
la variabile sia almeno ordinabile: Terzo quartile = buono.
Esercizio 2
(A) Costruzione della funzione di ripartizione (solo valori corrispondenti ai ’salti’ del grafico) più prospetto
di calcolo dei momenti E(X) e σ(X):
x
f (x)
F (x)
xf (x)
x2 f (x)
−2
0.075
0.075
−0.15
0.3
−1
0.217
0.292
−0.217
0.217
0
0.296
0.588
0
0
1
0.246
0.833
0.246
0.246
2
0.167
1
0.333
0.667
1
0.212
1.429
(B) Dalle ultime due righe del prospetto di calcolo precedente si ricava: E(X) = 0.212, V (X) = E(X 2 ) −
E(X)2 = 1.429 − 0.2122 = 1.384, σ(X) = 1.1764.
Esercizio 3
(A) Test sulla differenza fra medie per dati appaiati. Poniamo X1 = ’voto ante-decentramento’, X2 =
2
’voto post-decentramento’. Si assume D = X2 − X1 ∼ N (µ
√D , σD ). Test di H0 : µD = 0 contro
H1 : µD 6= 0 (α = 0.01). La variabile test è (D − 0)/(SD / n), che sotto H0 ha una distribuzione
T (n − 1). 0.99 = P (campione ∈ A|H0 ) implica che la√regione di accettazione è (−4.6041, 4.6041). Il
valore
campionario della statistica
√
√ test è (d − 0)/(sD / n) = −2.1946. Calcoli e valori utili: n = 5,
n = 2.2361, sD = 0.9985, sD / n = 0.4465, d = −0.98, tabella delle differenze di :
di = x2i − x1i
0.6
−0.7
−2
−1.3
−1.5
(B) Assunzioni: X = ’voto post-decentramento’ ∼ N (µ, σ 2 ). Il pivot per σ 2 è (n − 1)S 2 /σ 2 , con distri2
2
2
2
buzione χ
√ (n − 1).√L’intervallo al (1 − α) = 0.99 per σ è [(n − 1)s /c2 , (n − 1)s /c1 ] = [1.3601, 97.6477],
per σ è [ 1.3601, 97.6477] = [1.1662, 9.8817]. Calcoli e valori utili: c1 = 0.207, c2 = 14.8603.
Esercizio 4 Assunzioni: X = ’voto post-decentramento’ ∼ N (µ, σ = 2.248).
(A) Test di H
√0 : µ = 5 contro H1 : µ < 5. Per brevità indichiamo 5 = µ0 . La variabile test è
(X − µ0 )/(σ/ n), che sotto H0 ha una distribuzione N (0, 1). 0.1 = P (campione ∈ R|H0√
) implica che la
regione di rifiuto è (−∞, −1.282). √
Il valore campionario
della
statistica
test
è
(x−µ
)/(σ/
n) = −0.6565.
0
√
Calcoli e valori utili: n = 1.0053, n = 5, σ/ n = 2.236, x = 4.34.
√
(B) Per brevità √
indichiamo 4.3 = µ1 . γ = P (campione
∈ R|H1 ) =
√
√P ((X − µ0 )/(σ/ n)
√ < zcritico |H1 ) =
P (X < µ0 + σ/ nzcritico
|H
)
=
P
((X
−
µ
)/(σ/
n)
<
(µ
+
σ/
nz
−
µ
)/(σ/
n)|H1 ) = P
1
0
critico
1
√ 1
√(Z <
zcritico + (µ0 − µ1 )/(σ/ n)|H1 ) = P (Z < −0.585) = 0.2792. Calcoli e valori utili: (µ0 − µ1 )/(σ/ n) =
0.6963.
143
73
73.1
Compito del 18.01.2007 (solo studenti PT)
Testo
Premessa: ENEIDE spa è una società italiana che archivia dati contabili, a partire da documenti cartacei
o da files pdf, trasferendoli su supporto informatico. Per la digitalizzazione dei dati, la società dispone
di un centro situato in Bulgaria, al quale si riferiscono gli esercizi seguenti
Esercizio 1.
Un controllo di qualità effettuato su un campione casuale semplice di 200 bilanci, ha mostrato che 6 di
questi presentavano errori di digitalizzazione.
(A) In base al campione, fornire una stima per intervallo (1 − α = 0.99) della probabilità di trovare un
bilancio con errori di digitalizzazione.
(B) Le condizioni e il risultato del punto precedente fanno sorgere dei dubbi circa la procedura impiegata
per effettuare la stima per intervallo: in particolare, p appare piuttosto vicino al bordo dello spazio
parametrico, per cui l’approssimazione normale della distribuzione binomiale, di norma utilizzata per
rispondere all’esercizio precedente, non sembra completamente appropriata. Utilizzando le informazioni
di cui sopra, quando dovrebbe essere grande il campione affinchè la varianza (stimata) della variabile
numero di errori di digitalizzazione nel campione sia almeno pari a 10?
Esercizio 2.
Si considerino i dati di cui all’esercizio precedente. Si assuma che la vera proporzione di bilanci digitalizzati
in modo errato sia esattamente quella ricavabile dal campione.
(A) Si calcoli la probabilità che, su 100 bilanci estratti a caso e con reimmissione, quelli errati siano 1 al
massimo.
(B) Il calcolo di cui al punto precedente poteva essere effettuato, seppure in modo approssimato, ricorrendo
a qualche altra distribuzione? Effettuare i calcoli e verificare l’accuratezza dell’approssimazione o delle
approssimazioni utilizzate.
Esercizio 3.
Gli obiettivi dei responsabili sono di stare sotto il 3% come percentuale di bilanci con errori di digitalizzazione. Per verificare se l’obiettivo e‘ stato raggiunto, sono stati estratti casualmente altri bilanci
portando la numerosità complessiva del campione a 1100. Di questi 45 sono risultati errati.
(A) In base al campione, è possibile stabilire se l’obiettivo è stato raggiunto? Rispondere utilizzando il
p-value.
(B) Determinare la potenza del test in corrispondenza di H1 : p = 0.02 e α fissato a 0.01.
Esercizio 4.
Gli informatici di ENEIDE hanno progettato alcune soluzioni per migliorare la digitalizzazione dei documenti in formato pdf, al fine di ridurre gli errori. La nuova metodologia è stata comparata con quella
usuale attraverso un test su due campioni casuali semplici indipendenti di documenti: la nuova ha fallito
45 volte su 300; quella usuale, invece, ha sbagliato 56 volte su 310.
(A) Fornire una stima puntuale del miglioramento ottenuto con la nuova procedura rispetto a quella
usuale. Dare anche una stima puntuale della deviazione standard dello stimatore utilizzato.
(B) La nuova procedura è migliore della vecchia? Rispondere impostando il problema in termini di test
delle ipotesi.
73.2
Soluzioni
Esercizio 1. Assunzioni: X =’bilancio con errori?’∼ Be(p).
p
p
(A) Intervallo di confidenza per p al livello di confidenza del
p − z pbqb/n, pb + z pbqb/n =
p 0.99%: [b
[−0.0011, 0.0610]. Valori utili: pb = 6/200 = 0.03, qb = 0.97, pbqb/n = 0.01206, n = 200, z = 2.576.
(In funzione dell’esercizio seguente, notare l’estremo di sx dell’intervallo fuori dallo spazio parametrico!)
144
(B) Y =’numero bilanci con errori su n estratti’∼ Bi(n, p = 0.03) (si assume p uguale a quello campionario). Allora V (Y ) = npq. Per avere V (Y ) = npq > 10 basta prendere n > 10/(pq) = 343.64 e quindi
n = 344.
Esercizio 2.
(A) Y =’numero bilanci con errori su 100 estratti’∼ Bi(n = 100, p = 0.03) (si assume p uguale a quello
campionario). Si vuol calcolare P (Y ≤ 1) = P (Y = 0) + P (Y = 1) = 0.04755 + 0.1471 = 0.1946 (conti
effettuati mediante la funzione di massa della binomiale).
(B) Le approssimazioni che vengono in mente per la Bi(n = 100, p = 0.03) sono P o(λ = 3) (dove λ = np)
e N (µ = 3, σ 2 = 2.91) (dove µ = np, σ 2 = npq).
Con la Poisson: P (Y ≤ 1) = P (Y = 0) + P (Y = 1) = 0.04979 + 0.1494 = 0.1991.
Con la Normale (utilizzando l’approssimazione per la continuità): P (Y ≤ 1) ' P (Y ≤ 1.5) = 0.1896.
Le approssimazioni tengono ai 2 decimali.
Esercizio 3. Assunzioni: X =’bilancio con errori?’∼ Be(p).
(A) Test p
di H0 : p = 0.03 contro H1 : p < 0.03. Indichiamo
0.03 = p0 . Statistica test sotto H0 :
p
p −pp0 )/ p0 q0 /n < zcamp |H0 ) = P (Z < 2.1210) =
(b
p − p0 )/ p0 q0 /n|H0 ≈ N (0, 1). p − value = P ((b
0.98304. Valori e calcoli utili: pb = 45/1100 = 0.04091, p0 q0 /n = 0.00514.
(B) Potenza
p del test per H0 : p = 0.03 contro H1 : p = 0.02 con α =p0.01. Statistica test sotto H0 :
(b
p − p0 )/ pp
p − p0 )/ p0 q0 /np< zcrit |H1 ) = P (b
p <
0 q0 /n|H0 ≈ N (0, 1). zcrit = −2.3263, γ =pP ((b
p − p1 )/ p1 q1 /n < (c − p1 )/ p1 q1 /n|H1 ) = P (Z <
p0 + zcrit ∗ p0 q0 /n = c = 0.01803|H1 ) = P ((b
−0.4656|H1 ) = 0.32075.
Esercizio 4. X1 = ’errori metodologia usuale’ ∼ Be(p1 ), X2 =’errori metodologia alternativa’ ∼ Be(p2 )
Gli informatici di ENEIDE hanno progettato alcune soluzioni per migliorare la digitalizzazione dei documenti in formato pdf, al fine di ridurre gli errori. La nuova metodologia è stata comparata con quella
usuale attraverso un test su due campioni casuali semplici indipendenti di documenti: la nuova ha fallito
45 volte su 300; quella usuale, invece, ha sbagliato 56 volte su 310.
(A) Miglioramento: p1 − p2 stimato con lo stimatore pb1 − pb2 . La distribuzione dello stimatore è, approssimativamente, N (p1 − p2 , p1 q1 /n1 + p2 q2 /n2 ). Stima puntuale: pb1 − pb2 p
= 45/300 + 56/310 =
0.15
−
0.1806
=
−0.0306,
stima
della
deviazione
standard
dello
stimatore:
p1 q1 /n1 + p2 q2 /n2 =
√
0.00090246 = 0.030041.
(B)pTest di H0 : p1 − p2 = 0 contro H1 : p1 − p2 < 0. α = 0.05. Statistica test sotto H0 : [(b
p1 − pb2 ) −
0]/ pbqb(1/n1 + 1/n2 )|H0 ≈ N (0, 1) dove pb = (45 + 56)/(300 + 310) = 0.1656 è la
stima
pooled
di p.
p
zcrit = −1.645. Valore campionario statistica test sotto H0 : zcamp = [(b
p1 − pb2 ) − 0]/ pbqb(1/n1 + 1/n2 ) =
−1.018.
145
74
74.1
Compito del 01.02.2007 (solo studenti PT)
Testo
Premessa: Una fondazione ha commissionato uno studio sul fumo di sigaretta. Nell’ambito dello studio,
un campione di sigarette di marche diverse è stato sottoposto ad una serie di analisi chimiche. In base
dati rilevati rispondere alle domande.
Esercizio 1. Per ciascuna sigaretta è stata misurata la quantità emessa di monossido di carbonio (CO)
espressa in mg. Le misurazioni effettuate sono state sintetizzate nella seguente tabella.
13.6 16.6 23.5 5.4
15
12.3 16.3 15.4 14.4
10
10.2 18.5
17.5 15.9 8.5 13.9 10.2 9.0 13.0 9.5 12.6 10.6 14.9 4.9
(A) Calcolare mediana e scarto interquartile della quantità di CO emessa (esplicitare l’unità di misura).
(B) Rappresentare graficamente la distribuzione di frequenza della CO emessa (si utilizzino 4 classi,
scegliendone da soli gli estremi).
Esercizio 2. Il campione di sigarette esaminato è stato poi suddiviso in 2 gruppi: quelle con dicitura light
e le altre (normali ). Le statistiche ricavate sulle misurazioni di CO nei due gruppi sono state sintetizzate
nella seguente tabella.
Tipo sigaretta
normale
light
Numero osservazioni
16
8
Media(CO)
14.2
10.6
Varianza corretta(CO)1/2
4.3
3.0
(A) È possibile concludere che le sigarette light producono mediamente meno CO di quelle normali?
(α = 0.01). Formulare le assunzioni necessarie per effettuare il test.
(B) Il test effettuato al punto precedente si basa su una particolare assunzione riguardante le varianze.
Sottoporre a verifica se questa assunzione tiene (α = 0.1).
Esercizio 3. Sono stati effettuati alcuni calcoli per simulare l’assunzione di CO di un fumatore. Nella
simulazione si è assunto che la CO emessa da ciascun tipo di sigaretta si distribuisce in modo normale
con momenti pari a quelli ricavabili dalla tabella precedente.
(A) Si consideri un fumatore di light che fuma 20 sigarette al giorno. Si calcoli la probabilità che tale
fumatore superi, in un giorno, i 200 mg di CO (soglia considerata a rischio dall’OMS).
(B) Quante sigarette light occorrerebbe fumare in un giorno affinchè la probabilità di superare la soglia
OMS sia il 5%? (Spiegare in dettaglio il procedimento e scrivere l’equazione risolutiva senza effettuare i
calcoli)
Esercizio 4. La CO emessa da ciascuna sigaretta è stata messa in relazione con la quantità di catrame (in mg) presente nella stessa. Sono state ricavate le seguenti statistiche: numero osservazioni = 24; media(CO) = 13.00; Varianza distorta(CO)1/2 = 4.15; media(catrame) = 12.68; Varianza
distorta(catrame)1/2 = 5.16; Correlazione(CO, catrame) = 0.9575.
(A) Formulare un modello di regressione lineare che evidenzi se la quantità di CO emessa è legata alla
quantità di catrame è stimarne i coefficienti. (Suggerimento: ricordare che lo stimatore dei minimi
quadrati di σ
b2 è ricavabile anche come [Devianza(y) − βb12 Devianza(x)]/(n − 2)).
(B) In base al modello, è possibile stabilire se la quantità di CO emessa è legata in modo significativo
alla quantità di catrame? (α = 0.01).
74.2
Soluzioni
Esercizio 1. La chiave di tutto l’esercizio è ordinare le osservazioni (meglio se in ordine crescente).
4.9
5.4
8.5
9 9.5
10 10.2 10.2 10.6 12.3 12.6
13
13.6 13.9 14.4 14.9 15 15.4 15.9 16.3 16.6 17.5 18.5 23.5
(A) posizione(M e) = 0.5(n + 1) = 0.5(24 + 1) = 12.5; M e = (13 + 13.6)/2 = 13.3.
146
posizione(Q1 ) = 0.25(n + 1) = 0.25(24 + 1) = 6.25; Q1 = (10 + 10.2)/2 = 10.1
posizione(Q3 ) = 0.75(n + 1) = 0.75(24 + 1) = 18.75; Q3 = (15.4 + 15.9)/2 = 15.65
(B)
Classi
[0,5]
(5,10]
(10,15]
(15,25]
Frequenza
1
5
11
7
Ampiezza
5
5
5
10
Densità
0.2
1
2.2
0.7
Esercizio 2. Assunzioni: X1 =’mg CO di 1 sigaretta normale’ ∼ N (µ1 , σ12 ), X2 =’mg CO di 1 sigaretta
light’ ∼ N (µ2 , σ22 ).
(A) Test di H0 : µ1 − µ2 = 0 contro H1 : µ1 − µ2 > 0. Si assume
inoltre che σ12 = σ22 . Statistica test
p
X 1 − X 2 , che sotto H0 si distribuisce come [(X 1 − X 2 ) − 0]/[Sp 1/n1 + 1/n2 ]|H0 ∼ T (n1 + n2 − 2), dove
Sp2 è la varianza pooled. Regione di rifiuto: [2.51, inf ty); valore campionario della statistica test sotto H0 :
2.1137. Valori e calcoli utili: gl = n1 + n2 − 2 = 22; s2p = s21 (n1 − 1) + s22 (n2 − 1)/(n1 + n2 − 1) = 15.4704
p
sp = 3.933, sp 1/n1 + 1/n2 = 1.703, s21 = 18.49, s22 = 9.
(B) Test di H0 : σ12 /σ22 = 1 contro H1 : σ12 /σ22 6= 1. Statistica test S12 /S22 , che sotto H0 si distribuisce
come S12 /S22 |H0 ∼ F (n1 − 1, n2 − 1). Regione di accettazione: [0.3695, 3.5107]; valore campionario della
statistica test sotto H0 : 2.0544.
Esercizio 3. Assunzioni: X =’mg CO di 1 sigaretta light’ ∼ N (µ = 10.6, σ = 3).
Pn
(A) Y =’mg CO di n sigarette light’= i=1 Xi , dove XP
i =’mg CO dell’i-ma sigaretta light’
Pn ∼ N (µ =
n
10.6,
σ
=
3).
Per
le
proprietà
dei
valori
attesi,
V
(Y
)
=
E(X
)
=
n
∗
10.6
V
(Y
)
=
i
i=1
i=1 V (Xi ) +
PP
Pn
2
C(X
,
X
)
=
V
(X
)
=
n
∗
3
=
9n.
Nell’ultima
formula
le
covarianze
sono
0
perchè
la CO
i
j
i
i6=j
i=1
prodotta da ciascuna sigaretta è indipendente dalle altre. Per le proprietà della Normale, Y ∼ N (µY =
10.6n, σY2 = 9n). Per n = 20 sigarette si ha Y ∼ N (µY = 212, σY2 = 180), per cui P (Y > 200) = P (Z >
−0.89) = 0.81445.
(B) Si tratta di
√ calcolare n tale che P (Y > 200) = 0.05. Allora 0.05 √= P (Y > 200) = P (Z >
(200 − 10.6n)/ 9n = z). Dalle tavole z = 1.645 per cui (200 − 10.6n)/ 9n = 1.645. Da questa si
può ricavare n. Facendo i calcoli (non richiesti) n = 16.9513 da arrotondare
Pn a 16.
Attenzione: non va bene fare Y = nX ∼ N (nµ, n2 σ 2 ) al posto di Y = i=1 Xi ∼ N (nµ, nσ 2 ).
Esercizio 4. Modello di regressione lineare yi = β0 + β1 xi + ui , dove ui ∼ N (0, σ 2 ), y = CO, x =
catrame.
(A) βb1 = Cov(x, y)/V ar(x) = 20.5039/26.6256 = 0.7701, βb0 = y − βb1 x = 13 − 0.7701 ∗ 12.68 = 3.2354,
σ
b2 = [Dev(y) − βb12 Dev(x)]/(n − 2) = 413.34 − 0.77012 ∗ 639.01 = 1.5631.
p
(B) Test di H0 : β1 = 0 contro H1 : β1 6= 0. α = 0.01. Statistica test sotto H0 : [βb1 −0]/ σ
b/Dev(x)|H0 ≈
T (n − 2). Regione accettazione: [−2.8188, 2.8188]. Valore campionario statistica test sotto H0 : tcamp =
p
[βb1 − 0]/ σ
b/Dev(x) = 15.5706.
147
75
75.1
Compito del 15.02.2007 (solo studenti PT)
Testo
Esercizio 1. Un’analista sta osservando i bilanci 2006 di 5 grossi alberghi appartenenti ad un’unica
catena. Molte cose sono strutturate in modo simile fra i diversi alberghi, ma i singoli esercizi godono di
alcuni margini di autonomia su certi aspetti della gestione. In particolare l’analista sta valutando se esiste
una relazione fra profittabilità (misurata da MON/Ricavi in %) e propensione ad esternalizzare alcune
fasi della gestione (valutata con Costi Esterni/Costi Totali in %). I dati sono raccolti nella seguente
tabella.
Indicatore
Torino Milano 1 Milano 2 Genova Verona
MON/Ricavi %
10.0
19.3
16.9
9.6
15.0
Costi Esterni/Costi Totali %
12.1
15.3
31.9
17.0
24.5
(A) Iniziare l’analisi mettendo in evidenza l’eventuale relazione attraverso un grafico.
(B) A scopo puramente puramente descrittivo, fornire un indice statistico per valutare la relazione i due
indicatori.
Esercizio 2. L’analisi di cui al punto precedente può essere approfondita mediante la regressione.
(A) Formulare un opportuno modello lineare che risponda alle esigenze dell’analista (si veda il testo
dell’esercizio 1) e stimarne i coefficienti.
(B) Fornire una stima per intervallo della variabilità intorno alla retta di regressione (α = 0.05).
Esercizio 3. Con riferimento all’esercizio precedente:
(A) È possibile concludere che la profittabilità è legata in modo significativo alla propensione ad esternalizzare? (α = 0.1)
(B) Calcolare i residui di regressione per Torino e Milano 1.
Esercizio 4. Sia X una variabile casuale. La sua distribuzione è stata tabulata nella seguente tabella.
x
-2
-1
0
1
2
3
f (x) 0.1 0.4 0.3 0.1 0 0.1
(A) La distribuzione data nella tabella è ben definita? Rispondere argomentando in modo opportuno.
(B) Calcolare i principali valori attesi della variabile X in modo da misurarne tendenza centrale e variabilità. In base alla risposta alla domanda (A), prima di effettuare i calcoli può essere necessario aggiustare
la distribuzione in tabella se questa non è ben definita.
75.2
Soluzioni
Esercizio 1.
(A) Semplice scatterplot o diagramma x, y, dove X = indicatore dei costi, Y = indicatore di profittabilità.
(B) Calcolo del coefficiente di correlazione. Prospetto di calcolo:
Torino Milano 1 Milano 2 Genova Verona Somma Media
x
12.1
15.3
31.9
17.0
24.5
100.80
20.16
y
10.0
19.3
16.9
9.6
15.0
70.80
14.15
x2 146.41
234.09
1017.61
289.00
600.25
2287.36 457.47
y2
99.25
372.18
284.46
92.11
226.18
1074.18 214.84
xy 120.55
295.17
538.03
163.15
368.46
1485.35 297.07
Allora: n = 5, M (X) = 20.16, M (Y ) = 14.15, V (X) = 457.47−20.162 = 51.05 V (Y ) = 214.84−14.152 =
14.57, σ(X) = 7.1447, σ(Y ) = 3.8176 C(X, Y ) = 297.07 − 20.16 ∗ 14.15 = 11.7788, ρ = 11.7788/(7.1447 ∗
3.8176) = 0.4318.
148
Esercizio 2. Modello di regressione lineare yi = β0 + β1 xi + ui , dove ui ∼ N (0, σ 2 ), y = indicatore di
profittabilità, x = indicatore dei costi.
(A) βb1 = Cov(x, y)/V ar(x) = 11.7788/51.05 = 0.2307, βb0 = y − βb1 x = 14.15 − 0.2307 ∗ 20.16 = 9.4995,
σ
b2 = [Dev(y) − βb12 Dev(x)]/(n − 2) = (72.8711 − 0.23072 ∗ 255.232)/(5 − 2) = 19.7604.
(B) Intervallo di confidenza per σ 2 o per σ. Pivot: σ 2 (n − 2)/σ 2 distribuito come χ2 (n − 2). Intervallo per
σ 2 : [σ 2 (n − 2)/c2 , σ 2 (n − 2)/c1 ] = [6.3413, 274.7111] Intervallo per σ: [2.5182, 16.5744]. Valori e calcoli
utili: gl = n − 2 = 3, c1 = 0.2158, c2 = 9.3484.
Esercizio 3.
p
b/Dev(x)|H0 ≈
(A) Test di H0 : β1 = 0 contro H1 : β1 6= 0. α = 0.1. Statistica test sotto H0 : [βb1 − 0]/ σ
T (n − 2). Regione accettazione: [−2.3534, 2.3534]. Valore campionario statistica test sotto H0 : tcamp =
p
[βb1 − 0]/ σ
b/Dev(x) = 0.2307. Valori e calcoli utili: βb1 = 0.2307, σ 2 = 19.7604, Dev(x) = 255.232,
p
b/Dev(x) = 0.2782.
σ
b(βb1 ) = σ
(B) Calcolo residui stimati u
bi (solo i primi due erano richiesti)
Torino Milano 1 Milano 2 Genova Verona
ybi = βb0 + βb1 xi 12.2916 13.0300
16.8604 13.4222 15.1528
u
bi
-2.3291
6.2620
0.0057
-3.8250 -0.1136
Esercizio
x
f (x)
xf (x)
x2 f (x)
4.
-2
0.1
-0.2
0.4
-1
0.4
-0.4
0.4
0
0.3
0
0
1
0.1
0.1
0.1
2
0
0
0
3
0.1
0.3
0.9
Somma
1
-0.2
1.8
(A) La distribuzione di X è ben definita in quanto rispetta le P
due caratteristiche fondamentali che deve
avere affinchè lo sia, ovvero: 1. f (x) ≥ 0 per ogni valore di x; x f (x) = 1.
(B) Dal prospetto di calcolo sopra riportato: E(X) = −0.2, V (X) = E(X 2 ) = E(X)2 = 1.8 − (−.2)2 =
1.76.
149
76
76.1
Compito del 30.03.2007 (solo studenti PT)
Testo
Esercizio 1. Un’agenzia ministeriale ha formato un pool di 6 esperti per decidere quale linea strategica
seguire in merito alla gestione delle somme destinate al nuovo regime del TFR. Ognuno degli esperti ha
valutato entrambe le strategie in esame: una più prudente, l’altra più rischiosa. Al termine, le valutazioni
di ciascuno degli esperti sono state sintetizzate nei punteggi di cui alla seguente tabella.
Esperto
Strategia A. Aranci B. Bianco C. Celestino G. Grigioni R. Rossi V. Verdi
Prudente
4.5
4.0
6.5
6.7
3.0
6.1
Rischiosa
3.2
3.7
4.9
7.8
2.6
5.6
(A) È possibile stabilire se una delle due strategie è giudicata significativamente migliore dell’altra?
Formulare il problema in termini di test delle ipotesi (α = 0.1).
(B) Specificare in dettaglio le assunzioni formulate per rispondere alla domanda precedente.
Esercizio 2.
(A) In merito alla nuova gestione del TFR, gli esperti del ministero avevano preventivato che, entro
marzo 2007, oltre il 35% del personale avrebbe già deciso di aderire al nuovo regime. Da una rilevazione
a campione commissionata allo scopo è emerso che, su 1505 intervistati, 560 sono già propensi ad aderire.
In base a tale informazione, è possibile ritenere che le aspettative ministeriali sono giuste? Rispondere
mediante il calcolo del p–value e commentare il risultato.
(B) Un’altra indagine, effettuata per conto dei sindacati, ha evidenziato che su 780 operai intervistati
il 33% ha intenzione di aderire, mentre la percentuale dei propensi all’adesione risulta il 47% fra i 560
impiegati intervistati. Fornire stima puntuale e per intervallo (1 − α = .98) per valutare la diversa
propensione ad aderire fra le due categorie di dipendenti.
Esercizio 3. Un dirigente sindacale, che non ha una chiara percezione del concetto di rischio, vi ha
chiesto consulenza privata. Cercate di fargli capire il concetto proponendogli la seguente situazione.
Avete 100 euro da investire in una qualsiasi combinazione (portafoglio) fra 2 titoli: (a) un bond senza
rischio, che rende il 2.5% fisso l’anno; (b) un’azione rischiosa, che in media rende il 4% l’anno con una
deviazione standard del 10%. Tenendo presente un orizzonte temporale di un anno e che non è possibile
indebitarsi:
(A) Quale ripartizione dei 100 euro fra i 2 titoli risulta la migliore se uno vuol massimizzare il rendimento
atteso del portafoglio? Quale ripartizione dei 100 euro fra i 2 titoli risulta la migliore se uno vuol
minimizzare il rischio (misurato dalla deviazione standard) del portafoglio? Rispondere argomentando.
(B) Quale ripartizione dei 100 euro risulta ottimale se uno vuole massimizzare il rendimento ma, contemporaneamente, vuole che la probabilità di avere un rendimento negativo del portafoglio sia non più del
10%? Nel rispondere si assuma che il rendimento dell’azione rischiosa abbia distribuzione normale.
Esercizio 4. Si consideri il rendimento del titolo rischioso menzionato nell’esercizio precedente, e si assuma che esso abbia distribuzione normale con la media e la deviazione standard indicati. Pur consapevoli
che non è sensato andare a stimare delle quantità che invece sono note, rispondere alle seguenti domande.
Avendo a disposizione un campione casuale di 10 osservazioni e con riferimento alle statistiche/stimatori
visti nel corso:
(A) Per stimare il rendimento medio, quale stimatore suggerite? Rispondere argomentando. Calcolare
l’MSE dello stimatore suggerito.
(B) Per stimare la varianza, quale stimatore suggerite? Rispondere argomentando. Calcolare l’MSE dello
stimatore suggerito.
76.2
Soluzioni
Esercizio 1.
150
(B) X1 =’giudizio sulla strategia prudente’, X2 =’giudizio sulla strategia rischiosa’. Per come è rilevato
il campione si tratta di effettuare un test sulla differenza fra medie per dati appaiati. Quindi: D =
2
X1 − X2 ∼ N (µD , σD
).
√
(A) Test di H0 : µD = 0 contro H0 : µD 6= 0. La variabile test è (sotto H0 ) (D − 0)/(SD / n) che sotto
H0 ha distribuzione T (n − 1).
Esperto
C. Celestino G. Grigioni R. Rossi V. Verdi
6.5
6.7
3.0
6.1
4.9
7.8
2.6
5.6
1.6
-1.1
0.4
0.5
2.56
1.21
0.16
0.25
Pn 2
Dalla tabella, d = 3.0/6 = 0.5, dev(d) = i di − n ∗ d = 5.96 − 6 ∗ 0.52 = 4.46, s2d = dev(d)/(n −
1) = 4.46/5
= 0.892, sd =√0.9444575; valore campionario della statistica test sotto H0 , tcamp = (d −
√
0)/(sd / n) = 1.2968 (sd / n = 0.38557), regione di accettazione [−2.01505, 2.01505]. Quindi i dati
raccolti non autorizzano a ritenere che una strategia sia significativamente migliore dell’altra.
Strategia
Prudente
Rischiosa
di
d2i
A. Aranci
4.5
3.2
1.3
1.69
B. Bianco
4.0
3.7
0.3
0.09
Esercizio 2.
(A) Assunzioni: X = ’lavoratore propenso ad aderire’ ∼ Be(p). Test p
di H0 : p = 0.35 contro H0 :
p > 0.35. Poniamo p0 = 0.35. Statistica test (sotto H0 ) Z = (b
p − p0 )/ p0 q0 /n che sotto H0 ha una
distribuzione,
p approssimativamente, N (0, 1). Valore campionariopdella statistica
p test sotto H0 , zcamp =
(b
√p − p0 )/ p0 q0 /n = 1.7969 dove pb = 560/1505 = 0.372093, p0 q0 /n = 0.35 ∗ (1 − 0.35)/1505 =
0.0001511628 = 0.01229483. p − value = P [Z > 1.769|H0 ] = 0.03617, che porta a dar ragione al
ministero se si sceglie un α maggiore di tale valore (ad esempio l’usuale 0.05).
(B) Assunzioni: X1 = ’operaio propenso ad aderire’ ∼ Be(p1 ), X2 = ’impiegato propenso ad aderire’
∼ Be(p2 ). Stima per intervallo e intervallo di confidenza per p2 − p1 . Stima puntuale: pb2 − pb1 =
0.47 − 0.33 = 0.14. Quindi si stima che fra i due gruppi di dipendenti c’è una differenza, a favore degli
operai,pdi circa 14 punti percentuali in p
merito alla propensione ad aderire. Stima per intervallo: [(b
p2 −
pb1 )−z pb2 qb2 /n2 + pb1 qb1 /n1 , (b
p2 − pb1 )+z pb2 qb2 /n2 + pb1 qb1 /n1 ] = [0.07712, 0.20288],
dove
p
b
q
b
/n
=
0.47∗
2 2
2
p
p
b
q
b
/n
+
p
b
qb1 /n1 ] =
(1
−
0.47)/560
=
0.0004448214,
p
b
q
b
/n
=
0.33
∗
(1
−
0.33)/780
=
0.0002834615,
2
2
2
1
1
1
1
√
0.000728283 = 0.02699, z = 2.33 dato che 1 − α = 0.98.
Esercizio 3.
(A) Indico con c la somma investita nel titolo rischioso; quindi 100 − c sarà la somma investita in
quello non rischioso. Rendimento del portafoglio ad un anno: X = (100 − c) ∗ 0.025 + cX2 , dove
X2 ∼ [0.04, 0.10] è il rendimento del titolo rischioso. Per le proprietà dei valori attesi: µX = E(X) =
(100 − c) ∗ 0.025 + cE(X2 ) = (100 − c) ∗ 0.025 + c0.04 = 2.5 + 0.015c risulta massimo se si investe tutto nel
2
titolo rischioso, cioè c = 100; σX
= V (X) = c2 V (X2 ) = c2 ∗ 0.102 , che risulta minimo se non si investe
niente nel titolo rischioso e tutto in quello non rischioso (quindi c = 0).
(B) Si è capito che più si punta su quello rischioso e più, mediamente(!), si guadagna. Se però si vuole
P (X < 0) = 0.10 allora, includendo l’assunzione di normalità, 0.10 = P (X < 0) = P [(X − µX )/σX <
(0 − µX )/σX ] = P [Z < (0 − µX )/σX ]. Dalle tavole si trova che z = (0 − µX )/σX = −1.28. Sostituendo
le formule di µX e σX ricavo c: (0 − 2.5 − 0.015c)/(0.1 ∗ c) = −1.28, da cui c = 22.12 euro.
Esercizio 4.
(A) Uso X, dato che è stimatore efficiente di µ. Siccome è corretto allora M SE(X; µ) = V (X) = σ 2 /n =
0.102 /10 = 0.001.
2
(B) Uso S∗∗
, dato che è stimatore efficiente di σ 2 e si conosce la media. Siccome è corretto allora
2 ; σ 2 ) = V (S 2 ) = 2 ∗ σ 4 /n = 2 ∗ .104 /10 = 0.00002.
M SE(S∗∗
∗∗
151
77
77.1
Compito del 31.05.2007 (solo studenti PT)
Testo
Premessa: RAPAnet è una società che offre servizi via internet, wap e simili. Uno di questi consiste
nell’invio di contenuti (tipo suonerie per cellulari o files mp3) agli iscritti al servizio. Per usufruire dei
servizi gli iscritti pagano una quota settimanale: ogni settimana possono decidere se pagare (scalando la
quota dalla scheda telefonica) o uscirne definitivamente.
Esercizio 1. RAPAnet vuole valutare se esiste differenza di comportamento fra coloro che dispongono
di scheda TIM e di scheda WIND. Su un campione di utenti che si sono iscritti nel mese di dicembre 2006
sono state rilevate le seguenti statistiche (iscritti = iscritti nel mese di dicembre 2006; usciti = usciti dal
servizio entro 5 settimane dall’iscrizione).
Scheda telefonica
TIM
WIND
n. iscritti
3969
1986
n. usciti
669
378
(A) Si fornisca stima puntuale e per intervallo per valutare la differente propensione ad uscire dal servizio
fra i clienti TIM e WIND.
(B) I dati mostrano una maggiore propensione ad uscire dal servizio da parte dei clienti WIND? Calcolare
il p-value e commentare il risultato.
(C) Si calcoli la potenza del test ottenuto ponendo α = 0.02 e l’ipotesi alternativa secondo la quale la
differenza fra WIND e TIM circa la probabilità di abbandonare il servizio entro le 5 settimane è pari a
2.3 punti percentuali.
Esercizio 2. Si assuma che le probabilità di uscire dal servizio entro le 5 settimane, separatamente per i
clienti TIM e WIND, siano identiche a quelle desumibili dai dati dell’esercizio 1. Si assuma anche, come
è noto a RAPAnet, che il 63% dei propri clienti sia TIM e il rimanente WIND.
(A) Preso a caso un cliente, calcolare la probabilità che questo esca dal servizio entro 5 settimane
dall’iscrizione.
(B) Su 100 clienti estratti casualmente e con reimmissione, indicare come si distribuisce (compreso il valore
dei parametri) la variabile ’numero di usciti dal servizio entro 5 settimane dall’iscrizione’. Calcolarne i
quartili (1o , 2o , 3o ).
Esercizio 3. In un’altra analisi RAPAnet ha utilizzato i dati rilevati per quantificare la relazione fra
investimento pubblicitario (su motori di ricerca, banner e simili) e numero di nuove iscrizioni al servizio.
I dati degli ultimi 5 mesi sono riassunti in tabella.
Variabile
spesa (milioni euro)
nuovi iscritti (migliaia)
gennaio
0.28
36.1
febbraio
0.1
18.6
marzo
0.28
38.8
aprile
0.24
29.4
maggio
0.23
29.6
(A) Aiutate RAPAnet formulando un modello che risponda alle sue esigenze. Stimarne i parametri.
(B) Valutare l’indice R2 e commentare il risultato.
(C) Per il mese di giugno RAPAnet ha in progetto di investire 0.22 milioni di euro in pubblicità. Fornire
una previsione, puntuale e per intervallo (α = 0.2), su quanti saranno i nuovi iscritti al servizio nel mese.
77.2
Soluzioni
Esercizio 1 Assunzioni: X1 = ’utente TIM esce entro 5 settimane’ ∼ Be(p1 ); X2 = ’utente WIND esce
entro 5 settimane’ ∼ Be(p2 ); X1 , X2 indipendenti.
(A) Stima puntuale e per intervallo diq
p2 − p1 . Stimatore puntuale: X 2 − X 1 ; stima puntuale x2 − x1 =
0.0218. Pivot: [(X 2 −X 1 )−(p2 −p1 )]/ X 2 (1 − X 2 )/n2 + X 1 (1 − X 1 )/n1 con distribuzione campionaria
(approssimata) N (0, 1); intervallo
di confidenza al 95% di probabilità: [x1 − x2 − z ∗ se, x1 − x2 + z ∗ se] =
p
[9e − 04, 0.0426], dove se = x2 (1 − x2 )/n2 + x1 (1 − x1 )/n1 , z = 1.96.
152
(B) Ipotesi: H0 : p2 − p1 = 0 contro H1 : p2 − p1 > 0.
p Statistica test (sotto H0 ): [(X 2 − X 1 ) − 0]/se0 ,
la cui distribuzione sotto H0 è N (0, 1), dove se0 = pbqb(1/n2 + 1/n1 ) e pb = (x2 n2 + x1 n1 )/(n2 + n1 )
è la stima pooled di p. Nelle condizioni dell’esercizio, p − value = P (Z > zcamp ) = 0.0186, dove
zcamp = [(x2 − x1 ) − 0]/se0 = 2.084.
(C) γ = P (campione ∈ R|H1 ). Facendo i conti, la regione di rifiuto per la statistica test di cui al punto
precedente è (zcrit = 2.054, ∞) (α = 0.02). Allora γ = P (campione ∈ R|H1 ) = P ([(X 2 − X 1 ) − 0]/se0 >
zcrit |H1 ) = P ([(X 2 − X 1 ) > zcrit ∗ se0 |H1 ) = P ([(X 2 − X 1 ) > 0.0215|H1 ). Sotto H1 abbiamo che,
approssimativamente, [(X 2 − X 1 ) − 0.023]/se ≈ N (0, 1) (vedi sopra per se), per cui γ = P ([(X 2 − X 1 ) >
0.0215|H1 ) = P ([(X 2 − X 1 ) − 0.023]/se > (0.0215 − 0.023)/0.0106|H1 ) = P (Z > −0.142) = 0.55657.
p
Calcoli e valori utili: x1 = 669/3969
√ = 0.169, x2 = 378/1986 = 0.19, se = x2 (1 − x2 )/n2 + x1 (1 − x1 )/n1 =
√
3.531e − 05 + 3.531e − 05 = 0.00011291
= 0.0106; pb =
p
√ (x2 n2 +x1 n1 )/(n2 +n1 ) = (378+669)/(1986+
3969) = 0.1758, qb = 0.8242, se0 = pbqb(1/n2 + 1/n1 ) = 0.00010947 = 0.0105.
Esercizio 2 Notazione e assunzioni: T = T IM , W = W IN D; X|T = ’utente TIM esce entro 5
settimane’ ∼ Be(p1 = 0.169); X|W = ’utente WIND esce entro 5 settimane’ ∼ Be(p2 = 0.19). Sappiamo
che P (T ) = 0.63, P (W ) = 0.37.
(A) P (X = 1) = P (X = 1|T )P (T ) + P (X = 1|W )P (W ) = 0.169 ∗ 0.63 + 0.19 ∗ 0.37 = 0.17661. In pratica,
quindi, la v.c. X =’utente esce entro 5 settimane ∼ Be(p = 0.17661)’.
(B) Nelle condizioni dell’esercizio, la v.c. Y =’n. clienti su 100 che abbandonano il servizio entro 5
settimane’∼ Bi(n = 100, p = 0.17661). I quantili possono essere calcolati utilizzando l’approssimazione
normale Bi(n = 100, p = 0.17661) ' N (np = 17.661, npq = 14.542): Q1 = 15.09, Q2 = M e = µ = 17.66,
Q3 = 20.23.
Esercizio 3
(A) Modello lineare: yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), dove X = spesa, Y = n. nuovi iscritti. Stime:
Pn
b2 = i=1 εb2i /(n−2) = dev(y)− βb12 dev(x)/(n−
βb1 = cod(x, y)/dev(x) = 101.7792, βb0 = y−β1 x = 7.4979, σ
2) = 5.6035.
(B) Nel modello lineare semplice R2 = ρ2 = 0.96492 = 0.9311.
(C) Stima puntuale e per intervallo di E(y|x0 ), che per brevità indicheremo con θ. Stimatore puntuale:
b con distribuzione campionaria
θb = βb0 + βb1 x0 ; stima puntuale βb0 + βb1 x0 = 29.8893. Pivot: [θb − θ]/b
σ (θ)
2 b
2
2
T (n − 2), dove σ
b (θ) = σ
b (1/n + (x0 − x) /dev(x)); intervallo di confidenza al 95%: [28.15, 31.63], dove
t = 1.6377.
Calcoli e valori utili
Variabile gennaio
xi
0.28
yi
36.1
x2i
0.0784
yi2
1303.21
xi yi
10.108
febbraio
0.1
18.6
0.01
345.96
1.86
marzo
0.28
38.8
0.0784
1505.44
10.864
aprile
0.24
29.4
0.0576
864.36
7.056
maggio Somma
0.23
1.13
29.6
152.5
0.0529
0.2773
876.16
4895.13
6.808
36.696
Pn
2
2
da cui: x P
= 1.13/5 = 0.226, y = 152.5/5 = 30.5, dev(x) = i=1 xi −
= 0.2773 − 5 ∗ 0.2262 = 0.02192,
Pnx
n
n
2
2
2
dev(y) = i=1 yi − ny = 4895.13 − 5 ∗ 30.5 = 243.88, cod(x, y) = i=1 xi yi − nxy = 36.696 − 5 ∗ 0.226 ∗
q
b = σ
30.5 = 2.231, ρ = cod(x, y)/ dev(x)dev(y) = 0.9649, σ
b2 (θ)
b2 (1/n + (x0 − x)2 /dev(x)) = 1.1299,
b = 1.063.
σ
b(θ)
153
78
Compito del 05.06.2007 (solo studenti PT)
78.1
Testo
Premessa: La AllMart è una grossa catena di prodotti di consumo.
Esercizio 1. AllMart vuole quantificare la relazione fra sconti concessi alla clientela nelle offerte periodiche e volumi venduti. L’analisi di una serie di offerte fra loro comparabili ha fornito i risultati in tabella
(legenda: sconto % medio = sconto percentuale medio dell’offerta; variazione % volumi = differenza
percentuale dei volumi venduti durante l’offerta rispetto alla media).
Variabile
sconto % medio
variazione % volumi
offerta 1
34
23
offerta 2
34
23
offerta 3
11
-5
offerta 4
22
17
offerta 5
14
7
(A) Esiste una relazione significativa fra volumi venduti e sconto medio concesso? (α = 0.05)
(B) Nella prossima offerta, AllMart intende proporre una percentuale di sconto medio pari al 22%. Fornire
una previsione, puntuale e per intervallo (α = 0.1), sulla variazione percentuale dei volumi rispetto al
livello medio.
Esercizio 2. Per incentivare la clientela, AllMart usa anche un sistema di raccolta punti. La situazione al 31.12.2006 di un particolare punto vendita, relativamente ai punti raccolti da ciascun cliente, è
schematizzata nella seguente tabella.
punti per cliente
numero clienti
[0,100]
6255
(100,300]
3892
(300,600]
973
(600,1000]
834
oltre 1000
1946
(A) Rappresentare graficamente la distribuzione della variabile numero di punti raccolti per cliente.
(B) Ricavare una misura di tendenza centrale e una misura di variabilità della variabile numero di punti
per cliente.
Esercizio 3. AllMart gestisce anche una propria carta di credito, utilizzabile anche in altri punti vendita
esattamente come una comune carta di credito. AllMart ritiene che nonostante le condizioni piuttosto
vantaggiose i clienti non la usino a sufficienza. A titolo di esperimento, ha selezionato un campione casuale
di utenti 2005, offrendo a ognuno di loro di togliere la commissione annuale 2006 se in tale anno avessero
superato i 2000 euro di utilizzo. I dati campionari sull’utilizzo della carta sono sono stati elaborati come
schematizzato in tabella (valori monetari in euro; dev. st. = radice quadrata della varianza campionaria
corretta).
dimensione
141
media
(del 2005)
1648
media
(del 2006)
1744
media (della differenza 2006 − 2005)
96
dev. st.
(del 2005)
380
dev. st.
(del 2006)
435
dev. st. (della differenza 2006 − 2005)
450
(A) Mediante un opportuno test delle ipotesi, verificare se il provvedimento fa incrementare in modo
significativo l’utilizzo medio della carta. (α = 0.01)
(B) Sfruttando le informazioni a disposizione, indicare quanto dovrebbe essere grande il campione per
ottenere un intervallo di confidenza per il parametro d’interesse di ampiezza 0.69 al livello di confidenza
1 − α = 0.9.
Esercizio 4. Sia X ∼ N (µ, σ = 17). L’obiettivo è stimare µ: a questo scopo si raccomanda di utilizzare
un buon stimatore.
(A) È stato estratto un campione di dimensione n = 7. Calcolare la probabilità di commettere un errore
di stima, in valore assoluto, superiore a 8.2.
(B) È possibile effettuare lo stesso calcolo di cui al punto precedente, magari in via approssimata,
rimuovendo l’assunzione di normalità della variabile X? Argomentare la risposta.
154
78.2
Soluzioni
Esercizio 1. Assunzioni: modello lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), dove Y = variazione %
volumi, X = sconto % medio.
(A) Esiste una relazione significativa se β1 è diverso da 0. Quindi test di H0 : β1 = 0 contro H1 : β1 6= 0.
Variabile test βb1 , con la seguente distribuzione campionaria: (βb1 − β1 )/b
σ (βb1 ) ∼ T (n − 2). Sotto H0 :
b
b
(β1 − 0)|H0 /b
σ (β1 ) ∼ T (n − 2). Per α = 0.05 e n − 2 = 3 la regione di accettazione è [−3.1824, 3.1824],
mentre il valore campionario della statistica test sotto H0 è (βb1 − 0)/b
σ (βb1 ) = 4.608014.
(B) Stima puntuale e per intervallo di E(y|x0 ), che per brevità indicheremo con θ. Stimatore puntuale:
b con distribuzione campionaria
θb = βb0 + βb1 x0 ; stima puntuale βb0 + βb1 x0 = 11.96153. Pivot: [θb − θ]/b
σ (θ)
T (n − 2); intervallo di confidenza al 95%: [6.8031, 17.1100], dove per α = 0.1 e n − 2 = 5 si ha t = 2.3534.
Calcoli e valori utili
offerta1 offerta2
xi
34
34
yi
23
23
x2i
1156
1156
yi2
529
529
xi yi
782
782
offerta3
11
-5
121
25
-55
offerta4
22
17
484
289
374
offerta5
14
7
196
49
98
Somma
115
65
3113
1421
1981
Pn
2
2
2
da cui: nP= 5, x = 115/5 = 23, y = 65/5 = 13, dev(x) =
i=1 xi − nx = 3113 − 5 ∗ 23 = 468,
P
n
n
2
2
2
dev(y) = i=1 yi − ny = 1421 − 5 ∗ 13 = 576, cod(x, y) = i=1 xi yi − nxy = 1981 − 5 ∗ 23 ∗ 13 = 486,
b2 =
βb1 = cod(x, y)/dev(x) = 486/468 = 1.038462, βb0 = y − βb1 x = 13 − 1.038462 ∗ 23 = −10.88463 σ
√
2
2
(dev(y) − βb1 dev(x))/(n − 2) = (576 − 1.038462 ∗ 468)/(5 − 2) = 23.76908, σ
b = 23.76908 = 4.875354,
p
√
b
b
b
σ
b ( β1 ) = σ
b/ dev(x) = 4.875354/ 468 = 0.22536, (β1 − 0)/b
σ (β1 ) = 1.038462/0.22536 = 4.608014,
b =σ
θb = βb0 + βb1 x0 = −10.88463 + 1.038462 ∗ 22 = 11.96153, σ
b2 (θ)
b2 (1/n + (x0 − x)2 /dev(x)) = 23.76908 ∗
√
2
b
(1/5 + (22 − 23) /468) = 4.804605, σ
b(θ) = 4.804605 = 2.19194.
Esercizio 2.
(A) Istogramma, da costruire in base ai dati della tabella seguente (N.B.: la classe > 1000 è stata chiusa
a 2500 punti).
(B) Indice di tendenza centrale: M e = 100 + (6950 − 6255)/19.4600 = 135.71. Indice di variabilità:
∆Q = Q3 − Q1 = 385.72 − 55.56 = 330.16, dove Q1 = 0 + 3475/62.5500 = 55.56, Q3 = 300 + (10425 −
10147)/3.2433 = 385.72.
classi
freq
ampiezza
densità
freq. cumulate
[0,100]
6255
100
62.5500
6255
(100,300]
3892
200
19.4600
10147
(300,600]
973
300
3.2433
11120
(600,1000]
834
400
2.0850
11954
> 1000
1946
1500
1.2973
13900
Esercizio 3. Test per dati appaiati (il campione è lo stesso nei due anni). Notazione e assunzioni:
2
D = utilizzo2006 − utilizzo2005 ∼ N (µD , σD
).
√
(A) Ipotesi: H0 : µD = 0 contro H1 : µD > 0. Statistica test (sotto H0 ): (D − 0)/(SD / n), la cui
distribuzione sotto H0 è T (n − 1). Regione di rifiuto per
√ 140: (2.3533, ∞); valore
√ α = 0.01 e n − 1 =
campionario della statistica test sotto H0 : (d − 0)/(sD / n) = (96 − 0)/(450/ 141) = 2.5332.
(B) In base al valore di α = 0.9 si ha z = 1.645. Per σ si sfrutta quanto si conosce, ovvero la stima pari
a 450. Quindi n = (2zσ/A)2 = (2 ∗ 1.645 ∗ 450/0.69)2 = 4603823.
Esercizio 4.
(A) Si stima µ mediante X, la cui distribuzione, nelle condizioni dell’esercizio, è N (µ, σ 2 /n = 41.2857).
Allora P (|X − µ| > 8.2) = 1 − P (|X − µ| ≤ 8.2). Ma P (|X − µ| ≤ 8.2) = P (−8.2 ≤ X − µ ≤ 8.2) =
155
√
√
√
P (−8.2/ 41.2857 ≤ (X − µ)/(σ/ n) ≤ 8.2/ 41.2857) = P (−1.276 ≤ Z ≤ 1.276) = 0.79945, per cui la
probabilità richiesta viene 0.20055.
(B) No. Il campione ha dimensione troppo ridotta per poter utilizzare approssimazioni di sorta, tipo
teorema del limite centrale.
156
79
79.1
Compito del 26.06.2007 (solo studenti PT)
Testo
Premessa: COWSTER è un sito web specializzato in software musicale creato da Jill Bates. Per usufruire
dei servizi del sito è necessario iscriversi, ricevendo una login e una password di accesso.
Esercizio 1. Per valutare a quale ritmo stanno procedendo le nuove iscrizioni al sito, nel primo trimestre
2007 COWSTER ha raccolto il campione casuale semplice sintetizzato nella tabella che segue. La variabile
rilevata è X = ’numero di nuove iscrizioni al secondo’ (nell’orario di maggior traffico in rete).
Nuove iscrizioni al secondo
Frequenza
0
862
1
732
2
294
3
79
4
16
>4
0
(A) Rappresentare graficamente la distribuzione della variabile nel campione tenendo presente l’obiettivo
di scegliere un opportuno modello probabilistico per la variabile X.
(B) Limitando la scelta a Bernoulli, Poisson, Normale scegliere quello che vi sembra più adatto come
modello probabilistico per X. In base alla scelta fatta e sfruttando i dati del campione spiegare i passi
necessari per calcolare la probabilità e quindi frequenza assoluta teorica della classe > 4. Non effettuare
i conti.
Esercizio 2. Jill Bates aveva previsto che, nel primo trimestre 2007, il numero di nuove iscrizioni al
secondo avrebbe superato, in media, 0.78. In base ai dati e al modello di cui all’esercizio 1:
(A) La previsione di Jill Bates si è avverata? (α = 0.01).
(B) Calcolare la potenza del test di cui al punto precedente in corrispondenza dell’ipotesi alternativa ’le
nuove iscrizioni sono in media 0.84 al secondo’.
Esercizio 3. COWSTER ha cercato di stimare se e in che misura il numero di nuovi iscritti alla settimana
(espresso in logaritmo naturale) è legato al numero di contenuti (programmi, files, forums, etc.) messi a
disposizione degli utenti. La stima dei coefficienti del modello di regressione lineare semplice formulato
ha fornito le stime riportate in tabella (s.e. = standard error):
dimensione campione
202
βb0
9.5833
s.e.(βb0 )
0.6886
βb1
0.0647
s.e.(βb1 )
0.0326
σ
b2
15.1557
s.e.(b
σ2 )
1.5156
(A) In base ai dati della tabella, il numero di nuovi iscritti è legato in modo significativo al numero di
contenuti? Rispondere calcolando il p-value.
(B) Determinare l’intervallo di confidenza per σ al livello di confidenza 0.01.
Esercizio 4. Si assuma che il numero di nuovi iscritti al secondo X sia distribuito secondo una P o(λ =
0.64) e che il numero di nuovi iscritti in intervalli di tempo disgiunti siano indipendenti.
(A) Specificare la distribuzione (ivi compreso il valore dei parametri) del numero di nuovi iscritti in un
intervallo di tempo di un minuto. Motivare la risposta in base alla teoria.
(B) Calcolare la probabilità che in un minuto vengano effettuate almeno 34 nuove iscrizioni.
79.2
Soluzioni
Esercizio 1
(A) Rappresentazione grafica della distribuzione della variabile X nel campione: diagramma ’a spaghetti’
delle frequenze relative, da costruire in base alle elaborazioni seguenti (righe xi ed fi ).
xi = Nuove iscrizioni al secondo
ni = Frequenza
fi = Frequenza relativa
xi ni
0
862
0.4347
0
1
732
0.3691
732
157
2
294
0.1483
588
3
79
0.0398
237
4
16
0.0081
64
>4
0
0
0
Totale
1983
1
1621
(B) Fra le tre alternative l’unica ragionevole appare X ∼ P o(λ). Allora frequenza teorica(X > 4) =
N ∗ P (X > 4), dove P (X > 4) = 1 − P (X ≤ 4) = 1 − [P (X = 0) + P (X = 1) + P (X = 2) + P (X =
3) + P (X = 4)]. Ciascuna di queste probabilità può essere calcolata tramite la funzione dei massa della
Poisson, f (x) = λx exp(λ)/x!, sostituendo a λ la stima (che può essere ricavata dal campione come
x = 1621/1963 = 0.81745) e ad x, di volta in volta, i valori da 0 a 4. Risultato finale (non richiesto)
P (X > 4) = 1983 ∗ 0.001549849 = 3.07335, che può essere arrotondato a 3.
Esercizio 2 Notazione e assunzioni: X ∼ P o(λ).
(A) Test di H0 : λ = 0.78 contro H1 : λ > 0.78. Per comodità indichiamo 0.78 = λ0 . Variabile
test X chepnelle condizioni dell’esercizio ha distribuzione approssimativamente N (λ, λ/n). Sotto H0 :
(X − λ0 )/ λ0 /n ≈ N (0, 1). Per α = 0.01 la regione rifiuto è (zcrit = 2.326, ∞), mentre il valore della
statistica test (sotto H0 ) nel campione è zcamp = 1.8882. I risultati campionari non sembrano pertanto
sufficienti a dare ragione a Bates.
(B) Calcolo potenza in corrispondenzapdi H1 : λ = 0.84. Per comodità indichiamo
0.84 = λ1 . γ =
p
+
z
λ
/n|H
P (campione ∈ R|H1 ) = P ([X − λ0 ]/ λ0 /n > zcrit |H1 ) = P (X > λp
0
crit
0
1 ) = P (X >
0.82614|H1 ). Sotto H1 abbiamo che,
(X − λ1 )/ λ1 /n ≈ N (0, 1), per cui γ =
p approssimativamente, p
P (X > 0.82614|H1 ) = P ([X − λ1 ]/ λ1 /n > (0.82614 − λ1 )/ λ1 /n|H1 ) = P (Z > −0.67351) = 0.74969.
p
p
√
Calcoli e valori utili: x = 1621/1963 = 0.81745, λ0 /n = 0.000393343 = 0.019832887, λ1 /n =
√
0.000423601 = 0.02058156.
Esercizio 3. Assunzioni: Modello lineare: yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), dove X = ’indicatore
numero di contenuti’, Y = ln(n. nuovi iscritti).
(A) Test di H0 : β1 = 0 contro H0 : β1 6= 0 Statistica test βb1 la cui distribuzione è in generale data da
(βb1 − β1 )/b
σ (βb1 ) ∼ T (n − 2), mentre sotto H0 (βb1 − 0)/b
σ (βb1 )|H0 ∼ T (n − 2). Per n = 202 i gradi di
libertà della T sono 200, valore per cui possiamo approssimarla con una N (0, 1) nei calcoli. p − value =
2P (βb1 > |0.0647||H0 ) = 2P ([βb1 − 0]/b
σ (βb1 )/1.98467|H0 ) = 2P (Z > 1.98467) = 0.04718, significativo per
α = 0.05, non significativo per α = 0.01. Il conto con la T (200) avrebbe dato p − value = 0.04855.
(B) Pivot per σ 2 : (n − 2)b
σ 2 /σ 2 distribuito χ2 (n − 2). Intervallo per σ 2 : [(n − 2)b
σ 2 /c2 , (n − 2)b
σ 2 /c1 ] =
[11.875, 19.910], dove n = 202, σ
b2 = 15.1557, c1 = 152.241, c2 = 255.264 (α = 0.01). Intervallo per σ:
[3.446, 4.462].
Esercizio 4. Assunzioni: X = ’n. iscritti in 1 secondo’ ∼ P o(λX = 0.64).
(A) Y = ’n. iscritti in 1 minuto’ ∼ P o(λY = 60 ∗ 0.64 = 38.4) per la proprietà di additività della Poisson,
dato che Y è la somma di 60 v.c. Xi ∼ P o(0.64) indipendenti.
(B) È possibile effettuare il calcolo utilizzando l’approssimazione normale
P o(38.4) ≈ N√(38.4, 38.4), dato
√
che λY è sufficientemente elevato. P (Y ≥ 34) = P ([Y − 38.4]/ 38.4 ≥ [34 − 38.4]/ 38.4) = P (Z ≥
−0.71) = 0.76116.
158
80
80.1
Compito del 10.07.2007 (solo studenti PT)
Testo
Premessa: SCAMS è un’impresa di cosmetici e affini.
Esercizio 1. SCAMS sta attualmente testando un nuovo principio antirughe, siglato PJ11, frutto della
sua attività di ricerca. Nel comparare la sua allergenicità con quella della molecola attualmente in
commercio, su due distinti campioni casuali semplici di modelli animali, ha ricavato i seguenti risultati
(l’unità di misura è omessa).
Molecola
PJ11
Attuale
Numero osservazioni
26
26
Media
30.12
34.48
Varianza corretta
9.53
18.68
Assumendo che la misura di allergenicità utilizzata si distribuisca in modo normale:
(A) Sottoporre a test se l’allergenicità presenta la stessa variabilità nelle due molecole (α = 0.01).
(B) Il risultato del test ha conseguenze sul procedimento di test per la differenza fra le allergenicità medie
delle due molecole? Quali e perché? Spiegare adeguatamente.
Esercizio 2. Si risponda alle seguenti domande a prescindere dal risultato dell’esercizio precedente:
(A) È possibile stabilire se la nuova molecola presenta un livello di allergenicità inferire a quella attualmente in commercio? (α = 0.05).
(B) Assumendo che la deviazione standard sia la stessa per entrambe le molecole, se ne effettui una stima
per intervallo (1 − α = 0.95).
Esercizio 3. Lo studio della PJ11 è stato motivato dai problemi che l’attuale molecola sembra aver
causato in connessione con l’esposizione solare. Per saggiare se questo è vero i laboratori SCAMS hanno
effettuato un esperimento che ha dato i risultati riportati in tabella.
Esposizione al sole (ore)
Misura allergenicità
0.5
17.3
1
16.4
1.5
12.3
2
20.2
2.5
18.5
3
22.7
(A) In base ai dati della tabella, è possibile stabilire se il livello di allergenicità è veramente legato alla
durata dell’esposizione solare? (α = 0.1)
(B) Quanta parte della variabilità del livello di allergenicità è ’spiegata’ dalla durata dell’esposizione al
sole?
Esercizio 4. I ricercatori SCAMS hanno letto uno studio in base al quale, in generale, l’ipersensibilità
verso questo tipo di prodotti risulta maggiore per i soggetti di pelle chiara. Dallo studio emerge che la
probabilità che un soggetto sia ipersensibile al prodotto è del 12.5% per le persone di pelle chiara e il
4.4% per le altre. Per una popolazione di riferimento composta per il 30.9% con pelle chiara:
(A) Calcolare la probabilità che un soggetto preso a caso nella popolazione manifesti ipersensibilità verso
il prodotto.
(B) Calcolare la probabilità che su 10 soggetti presi casualmente, ci sia più di 1 soggetto ipersensibile.
80.2
Soluzioni
Esercizio 1. Notazione e assunzioni: X1 =’misura allergenicità della PJ11’, X2 =’misura allergenicità
di quella venduta attualmente’; X1 ∼ N (µ1 , σ12 ), X2 ∼ N (µ2 , σ22 ); i due campioni casuali estratti sono
indipendenti.
(A) Test di H0 : σ12 /σ22 = 1 contro H1 : σ12 /σ22 6= 1. Variabile test: S12 /S12 σ22 /σ12 . Sotto H0 : S12 /S12 |H0 ∼
F (n1 − 1, n2 − 1). Regione accettazione: [0.3451, 2.8981]. Valore campionario della statistica test sotto
H0 : 0.51017.
(B) In termini generali, l’accettazione dell’ipotesi di uguaglianza fra le due varianze permette di assumere, nel test sulla differenza fra le medie, che le varianze di X1 ed X2 sono uguali, ovvero σ12 = σ22 .
159
Ciò è importante perché le dimensioni dei due campioni non sono sufficienti a poter utilizzare il test,
basato sull’approssimazione normale ma che richiede n1 ed n2 sufficientemente elevati, che non richiede
l’assunzione dell’uguaglianza delle varianze. Si fa comunque notare che, per quanto riguarda il caso in
oggetto in cui n1 = n2 , il valore della statistica test è identico nei due test, dato che n1 = n2 implica
2
Spooled
(1/n1 + 1/n2 ) = S12 /n1 + S22 /n2 (verificare da soli scrivendo le formule, assumendo n1 = n2 e
facendo le opportune semplificazioni).
Esercizio 2 Notazione e assunzioni: identiche a quelle dell’esercizio 1 con l’aggiunta di σ12 = σ22 .
p
(A) Test di H0 : µ1 −µ2 = 0 contro p
H1 : µ1 −µ2 < 0. Variabile test (X 1 −X 2 )−(µ1 −µ2 )/(Spooled 1/n1 + 1/n2 ).
Sotto H0 : (X 1 − X 2 ) − 0/(Spooled 1/n1 + 1/n2 )|H0 ∼ T (n1 + n2 − 2). Regione rifiuto: (−∞, −1.6759).
Valore campionario della statistica test sotto H0 : -4.18573. Il PJ11 appare mediamente meno allergenico
del principio attivo attualmente in commercio.
(B) Intervallo di confidenza per il σ comune ad entrambe le variabili casuali. Pivot per σ 2 : (n1 +
2
n2 − 2)Spooled
/σ 2 che ha distribuzione χ2 (n1 + n2 − 2). Intervallo di confidenza per σ 2 : [(n1 + n2 −
2
2)spooled /c2 , (n1 +n2 −2)s2pooled /c1 ] = [9.87466, 21.79566]. Intervallo di confidenza per σ: [3.14240, 4.66858].
Calcoli e valori utili per gli esercizi 1 e 2: n1 = n2 = 26, s21 = 9.53, s22 = 18.68, s2pooled = s21 /n1 + s22 /n2 =
p
√
14.105, spooled = 3.75566, spooled 1/n1 + 1/n2 = 1.085 = 1.04163, c1 = 32.3574, c2 = 71.4202.
Esercizio 3. Assunzioni: Modello lineare: yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), dove X = ’h. di esposizione
al sole’, Y =misura di allergenicità.
(A) Test di H0 : β1 = 0 contro H0 : β1 6= 0. Variabile test (βb1 − β1 )/b
σ (βb1 ). Sotto H0 (βb1 − 0)/b
σ (βb1 )|H0 ∼
T (n − 2). Regione accettazione: [−2.1318, 2.1318]. Valore campionario della statistica test sotto H0 :
1.5891. L’esposizione solare sembra effettivamente accrescere il grado di allergenicità ma non in misura
significativa (probabilmente per l’esigua dimensione del campione).
(B) L’indice R2 fornisce quanto richiesto. Nella regressione semplice può essere calcolato come ρ2 =
0.622092 = 0.38700
Calcoli e valori utili:
Somma
xi
0.5
1
1.5
2
2.5
3
10.5
yi
17.3
16.4
12.3
20
18.5
22.7
107.4
x2i
0.25
1
2.25
4
6.25
9
22.75
yi2
299.29 268.96 151.29 408 342.25 515.29 1985.12
xi yi
8.65
16.4
18.45
40
46.25
68.1
198.25
Pn
2
da cui: x P
= 10.5/6 = 1.75, y = 107.4/6 = 17.9, dev(x) = i=1 x2i − nx
= 22.75 − 6 ∗ 1.752 = 4.375,
P
n
n
2
dev(y) = i=1 yi2 − ny = 1985.12 − 6 ∗ 17.92 = 62.66, cod(x, y) = i=1 xi yi − nxy = 198.25 − 6 ∗
1.75 ∗ 17.9 = 10.3; βb1 = codev(x, y)/dev(x) = 2.35429, σ
b2 = [dev(y) − β12 dev(x)]/(n − 2) = 9.60271,
q
p
√
b2 /dev(x) = 2.19491 = 1.48152, ρ = cod(x, y)/ dev(x)dev(y) = 0.62209.
σ
b(βb1 ) = σ
Esercizio 4.
(A) A =’pelle chiara’; B =’manifesta ipersensibilità’. P (B) = P (B|A)P (A) + P (B|A)P (A) = 0.125 ∗
0.309 + 0.044 ∗ 0.691 = 0.069029.
(B) X =’numero ipersensibili su 10 persone estratte a caso’ ∼ Bi(n = 10, p = 0.069029). P (X > 1) =
1 − P (X ≤ 1) = 1 − [P (X = 0) + P (X = 1)] = 1 − (0.489059 + 0.362624) = 0.148316
160
81
81.1
Compito del 07.09.2007 (solo studenti PT)
Testo
Premessa: Un gruppo di ricerca ha condotto uno studio su un piccolo campione di società del settore
orafo in collaborazione con una sede provinciale di un’associazione nazionale di imprese.
Esercizio 1. Uno degli obiettivi dello studio è stato quello di investigare l’eventuale relazione fra performances reddituali (misurate mediante l’indicatore M ON/RICAV I espresso in percentuale) e la propensione ad innovare (misurata attraverso un indicatore elaborato sulla base delle risposte ad un questionario). La tabella riporta alcune statistiche ricavate da tale elaborazione (P ERF sta per performances
reddituali; IN N sta per propensione ad innovare).
n
16
media(P ERF )
7.4
dev.st(P ERF )
9
media(IN N )
5.7
dev.st(IN N )
1.5
correlazione(P ERF, IN N )
0.313
Formulare un opportuno modello statistico e rispondere alle seguenti domande:
(A) La propensione ad innovare tende a far incrementare in modo significativo le performances reddituali?
(α = 0.02).
(B) Costruire l’intervallo di confidenza al 99% per la deviazione standard dei residui del modello.
Esercizio 2. Un’altra analisi a mirato a verificare l’eventuale relazione delle performances con il ruolo
dell’imprenditore. Il campione è stato diviso in due gruppi: uno costituito dalle imprese in cui l’imprenditore è anche colui che dirige l’impresa in modo esclusivo; le altre, in cui la direzione dell’impresa è
affidata, completamente o parzialmente, ad altri. La tabella seguente riporta alcune statistiche.
Gruppo
imprese con imprenditore dirigente
altre imprese
numero
7
9
media(P ERF )
18
16.6
p
varianza corretta(P ERF )
12.01
7.79
(A) I due gruppi differiscono in quanto a redditività media? (α = 0.05).
(B) Il test precedente si basa su una determinata assunzione circa le varianze. Specificare quale e
sottoporre a verifica tale ipotesi (α = 0.1).
Esercizio 3. Per cercare di interpretare lo studio effettuato in un contesto più generale, gli autori
hanno elaborato i dati di bilancio delle imprese orafe presenti nel database AIDA ottenendo la seguente
distribuzione dell’indicatore M ON/RICAV I:
M ON/RICAV I % (classi)
Frequenza
<0
20
[0, 10)
50
[10, 15)
44
[15, 20)
50
[20, 30)
56
≥ 30
10
(A) Ricavare dalla tabella un indice di variabilità.
(B) Assumendo densità costante all’interno di ciascuna classe, ricavare la percentuale di imprese con
indicatore superiore a 22.
Esercizio 4. Si consideri una popolazione composta da 4 unità statistiche aventi modalità, rispettivamente, 3, 6, 9, 60 di una variabile X. Supponendo di estrarre campioni senza reimmissione di dimensione
3:
(A) Costruire la distribuzione della media e della mediana campionaria.
(B) Come stimatore della media di X, quale delle sue statistiche di cui sopra è più efficiente? Motivare
la risposta.
81.2
Soluzioni
Esercizio 1. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui Y = P ERF ,
X = IN N .
161
(A)pIpotesi: H0 : β1 = 0 contro H1 : β1 > 0. Statistica test (sotto H0 ): (βb1 − 0)/se(βb1 ), dove se(βb1 ) =
σ
b/ dev(x), la cui distribuzione sotto H0 è T (n − 2). Valore campionario della statistica test (sotto H0 ):
1.2331. Regione di rifiuto: (2.2638, ∞).
(B) Pivot per σ 2 : (n−2)b
σ 2 /σ 2 con distribuzione χ2 (n−2). Intervallo per σ 2 al 0.01%: [37.3262, 286.9019].
Corrispondente intervallo per σ: [6.1095, 16.9382].
Valori e calcoli utili: n = 16, gl = (n − 2) = 14, dev(x) = nV ar(x) = 36, dev(y) = nV ar(y) =
q
1296, codev(x, y) = corr(x, y) dev(x)dev(y) = 67.608, βb1 = codev(x, y)/dev(x) = 1.878, se(βb1 ) =
p
σ
b/ dev(x) = 1.523, σ
b2 = (dev(y) − βb2 dev(x))/(n − 2) = 83.502; c1 = 4.075, c2 = 31.319.
1
Esercizio 2 Assunzioni: X1 = ’performances imprese con imprenditore dirigente’ ∼ N (µ1 , σ12 ); X2 =
’performances altre imprese’ ∼ N (µ2 , σ22 ); X1 , X2 indipendenti.
(A) Ipotesi: H0 : µ1 −µ2 = 0 contro H1 : µ1 −µ2 6= 0. Essendo i due campioni di dimensione
p relativamente
esigua, si assume σ12 = σ22 , e si utilizza la statistica test (sotto H0 ): [(X 1 − X 2 ) − 0]/(Sp 1/n1 + 1/n2 ),
la cui distribuzione sotto H0 è T (n1 + n2 − 2), dove Sp2 = (S12 n1 + S22 n2 )/(n2 + n1 ) è la stima pooled
delle due varianze assunte uguali. Valore campionario della statistica test (sotto H0 ): 0.2817. Regione di
accettazione: (−2.1448, 2.1448).
(B) Come detto, il test di cui sopra si basa sull’assunzione σ12 = σ22 . Si vuole sottoporla a test. Ipotesi:
H0 : σ12 /σ22 = 1 contro H1 : σ12 /σ22 6= 1. Statistica test (sotto H0 ): S12 /S22 , la cui distribuzione sotto H0 è
F (n1 − 1, n2 − 1). Valore campionario della statistica test (sotto H0 ): 2.3769. Regione di accettazione:
(0.2411, 3.5806).
Calcoli e valori utili: x1 = 18, x2 = 16.6, s21 = 144.2401, s22 = 60.6841, s2p = (S12 (n1 − 1) + S22 (n2 −
p
1))/(n2 + n1 − 2) = 97.2398, sp 1/n1 + 1/n2 = 4.9695.
Esercizio 3
(A) L’indice di variabilità più semplice da ricavare è lo scarto interquartile. Q1 = 7.5, Q3 = 21.518
implicano Q3 − Q1 = 14.018.
(B) Dalle frequenze cumulate si ricava che 22, lascia alla sua sinistra il 76.2% della frequenza complessiva
e quindi il 23.8% alla sua destra
Esercizio 4
(A) Si fa la lista dei campioni senza reimmissione che si possono ottenere; per ciascuno si calcolano le
statistiche d’interesse (nel mostro caso media e mediana). Tabulando si ottengono le seguenti distribuzioni
campionarie:
media campionaria
mediana campionaria
valori
6
23
24
25
valori
6
9
prob 0.25 0.25 0.25 0.25
prob 0.5
0.5
(B) Per stabilire quale dei due è più efficiente per stimare E(X) = 19.5, occorre calcolare e comparare
il loro MSE. Usando il prospetto di calcolo che segue (riferito a mediana, ma un procedimento analogo
può essere usato per media) si ottiene M SE(media) = 61.25, M SE(mediana) = 146.25.
x
6
9
Somma
f (x)
0.5 0.5
1
xf (x)
3
4.5
7.5
x2 f (x) 18 40.5
58.5
bias(mediana) = E(mediana) − 19.5 = −12, V (mediana) = E(mediana2 ) − E(mediana)2 = 2.25, da
cui M SE(mediana) = V (mediana) + bias(mediana)2 = 146.25.
162
82
Compito del 19.12.2007 (solo studenti PT)
82.1
Testo
Premessa: PINGUIN è una multinazionale che commercializza audio e video via web. Da alcuni mesi è
entrata nel mercato italiano mediante un’alleanza strategica con TELECOM ITALIA.
Esercizio 1. Una delle preoccupazioni principali del management è la diffusa pratica di scaricare illegalmente musica e film. Sfruttando l’alleanza con TELECOM ITALIA, la PINGUIN sta cercando di capire
se una legge approvata di recente (finalizzata a reprimere in modo incisivo tale pratica) ha effettivamente
ridotto il download illegale. Su un campione casuale di 238 servers dedicati ad internet, TELECOM ITALIA ha confrontato i volumi di traffico con una serie di siti ritenuti potenziali fonti di materiale illegale,
3 mesi prima e 3 mesi dopo l’entrata in vigore della legge, ottenendo le statistiche riportate in tabella
(dev. st. denota la radice quadrata della varianza campionaria corretta; l’unità di misura è omessa).
media
prima
1371.5
media
dopo
1279.6
media della differenza dopo - prima
-91.9
dev. st.
prima
727.8
dev. st.
dopo
746.1
dev. st. della differenza dopo - prima
614.7
(A) La nuova legge ha diminuito in misura significativa il livello medio verso i siti ritenuti potenziali fonti
di materiale illegale? (α = 0.02).
(B) Calcolare la potenza del test di cui al punto precedente in corrispondenza dell’ipotesi alternativa in
base alla quale il livello medio è variato di −89 (si assuma che le varianze del campione coincidano con
quelle della intera popolazione).
Esercizio 2. I server italiani della PINGUIN sono in ogni momento sottoposti ad un certo lavoro. Per
monitorare la situazione, i suoi tecnici utilizzano un indice di carico, indicato con W (weight). Alcuni
dati raccolti nelle fasce di maggior traffico (serale e fine settimana) sono riportati nella seguente tabella.
W (classi)
Frequenza %
< 10
13.2
[10, 40)
19.8
[40, 60)
21
[60, 80)
20.4
[80, 110)
19.8
≥ 110
5.8
(A) Calcolare mediana e scarto interquartile di W .
(B) Si assuma ora che il W abbia una distribuzione normale avente mediana a scarto interquartile pari
a quelli appena calcolati. Quanto valgono i parametri della distribuzione di W ?
Esercizio 3. Il management della PINGUIN tiene continuamente sotto controllo i propri conti, per adesso
in perdita. La struttura dei costi è sostanzialmente sotto controllo: per arrivare agli utili ci sarebbe però
bisogno di aumentare i ricavi.
Variabile
ricavi (milioni euro)
utile (milioni euro)
trim. 1
70
-10.8
trim. 2
73
-5.5
trim. 3
74
-8.9
trim. 4
96
-6.6
trim. 5
108
-8
(A) Formulare un opportuno modello che colleghi gli utili ai volumi fatturati e stimarne i parametri.
(B) In base al modello stimato, a quale livello dei ricavi si colloca il punto di pareggio dei conti?
(C) Si valuta che il prossimo trimestre i ricavi saliranno del 8.7% rispetto all’ultima rilevazione trimestrale.
Calcolarne il valore e costruire il corrispondente intervallo di stima per l’utile (1 − α = 0.9).
(D) Quanta parte della variabilità dell’utile riesce a spiegare il modello costruito?
82.2
Soluzioni
Esercizio 1. Test per dati appaiati (il campione è lo stesso nei due periodi considerati). Notazione
2
e assunzioni: D = dopo − prima ∼ (µD , σD
). Data l’elevata dimensione campionaria, per effetto del
teorema del limite centrale non è necessario assumere la normalità di D.
√
(A) Ipotesi: H0 : µD = 0 contro H1 : µD < 0. Statistica test (sotto H0 ): (D − 0)/(SD / n), la cui
distribuzione sotto H0 è approssimabile con una N (0, 1). Regione di rifiuto per α = 0.02: (−∞, −2.0537);
valore campionario della statistica test sotto H0 : −2.3064.
163
√
Valori utili: d = −91.9, sD = 614.7, n = 238, sD / n = 39.8451.
(B) Calcolo potenza per H1 : µD = −89, α di cui sopra e σD = sD = 614.7. La regione R è quella costruita
√
sopra. Indichiamo il valore critico con z0 , il valore di µD sotto H1 con µD1 , e lo standard error σD / n
con se. γ = P (campione ∈ R|H1 ) = P [(D − 0)/se < z0 |H1 ] = P [D < z0 se|H1 ] = P [(D − µD1 )/se <
(z0 se − µD1 )/se|H1 ] = P [Z < z0 − µD1 /se|H1 ] = P (Z < 0.18|H1 ) = 0.5714
Esercizio 2.
(A) Indice di tendenza centrale: M e = 56.19. Indice di variabilità: ∆Q = Q3 − Q1 = 53.03.
Calcoli: M e = 40 + (50 − 33)/1.05 = 56.19. Q1 = 10 + (25 − 13.2)/0.66 = 27.879, Q3 = 80 + (75 −
74.4)/0.66 = 80.909.
classe
frequenza %
ampiezza
densità
freq. % cumulata
< 10
13.2
13.2
[10, 40)
19.8
30
0.66
33
[40, 60)
21
20
1.05
54
[60, 80)
20.4
20
1.02
74.4
[80, 110)
19.8
30
0.66
94.2
≥ 110
5.8
100
(B) Si assume X ∼ N (µ, σ), dove X ha M e e ∆Q pari a quelli calcolati sopra. Per come è definito, un
qualsiasi quantile α-esimo, indichiamolo con x(α), deve soddisfare α = P [X ≤ x(α)]. Essendo X normale
abbiamo α = P [X ≤ x(α)] = P [(X − µ)/σ ≤ (x(α) − µ)/σ] = P [Z ≤ z(α)] cosicché z(α) si trova dalle
tavole e si ottiene la relazione (x(α) − µ)/σ = z(α). Quindi: per la mediana M e = x(0.5) = µ + σz(0.5);
per lo scarto interquartile ∆Q = x(0.75) − x(0.25) = µ + σz(0.75) − [µ + σz(0.25)] = σ[z(0.75) − z(0.25)].
Sostituendo i valori di M e, ∆Q , z(0.25) = −0.674, z(0.5) = 0, z(0.75) = 0.674 si ottiene µ = M e = 56.19,
σ = ∆Q/[z(0.75) − z(0.25)] = 39.311.
Esercizio 3. Assunzioni: modello lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), dove X = ricavi, Y = utili.
b2 = (dev(y) − βb12 dev(x))/(n − 2) =
(A) βb1 = codev(x, y)/dev(x) = 0.033, βb0 = y − βb1 x = −10.7346, σ
5.2059,
(B) Il punto di pareggio corrisponde al punto in cui utile = 0. Impostando 0 = βb0 + βb1 x si ottiene
x = −βb0 /βb1 = 325.7624.
(C) Intervallo di stima per y in corrispondenza di x0 = 108 ∗ (1 + 8.7%) = 117.396. Pivot: [b
y0 − y0 ]/b
σ (b
y0 )
con distribuzione campionaria T (n − 2); intervallo di confidenza al 95%: [b
y0 − tb
σ (b
y0 ), yb0 + tb
σ (b
y0 )] =
[−14.77, 1.04], dove per α = 0.1 e n − 2 = 3 si ha t = 2.3534.
(D) R2 = ρ2 = codev(x, y)/[dev(x)dev(y)] = 0.0732.
Calcoli e valori utili
trim. 1 trim. 2 trim. 3 trim. 4 trim. 5 Somma
xi
70
73
74
96
108
421
yi
-10.8
-5.5
-8.9
-6.6
-8
-39.8
x2i
4900
5329
5476
9216
11664
36585
yi2
116.64
30.25
79.21
43.56
64
333.66
xi yi
-756
-401.5
-658.6
-633.6
-864 -3313.7
Pn
Pn
da cui: n = 5, x = 84.2, y = −7.96, dev(x) = i=1 x2i − nx2 = 1136.8, dev(y) = i=1 yi2 − ny 2 = 16.852,
Pn
codev(x, y) = i=1 xi yi − nxy = 37.46, σ
b = 2.2816, yb0 = βb0 + βb1 x0 = −6.8661; Vb (b
y0 ) = σ
b2 [1 + 1/n +
2
(x − x0 ) ]/dev(x) = 11.2934, σ
b(b
y0 ) = 3.3606.
164
83
83.1
Compito del 16.01.2008 (solo studenti PT)
Testo
Premessa: DOMAC è una catena di supermercati che commercializza anche linee proprie di prodotti.
Esercizio 1. In un supermercato DOMAC è stato svolto in test di gradimento su un particolare tipo
di merendina (brioche). Dopo aver tolto le confezioni, gli addetti all’esecuzione del test hanno fatto
assaggiare la brioche DOMAC e quella leader del mercato ad un campione casuale di consumatori,
chiedendo a ciascuno di esprimere la propria preferenza per l’una o per l’altra: 68 hanno preferito la
DOMAC, 88 quella leader.
(A) La brioche DOMAC è giudicata significativamente migliore di quella leader? (α = 0.02)
(B) Quanto vale la potenza del test costruito al punto precedente in corrispondenza dell’ipotesi alternativa
’la percentuale di coloro che preferiscono DOMAC è il 62%’ ?
Esercizio 2. Il risultati del test di gradimento non hanno completamente soddisfatto i responsabili
DOMAC: per questo il procedimento di realizzazione delle brioches è stato in parte modificato. In
seguito a tale modifica è stato effettuato un test di gradimento analogo al precedente (su un campione
casuale semplice differente) nel quale 80 hanno preferito la DOMAC, 70 quella leader. In che misura è
cambiato il gradimento nei confronti della brioche DOMAC rispetto alla versione precedente?
(A) Fornire stima puntuale e standard error della quantità d’interesse.
(B) Il nuovo metodo ha apportato cambiamenti significativi, in termini di gradimento, rispetto al precedente? Rispondere mediante il p-value commentando il risultato.
Esercizio 3. I responsabili DOMAC hanno in mente una nuova strategia mirata alla qualità. In tale
ambito si vorrebbe incrementare la percentuale di burro rispetto agli altri grassi (è noto infatti che il
burro, rispetto ad altri grassi presenti nei dolciumi, presenta una qualità complessivamente migliore). Ma
i consumatori riescono effettivamente, al gusto, a percepire la differenza? È stato effettuato un piccolo
esperimento, variando la percentuale di burro nell’impasto (a parità di grassi complessivi) e registrando
il gradimento ottenuto in corrispondenza di ciascuna percentuale. Considerando il gradimento come
variabile dipendente e la percentuale di burro come variabile indipendente, un tecnico ha stimato a
partire dai dati un modello di regressione lineare semplice dal quale ha ricavato la seguente tabella.
gradimento
residui stimati
36
-0.6
40
2.1
30
-9.2
55
14.5
35
-6.8
Dopo aver formulato il modello utilizzato dal tecnico:
(A) Fornire una stima per intervallo della deviazione standard dei residui (1 − α = 0.95).
(B) Quanta parte della variabilità complessiva del gradimento è spiegata dal modello? Commentare.
Esercizio 4. Una popolazione composta da N = 4 unità presenta le seguenti modalità della variabile
quantitativa X: 6, 30, 33, 90. Assumendo di estrarre campioni casuali senza reimmissione di dimensione
n = 3, rispondere alle seguenti domande:
(a) Costruire la distribuzione campionaria della media e della mediana campionaria;
(b) Quale dei due stimatori è pi efficiente per stimare la media di X? Motivare la risposta.
83.2
Soluzioni
Esercizio 1. Notazione: X =’singolo consumatore preferisce DOMAC’ ∼ Be(p).
(A) Ipotesi:
p H0 : p = 0.5 contro H1 : p > 0.5. Indichiamo 0.5 con p0 . Statistica test (sotto H0 ):
(b
p − p0 )/ p0 q0 /n), la cui distribuzione sotto H0 è approssimabile con una N (0, 1). Regione di rifiuto
per α = 0.02: (2.054, ∞); valore campionario della statistica test sotto H0 : −1.60128.
(B) Calcolo potenza per H1 : p = 0.62, α di cui sopra. Indichiamo 0.62 con p1 . La regione
R è quella
p
costruita sopra. Indichiamo il valore critico con z0 , lo standard error sotto H0 con s0 = p0 q0 /n, quello
165
p
sotto H1 con s1 = p1 q1 /n. γ = P (campione ∈ R|H1 ) = P [(b
p −p0 )/s0 > z0 |H1 ] = P [b
p > p0 +z0 s0 |H1 ] =
P [(b
p − p1 )/s1 > (p0 + z0 s0 − pp
)/s
|H
]
=
P
(Z
>
−0.972|H
)
=
0.83448.
1
1
1
1
p
√
√
Valori utili: pb = 0.4359, s0 = p0 q0 /n = 0.0016 = 0.04003, s1 = p1 q1 /n = 0.00151 = 0.03886.
Esercizio 2. Notazione: X1 =’singolo consumatore preferiva DOMAC (vecchio tipo)’ ∼ Be(p1 );
X2 =’singolo consumatore preferisce DOMAC (nuovo tipo)’ ∼ Be(p2 ).
La misura di quanto è cambiato il gradimento per DOMAC fra le due rilevazioni è p2 − p1 .
(A) Stimatore puntuale: pb2 − pb1 , la cui distribuzione, nelle condizioni dell’esercizio, è approssimativamente
N (p2 − p1 , p2 q2 /n2 + p1 q1 /n1 ). Stima puntuale: pb2 − pb1 = 0.09743; corrispondente standard error
p
pb2 qb2 /n2 + pb1 qb1 /n1 = 0.05688.
(B)pIpotesi: H0 : p2 − p1 = 0 contro H1 : p2 − p1 6= 0. Statistica test (sotto H0 ): (b
p2 − pb1 −
0)/ pbqb(1/n1 + 1/n2 ), la cui distribuzione sotto H
è
approssimabile
con
una
N
(0,
1)
e
p
b
indica
la stima
0
p
pooled di p sotto H0 . p-value = 2P ((b
p2 − pb1 − 0)/ pbqb(1/n1 + 1/n2 ) > |zcamp ||H0 ) = 2P (Z > 1.70497) =
0.0882.
p
Valori utili: pb2 = 0.53333, se2 = pb2 qb2 /n2 +b
p1 qb1 /n1 = 0.00324; pb = ppooled = 0.48366, pbqb(1/n1 + 1/n2 ) =
√
0.00327 = 0.05715.
Esercizio 3. Assunzioni: modello lineare yi = β0 + β1 xi + ui , ui ∼ N (0, σ 2 ), dove X = percentuale
burro, Y = indice di gradimento.
(A) Stima per intervallo di σ. Pivot: σ
b2 (n − 2)/σ 2 la cui distribuzione è χ2 (n − 2). Intervallo per σ 2 :
[37.00097, 1602.90807]; intervallo per σ: [6.08284, 40.03633].
(B) Si deve calcolare l’indice R2 = dev(REGR)/dev(y) = 0.04658 e commentare.
Calcoli e valori utili:
Somma
yi
36
40
30
55
35
196
u
bi
-0.6
2.1
-9.2
14.5
-6.8
0
yi2 1296 1600
900
3025 1225
8046
u
b2i
0.36 4.41 84.64 210.25 46.24
345.9
Pn
Pn
2
2
da cui: n = 5, y = 39.2, dev(y) =
b2i = 345.9, σ
b2 =
i=1 yi − ny = 362.8, dev(RES) =
i=1 u
dev(RES)/(n − 2) = 115.3, dev(REGR) = dev(y) − dev(RES) = 16.9.
Esercizio 4.
(A)
Lista campioni (n = 3)
(6, 30, 33)
(6, 30, 90)
(6, 33, 90)
(30, 33, 90)
probabilità
0.25
0.25
0.25
0.25
media
23
42
43
51
mediana
30
30
33
33
da cui è possibile tabulare le distribuzioni della media e della mediana campionarie (tabella seguente).
(B)
Lo stimatore più efficiente è quello con MSE più piccolo. Dalle distribuzioni campionarie costruite è
possibile ricavare il prospetto di calcolo per la media, il bias, la varianza e quindi l’MSE dei due stimatori.
media
mediana
x
23
42
43
51
x
30
33
f (x)
0.25
0.25
0.25
0.25
1
f (x)
0.5
0.5
1
xf (x)
5.75
10.5 10.75
12.75
39.75
xf (x)
15
16.5
31.5
x2 f (x) 132.25 441 462.25 650.25 1685.75
x2 f (x) 450 544.5 994.5
µ = 39.75; E(media) = 39.75, bias(media) = 0, V (media) = 105.6875 M SE(media) = V (media) +
bias(media)2 = 105.6875; E(mediana) = 31.5, bias(mediana) = −8.25, V (mediana) = 2.25 M SE(mediana) =
V (mediana) + bias(mediana)2 = 70.3125. È più efficiente la mediana.
166
84
84.1
Compito del 30.01.2008 (solo studenti PT)
Testo
Premessa: SENA è una società che distribuisce energia elettrica.
Esercizio 1. Uno dei piani tariffari proposti da SENA per la clientela domestica prevede un sistema di
sconti sulla bolletta a seconda dei consumi. Tale sistema è riassunto nella seguente tabella (consumi a
bimestre espressi in kw).
fascia consumo (kw) < 270 [270, 330) [330, 360) ≥ 360
sconto (in euro)
0
2
4
8
Si assuma che il consumo si distribuisca secondo una normale con media 290 e deviazione standard 68.
(A) Determinare la percentuale di clienti in ciascuna delle 4 fasce di consumo.
(B) Valutare l’ammontare totale degli sconti concessi assumendo un bacino di 151000 clienti.
Esercizio 2. Da circa 4 mesi SENA ha rivisto il proprio piano tariffario pubblicizzando che, mediamente,
per i clienti non sarebbe cambiato niente. Molti cittadini hanno però protestato. Un’agenzia appositamente incaricata ha allora raccolto due campioni casuali indipendenti di bollette, uno precedente e l’altro
successivo all’adeguamento tariffario, in modo da verificare se le cose stanno come dice SENA oppure se,
come sostengono in molti, i costi sono mediamente √
aumentati.
Statistiche
dimensione media campionaria
varianza corretta
costi prima
101
66
28
costi dopo
121
71
41
(A) Chi ha ragione: SENA o chi protesta? Rispondere mediante il p-value commentando il risultato.
(B) Relativamente alla variabilità dei costi, invece, c’è stato qualche cambiamento rispetto alla situazione
precedente? (α = 0.1)
Esercizio 3. Di recente si è verificata una serie di guasti. Per cercare di capirne le ragioni, l’ing. Marino
ha bisogno del valore di un certo indicatore, Y , al momento del guasto. Tale indicatore è però di
difficile rilevazione per cui sta facendo prove per vedere se è possibile ricavarlo, almeno con una certa
approssimazione, da grandezze più facilmente misurabili. Utilizzando una di tali grandezze come variabile
indipendente, l’ing. ha stimato un modello di regressione lineare semplice ricavando la seguente tabella:
valori misurati di y
valori stimati di y
144
123
133
144
132
164
192
185
226
206
222
227
(A) Quali parametri del modello è possibile stimare dai dati? Fornirne una stima per intervallo (1 − α =
0.95).
(B) La variabile indipendente utilizzata riesce a spiegare bene la y? Fornire una misura e commentare il
risultato.
Esercizio 4. Da una variabile casuale X avente media µ e varianza σ 2 vengono estratti due campioni
casuali semplici in modo completamente indipendente. Il primo campione ha dimensione n1 , mentre il
secondo ha dimensione n2 con n1 < n2 . Per stimare µ ci sono in ballo 4 stimatori: X 1 , X 2 , (X 1 + X 2 )/2,
(n1 X 1 + n2 X 2 )/(n1 + n2 ).
(a) Quanto vale la distorsione di ciascuno dei 4 stimatori?
(b) Fra i 4 stimatori qual è il più efficiente? Argomentare la risposta.
84.2
Soluzioni
Esercizio 1. Notazione: X =’consumo a bimestre in kw’ ∼ N (µ = 290, σ = 68).
(A) La percentuale di clienti in una singola fascia è in pratica la relativa probabilità moltiplicata per 100.
Considerando una generica fascia di estremi [a, b] abbiamo P (a ≤ X ≤ b) = P [(a − µ)/σ ≤ (X − µ)/σ ≤
(b − µ)/σ) = P (z1 ≤ Z ≤ z2 ). Poiché conosciamo a, b, µ, σ è possibile calcolare z1 e z2 e completare il
conto mediante uso delle tavole.
167
(B) Per ricavare il numero di clienti in ciascuna fascia occorre moltiplicare le probabilità calcolate sopra
per il numero complessivo di clienti. Per ricavare lo sconto totale occorre moltiplicare lo sconti di ciascuna
fascia per il relativo numero di clienti e sommare.
fascia consumo (kw)
sconto (in euro)
probabilità
% clienti
n. clienti
sconto totale
< 270
0
0.38433
38.4
58034.4
0
[270, 330)
2
0.33748
33.7
50959.3
101918.6
[330, 360)
4
0.12654
12.7
19108.2
76432.6
≥ 360
8
0.15164
15.2
22898.1
183184.9
Totale
1
100
151000
361536.1
Esercizio 2. Notazione: X1 =’costo vecchia bolletta’ ∼ N (µ1 , σ1 ); X2 =’costo nuova bolletta’ ∼
N (µ2 , σ2 ) con campioni indipendenti.
p
(A) Test di H0 : µ2 − µ1 = 0 contro H1 : µ2 − µ1 > 0. Statistica test: (X 2 − X 1 )/ S12 /n1 + S22 /n2
che sotto H0 e in base alla dimensione del campione si distribuisce, approssimativamente,
come una
p
N (0, 1). Valore campionario della statistica test 1.07446, p-value = P ([X 2 − X 1 ]/ S12 /n1 + S22 /n2 >
1.07446|H0 ) = 0.14131.
(B) Ipotesi: H0 : σ12 /σ22 = 1 contro H1 : σ12 /σ22 6= 1. Statistica test: S12 /S22 , la cui distribuzione sotto
H0 è F (n1 − 1, n2 − 1). Valore campionario della statistica test 0.46639, da confrontare con la regione di
accettazione [0.72689, 1.3685] (α = 0.1).
p
√
Valori utili: s21 = 784, s22 = 1681, s21 /n1 + s22 /n2 = 21.65494 = 4.65349.
Esercizio 3. Assunzioni: modello lineare yi = β0 + β1 xi + ui , ui ∼ N (0, σ 2 ), dove X = variabile
indipendente (quella di facile misura), Y = variabile dipendente (quella di difficile misura).
(A) I dati a disposizione si riferiscono esclusivamente ad yi e ad ybi , per cui consentono solo di fare
inferenza su σ. Infatti manca completamente (e non è neppure ricavabile) l’informazione campionaria
sulla variabile indipendente. Pivot: σ
b2 (n − 2)/σ 2 la cui distribuzione è χ2 (n − 2). Intervallo per σ 2 :
[184.86467, 4252.52082]; intervallo per σ: [13.59649, 65.21135]. (1 − α = 0.95)
(B) L’indice in questione è R2 = dev(REGR)/dev(y) = 0.78703 da commentare.
Calcoli e valori utili:
Somma
yi
144
133
132
192
226
222
1049
ybi
123
144
164
185
206
227
1049
u
bi
21
-11
-32
7
20
-5
0
yi2 20736 17689 17424 36864 51076 49284 193073
u
b2i
441
121
1024
49
400
25
2060
Pn
Pn
da cui: n = 6, y = 174.83, dev(y) = i=1 yi2 − ny 2 = 9672.83, dev(RES) = i=1 u
b2i = 2060, σ
b2 =
dev(RES)/(n − 2) = 515, dev(REGR) = dev(y) − dev(RES) = 7612.83.
Esercizio 4. Notazione: X ∼ [µ, σ 2 ]. Si può rispondere ad entrambe le domande ricordando: che la media
campionaria di un campione casuale semplice di dimensione n ha media µ e varianza σ 2 /n; le seguenti
proprietà dei valori attesi E(c1 X1 + c2 X2 ) = c1 E(X1 ) + c2 E(X2 ), V (c1 X1 + c2 X2 ) = c21 V (X1 ) + c22 V (X2 )
(quest’ultima valida solo se X1 e X2 sono incorrelate; nel nostro caso lo sono in quanto i 2 campioni
indipendenti).
(A) Sono tutti stimatori corretti per cui il loro bias è 0. Infatti: i primi due sono medie campionarie, per
cui E(X 1 ) = µ, E(X 2 ) = µ.
E[(X 1 + X 2 )/2] = 1/2E(X 1 ) + 1/2E(X 2 ) = µ/2 + µ/2 = µ.
E[(n1 X 1 +n2 X 2 )/(n1 +n2 )] = n1 /(n1 +n2 )E(X 1 )+n2 /(n1 +n2 )E(X 2 ) = n1 /(n1 +n2 )µ+n2 /(n1 +n2 )µ =
µ.
(B) Lo stimatore più efficiente è quello con MSE più piccolo. Essendo corretti l’MSE coincide con la
varianza.
I primi due sono medie campionarie, per cui V (X 1 ) = σ 2 /n1 , V (X 2 ) = σ 2 /n2 .
168
V [(X 1 + X 2 )/2] = 1/4V (X 1 ) + 1/4V (X 2 ) = 1/4σ 2 /n1 + 1/4σ 2 /n2 = σ 2 [1/n1 + 1/n2 ]/4.
V [(n1 X 1 + n2 X 2 )/(n1 + n2 )] = [n1 /(n1 + n2 )]2 V (X 1 ) + [n2 /(n1 + n2 )]2 V (X 2 ) = [n1 /(n1 + n2 )]2 σ 2 /n1 +
[n2 /(n1 + n2 )]2 σ 2 /n2 = σ 2 /(n1 + n2 ).
Impostando un po’ di disequazioni si ottiene che V (X 1 ) > V (X 2 ) > V [(X 1 + X 2 )/2] > V [(n1 X 1 +
n2 X 2 )/(n1 + n2 )], per cui l’ultimo è il più efficiente.
169
85
85.1
Compito del 13.02.2008 (solo studenti PT)
Testo
Premessa: MONTESALUTE è un centro ospedaliero.
Esercizio 1. Il centro ospedaliero è convenzionato con un moderno day care, al quale i pazienti possono
recarsi i giorni seguenti alla dimissione dal reparto per ulteriori controlli e completare la degenza. È
stato calcolato che le persone dimesse dal reparto di MEDICINA si recano al day care in media per 1.4
giorni, contro una media di 0.81 giorni per quelle provenienti da CHIRURGIA. Assumendo che il 66%
dei pazienti siano dimessi da MEDICINA ed il resto da CHIRURGIA e che il numero di giorni di accesso
al day care si distribuisca secondo una Poisson.
(A) Calcolare la probabilità che, preso a caso un paziente, questo non si rechi al day care.
(B) Si assuma, fra MEDICINA e CHIRURGIA, un totale di 24700 pazienti ricoverati all’anno e che ogni
paziente si comporti in modo indipendente dagli altri. Specificare la distribuzione del numero totale di
pazienti che in un anno si recano al day care calcolandone media e deviazione standard.
Esercizio 2. Per limitare l’accesso al servizio di PRONTO SOCCORSO di pazienti che non ne hanno
realmente necessità, una recente legge regionale ha introdotto il pagamento di un ticket. La seguente
tabella riporta alcuni dati campionari relativi al numero giornaliero di accessi al pronto soccorso prima e
dopo l’introduzione del ticket.
√
numero giorni media degli accessi al giorno
varianza corretta degli accessi al giorno
senza ticket
27
68.3
18.9
con ticket
24
37.6
10.5
Assumendo che il numero giornaliero di ricoveri si distribuisca in modo approssimativamente normale:
(A) Fornire stima puntuale e per intervallo (1 − α = 0.95) per valutare in che misura il numero medio
giornaliero di accessi è cambiato.
(B) L’intervallo di cui al punto precedente si basa su una particolare assunzione circa le varianze senza e
con ticket. Tale assunzione è giustificata? (α = 0.02)
Esercizio 3. Un paio di anni fa è stata effettuato un pesante riassetto del reparto di CHIRURGIA per
ridurre il rischio di infezioni, rischio ritenuto eccessivo in base ai dati raccolti. I due campioni a confronto,
prima e dopo il provvedimento di riorganizzazione, hanno fornito i seguenti risultati:
Statistiche
prima
dopo
pazienti ricoverati
2582
1819
di cui hanno contratto infezione
207
92
(A) Il riassetto ha avuto l’effetto sperato? (α = 0.05).
(B) Calcolare la potenza del test di cui al punto precedente in corrispondenza di un’ipotesi alternativa di
riduzione del tasso di infezione di -1.3 punti percentuali.
Esercizio 4. Il management sta monitorando il tasso di arrivo dei pazienti allo sportello di accettazione al
fine di migliorare servizio e gestione del personale. Nella fascia oraria di maggiore accesso e‘ stato rilevato
il numero di pazienti che ogni due minuti si presenta allo sportello ottenendo le seguenti statistiche:
Arrivi (ogni 2’)
Frequenza
0
1178
1
2865
2
3691
3
2923
4
1944
5
939
6
366
7
131
8
55
(a) Rappresentare graficamente la distribuzione di frequenza.
(b) Calcolare e riportare correttamente sul grafico 25o , 50o e 75o percentile.
85.2
Soluzioni
Esercizio 1. Notazione: X =’giorni accesso al day care’; M =’dimesso da MEDICINA’, C =’dimesso
da CHIRURGIA’.
170
(A) X|M ∼ P o(λM = 1.4), X|C ∼ P o(λC = 0.81), P (M ) = 0.66, P (C) = 1 − P (M ) = 0.34.
P (non recarsi al day care) = P (X = 0) = P (X = 0|M )P (M ) + P (X = 0|C)P (C) = 0.31401, dove
P (X = 0|M ) = 0.2466 e P (X = 0|C) = 0.44486 sono calcolati mediante la funzione di massa della
Poisson.
(B) Ognuno dei pazienti può decidere se recarsi o no al day care. La distribuzione di tale variabile è
allora una Be(p = 0.68599) (vedi sopra). Il numero totale Y di coloro che si recano al day care segue
allora una distribuzione Bi(n
√ = 24700, p = 0.68599) che ha media E(Y ) = np = 16943.95 e deviazione
√
standard σ(Y ) = npq = 5320.57 = 72.94.
Esercizio 2. Notazione: X1 =’numero accessi al giorno senza ticket’ ∼ N (µ1 , σ1 ); X2 =’numero accessi
al giorno col ticket’ ∼ N (µ2 , σ2 ).
(A) Stima puntuale per µ2 − µ1 : x2 − x1 = −30.7. Intervallo per µ2 − µ1 . Stante
p l’esigua dimensione
campionaria non rimane che usare il seguente pivot: [X 2 − X 1 − (µ2 − µ1 )]/[sp 1/n1 + 1/n2 ] la cui
distribuzione è T (n1 + n2 − 2). Intervallo per 1 − α = 0.98: [−39.4573, −21.9427].
(B) Ipotesi: H0 : σ12 /σ22 = 1 contro H1 : σ12 /σ22 6= 1. Statistica test: S12 /S22 , la cui distribuzione sotto
H0 è F (n1 − 1, n2 − 1). Valore campionario della statistica test 3.24, da confrontare con la regione di
accettazione [0.38428, 2.67071] (α = 0.02).
p
√
Valori utili: p
s21 = 357.21, s22 = 110.25, sp = [s21 (n1 − 1) + s22 (n2 − 1)]/(n1 + n2 − 2) = 241.29 =
15.53351, sp 1/n1 + 1/n2 = 4.3578, tcamp = 2.0096.
Esercizio 3. Notazione: X1 =’paziente prima contrae infezione’ Be(p1 ), X2 =’paziente dopo contrae
infezione’ Be(p2 ).
(A) Test di H0 : p2 − p1 = 0 contro H1 : p2 − p1 < 0. Statistica test [(b
p2 − pb1 ) − 0]/s0 che sotto H0
ha distribuzione
approssimativamente N (0, 1) (per brevità abbiamo posto: pb = stimatore pooled di p;
p
s0 = pbqb(1/n1 + 1/n2 )). Valore campionario della statistica test −3.84174 da confrontare con la regione
di rifiuto [−∞, −1.645] (α = 0.05).
(B) Calcolo potenza del test di cui sopra per H1 : p2 − p1 = −0.013. Indichiamo: valore critico =
zcrit , −0.013 = a. γ = P (campione ∈ R|H1 ) = P ([(b
p2 − pb1 ) − 0]/s0 < zcrit |H1 ) = P ((b
p2 − pb1 ) <
zp
p2 − pb1 ) − a]/s1 < (zcrit s0 − a)/s1 |H1 ) = P (Z < 0.04446|H1 ) = 0.51773, dove s1 =
crit s0 |H1 ) = P ([(b
pb1 qb1 /n1 + pb2 qb2 /n2 .
√
Calcoli
√ e valori utili: pb1 = 0.08017, pb2 = 0.05058, pb = 0.06794, s0 = 5.934e − 05 = 0.0077031,
s1 = 5.496e − 05 = 0.0074134.
Esercizio 4.
(A) Disegno del diagramma ’a spaghetti’.
(B) Calcolo mediana e quartili che devono essere riportati sul grafico. Q1 = 1, M e = 2, Q3 = 3.
Si illustra solo il calcolo di Q1 : gli altri sono analoghi. Posizione di Q1 : (N + 1) ∗ 0.25 = 3523.25. Controllando per le cumulate si ottiene che l’osservazione di posto 3523 ha modalità 1, mentre l’osservazione
di posto 3524 ha modalità 1 da cui il risultato.
Arrivi
0
1
2
3
4
5
6
7
8
Freq.
1178 2865 3691 2923
1944
939
366
131
55
Freq. cum 1178 4043 7734 10657 12601 13540 13906 14037 14092
171
86
86.1
Compito del 21.04.2008 (solo studenti PT)
Testo
Premessa: Si parla di Fisco ed Agenzia delle Entrate (in breve, Agenzia).
Esercizio 1. L’Agenzia delle Entrate effettua ogni anno un certo numero di accertamenti fiscali nei
confronti dei professionisti. Oggetto dell’accertamento è l’ammontare di ricavi non dichiarato: si indichi
con X il valore, in Euro, contestato dall’Agenzia al contribuente come mancata dichiarazione. Una
procedura di accertamento può andare incontro a due tipi di esiti: o a totale favore del contribuente, che
in tal caso subisce una contestazione di ammontare X pari a zero (questo accade nel 32.8% dei casi);
oppure a sfavore del contribuente, che in tal caso subisce una contestazione vera e propria per un certo X
positivo (questa evenienza accade nella restante percentuale dei casi). Assumendo che, in questa seconda
evenienza, X si distribuisca in modo Normale con media 9000 e deviazione standard 1300:
(A) Preso a caso un professionista oggetto di accertamento calcolare la probabilità che questo riceva una
contestazione per un ammontare non superiore a 10100 Euro.
(B) Si sa che l’ammontare contestato ad un professionista oggetto di accertamento non supera 10100
euro. Calcolare la probabilità che l’accertamento si sia chiuso a totale favore del contribuente.
Esercizio 2. Gli accertamenti effettuati sui piccoli professionisti con partita IVA fra 2004 e 2005 sono
stati suddivisi in 2 gruppi, a seconda che quella professionale sia svolta come attività unica o principale
oppure come attività secondaria (ad esempio, perché l’attività principale è quella di docente universitario).
Da ciascuno dei due gruppi è stato estratto un campione casuale semplice che ha fornito i risultati in
tabella.
Attività principale
Attività secondaria
Accertamenti totali
253
159
di cui condannati per evasione
129
102
(A) La probabilità che un accertamento si evolva in una vera e propria condanna è la stessa in entrambi
i gruppi di contribuenti? Rispondere utilizzando il p-value.
(B) Sfruttando le informazioni del campione di cui sopra, calcolare quanti contribuenti occorrerebbe
inserire in ciascuno dei due campioni (attività principale e attività secondaria) per avere un intervallo di
confidenza per la probabilità di subire una contestazione di ampiezza 0.079 al livello di confidenza 0.98
in ciascuno dei due gruppi.
(C) Perché, pur avendo imposto la stessa ampiezza e lo stesso livello di confidenza, si ottengono risultati
diversi nei due gruppi? Argomentare, spiegando anche perché uno maggiore dell’altro.
Esercizio 3. L’Agenzia delle Entrate sta mettendo a punto un nuovo studio di settore ultra semplificato,
dedicato ai professionisti titolari di partita IVA il cui volume di affari annuale è inferiore a 30000 Euro.
Lo studio di settore in questione si basa su un solo input, il valore dei costi sostenuti nell’anno fiscale:
in base a tale valore si vuole stimare l’ammontare (presunto) dei ricavi utilizzando opportunamente un
certo modello statistico. Allo scopo, l’Agenzia ha effettuato una rilevazione campionaria dalla quale sono
stati ricavati i seguenti dati (costi e ricavi espressi in migliaia di Euro):
n
567
media(costi)
5005
dev.st(costi)
2925
media(ricavi)
20036
dev.st(ricavi)
6094
correlazione(ricavi, costi)
0.948
(A) Formulare il modello e stimarne tutti i coefficienti.
(B) Un professionista, nell’anno fiscale ha dichiarato costi per 2200 Euro. L’accertamento dell’Agenzia
nei suoi confronti, si basa su un particolare intervallo, per i ricavi, calcolato in corrispondenza di quel
livello dei costi: solo se i ricavi dichiarati dal professionista sono inferiori al minimo di detto intervallo
scatta l’accertamento fiscale. Allo scopo, vi sembra più appropriato l’intervallo di previsione o l’intervallo
di stima? Motivare la risposta.
(C) Effettuare il calcolo dell’intervallo di cui al punto precedente per 1 − α = 0.99.
172
86.2
Soluzioni
Esercizio 1. Notazione: C = ’contribuente subisce contestazione’; X =’importo contestato dall’Agenzia
delle Entrate’. Allora: P (C) = 0.328, P (X = 0|C) = 1, X|C ∼ N (9000, 1300).
(A) Formula della probabilità marginale: P (X ≤ 10100) = P (X ≤ 10100|C)P (C)+P (X ≤ 10100|C)P (C) =
0.86645.
(B) Formula di Bayes: P (C|X ≤ 10100) = P (X ≤ 10100|C)P (C)/P (X ≤ 10100) = 0.37856.
Calcoli e valori utili: P (X ≤ 10100|C) = P (Z ≤ 0.846) = 0.80127, P (X ≤ 10100|C) = 1, P (C) = 0.672,
P (C) = 0.328.
Esercizio 2. Notazione: X1 =’professionista (attività principale) riconosciuto evasore?’ ∼ Be(p1 ),
X2 =’professionista (attività secondaria) riconosciuto evasore?’ ∼ Be(p2 ). Campioni casuali semplici
indipendenti.
(A)pTest di H0 : p1 − p2 = 0, contro H0 : p1 − p2 6= 0. Statistica test (sotto H0 ): (b
p1 − pb2 −
0)/ pbqb(1/n1 + 1/n2 ) la cui distribuzione è, approssimativamente, N (0, 1) e pb è la stima pooled di
p. p
Valore campionario della statistica test zcamp = −2.6207, per cui p − value = 2P [(b
p1 − pb2 −
0)/ pbqb(1/n1 + 1/n2 ) > |zcamp ||H0 ] = 2P (Z > 2.6207|H0 ) = 2 ∗ 0.00439 = 0.00878.
(B) Sfruttare il campione significa utilizzare pb1 e pb2 per dimensionare n1 ed n2 . pPer entrambi i gruppi
possiamo usare la formula che lega n all’ampiezza dell’intervallo, ovvero A = 2z pbqb/n da cui si ricava
n = pbqb(2z/A)2 . Applicandola ad entrambi si ricava n1 = 866.813 ≈ 867, n2 = 797.693 ≈ 798.
(C) Il diverso risultato dipende dal diverso valore di pbqb. Poiché la varianza dello stimatore pb è pq/n,
più bassa è la valutazione di pq meno osservazioni sono necessarie per raggiungere una certa precisione
(ampiezza) a parità di α.
Calcoli e valori utili: pb1 = 129/253
= 0.5099, pb2 √= 102/159 = 0.6415, pb = (pb1 n1 + pb2 n2 )/(n1 + n2 ) =
p
0.5607, qb = 1 − pb = 0.4393, pbqb(1/n1 + 1/n2 ) = 0.5607 = 0.050227, A = 0.079, α = 0.02, z = 2.3263.
Esercizio 3. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui Y = ricavi,
X = costi.
(A) βb1 = 1.9751, βb0 = 10151, σ
b2 = 3775129.
(B) Sembra più appropriato l’intervallo di stima, dato che l’accertamento deve mirare a fornire, in corrispondenza del livello dei costi dichiarato 2200 Euro, una stima puntuale dei ricavi di quel professionista,
non del valore medio.
(C) Livello di confidenza: 0.99. Intervallo di stima per y in corrispondenza di x0 = 2200: [9466, 19526].
L’intervallo di previsione è invece [14204, 14788].
Valori e calcoli utili: n = 567, gl = (n − 2) = 565, dev(x) = nV ar(x) = 4851039375, dev(y) = nV ar(y) =
q
21056586012, codev(x, y) = corr(x, y) dev(x)dev(y) = 9581195824, βb1 = codev(x, y)/dev(x) = 1.9751,
βb0 = y − βb1 x = 10151, σ
b2 = (dev(y) − βb2 dev(x))/(n − 2) = 3775129, stima yb(x0 ) = βb0 + βb1 x0 =
1
14496; varianza (stimata) per il calcolo dell’intervallo di stima = σ
b2 [1/n + (x − x0 )2 + 1] = 3787910.15,
corrispondente standard error = 1946.26, varianza (stimata) per il calcolo del’intervallo di previsione
=σ
b2 [1/n + (x − x0 )2 ] = 12781.05, corrispondente standard error = 113.05; entrambi gli intervalli (stima e
previsione) hanno la seguente struttura [stima − t s.e., stima + t s.e.], dove stima = 14496, t = 2.5846
(può essere calcolato dalle tavole della Normale, visto l’n elevato), s.e. sta per i due standard errors.
173
87
87.1
Compito del 18.06.2008 (solo studenti PT)
Testo
Premessa: Bunny Pizza è una società che distribuisce pizze calde a domicilio su ordinazione telefonica.
Alle pizze si possono abbinare anche bevande e/o gelati ma questi non vengono distribuiti separatamente.
Esercizio 1. Quante pizze vengono ordinate per ciascuna ordinazione? Per studiare questo aspetto,
Bunny Pizza ha elaborato un campione casuale di ordinazioni ricavando la seguente tabella.
Pizze ordinate per ordinazione
Numero ordinazioni
1
780
2
550
3
220
4
110
5
50
6
20
(A) Determinare media e deviazione standard della variabile d’interesse.
(B) Bernoulli, Poisson, Normale, nessuna delle tre. Dovendo scegliere la distribuzione teorica più adatta
a rappresentare il fenomeno studiato, quale fra queste quattro opzioni vi sembra giusta? Argomentare la
risposta.
Esercizio 2. Con riferimento al campione di cui all’esercizio precedente:
(A) Fornire una stima per intervallo del numero medio di pizze ordinate per ordinazione (1 − α = 0.98).
(B) Specificare le assunzioni utilizzate per rispondere al punto A, il pivot utilizzato e la sua distribuzione
campionaria.
Esercizio 3. Pizza Express ha in corso trattative per acquisire Bunny Pizza. A questo proposito, la
stessa Pizza Express ha fatto svolgere una rilevazione per capire se vi sono differenze di gradimento, da
parte della clientela, nei confronti delle due compagnie. La rilevazione, effettuata su due distinti campioni
casuali semplici, ha fornito i risultati sintetizzati in tabella.
Società
Pizza express
Bunny Pizza
n
41
41
media
6.3
6.9
varianza corretta
2.3
2.7
Specificando le assunzioni necessarie:
(A) Le due compagnie differiscono in modo significativo in quanto a gradimento dei propri clienti? (α =
0.05).
(B) Il test di cui al punto precedente si basa su una particolare assunzione riguardante le deviazioni
standard nei due gruppi? Specificare l’assunzione e sottoporla a test (α = 0.05).
Esercizio 4. X è una variabile casuale normale, avente media µ = −5 e varianza a σ = 10, da cui viene
estratto un campione casuale semplice di dimensione n = 4. Per stimare µ, la scelta è ristretta ai seguenti
stimatori:
X1 + X2 + 2X3
X1 + X2
T2 =
T1 =
4
2
(A) Ricavare quanto e‘ possibile dire sulla loro distribuzione campionaria.
(B) Quale dei due stimatori è più efficiente? Argomentare la risposta
87.2
Soluzioni
Esercizio 1.
(A) media = 1.9364, deviazione standard = 1.1285. Calcoli in base al seguente prospetto.
xi
1
2
3
4
5
6
Somma
ni
780 550
220
110
50
20
1730
xi ni 780 1100 660
440
250 120
3350
x2i ni 780 2200 1980 1760 1250 720
8690
2
da cui media = 3350/1730 = 1.9364, media
√ quadratica = 8690/1730 = 5.0231, varianza = 5.0231 −
2
1.9364 = 1.2734, deviazione standard = 1.2734 = 1.1285.
174
(B) Nessuma delle tre. Infatti: 1) Bernoulli nemmeno a parlarne; 2) Normale non va bene perchè discreta
e molto asimmetrica a sinistra; 3) Poisson non va bene perchè manca lo zero.
Esercizio 2. Assunzioni: X = numero ordinazioni ∼ (µ, σ 2 ).
√
(A)(B) Stima per intervallo di µ: pivot (X − µ)/(s/ n) ≈ N (0, 1) in base al teorema del limite centrale;
intervallo per µ all’ 1 − α = 0.98: [1.8733, 1.9995].
√
Calcoli e valori utili: n = 1730, x = 1.9364 s2 = 1.2741, s = 1.1288, z = 2.326, s/ n = 0.02714.
Esercizio 3. Assunzioni: X1 =’gradimento per Bunny Pizza’∼ N (µ1 , σ12 ); X2 =’gradimento per Pizza
Express’∼ N (µ2 , σ22 ). I campioni estratti dalle due variabili casuali sono indipendenti.
(A) Test di H0 : µ1 − µ2 = 0 contro H1 : µ1 − µ2 6= 0. In base alla dimensione del campione,
prelativamente
bassa, si assume σ12 = σ22 e lo si chiama σ 2 . Variabile test: [(X 1 − X
)
−
(µ
−
µ
)]/(s
1/n1 + 1/n2 )
1
2
p
p2
distribuita come T (n1 + n2 − 2). Sotto H0 : [(X 1 − X 2 ) − 0]/(sp 1/n1 + 1/n2 )|H0 distribuita come
T (n1 +n2 −2). Regione di accettazione [−1.9901, 1.9901]; valore campionario della statistica test −1.7181.
(B) Come indicato, il test di cui al punto (A) si basa sull’assunzione σ12 = σ22 che può essere sottoposta
a test. Quindi test di H0 : σ12 /σ22 = 1 contro H1 : σ12 /σ22 6= 1. Variabile test: S12 /S22 σ22 /σ12 distribuita
come F (n1 − 1, n2 − 1). Sotto H0 : S12 /S22 |H0 distribuita come F (n1 − 1, n2 − 1). Regione di accettazione
[0.5333, 1.8752]; valore campionario della statistica test 0.8519.
p
Valori e calcoli utili: s2p = [s21 (n1 − 1) + s21 (n1 − 1)]/(n1 + n2 − 2) = 2.5, sp = 1.5811, sp 1/n1 + 1/n2 =
0.3492;
Esercizio 4. Assunzioni: X ∼ (µ = −5, σ = 10). X = (X1 , X2 , X3 , X4 ) campione casuale semplice
estratto da X.
(A) I due stimatori proposti sono combinazioni lineari di X1 , X2 , X3 , X4 e quindi di v.c. indipendenti
aventi stesse media e varianza. Della loro distribuzione è possibile solo calcolare media e varianza in
µ + µ + 2µ
µ+µ
base alle proprietà dei valori attesi. E(T1 ) =
= µ = −5; E(T2 ) =
= µ = −5;
4
2
2
2
2 2
2
2
σ +σ +2 σ
6 2
σ +σ
2
V (T1 ) =
=
σ = 37.5; V (T2 ) =
= σ 2 = 50.
16
16
4
4
(B) T1 e T2 sono ambedue corretti, quindi i loro MSE coincidono con le rispettive varianze. È preferibile
quello con MSE più piccolo e quindi T1 .
175
88
88.1
Compito del 02.07.2008 (solo studenti PT)
Testo
Premessa: La Confindustria sta studiando l’andamento del sistema economico nel prossimo futuro in base
alle aspettative degli imprenditori. I dati utilizzati sono stati raccolti presso un campione di associati
durante la recente assemblea nazionale.
Esercizio 1. Come sarà l’economia italiana nei prossimi 5 anni? Questo dipende, chiaramente, da
come evolverà l’intero sistema economico internazionale. I ricercatori hanno formulato 3 possibili scenari
per l’economia internazionale: recessione, stasi, espansione. Secondo i dati raccolti, tali scenari hanno
probabilità, rispettivamente, 0.2, 0.49, 0.31. Si assuma che X, la variazione annuale media del PIL
italiano nei 5 anni, abbia, nei tre scenari, distribuzione Normale con deviazione standard 0.92 e media,
rispettivamente, −1.7, 0.4, 3.9.
(A) Determinare la probabilità che X sia inferiore a 1.5.
(B) Se X risulta minore di 1.5 qual è la probabilità che lo scenario realmente realizzato sia quello di stasi?
Esercizio 2. Ad una domanda riguardante le aspettative per la propria impresa nei prossimi 5 anni, gli
associati dovevano rispondere con un voto da 1 (il peggiore) a 5 (il migliore). I dati raccolti sono stati
riassunti nella seguente tabella.
Voto
Frequenze relative
1
0.05
2
0.1
3
0.33
4
0.4
5
0.12
(A) Rappresentare graficamente i risultati ottenuti.
(B) Sintetizzare la distribuzione fornendo, a propria scelta, un indice di tendenza centrale ed uno di
variabilità.
Esercizio 3. Il voto espresso sulle aspettative per la propria impresa è stato raggruppato in base al
settore di attività economica.
Settore
M anif atturiero
Servizi
osservazioni
367
373
media
3.61
3.74
varianza corretta
0.5776
0.9216
(A) In media, le aspettative differiscono in modo significativo nei due settori? Rispondere mediante il
p-value.
(B) Perchè le caratteristiche della variabile (vedi anche esercizio 2) rendono poco realistica l’assunzione
che la variabile voto abbia distribuzione normale? E perchè, nonostante ciò, è possibile utilizzare la
variabile test impiegata al punto (A)?
Esercizio 4. Un’altra analisi ha mirato a verificare se le aspettative dell’imprenditore (espresse mediante
la variabile voto analizzata in precedenza) sono in qualche misura legate alla sua età. Alcuni dati relativi
al settore manifatturiero sono sintetizzati in tabella.
n
337
media(aspettative)
3.603
dev.st(aspettative)
0.607
media(età)
50.345
dev.st(età)
9.22
correlazione(aspettative, età)
−0.163
(A) Formulare un modello utile all’analisi e stimarne tutti i coefficienti.
(B) Esiste una relazione significativa fra le aspettative e l’età dell’imprenditore? (α = 0.01)
88.2
Soluzioni
Esercizio 1. Assunzioni e simbologia: R =’recessione’, S =’stasi’, E =’espansione’; X =’variazione
annuale media del PIL italiano nei 5 anni’; P (R) = 0.2, P (S) = 0.49, P (E) = 0.31; X|R ∼ N (µR =
−1.7, σR = 0.92), X|S ∼ N (µS = 0.4, σS = 0.92), X|E ∼ N (µE = 3.9, σE = 0.92). Poniamo c = 1.5.
176
(A) Formula della probabilità marginale: P (X < c) = P (X < c|R)P (R) + P (X < c|S)P (S) P (X <
c|E)P (E) = 0.63456.
(B) Formula di Bayes: P (S|X < c) = P (X < c|S)P (S)/P (X < c) = 0.68268.
Calcoli e valori utili: P (X < c|R) = P (Z < 3.478) = 0.99975, P (X < c|S) = P (Z < 1.196) = 0.88408,
P (X < c|E) = P (Z < −2.609) = 0.00454.
Esercizio 2.
(A) Diagramma a spaghetti per le frequenze relative.
(B) Visto che la variabile ha un range limitato (le modalità sono comprese in 1 - 5) non ci possono essere
valori anomali. Possiamo utilizzare media (= 3.44) e deviazione standard (= 0.9932). Benchè meno
interessanti, hanno senso anche mediana e scarto interquartile.
Prospetto di calcolo:
Voto (xi )
1
2
Frequenze relative (fi ) 0.05 0.1
xi fi
0.05 0.2
x2i fi
0.05 0.4
da cui σ 2 = 12.82 − 3.44 = 0.9864.
3
0.33
0.99
2.97
4
0.4
1.6
6.4
5
0.12
0.6
3
Somma
1
3.44
12.82
Esercizio 3. Assunzioni e simbologia: X1 =’aspettative di un imprenditore del manifatturiero’ ∼
N (µ1 , σ1 ), X2 =’aspettative di un imprenditore dei servizi’ ∼ N (µ2 , σ2 ). Campioni casuali semplici
indipendenti.
(A) Test di H0 : µ1 − µ2 = 0, contro H0 : p
µ1 − µ2 6= 0. In base alle dimensioni campionarie elevate, la
µ2 )]/ s21 /n1 + s22 /n2 la cui distribuzione è, approssimativamente,
statistica test è: [(X 1 − X 2 ) − (µ1 −p
N (0, 1); sotto H0 : [(X 1 − X 2 ) − 0]/ s21 /n1 + s22 /n2 |H0 ≈ N (0,
p 1). Valore campionario della statistica
test zcamp = −2.0441, per cui p − value = 2P [[(X 1 − X 1 ) − 0]/ s21 /n1 + s22 /n2 > |zcamp ||H0 ] = 2P (Z >
2.0441|H0 ) = 2 ∗ 0.02047 = 0.04094.
(B) L’assunzione di normalità è forzata in quanto il voto è una variabile casuale discreta che può assumere
solo 5 valori. È possibile utilizzare la variabile test di cui sopra in base al teorema del limite centrale
applicato a ciascuno dei due campioni, data la loro elevata dimensione.
p
√
Calcoli e valori utili: s21 /n1 + s22 /n2 = 0.004045 = 0.063597.
Esercizio 4. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui Y =’aspettative’,
X =’età’.
(A) βb1 = −0.0107, βb0 = 4.1433, σ
b2 = 0.3608.
c1 − β1 ]/b
(B) Test di H0 : β1 = 0 contro H1 : β1 6= 0. Variabile test [β
σ (βb1 ) distribuita come T (n − 2).
c
b
Sotto H0 : [β1 − 0]/b
σ (β1 ) distribuita come T (n − 2). Regione di accettazione: [−2.5758, 2.5758] (valori
calcolabili con le tavole della normale per l’elevata dimensione del campione); valore campionario della
variabile test −3.0238.
Valori e calcoli utili: n = 337, dev(x) = nV ar(x) = 28647.8308, dev(y) = nV ar(y) = 124.1673,
q
codev(x, y) = corr(x, y) dev(x)dev(y) = −307.4235, βb1 = codev(x, y)/dev(x) = −0.0107, βb0 = y−βb1 x =
p
√
4.1433, σ
b2 = (dev(y) − βb12 dev(x))/(n − 2) = 0.3608, σ
b(βb1 ) = σ
b2 /dev(x) = 1.2594354276e − 05 =
0.003549.
177
89
89.1
Compito del 03.09.2008 (solo studenti PT)
Testo
Premessa: La provincia di Roma dispone di un Osservatorio Congiunturale. Uno degli attuali temi ’caldi’
riguarda il fronte prezzi, in particolare quello dei generi di prima necessità, come la pasta.
Esercizio 1. L’Osservatorio dispone dei dati relativi ai controlli effettuati dalla Camera di Commercio.
Su un campione di 140 controlli presi in esame, in 29 sono stati riscontrati fenomeni di speculazione sui
prezzi.
(A) Fornire stima puntuale e standard error (stima della deviazione standard dello stimatore utilizzato)
per la probabilità di trovare un esercizio che specula sui prezzi.
(B) Quale dimensione campionaria è necessaria affinché l’intervallo di confidenza, per la probabilità di cui
sopra, abbia ampiezza 0.07 al livello di confidenza 0.98? Nel calcolo utilizzare l’informazione ricavabile
dal campione a disposizione.
Esercizio 2. Si assuma che la probabilità che un esercizio speculi sui prezzi sia pari a 0.21. Si estraggano
casualmente due esercizi, in modo indipendente, e sia Y il totale, fra questi, di quelli che speculano.
(A) Tabulare la funzione di massa di Y .
(B) Disegnare la funzione di ripartizione di Y .
Esercizio 3. L’Osservatorio ha anche cercato di capire se le variazioni di prezzo hanno riguardato il
mercato in modo omogeneo oppure no. A tale scopo, dopo accurata analisi ha suddiviso il mercato in
due segmenti: la pasta di marca e le altre. Per ciascuna referenza del campione ha calcolato la variazione
percentuale del prezzo nell’arco di un anno esatto (giugno 2007 - maggio 2008) riassumendo i dati raccolti
nella seguente tabella.
Segmento
Pasta di marca
Altra pasta
dimensione campione
11
12
media
42.2
44.7
varianza corretta
112.5
141.1
Si assuma che la variazione percentuale del prezzo abbia distribuzione normale.
(A) La variabilità della variabile rilevata è la stessa nei due segmenti (α = 0.02)?
(B) In media, i due segmenti hanno visto variare i loro prezzi in modo analogo (α = 0.05)?
Esercizio 4. L’Osservatorio ha anche tentato di mettere in relazione il consumo di pasta con il suo
prezzo (medio) al kg. I dati rilevati negli ultimi 6 mesi sono riassunti nella seguente tabella.
Mese
Consumo pasta (migliaia ton)
Prezzo (medio) (centesimi al kg)
gennaio
8.9
72
febbraio
8.8
75
marzo
8.4
80
aprile
8.2
83
maggio
8.1
87
giugno
8
91
(A) Formulare un opportuno modello per mettere in relazione il consumo di pasta col livello dei prezzi.
Stimarne i parametri.
(B) Prevedere quale sarebbe il consumo di pasta se il prezzo (medio) salisse a 104 centesimi al kg, fornendo
il valore puntuale e il relativo intervallo (α = 0.02).
89.2
Soluzioni
Esercizio 1. Assunzioni e simbologia: X =’l’esercizio specula’ ∼ Be(p).
(A) Stima puntuale di p: pb = 0.2071; standard error: σ
b(b
p) = 0.034251.
(B) n = 726.
p
p
Pn
p
b
q
b
/n
=
0.2071 ∗ 0.7929/140 =
Valori
e
formule
utili:
p
b
=
x
/n
=
29/140
=
0.2071;
σ
b
(b
p
)
=
i
i=1
√
2
2
0.001173 = 0.034251; n = (2z/A) pbqb = (2 ∗ 2.326/0.07) ∗ 0.2071 ∗ 0.7929 = 725.57 ' 726 dove α = 0.02.
178
Esercizio 2. In pratica, Y ∼ Bi(n = 2, p = 0.21).
(A) Y può assumere solo valori 0, 1, 2; le rispettive probabilità possono essere calcolate utilizzando la
y
0
1
2
funzione di massa della binomiale.
f (y) 0.6241 0.3318 0.0441
(B) Grafico della funzione di ripartizione, tabulata come:
y
F (y)
(−∞, 0)
0
[0, 1)
0.6241
[1, 2)
0.9559
[2, ∞)
1
Esercizio 3. Assunzioni e simbologia: X1 =’variazione prezzo pasta di marca’ ∼ N (µ1 , σ1 ), X2 =’variazione
prezzo altra pasta’ ∼ N (µ2 , σ2 ). Campioni casuali semplici indipendenti.
(A) Test di H0 : σ12 /σ22 = 1, contro H1 : σ12 /σ22 6= 1. La statistica test è S12 /S22 σ22 /σ12 la cui distribuzione
è F (n1 − 1, n2 − 1); sotto H0 : S12 /S22 |H0 ∼ F (n1 − 1, n2 − 1). Valore campionario della statistica test
0.7973; zona di accettazione [0.2096, 4.5393].
(B) Test di H0 : µ1 − µ2 = 0, contro H0 : µ1 − µ2 6= 0. In base alle esigue dimensioni campionarie
occorre assumere σ1 = σ2 , assunzione
confortata dall’esito del test di cui al punto (A). La statistica
q
test è [(X 1 − X 2 ) − (µ1 − µ2 )]/ s2p (1/n1 + 1/n2 ) la cui distribuzione è T (n1 + n2 − 2); sotto H0 :
q
(X 1 − X 2 )/ s2p (1/n1 + 1/n2 ) ∼ T (n1 + n2 − 2). Valore campionario della statistica test −0.5304; zona
di accettazione [−2.0739, 2.0739].
Calcoli e valori utili: n1 = 11, n2 = 12, x1 = 42.2, x2 = 44.7, s21 = 112.5, s22 = 141.1; s2p = [s21 (n1 − 1) +
q
√
s22 (n2 − 1)]/(n1 + n2 − 2) = 127.481; s2p (1/n1 + 1/n2 ) = 22.2126 = 4.713.
Esercizio 4. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui Y =’consumi’,
X =’prezzo (medio)’.
(A) βb1 = −0.0509, βb0 = 12.5404, σ
b2 = 0.00828.
(B) Previsione e relativo intervallo per y in corrispondenza di x0 = 104. Previsione: yb0 = 7.2461. Per
l’intervallo: pivot: [b
y0 − y0 ]/b
σ (b
y0 ) con distribuzione campionaria T (n − 2); intervallo: [b
y0 − tb
σ (b
y0 ), yb0 +
tb
σ (b
y0 )] = [6.7446, 7.7476], dove per α = 0.02 e n − 2 = 4 si ha t = 3.7469.
Calcoli e valori utili:
Mese gennaio febbraio
xi
72
75
yi
8.9
8.8
x2i
5184
5625
yi2
79.21
77.44
xi yi
640.8
660
marzo
80
8.4
6400
70.56
672
aprile
83
8.2
6889
67.24
680.6
maggio giugno Somma
87
91
488
8.1
8
50.4
7569
8281
39948
65.61
64
424.06
704.7
728
4086.1
Pn
Pn
da cui: n = 6, x = 81.3333, y = 8.4, dev(x) = i=1 x2i − nx2 = 257.333, dev(y) = i=1 yi2 − ny 2 = 0.7,
Pn
b = 0.090995, yb0 = βb0 + βb1 x0 = 7.2461; Vb (b
y0 ) = σ
b2 [1/n + (x −
codev(x, y) = i=1 xi yi − nxy = −13.1, σ
x0 )2 /dev(x)] = 0.0179, σ
b(b
y0 ) = 0.1338.
179
90
90.1
Compito del 18.12.2008 (solo studenti PT)
Testo
Premessa: Un’impresa sta effettuando un importante investimento in formazione del proprio personale.
Il grado di preparazione dei dipendenti è valutato mediante prove scritte.
Esercizio 1. La parte del personale che ha ottenuto un risultato insufficiente alla prima prova, composta
da 201 dipendenti, ha dovuto ripeterla una seconda volta. I risultati sono riassunti nella seguente tabella:
media
1a prova
19.5
media
2a prova
20.6
media della differenza 2a − 1a
1
dev. st.
1a prova
7.3
dev. st.
2a prova
7.3
dev. st. della differenza 2a − 1a
6.2
Assumendo che i punteggi ottenuti abbiano distribuzione normale:
(A) In media, ci sono differenze significative fra i risultati delle due prove? Rispondere mediante il p-value
e commentare il risultato.
(B) Fornire una stima per intervallo della deviazione standard dei punteggi ottenuti nella prima prova
(1 − α = 0.95).
Esercizio 2. Alcuni dirigenti hanno sollevato perplessità sul questionario, ritenendolo eccessivamente
difficile. Per questo motivo, quello della seconda prova è stato somministrato anche ad un campione
casuale semplice di funzionari, che hanno riportato i risultati di cui alla seguente tabella:
Funzionario
Punteggio
F1
37.5
F2
33.3
F3
33.2
F4
36.8
F5
37.5
F6
26.4
(A) Il punteggio dei funzionari, in media, è risultato significativamente migliore di quello dipendenti che
hanno ripetuto la seconda prova? (α = 0.01)
(B) Fornire una stima per intervallo della media dei punteggi ottenuti dai funzionari (1 − α = 0.9).
Esercizio 3. L’analisi di due domande del questionario, ritenute di particolare interesse, ha fornito i
risultati riassunti nella seguente tabella (i valori all’interno della tabella sono frequenze congiunte relative;
il punteggio a ciascuna domanda è negativo se la risposta è sbagliata, 0 se viene lasciata in bianco, positivo
se è giusta):
Punteggi domanda 12
−1
0
7
Punteggi domanda 14
−1
0
7
0.09
0
0.04
0.07 0.2
0.04
0.05 0.04
0.47
(A) Calcolare il coefficiente di correlazione fra i punteggi ottenuti nelle due domande.
(B) Tabulare e rappresentare graficamente la distribuzione delle frequenze relative del punteggio alla
domanda 14 per quelli che hanno risposto in modo corretto alla 12.
Esercizio 4. Ciascuna delle domande del questionario era composta da 6 possibili risposte, di cui una
corretta e le altre sbagliate.
(A) Calcolare il valore atteso del punteggio ottenuto ad una domanda se un dipendente dà sempre una
risposta anche se a caso. In base al risultato del calcolo, in caso di dubbio è meglio tirare a caso o lasciare
la risposta in bianco? Motivare.
(B) Su un totale di 50 domande, quante risposte corrette riesce a dare un dipendente che dà sempre una
risposta a caso? Se si pensa che questa quantità sia una variabile casuale calcolarne media e varianza; se
si pensa sia un valore fisso calcolarne il valore.
90.2
Soluzioni
Esercizio 1.
180
(A) Test per dati appaiati (il campione è lo stesso nei due periodi considerati). Assunzioni: D =
2
punteggio 2a prova − punteggio 1a prova
√ ∼ N (µD , σD ). Ipotesi: H0 : µD = 0 contro H1 : µD 6= 0.
Statistica test (sotto H0 ): (D − 0)/(SD / n), la cui distribuzione
è approssimabile con una N (0, 1) dato
√
l’n sufficientemente elevato. p − value = 2P [(D − 0)/(SD / n) > |zcamp ||H0 ] = 2P (Z > 2.2867|H0 ) =
0.022214.
√
√
Valori utili: d = 1, sD = 6.2, n = 201, sD / n = 0.4373, zcamp = (d − 0)/(sD / n) = 2.2867.
(B) Assunzioni: X = punteggio 1a prova ∼ N (µ, σ 2 ). Pivot per σ 2 : (n − 1)S 2 /σ 2 la cui distribuzione
è χ2 (n − 1). Intervallo per σ 2 : [(n − 1)s2 /c2 , (n − 1)s2 /c1 ] = [44.2134, 65.4958] da cui intervallo per σ:
[6.6493, 8.0929].
Valori utili: s = 7.3, s2 = 53.29, n = 201, c1 = 162.73, c2 = 241.06.
Esercizio 2.
(A) Assunzioni: X = ’Punteggio del singolo funzionario’ ∼ N (µX , σ 2 ); Y = ’Punteggio del singolo
dipendente’ ∼ N (µY , σ 2 ); si assume che le due varianze siano uguali perché uno dei due campioni non
ha dimensioneqelevata. Ipotesi: H0 : µX − µY = 0 contro H1 : µX − µY > 0. Statistica test (sotto H0 ):
(X − Y − 0)/
Sp2 (1/nX + 1/nY ), la cui distribuzione è T (nX + nY − 2) (ma può essere approssimata
con la N (0, 1)). Regione di rifiuto: (2.3263, ∞); valore campionario della statistica test 4.5056.
Valori utili: x = 34.1167, y = 20.6, sX = 4.2696, sY = 7.3, nX = 6, nY = 201, s2p = 52.4349,
q
√
Sp2 (1/nX + 1/nY ) = 9 = 3.
(B) Assunzioni:
X alla
√ identiche a quelle del punto (A) (per comodità si toglie l’indice
√
√ media). Pivot per µ:
(X−µ)/(S/ n) la cui distribuzione è T (n−1). Intervallo per µ: [x−ts/ n, x+ts/ n] = [30.6044, 37.629].
Valori utili: x = 34.1167, s = 4.2696, n = 6, t = 2.015.
Esercizio 3.
(A) Assunzioni: X =’punteggio domanda 12’; X = ’punteggio domanda 14’. ρ(X, Y ) = C(X, Y )/(σX σY ) =
0.6415. Dal prospetto di calcolo sottostante: E(X) = 3.79, E(X 2 ) = 27.57, V (X) = 13.2059, σX = 3.634,
E(Y ) = 3.64, E(Y 2 ) = 27.16, V (Y ) = 13.9104, σY = 3.7297, E(XY ) = 22.49, C(X, Y ) = 8.6944.
x
−1
0
7
f (x)
0.13
0.31
0.56
1
xf (x)
−0.13
0
3.92
3.79
x2 f (x)
0.13
0
27.44
27.57
y
−1
0
7
f (y)
0.21
0.24
0.55
1
yf (y)
−0.21
0
3.85
3.64
y 2 f (y)
0.21
0
26.95
27.16
xyf (x, y)
x
−1
0
7
−1
0.09
0
−0.35
y
0
0
0
0
7
−0.28
0
23.03
(B)
y
−1
0
7
f (y|X = 7) 0.0893 0.0714 0.8393
dove f (y|X = 7) = f (7, y)/fX (7).
Esercizio 4.
(A) Se un dipendente risponde a caso su 6 possibili risposte, avrà un probabilità p = 1/6 = 0.1667 di
indovinare (e quindi di prendere −1) e q = 0.8333 di sbagliare (prendendo quindi 7). Il valore atteso è
allora E(X) = −1 ∗ 0.1667 + 7 ∗ 0.8333 = 0.3333. Il fatto che sia positivo spinge, in caso di incertezza, a
tirare a caso, piuttosto che a non rispondere.
(B) Il numero di risposte esatte ha una distribuzione Bi(n = 50, p = 0.1667). Il valore atteso è quindi
np = 8.3333 e la varianza è npq = 6.9444.
181
91
91.1
Compito del 15.01.2009 (solo studenti PT)
Testo
Premessa: Get the World (GTW) è una grossa società che si occupa di viaggi e vacanze con una forte
presenza in Italia. Una ricerca si è focalizzata su Milano.
Esercizio 1. GTW ha cercato di capire se i profitti delle agenzie di viaggio sparse su territorio della città
sono in qualche modo legate alla quantità di personale che vi lavora. A livello operativo, questo potrebbe
fornire indicazioni per eventuali accorpamenti o, all’opposto, parcelizzazioni della rete di vendita. I
risultati (riferiti al 2008, utili in migliaia di euro) sono riassunti nella seguente tabella:
Agenzia
Personale
Utili
N. 1
8
166
N. 2
8
53
N. 3
9
90
N. 4
7
-24
N. 5
5
-25
N. 6
6
101
(A) Formulare un opportuno modello statistico che risponda alle esigenze illustrate nel testo. Stimarne
tutti i parametri.
(B) I profitti sono legati in modo significativo alla quantità di personale (α = 0.02)? Con riferimento a
quanto illustrato nel testo, l’esito del test suggerisce qualche indicazione operativa?
(C) Ricavare la devianza di regressione e indicare, in percentuale, quanta parte della variabilità della
variabile dipendente è spiegata dal modello.
Esercizio 2. Con riferimento ai dati dell’esercizio precedente, si assuma che gli utili 2008 di ciascuna
agenzia seguano una distribuzione approssimativamente normale.
(A) Fornire una stima per intervallo (α = 0.05) della media degli utili.
(B) Fornire una stima puntuale e per intervallo (α = 0.05) della deviazione standard degli utili.
(C) Nel procedimento per risolvere il punto A, sarebbe cambiato qualcosa se la deviazione standard fosse
stata nota? Nel procedimento per il punto B, sarebbe cambiato qualcosa se la media fosse stata nota?
Spiegare in modo sintetico.
Esercizio 3. I clienti che hanno effettuato la loro vacanza 2008 con GTW sono stati ricontattati telefonicamente dopo il loro ritorno. È stato loro chiesto se sono soddisfatti della vacanza effettuata. Le
risposte sono state rielaborate nella seguente tabella (frequenze relative congiunte):
Soddisfazione
Sı̀
No
Mare Italia
0.34
0.01
Tipo vacanza
Arte Italia Altro Italia
0.22
0.11
0.03
0.01
Europa
0.06
0.01
Altro
0.15
0.06
(A) Fornire tutti gli indici di tendenza centrale che hanno senso per la distribuzione della variabile ’tipo
vacanza’.
(B) Si utilizzi adesso la definizione frequentista di probabilità. Le variabili ’Tipo vacanza’ e ’Soddisfazione’
sono indipendenti? Se sı̀ spiegare il perché. Se no, calcolare il valore che le frequenze congiunte relative
avrebbero dovuto avere in tale caso (è sufficiente calcolarne 5 a scelta).
(C) Si utilizzi ancora la definizione frequentista di probabilità. Su 176 clienti estratti casualmente e in
modo indipendente, quanto vale la probabilità che gli insoddisfatti siano più di 16?
91.2
Soluzioni
Esercizio 1. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui Y =’utili’,
X =’numero dipendenti’.
(A) βb1 = 26.57, βb0 = −130.25, σ
b2 = 5124.83.
(B) Test di H0 : β1 = 0 contro H1 : β1 6= 0. Statistica test (sotto H0 ): (βb1 − 0)/b
σ (βb1 ) che sotto H0 ha una
distribuzione T (n − 2). Valore campionario statistica test 1.2216; regione di accettazione per α = 0.02:
[−3.7469, 3.7469]. Indicazione operativa: nessuna indicazione particolare.
182
(C) dev(REG) = 7647.5103; R2 = 0.2717.
Calcoli e valori utili:
Agenzia
N. 1 N. 2
xi
8
8
yi
166
53
x2i
64
64
yi2
27556 2809
xi yi
1328
424
N. 3
9
90
81
8100
810
N. 4
7
-24
49
576
-168
N. 5
5
-25
25
625
-125
N. 6
6
101
36
10201
606
Somma
43
361
319
49867
2875
Pn
Pn
2
2
2
da cui: n = 6, x = 7.1667, y = 60.1667, dev(x) =
i=1 xi − nx = 10.833, dev(y) =
i=1 yi −
2
Pn
c1 dev(x) = 20499.32,
ny 2 = 28146.83, codev(x, y) = i=1 xi yi − nxy = 287.83, dev(RES) = dev(y) − β
c1 ) = 21.75, dev(REG) =
c1 ) = σ
b(β
σ
b2 = dev(RES)/(n − 2) = 5124.83, σ
b = 71.59, Vb (β
b2 /dev(x) = 473.06, σ
2
dev(y) − dev(RES) = 7647.5103, R = dev(REG)/dev(y) = 0.2717.
Esercizio 2. Assunzioni: X = ’utile per agenzia’ ∼ N (µ, σ 2 ).
√
(A) Pivot
√ per µ: (X
√ − µ)/(s/ n) la cui distribuzione è T (n − 1). Intervallo per µ con α = 0.05:
[x − ts/ n, x + ts/ n] = [−18.57, 138.9].
(B) Pivot per σ: (n − 1)S 2 /σ 2 la cui distribuzione è χ2 (n − 1). Intervallo per σ 2 con α = 0.05: [(n −
1)s2 /c2 , (n − 1)s2 /c1 ] = [2193.4, 33862.41]; Intervallo per σ: [46.83, 184.02].
√
(C) Se σ fosse stato noto, il pivot per µ sarebbe stato (X − µ)/(σ/ n) con distribuzione N (0, 1). Se µ
2
/σ 2 con distribuzione χ2 (n). Di conseguenza sarebbero
fosse stato noto, il pivot per σ sarebbe stato nS∗∗
cambiati entrambi i procedimenti.
Valori utili: n = 6, x = 60.1667, s2 = 5629.37, s = 75.03, t = 2.5706, c1 = 0.8312, c2 = 12.8325.
Esercizio 3.
(A) La variabile in oggetto è qualitativa sconnessa. Di conseguenza ha senso solo la moda: M areItalia.
(B) Affinchè siano indipendenti è necessario che, in ogni casella, la congiunta sia pari al prodotto delle
corrispondenti marginali. Si vede subito che questo non è vero: quindi non sono indipendenti. In
caso di indipendenza le congiunte relative sarebbero esattamente il prodotto delle marginali relative
corrispondenti:
Soddisfazione
Sı̀
No
Mare Italia
0.308
0.042
0.35
Tipo vacanza
Arte Italia Altro Italia
0.22
0.1056
0.03
0.0144
0.25
0.12
Europa
0.0616
0.0084
0.07
Altro
0.1848
0.0252
0.21
0.88
0.12
1
(C) Sia X =’cliente insoddisfatto’. Si nota immediatamente che X ∼ Be(p = 0.12) per cui il totale degli
insoddisfatti su 176 estrazioni indipendenti ha distribuzione Bi(n = 176, p = 0.12). Utilizzando l’approssimazione N (µ = np = 21.12, σ 2 = npq = 18.5856) della binomiale si ottiene: P (X > 16) = P (X ≥ 17) w
approssimazione normale con correzione per la continuità P (X ≥ 16.5) = P (Z > −1.0717) = 0.8581.
183
92
92.1
Compito del 29.01.2009 (solo studenti PT)
Testo
Premessa: The Spangler Company è una società estera attiva nel settore moda e sport che commercializza
in punti vendita di media e grande dimensione. Ha in progetto di aprire punti vendita anche in Italia e
la prima scelta è Bologna.
Esercizio 1. Una delle questioni affrontate dalla società è la quella dei prezzi di vendita (che, in generale,
è bene siano remunerativi ma non fuori mercato). Per studiare il legame del prezzo di un certo articolo
con la dimensione del negozio, sono stati rilevati i seguenti dati presso un campione casuale semplice di
punti vendita della concorrenza:
Negozio
Prezzo vendita (euro)
Superficie negozio (migliaia di mq)
Univ
300
0.67
Deca
295
0.81
Mart
216
1.14
Rebo
371
0.4
Cult
218
1.12
(A) Formulare un opportuno modello statistico che risponda alle esigenze illustrate nel testo. Stimarne
tutti i parametri.
(B) Il modello evidenzia la presenza di economie di scala? In altre parole, il prezzo di vendita tende a
diminuire in modo significativo al crescere della dimensione? (α = 0.05)
(C) Il punto vendita che si ha intenzione di aprire a Bologna è di 0.98 migliaia di mq. In corrispondenza
di tale valore, fornire previsione puntuale e per intervallo (α = 0.1) per il prezzo di vendita dell’articolo
in questione.
Esercizio 2. Per studiare il tipo di clientela che frequenta il punto vendita aperto, Spangler ha considerato
i dati degli scontrini emessi durante i primi 12 mesi di apertura ottenendo la seguente tabella.
Importo (euro)
n. scontrini
[0, 40)
5370
[40, 100)
5770
[100, 150)
2920
[150, 350)
5940
[350, 630)
3250
[630, 1750)
3340
(A) Rappresentare graficamente la distribuzione dell’importo per scontrino.
(B) Fornire un opportuno indice di posizione e di variabilità dell’importo per scontrino.
Esercizio 3. La fascia tardo-pomeridiana dei giorni prefestivi è quella più critica per quanto riguarda la
numerosità del personale presente nel punto vendita. La tabella che segue sintetizza i risultati di alcune
ispezioni a campione per la variabile X = ”numero di persone in fila ad una cassa” in tale fascia.
Osservazioni
199
Media
1.87
Mediana
2
Varianza Corretta
2.07
Assumendo che la variabile X abbia una distribuzione di Poisson:
(A) È vero (come affermava il responsabile del punto vendita prima che venissero effettuate le ispezioni)
che, mediamente, il numero di persone in fila è superiore a 1.68? Impostare il problema come test delle
ipotesi (α = 0.1).
(B) Calcolare la potenza del test effettuato al punto precedente in corrispondenza dell’ipotesi alternativa
”il numero di medio di persone in fila è 1.81”.
(C) Si assuma che: 2 casse siano aperte nel punto vendita; per ciascuna cassa il numero di persona in fila
abbia una distribuzione di Poisson con parametro pari a quello stimato dal campione; il numero di persone
in fila a casse diverse siano indipendenti (tale assunzione non è realistica). Calcolare la probabilità che il
numero totale di persone in fila alle casse sia superiore a 2.
92.2
Soluzioni
Esercizio 1. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui Y =’prezzo vendita
(euro)’, X =’superficie punto vendita (migliaia di mq)’.
(A) βb1 = −205.71, βb0 = 450.33, σ
b2 = 98.81.
184
(B) Test di H0 : β1 = 0 contro H1 : β1 < 0. Statistica test (sotto H0 ): (βb1 − 0)/b
σ (βb1 ) che sotto H0 ha
una distribuzione T (n − 2). Valore campionario statistica test −12.9416; regione di rifiuto per α = 0.05:
(−∞, −2.3534).
(C) Previsione e relativo intervallo per y in corrispondenza di x0 = 0.98. Previsione: b
y 0 = 248.7317. Per
l’intervallo: pivot: [b
y 0 − y 0 ]/b
σ (b
y 0 ) con distribuzione campionaria T (n − 2); intervallo: [b
y 0 − tb
σ (b
y 0 ), b
y0 +
y 0 )] = [236.8245, 260.6389], dove per α = 0.1 e n − 2 = 3 si ha t = 2.3534.
tb
σ (b
Calcoli e valori utili:
Negozio
Univ
Deca
xi
0.67
0.81
yi
300
295
x2i
0.4489 0.6561
yi2
90000 87025
xi yi
201 238.95
Mart
1.14
216
1.2996
46656
246.24
Rebo
Cult Somma
0.4
1.12
4.14
371
218
1400
0.16 1.2544
3.819
137641 47524 408846
148.4 244.16 1078.75
Pn
Pn
da cui: n = 5, x = 0.828, y = 280, dev(x) = i=1 x2i − nx2 = 0.3911, dev(y) = i=1 yi2 − ny 2 = 16846,
2
Pn
c1 dev(x) = 296.44, σ
codev(x, y) = i=1 xi yi −nxy = −80.45, dev(RES) = dev(y)− β
b2 = dev(RES)/(n−
2
c1 ) = σ
c1 ) = 15.9, b
2) = 98.81, σ
b = 9.94, Vb (β
b /dev(x) = 252.67, σ
b(β
y 0 = βb0 + βb1 x0 = 248.7317;
2
2
b
b
b
b [1/n + (x − x0 ) /dev(x)] = 25.6002, σ
b(y 0 ) = 5.0597.
V (y 0 ) = σ
Esercizio 2.
(A) Istogramma da costruire in base alla tabella seguente.
(B) Indice di tendenza centrale: M e = 136.9. Indice di variabilità: ∆Q = Q3 − Q1 = 294.78.
Calcoli: M e = 100 + (13295 − 11140)/58.4 = 136.9. Q1 = 40 + (6647.5 − 5370)/96.17 = 53.28, Q3 =
150 + (19942.5 − 14060)/29.7 = 348.06.
Importo (euro)
frequenza
ampiezza
densità
freq. % cumulata
[0, 40)
5370
40
134.25
5370
[40, 100)
5770
60
96.17
11140
[100, 150)
2920
50
58.4
14060
[150, 350)
5940
200
29.7
20000
[350, 630)
3250
280
11.61
23250
[630, 1750]
3340
1120
2.98
26590
Esercizio 3. Notazione: X = ’numero di persone in fila ad una cassa’ ∼ P o(λ).
(A) Ipotesi:
p H0 : λ = 1.68 contro H1 : λ > 1.68. Indichiamo 1.68 con λ0 . Statistica test (sotto H0 ):
(X − λ0 )/ λ0 /n), la cui distribuzione sotto H0 è approssimabile con una N (0, 1). Regione di rifiuto per
α = 0.1: (1.282, ∞); valore campionario della statistica test sotto H0 : 2.0679.
(B) Calcolo potenza per H1 : λ = 1.81, α di cui sopra. Indichiamo 1.81 con λ1 . La regione di rifiuto
è
p
quella costruita sopra. Indichiamo
il
valore
critico
con
z
,
lo
standard
error
sotto
H
con
s
=
λ
/n,
0
0
0
0
p
quello sotto H1 con s1 = λ1 /n. γ = P (campione ∈ R|H1 ) = P [(X − λ0 )/s0 > z0 |H1 ] = P [X >
λ0 + z0 s0 |H1 ] = P [(X − λ1 )/s
(Z > −0.1284|H
1 ) = 0.5511.
p1 > (λ0 +
√z0 s0 − λ1 )/s1 |H1 ] = Pp
√
Valori utili: X = 1.87, s0 = λ0 /n = 0.0084 = 0.0919, s1 = λ1 /n = 0.0091 = 0.0954.
(C) Xi =’numero di persone in fila alla cassa i’∼ P o(λi = 1.87), i = 1, . . . , 2. Quindi X =’totale
Pk
Pk
persone in fila alle casse’= i=1 Xi ∼ P o(λ = i=1 λi = 3.74), dove k = 2. P (X > 2) = 1 − P (X ≤
P2
2) = 1 − x=0 P (X = x) = 1 − 0.27873 = 0.72127 (Probabilità della Poisson necessarie nel calcolo:
P (X = 0) = 0.02375; P (X = 1) = 0.08884; P (X = 2) = 0.16613).
185
93
93.1
Compito del 12.02.2009 (solo studenti PT)
Testo
Premessa: Spar-X è una catena di supermercati. Da alcuni anni ha istituito una tessera punti al fine
di fidelizzare la clientela; fra l’altro, l’uso della tessera permette di ’tracciare’ il comportamento della
clientela. I dati di cui ai testi seguenti si riferiscono ad un punto vendita in provincia di Brescia.
Esercizio 1. Dai dati a disposizione sono strati estratti due distinti campioni casuali: uno relativo a
coloro che hanno usato la tessera punti, uno per coloro che non l’hanno usata. La seguente tabella riporta
le statistiche principali relative alla variabile ’importo speso’ (in Euro).
Hanno usato tessera
Non hanno usato tessera
dimensione
177
177
media
55.6
52.4
√
varianza corretta
15.99
15.88
Si assuma che la variabile d’interesse abbia distribuzione normale.
(A) Gli importi spesi dalle due tipologie di clienti sono mediamente gli stessi? Effettuare il test mediante
in p-value.
Si assuma ora che: i valori dei parametri delle distribuzioni dell”importo speso’, nelle due popolazioni
(coloro che usano e non usano la tessera) siano pari a quelli stimati dal campione; fra tutti i clienti solo
il 35.6% faccia uso della tessera punti.
(B) Preso a caso un cliente, calcolare la probabilità che egli spenda più di 48 euro.
(C) Sapendo che un cliente ha speso meno di 48 euro, qual è la probabilità che egli abbia esibito la tessera
punti?
Esercizio 2. La tessera punti permette di monitorare la frequenza con cui i clienti si recano ad effettuare
la spesa. I dati relativi alla scorsa settimana sono riassunti nella seguente tabella (ogni giorno viene
contato una sola volta, anche se il cliente vi si è recato più volte; sono stati esclusi i clienti con tessera
punti che nella settimana non hanno fatto la spesa).
Giorni spesa nella settimana
Numero clienti
1
89
2
152
3
113
4
65
5
21
6
9
(A) Rappresentare graficamente la distribuzione della variabile ’numero di giorni di spesa nella settimana’.
(B) Calcolare media e deviazione standard della variabile di cui al punto (A).
Esercizio 3. Uno dei comportamenti attesi a priori, a parità di altre condizioni, è che tanto più spesso
un cliente va a fare la spesa, tanto minore è la quantità che egli compra ciascuna volta. È vero? E
in che misura? A questo scopo sono stati valutati, con riferimento alla settimana, l’importo medio per
ciascuna spesa (’spesa totale / numero di spese’ nella settimana) e la frequenza con cui il cliente fa la
spesa nell’arco della settimana. La seguente tabella riporta le principali statistiche (im = importo speso
medio, ns = numero spese) .
n
202
media(ns)
2.436
dev.st(ns)
1.147
media(im)
64.41
dev.st(im)
17.73
correlazione(ns, im)
−0.519
(A) Formulare un opportuno modello per studiare come l’importo della spesa dipende dal numero di volte
in cui il cliente si reca a fare la spesa. Stimarne tutti i parametri.
(B) Sottoporre a test se quanto atteso a priori, circa il diminuire edio della spesa all’aumentare della
frequenza delle spese, è vero (α = 0.01).
(C) Fornire l’intervallo di confidenza (α = 0.05) per la deviazione standard dei residui.
93.2
Soluzioni
Esercizio 1.
186
2
(A) Assunzioni: X =’importo speso da chi usa tessera’∼ N (µX , σX
), Y =’importo speso da chi non usa
2
tessera’∼ N (µY , σY ). Test di H0 p
: µX − µY = 0 contro H0 : µX − µY 6= 0 per campioni indipendenti.
2 /n + S 2 /n (i due campioni hanno numerosità sufficientemente
Statistica test [X −Y −(µX −µY )]/ SX
X
Y
Y
p
2 /n + S 2 /n
−
Y
−
0]/
SX
elevata). Sotto H0 la statistica test è [X
X
Y con distribuzione approssimata
Y
p
2
2
N (0, 1). p − value = 2P [(X − Y − 0)/ SX /nX + SY /nY > |zcamp |] = 2P (Z > 1.8892) = 2 ∗ 0.0294 =
0.0589. Calcoli
= 177, x = 55.6, y =√52.4 sX = 15.99, sY = 15.88 zcamp =
p e valori utili: nX = nY p
[x − y − 0]/ s2X /nX + s2Y /nY = 1.8892, s2X /nX + s2Y /nY = 2.8692 = 1.6939.
(B) (C) Assunzioni: U =’usa tessera’, N = ’non usa tessera’, X =’spesa’, P (U ) = 0.356, P (N ) = 0.644,
X|U ∼ N (µU = 55.6, σU = 15.99), X|N ∼ N (µN = 52.4, σN = 15.88).
(B) P (X > 48) = P (X > 48|U )P (U ) + P (X > 48|N )P (N ) = 0.6353.
(C) P (U |X ≤ 48) = P (X ≤ 48|U )P (U )/(X ≤ 48) = 0.3097.
Calcoli e valori utili: P (X > 48|U ) = P (Z > −0.4753) = 0.6827, P (X > 48|N ) = P (Z > −0.2771) =
0.6091, P (X ≤ 48|U ) = 0.3173, P (X ≤ 48|N ) = 0.3909.
Esercizio 2.
(A) Diagramma a spaghetti: le ascisse sono modalità (giorni di spesa alla settimana), le ordinate sono le
frequenze (numero di clienti corrispondenti a ciascuna delle modalità).
(B) M (X) = 1151/449 = 2.5635, M (X 2 ) = 3603/449 = 8.0245, V (X) = M (X 2 ) − M (X)2 = 1.4531,
σ(X) = 1.2054.
xi
ni
xi ni
x2i ni
1
89
89
89
2
152
304
608
3
113
339
1017
4
65
260
1040
5
21
105
525
6
9
54
324
Somma
449
1151
3603
Esercizio 3. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui Y =’importo spesa
(media settimanale)’, X =’numero spese (settimanali)’.
(A) βb1 = −8.0226, βb0 = 83.9529, σ
b2 = 231.98.
c1 − β1 ]/b
c1 − 0]/b
(B) Test di H0 : β1 = 0 contro H1 : β1 < 0. Variabile test [β
σ (βb1 ). Sotto H0 : [β
σ (βb1 )
distribuita come T (n − 2). Regione di rifiuto per α = 0.01: (−∞, −2.3451) valore campionario della
variabile test −8.5868.
(C) Pivot: σ
b2 (n − 2)/σ 2 con distribuzione χ2 (n − 2). Intervallo (α = 0.05) per σ 2 : [192.4644, 285.108] e
per σ: [13.8732, 16.8851] (valori utili: c1 = 162.728, c2 = 241.0579).
Valori e calcoli utili: n = 202, dev(x) = nV ar(x) = 265.75, dev(y) = nV ar(y) = 63499.29, codev(x, y) =
q
corr(x, y) dev(x)dev(y) = −2132.02, βb1 = codev(x, y)/dev(x) = −8.0226, βb0 = y − βb1 x = 83.9529,
p
√
σ
b2 = (dev(y) − βb2 dev(x))/(n − 2) = 231.98, σ
b(βb1 ) = σ
b2 /dev(x) = 0.8729 = 0.93429.
1
187
94
94.1
Compito del 21.04.2009 (solo studenti PT)
Testo
Premessa: CARS è una rete di concessionarie.
Esercizio 1. CARS valuta periodicamente in che misura la richiesta di un preventivo si trasforma
nell’ordine di una macchina nuova. La seguente tabella confronta la situazione rilevata nel 2007 con
quella del 2008 su due diversi campioni di clienti (sono state considerate solo le auto per uso personale e
familiare).
Preventivi richiesti
Di cui trasformati in ordini
2007
1069
260
2008
1111
227
Assumendo che ogni preventivo sia richiesto indipendentemente dagli altri, si risponda alle seguenti
domande.
(A) Con riferimento al 2008, fornire la stima di massima verosimiglianza della probabilità che un preventivo si trasformi in un ordine. Valutare il corrispondente standard error.
(B) Sempre con riferimento al 2008, calcolare la probabilità che, su 200 preventivi, quelli convertiti in
ordini siano almeno 38 (si assuma che la probabilità che un singolo preventivo venga convertito sia pari
a quella stimata sul campione).
(C) La probabilità che un preventivo si trasformi in un ordine è significativamente cambiata fra 2007 e
2008? Impostare il problema come test delle ipotesi ed effettuarlo mediante in p-value.
Esercizio 2. Una delle maggiori lamentele dei clienti di CARS riguarda il valore residuo della macchina
al momento in cui i clienti decidono di cambiarla. Anche se, ovviamente, questo dipende più dalla
casa madre che dalla concessionaria, un dipendente di CARS (sta preparando l’esame di statistica!) ha
ugualmente effettuato una piccola valutazione. La tabella seguente mostra i dati di un campione di
macchine diesel dello stesso modello (valore residuo = valore al momento del cambio / prezzo di acquisto
in %; età espressa in anni).
Macchina
Età
Valore residuo
1
2.3
44
2
2.2
55
3
2.7
48
4
3.9
32
5
1.2
67
6
1.7
54
(A) Formulare un opportuno modello che colleghi il valore residuo all’età del veicolo e stimarne tutti i
parametri.
(B) Fornire l’intervallo di previsione al 0.05 relativamente al valore residuo di un’auto con un’età di 4.5
anni.
(C) Stimare il valore dei residui corrispondenti alle prime due osservazioni del campione.
Esercizio 3. La seguente tabella mostra la distribuzione della variabile casuale doppia (X, Y ).
x = −1
x=1
y = −1
0.109
0.295
y=0
0.262
0.088
y=1
0.043
0.203
(A) X e Y sono indipendenti? Se sı̀, argomentare la risposta, altrimenti calcolare le probabilità congiunte
in caso di indipendenza e in corrispondenza delle marginali ricavabili dalla tabella.
(B) Tabulare la distribuzione condizionata di Y |X = −1. Calcolarne media e deviazione standard.
94.2
Soluzioni
Esercizio 1.
(A) Assunzioni: X =’preventivo 2008 convertito?’∼ Be(p). Lo stimatore di massima verosimiglianza di
p è pe = X,√stimatore corretto di p con varianza pq/n. Quindi: pe = 227/1111 = 0.2043 è la stima di p e
p
peqe/n = 0.000146 = 0.0121 è lo standard error.
188
(B) Assunzioni di cui sopra. Y = ’numero preventivi convertiti su 200’∼ Bi(n = 200, p = 0.2043).
Usando l’approssimazione Normale N (np = 40.86, npq = 32.51) abbiamo P (Y ≥ 38) ≈ P (Y ≥ 37.5) =
P (Z ≥ −0.589) = 0.72216 (≈ indica la correzione per la continuità).
(C) Assunzioni: X1 =’preventivo 2007 convertito?’∼ Be(p1 ), X2 =’preventivo 2008 convertito?’∼
Be(p2 ).
p
Test di H0 : p1 −p2 = 0 contro H1 : p1 −p2 6= 0. Statistica test sotto H0 : [X 1 −X 2 −0]/ pbqb(1/n1 + 1/n2 )
con distribuzione approssimata N (0, 1) (b
p = stimatore pooled del p comune sotto H0 ).
pValore campionario
della statistica test sotto H0 : zcamp = 2.1797; p − value = 2P [(X 1 − X 2 − 0)/ pbqb(1/n1 + 1/n2 ) >
|zcamp ||H0 ] = 2P [Z > 2.1797|H0 ] = 2 ∗ 0.014639 = 0.029277.
Calcoli e valori utili: n1 = 1069, n2 = 1111
= 0.2432, x2 = 227/1111 = 0.2043,
p x1 = 260/1069 √
pb = p
(260 + 227)/(1069 + 1111) = 0.2234, pbqb(1/n1 + 1/n2 ) = 0.000318 = 0.01785. zcamp = (x1 −
x2 )/ pbqb(1/n1 + 1/n2 ) = 2.1797.
Esercizio 2. Modello di regressione lineare yi = β0 + β1 xi + ui , ui ∼ N (0, σ 2 ), in cui Y =’valore residuo’,
X =’età’.
(A) βb1 = −11.93, βb0 = 77.83, σ
b2 = 20.85.
y 0 − y 0 )/b
σ (b
y 0 ) con
(B) Intervallo di previsione per y in corrispondenza di x0 = 4.5 per α = 0.05. Pivot (b
distribuzione T (n − 2). L’intervallo richiesto è allora [9.9288, 38.3941].
(C) Residui sono stimati con u
bi = yi − ybi , dove ybi = βb0 + βb1 xi .
Calcoli e valori utili:
Macchina
1
xi
2.3
yi
44
x2i
5.29
yi2
1936
xi yi
101.2
u
bi
-6.3975
2
2.2
55
4.84
3025
121
3.4099
3
2.7
48
7.29
2304
129.6
2.3727
4
5
6 Somma
3.9
1.2
1.7
14
32
67
54
300
15.21
1.44
2.89
36.96
1024
4489
2916
15694
124.8
80.4
91.8
648.8
0.6832 3.4845 -3.5528
0
Pn
Pn
da cui: n = 6, x = 2.3333, y = 50, dev(x) = i=1 x2i − nx2 = 4.293, dev(y) = i=1 yi2 − ny 2 = 694,
2
Pn
c1 dev(x) = 83.42, σ
codev(x, y) = i=1 xi yi − nxy = −51.2, dev(RES) = dev(y) − β
b2 = dev(RES)/(n −
2
2
2
y = βb0 + βb1 x0 = 24.16, σ
b (b
y )=σ
b (1/n+(x0 −x) /dev(x)) = 26.28. σ
b(b
y ) = 5.13.
2) = 20.85, σ
b = 4.57, b
0
0
0
Esercizio 3.
(A) Se fossero indipendenti, le frequenze congiunte sarebbero pari al prodotto delle marginali corrispondenti, come dalla seguente tabella. Evidentemente X e Y non sono indipendenti.
x = −1
x=1
y = −1
0.1673
0.2367
0.404
y=0
0.1449
0.2051
0.35
y=1
0.1018
0.1442
0.246
0.414
0.586
1
(B) Distribuzione di Y |X = −1 e prospetto di calcolo dei momenti richiesti come da seguente tabella.
y
-1
0
1
f (y|X = −1)
0.2633
0.6329 0.1039
1
yf (y|X = −1) −0.2633
0
0.1039 −0.1594
y 2 f (y|X = −1)
0.2633
0
0.1039
0.3671
2
2
da cui E(Y |X = −1) = −0.1594, V
p(Y |X = −1) = E(Y |X = −1) − E(Y |X = −1) = 0.3671 −
−0.15942 = 0.3417, σ(Y |X = −1) = V (Y |X = −1) = 0.5846.
189
95
95.1
Compito del 10.06.2009 (solo studenti PT)
Testo
Premessa: Si parla della Serie A di calcio e di una parte del business che vi ruota intorno.
Esercizio 1. La lega di serie A sta analizzando il business che ruota intorno ai gadgets (magliette,
sciarpe ed altri oggetti) venduti con i marchi delle squadre di A: lo studio mira a capire in che misura i
volumi venduti sono legati al numero di tifosi. La tabella seguente riporta alcune statistiche calcolate su
dati 2007 (V indica i volumi venduti presi in logaritmo, T il numero di tifosi presi in logaritmo; per pura
informazione, si nota che la valutazione di entrambe le poste citate sconta forti elementi di incertezza).
n
16
media(T )
13.39
media(V )
16.38
dev.st(T )
1.51
dev.st(V )
1.44
correlazione(V, T )
0.81
Si formuli un opportuno modello che risponda alle esigenze espresse nel testo e si risponda alle seguenti
domande.
(A) Stimare tutti i parametri mediante il metodo dei minimi quadrati.
(B) Indicare quanta parte della variabilità della variabile dipendente è spiegata dal modello considerato.
(C) Sulla base del modello stimato, valutare il residuo per il dato campionario relativo alla SAMPDORIA
(T = 13.7, V = 15.9). La squadra indicata si è comportata meglio o peggio di come previsto dal modello?
(D) Costruire l’intervallo di previsione (α = 0.01) in corrispondenza del valore della variabile indipendente
rilevato per la SAMPDORIA (punto (C) precedente).
Esercizio 2. Una rilevazione telefonica mira a valutare se vi siano differenze comportamento, relativamente all’acquisto di gadgets delle squadre di serie A, fra chi segue la propria squadra prevalentemente
allo stadio e chi invece la vede soprattutto in pay-tv (i dati in tabella sono riferiti alla spesa in gadgets
effettuata in un anno, valori in euro).
tifosi da pay-tv
tifosi da stadio
intervistati
121
244
media
32.7
37.3
√
varianza corretta
19.7
21.4
(A) Sottoporre a test l’ipotesi che non vi sia differenza, circa la spesa in gadgets, fra quando mediamente
spendono le due categorie di tifosi (usare il p-value commentando in breve il risultato).
(B) Determinare l’intervallo di confidenza per α = 0.02 riguardo alla deviazione standard della spesa in
gadgets fra i tifosi da pay-tv.
Esercizio 3. I dati a disposizione hanno consentito di valutare che coloro che hanno visto almeno
una partita di serie A nell’anno sono: il 63.2% fra i maschi, il 39.7% fra le femmine (la popolazione di
riferimento è quella fra 18 e 65 anni). Considerando che in Italia, nella fascia di età indicata, i maschi
sono il 47%:
(A) Presa a caso una persona che nell’anno ha visto almeno una partita di serie A, trovare al probabilità
che questa sia una femmina.
(B) Tabulare le probabilità congiunte dei 4 eventi ottenuti combinando il sesso con il fatto di avere visto
o no una partita di serie A nell’anno (seguire il seguente schema).
Sesso
Maschio
Femmina
95.2
Almeno una partita vista nell’anno
Sı̀
No
??
??
??
??
Soluzioni
Esercizio 1. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui y = V , X = T .
(A) βb1 = 0.7725, βb0 = 6.0369, σ
b2 = 0.815.
190
(B) R2 = 0.6561.
(C) Residuo SAMPDORIA: u
bSAM P = −0.7195. Essendo il residuo di segno negativo si è comportata
peggio di come previsto dal modello.
(D) Intervallo di previsione per y in corrispondenza di x0 = 13.7 con α = 0.01. Pivot (b
y 0 − y 0 )/b
σ (b
y 0 ) con
distribuzione T (n − 2). L’intervallo cercato è [15.9336, 17.3053].
Valori e calcoli utili: n = 16, dev(x) = nV ar(x) = 36.4816, dev(y) = nV ar(y) = 33.1776, codev(x, y) =
q
corr(x, y) dev(x)dev(y) = 28.1802, βb1 = codev(x, y)/dev(x) = 0.7725, βb0 = y − βb1 x = 6.0369, σ
b2 =
(dev(y) − βb12 dev(x))/(n − 2) = 0.815, dev(RES) = dev(y) − βb12 dev(x) = 11.4098, dev(REG) = dev(y) −
dev(RES) = 11.4098, R2 = dev(REG)/dev(y) = 0.6561, (per brevità l’etichetta SAMP viene sostituita
con 0) yb0 = b
y 0 =q
βb0 + βb1 x0 = 16.6195, u
b0 = y0 − yb0 = −0.7195, Vb (b
y0 ) = σ
b2 (1/n + (x0 − x)2 /dev(x)) =
y 0 ) = Vb (b
y 0 ) = 0.2304, α = 0.01, gl = n − 2 = 14, t = 2.9768, intervallo di previsione
0.0531 σ
b(b
[b
y 0 − tb
σ (b
y 0 ), b
y 0 + tb
σ (b
y 0 )] = [15.9336, 17.3053]
Esercizio 2.
(A) Assunzioni: X1 =’Spesa dei tifosi da pay-tv’∼ N (µ1 , σ12 ); X2 =’Spesa dei tifosi da stadio’∼
N (µ2 , σ22 ).
p
Test di H0 : µ1 −µ2 = 0 contro H0 : µ1 −µ2 6= 0. Statistica test sotto H0 : (X 1 −X 2 −0)/ S12 /n1 + S22 /n2
con distribuzione approssimata N (0, 1) (n1 ed n2 sono infatti sufficientemente elevati).
p Valore campionario della statistica test sotto H0 : zcamp = −2.0401; p − value = 2P [(X 1 − X 2 − 0)/ S12 /n1 + S22 /n2 >
|zcamp ||H0 ] = 2P [Z > 2.0401|H0 ] = 2 ∗ 0.020672 = 0.041343.
(B) Assunzioni: quelle di cui sopra per X1 (cui per comodità si toglie il pedice 1). Pivot per σ 2 :
(n − 1)S 2 /σ 2 distribuito come χ2 (n − 1). Intervallo per σ 2 (con α = 0.02): [(n − 1)s2 /c2 , (n − 1)s2 /c1 ] =
[292.989943, 535.769016]; intervallo per σ: [17.11695, 23.14668].
p
2
2
Calcoli e valori utili: n1 = 121, n2 = 244
px1 = 32.7, x2 = 37.3, s1 = 19.7, s2 = 21.4, s1 /n1 + s2 /n2 =
√
5.084241 = 2.25483 zcamp = (x1 −x2 )/ s21 /n1 + s22 /n2 = −2.0401; n−1 = 120, c1 = 86.92, c2 = 158.95.
Esercizio 3. Assunzioni: M =’Maschio’, F =’Femmina’, A =’Almeno una partita vista in un anno’;
P (A|M ) = 0.632, P (A|F ) = 0.397, P (M ) = 0.47.
(A) P (F |A) = P (A|F )P (F )/P (A) = 0.4146, dove P (A) = P (A|F )P (F ) + P (A|M )P (M ) = 0.5074.
(B) Calcolo delle probabilità congiunte secondo la regola delle probabilità composte.
Sesso
Maschio
Femmina
Almeno una partita vista nell’anno
Sı̀
No
0.297
0.173
0.2104
0.3196
191
96
96.1
Compito del 24.06.2009 (solo studenti PT)
Testo
Premessa: Pan-One è una multinazionale del settore alimentare. Fra i diversi prodotti, ha anche una
linea di merendine per bambini (target: età da scuola dell’obbligo).
Esercizio 1. Le merendine della Pan-One sono pubblicizzate da più di un anno con gli stessi spot;
attualmente è in fase di test la nuova campagna pubblicitaria. Un piccolo campione di bambini, che non
ha mai visto né il vecchio né il nuovo spot, è stato selezionato per un giudizio comparato (la seguente
tabella riporta le loro valutazioni convertite in punteggi).
Vecchio spot
Nuovo spot
Anna
5.5
6.8
Bernardo
8
7
Carolina
6.6
7.9
Daniela
4.1
5.1
Enrico
6.5
8.9
Fabio
7.1
8.7
(A) Fornire una stima della differenza di gradimento fra nuovo e vecchio spot; calcolare anche lo standard
error (stima della deviazione standard dello stimatore utilizzato).
(B) Il gradimento medio è significativamente diverso fra i due spot? (α = 0.05)
(C) Calcolare il coefficiente di correlazione fra i giudizi espressi dai bambini nei confronti dei due spot.
Il valore ottenuto supporta la procedura inferenziale utilizzata ai punti A e B?
Esercizio 2. Pan-One due anni fa ha lanciato in Australia una nuova merendina che ha riscosso un ottimo
successo. Si sta pensando di commercializzarla anche in Italia ma non è detto che i gusti siano analoghi.
Su un campione di merendine è stato aumentato (ogni volta di un ammontare diverso e prestabilito)
il contenuto di zucchero (rispetto alle merendine ’australiane’) per valutare le reazioni rispetto al gusto
dei bambini italiani. Ciascuna merendina è stata somministrata ad un diverso bambino che ha espresso
un giudizio; questo è stato a sua volta convertito in un punteggio. Dal modello di regressione applicato
sono stati ricavati i risultati riportati in tabella (n = 28; per il significato dello standard error si veda il
precedente esercizio).
stima
standard error
β0
13.904
1.132
β1
−0.2
0.033
σ2
0.71
0.197
(A) Il gradimento tende a diminuire in modo significativo all’aumentare della quantità di zucchero (α =
0.05)?
(B) Determinare l’intervallo di confidenza per α = 0.02 per la deviazione standard del termine di errore
della regressione.
(C) Dalle statistiche riportate ricavare media e devianza di x.
Esercizio 3. Uno studio ha documentato che i bambini della scuola elementare consumano in media
2.19 merendine al giorno mentre per quelli della scuola media la media è di 1.23 merendine al giorno.
Assumendo che il numero di merendine consumate in un giorno segua una distribuzione di Poisson e che,
nella fascia di età presa in esame, il 65.7% dei bambini frequenti le elementari:
(A) Preso a caso un bambino, calcolare la probabilità che questo consumi più di 2 merendine al giorno.
(B) Calcolare le probabilità a posteriori che un bambino consumi più di 2 merendine al giorno.
96.2
Soluzioni
Esercizio 1. Assunzioni. Essendo il campione lo stesso per i due spot, i dati sono chiaramente appaiati,
2
per cui: D = Y − X ∼ N (µD , σD
), dove Y =’Punteggio nuovo’, X =’Punteggio vecchio’.
√
(A) Stima: d = y − x = 1.1; corrispondente standard error: σ
b(d) = sd / n = 0.4633.
√
(B) Test di H0 : µD = 0 contro H0 : µD 6= 0; statistica test (sotto H0 ) (D − 0)/(SD / n) che la cui
distribuzione sotto H0 è T (n−1). Valore campionario della statistica test: 2.3742; regione di accettazione
per α = 0.05: [−2.5706, 2.5706].
192
q
(C) ρ(x, y) = cod(x, y)/ dev(x)dev(y) = 0.6642. Si tratta di un valore relativamente elevato che supporta
la non indipendenza fra le osservazioni relative alle due merendine.
Calcoli e valori utili:
Anna Bernardo Carolina Daniela Enrico Fabio Somma
xi
5.5
8
6.6
4.1
6.5
7.1
37.8
yi
6.8
7
7.9
5.1
8.9
8.7
44.4
x2i
30.25
64
43.56
16.81
42.25
50.41 247.28
yi2
46.24
49
62.41
26.01
79.21
75.69 338.56
xi yi
37.4
56
52.14
20.91
57.85
61.77 286.07
di
1.3
−1
1.3
1
2.4
1.6
6.6
d2i
1.69
1
1.69
1
5.76
2.56
13.7
Pn
Pn
d = i=1 di = 1.1, dev(d) = i=1 d2i −nd = 6.44 s2d = dev(d)/(n−1) = 1.288, sd = 1.1349; dev(x) = 9.14,
dev(y) = 10, codev(x, y) = 6.35.
Esercizio 2. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui y =’Giudizio’,
x =’Quantità di zucchero’.
(A) Test di H0 : β1 = 0 contro H0 : β1 < 0. Statistica test sotto H0 : (βb1 − 0)/se(βb1 ) che sotto H0 ha
distribuzione T (n − 2). Valore campionario della statistica test −6.0606; regione di rifiuto per α = 0.05:
(−∞, −1.7056).
(B) Pivot σ 2 (n − 2)/σ 2 la cui distribuzione è χ2 (n − 2). Intervallo di previsione per σ 2 con α = 0.02:
[0.4045, 1.5133]; corrispondente intervallo per σ: [0.636, 1.2302] (dalle tavole c1 = 12.1981, c2 = 45.6417)
p
p
b
b2 /se(βb1 )2 = 651.9743, se(βb0 ) = σ
b 1/n + x2 /dev(x) implica
(C) se(
b/ dev(x) implica dev(x) = σ
q β1 ) = σ
x = dev(x)(se(βb0 )2 /b
σ 2 − 1/n) = 33.9619.
Esercizio 3. Assunzioni: E =’scuola elementare’, M =’scuola media’.
(A) P (X > 2) = P (X > 2|E)P (E) + P (X > 2|M )P (M ) = 0.2897.
(B) P (E|X > 2) = P (X > 2|E)P (E)/P (X > 2) = 0.8495, P (M |X > 2) = 1 − P (E|X > 2) = 0.1505.
Calcoli e valori utili:
P (E) = 0.657, P (M ) = 0.343, P (X = 0|E) = 0.1119, P (X = 1|E) = 0.2451, P (X = 2|E) = 0.2684,
P (X > 2|E) = 0.3746, P (X = 0|M ) = 0.2923, P (X = 1|M ) = 0.3595, P (X = 2|M ) = 0.2211,
P (X > 2|M ) = 0.1271. Le probabilità condizionate che precedono sono calcolate facendo uso della
funzione di massa della Poisson.
193
97
97.1
Compito del 08.07.2009 (solo studenti PT)
Testo
Premessa: Si parla di turismo nella provincia di Ravenna.
Esercizio 1. La provincia di Ravenna ha attivato un progetto di monitoraggio dei flussi turistici in ’tempo
reale’ (di norma i dati giungono con un ritardo di mesi ed abbastanza alla rinfusa) in collaborazione con
gli alberghi. Alcuni di questi collaborano attivamente al progetto, altri no o solo in modo parziale. La
seguente tabella di frequenza riporta il quadro della situazione nel 2008 (RSA = Residenze Turistico
alberghiere).
Esercizio
Alberghi 3-5 Stelle
Alberghi 1-2 Stelle e RSA
sı̀
135
71
Collabora
no o solo parzialmente
280
103
(A) Fornire una stima della probabilità che un qualsiasi esercizio collabori al progetto della provincia;
fornire anche lo standard error (stima della deviazione standard) dello stimatore utilizzato.
(B) La probabilità che un esercizio collabori al progetto è significativamente diversa fra i due tipi di
esercizi? Rispondere mediante il p-value.
Esercizio 2. Utilizzando i listini prezzi comunicati e i dati strutturali a disposizione, si cerca di capire
se le variazioni di prezzo fra 2008 e 2009 sono in qualche misura correlate alla dimensione dell’esercizio
in termini di posti letto. La seguente tabella riporta alcune statistiche (P = variazione percentuale dei
prezzi; L = posti letto) per un piccolo campione di imprese.
osservazioni
32
media(P )
2.265
media(L)
112.913
dev.st(P )
0.867
dev.st(L)
41.855
correlazione(P, L)
−0.158
(A) Le variazioni di prezzo sono significativamente legate alla dimensione dell’esercizio (α = 0.02)?
(B) Determinare l’intervallo di confidenza, per α = 0.01, relativamente alla deviazione standard del
termine di errore della regressione.
(C) Scomporre la devianza della variabile dipendente nelle due componenti residua e di regressione
fornendo delle 3 i rispettivi valori.
Esercizio 3. Sui dati pervenuti per il giugno 2009, è stato analizzato il numero di pernottamenti per
cliente, ricavando la seguente tabella di frequenza (per brevità, pernottamenti più brevi di 2 giorni e più
lunghi di 10 giorni sono stati rimossi).
Pernottamenti per cliente
Frequenze relative
2
0.17
3
0.12
4
0.09
5
0.42
6
0.09
7
0.04
8
0.03
9
0.02
10
0.02
(A) Rappresentare graficamente la distribuzione delle frequenze relative del numero di pernottamenti per
cliente.
(B) Calcolare media e varianza della variabile indicata.
(C) Si assuma che ogni pernottamento costi esattamente 69 euro (assunzione ovviamente non realistica).
È possibile calcolare media e varianza della variabile costo dei pernottamenti (durante l’intera vacanza)
per cliente? Se sı̀ effettuare il calcolo, altrimenti spiegare il perché.
97.2
Soluzioni
Esercizio 1.
(A) Assunzioni: X =’Collabora?’∼ Be(p). Stima di p: pb = 0.3497; corrispondente standard error:
0.01965.
(B) Assunzioni: X1 =’Esercizio a 3-5 stelle collabora?’∼ Be(p1 ); X2 =’Esercizio a 1-2 stelle o RSA
collabora?’∼ p
Be(p2 ). Test di H0 : p1 − p2 = 0 contro H0 : p1 − p2 6= 0; statistica test (sotto H0 )
b2 −0)/ pbqb(1/n1 + 1/n2 ) la cui distribuzione è, approssimativamente, N (0, 1). Valore campionario
(b
p1 − X
194
della statistica test: zcamp = −1.9212; p − value = 2P ((X 1 − X 2 − 0)/
2P (Z > 1.9212) = 2 ∗ 0.02736 = 0.05471.
p
pbqb(1/n1 + 1/n2 ) > |zcamp |) =
Calcoli
p
√
Pne valori utili:
pb = i=1 xi /n = 206/589 = 0.3497; se(b
p) = pbqb/n = 0.000386
= 0.01965. pb1 = 135/415 = 0.3253;
p
√
pb2 = 71/174 = 0.40805; pb = (b
p1 n1 + pb2 n2 )/(n1 + n2 ) = 0.3497; pbqb(1/n1 + 1/n2 ) = 0.00186 = 0.04307.
Esercizio 2. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui y = P , X = L.
(A) Test di H0 : β1 = 0 contro H1 : β1 6= 0; Statistica test (sotto H0 ) (βb1 −0)/se(βb1 ) la cui distribuzione è
T (n − 2). Valore campionario della statistica test: tcamp = −0.8764; regione di accettazione per α = 0.02:
[−2.4573, 2.4573].
(B) Pivot σ 2 (n − 2)/σ 2 la cui distribuzione è χ2 (n − 2). Intervallo di previsione per σ 2 con α = 0.01:
[0.437, 1.7012]; corrispondente intervallo per σ: [0.661, 1.3043] (dalle tavole c1 = 13.7867, c2 = 53.672)
(C) dev(y) = 24.054, dev(Res) = 23.4536, dev(Reg) = 0.6005.
Valori e calcoli utili: n = 32, dev(x) = nV ar(x) = 56058.9128, dev(y) = nV ar(y) = 24.054, codev(x, y) =
q
corr(x, y) dev(x)dev(y) = −183.4736, βb1 = codev(x, y)/dev(x) = −0.0033, βb0 = y − βb1 x = 2.6345, σ
b2 =
dev(Res)/(n − 2) = 0.7818, dev(Res) = dev(y) − βb12 dev(x) = 23.4536, dev(Reg) = dev(y) − dev(Res) =
0.6005.
Esercizio 3. Assunzioni: X =’numero pernottamenti per cliente’.
(A) Diagramma a spaghetti, con in ascisse le modalità e in ordinate le frequenze relative.
(B) M (X) = 4.6, V (X) = 3.28.
(C) Y = 69∗X. In base alle proprietà delle statistiche in oggetto si ricava che M (Y ) = 69∗M (X) = 317.4,
V (Y ) = 692 ∗ V (X) = 15616.08.
Calcoli e valori utili:
xi
2
3
4
5
6
7
fi
0.17 0.12 0.09 0.42 0.09 0.04
xi fi 0.34 0.36 0.36 2.1 0.54 0.28
x2i
4
9
16
25
36
49
x2i fi 0.68 1.08 1.44 10.5 3.24 1.96
da cui P
P8
8
M (X) = i=1 xi fi = 4.6, M (X 2 ) = i=1 x2i fi
8
0.03
0.24
64
1.92
9
0.02
0.18
81
1.62
10
0.02
0.2
100
2
Somma
1
4.6
24.44
= 24.44, V (X) = M (X 2 ) − M (X)2 = 3.28.
195
98
98.1
Compito del 09.09.2009 (solo studenti PT)
Testo
Premessa: Una piccola banca locale, la BDL, è stata oggetto di acquisizione da parte un gruppo nazionale
il quale sta progressivamente procedendo alla sua integrazione.
Esercizio 1. Agli analisti del gruppo non appare chiaro se la produttività delle filiali BDL (valutata
come valore aggiunto / costo del personale espresso in %) sia in una qualche modo legata con la loro
dimensione (misurata mediante il costo del personale stesso). La tabella seguente riporta i dati 2008.
Filiale
Produttività
Costo personale
1
4.7
590
2
4.7
590
3
2.8
320
4
6
450
5
5.3
360
(A) Formulare un opportuno modello che risponda alle esigenze degli analisti. Stimarne i parametri.
(B) La produttività varia in modo significativo con la dimensione? (α = 0.05).
(C) Fornire l’intervallo di confidenza (α = 0.05) per la deviazione standard della componente residua.
(D) Calcolare residui di regressione per le prime due osservazioni.
Esercizio 2. L’organizzazione BDL è stata oggetto di revisione al fine di aumentarne la produttività.
I dati della tabella (valori di produttività per addetto di cui si omette l’unità di misura) confrontano le
performances delle diverse filiali prima e dopo tale revisione.
Filiale
Produttività ante riorganizzazione
Produttività post riorganizzazione
1
6.1
5.5
2
5.8
6.2
3
5.6
4
4
5.3
5.6
5
8.1
7.2
(A) La revisione organizzativa ha risultati in termini di miglioramento della produttività? (α = 0.01).
(B) Nella procedura di cui al punto (A), cosa sarebbe cambiato se tutti quei parametri che è stato
necessario stimare per poter calcolare lo standard error utilizzato nella statistica test fossero stati noti?
Effettuare i relativi calcoli assumendo che i valori dei parametri in oggetto siano pari alle stime.
Esercizio 3. Di quando in quando, per i motivi più svariati qualche cliente intenta una causa contro la
banca. Si assuma che, ogni anno, ciascuno dei clienti che ha un conto corrente di tipo professionale intenti
una causa con probabilità 0.021, mentre per ciascuno clienti avente un conto corrente di tipo personale
fa causa con probabilità 0.007. Su una popolazione di conti correnti fatta da 4600 professionali e 8000
personali e assumendo indipendenza di comportamento fra i correntisti:
(A) In totale, in un anno, quante cause si attendono mediamente? Con quale deviazione standard?
(B) Determinare l’intervallo, simmetrico rispetto alla media, per il totale di cause intentate in un anno,
che include il 98% di probabilità.
98.2
Soluzioni
Esercizio 1. Modello di regressione lineare yi = β0 + β1 xi + ui , ui ∼ N (0, σ 2 ), in cui Y =’produttività’,
X =’costo personale’.
(A) βb1 = 0.00304033, βb0 = 3.2954, σ
b2 = 1.6911.
(B) Test di H0 : β1 = 0 contro H0 : β1 6= 0. La statistica test, sotto H0 , è (βb1 − 0)/b
σ (βb1 ) con
distribuzione T (n − 2). Valore campionario della statistica test: 0.5891; regione di accettazione per
α = 0.05: [−3.1824, 3.1824].
(C) Pivot per σ 2 : (n − 2)b
σ 2 /σ 2 la cui distribuzione è χ2 (n − 2); intervallo per σ 2 con α = 0.05:
[0.5427, 23.5094]; corrispondente intervallo per σ: [0.7367, 4.8486] (c1 = 0.2158, c2 = 9.3484).
(D) I residui sono stimati con u
bi = yi − ybi , dove ybi = βb0 + βb1 xi .
Calcoli e valori utili:
196
Filiale
xi
yi
x2i
yi2
xi yi
ybi
u
bi
1
590
4.7
348100
22.09
2773
5.09
−0.39
2
590
4.7
348100
22.09
2773
5.09
−0.39
3
320
2.8
102400
7.84
896
4.27
−1.47
4
5 Somma
450
360
2310
6
5.3
23.5
202500 129600 1130700
36
28.09
116
2700
1908
11050
4.66
4.39
23.5
1.34
0.91
0
Pn
Pn
da cui: n = 5, x = 462, y = 4.7, dev(x) = i=1 x2i − nx2 = 63480, dev(y) = i=1 yi2 − ny 2 = 5.66,
Pn
codev(x, y) = i=1 xi yi −nxy = 193, dev(RES) = dev(y)− βb12 dev(x) = 5.0732, σ
b2 = dev(RES)/(n−2) =
p
√
1.6911, σ
b = 1.3004, σ
b(βb1 ) = σ
b2 /dev(x) = 2.66394e − 05 = 0.0052.
Esercizio 2. Assunzioni. Essendo il campione lo stesso per i due spot, i dati sono appaiati, per
2
cui: D = X − Y ∼ N (µD , σD
), dove X =’produttività post riorganizzazione’, Y =’produttività ante
riorganizzazione’.
√
(A) Test di H0 : µD = 0 contro H0 : µD > 0. La statistica test, sotto H0 , è (D − 0)/(SD / n) con
distribuzione T (n − 1). Valore campionario della statistica test: −1.2765; regione di rifiuto per α = 0.01:
[3.7469, ∞).
√
(B) La statistica D utilizzata al punto (A) ha come standard error sD / n, dove sD serve√a stimare σD .
Se quest’ultimo fosse stato noto, la statistica test (sotto H0 ) sarebbe stata (D − 0)/(σD / n) che la cui
distribuzione sotto H0 è N (0, 1). Valore campionario della statistica test: −1.2765; regione di rifiuto per
α = 0.01: [2.3263, ∞).
Calcoli e valori utili:
Filiale
1
2
di
−0.6
0.4
d2i
0.36 0.16
3
−1.6
2.56
4
5 Somma
0.3 −0.9
−2.4
0.09 0.81
3.98
√
Pn
√
2
da cui: n = 5, d = −0.48, dev(d) = i=1 d2i − nd = 2.828, sD = 0.707 = 0.8408, sD / n = 0.376.
Esercizio 3. Assunzioni: A =’contro corrente di tipo professionale’, B =’contro corrente di tipo personale’; XA =’cliente tipo A fa causa?’∼ Be(pA = 0.021), XB =’cliente tipo B fa causa?’∼ Be(pB = 0.007);
comportamenti dei correntisti indipendenti; nA = 4600, nB = 8000.
(A) YA =’cause totali da clienti tipo A’∼ Bi(nA , pA ), YB =’cause totali da clienti tipo B’∼ Bi(nB , pB ),
cause totali = YA +YB . E(YA +YB ) = E(YA )+E(YB ) = nA pA +nB pB = 96.6+56 = 152.6; V (YA +YB ) =
V (YA ) + V (YB ) = nA pA qA + nB pB qB = 94.5714 + 55.608 = 150.1794 per l’indipendenza; σ(YA + YB ) =
12.2548.
(C) Dati i valori elevati di nA ed nB possiamo approssimare le due Bi di cui sopra con altrettante
N indipendenti e, quindi, la loro somma con una N (µ = 152.6, σ = 12.2548). L’intervallo è allora:
[µ − σz, µ + σz] = [124.09, 181.11], dove z = 2.3263 (α = 0.02)
197
99
99.1
Compito del 16.12.2009 (solo studenti PT)
Testo
Premessa: Un’associazione di amministratori di condominio e una di consumatori hanno commissionato
insieme una rilevazione campionaria al fine di conoscere e valutare aspetti non del tutto noti del rapporto
fra amministratori e condòmini.
Esercizio 1. Nella rilevazione sono stati raccolti elementi per poter calcolare la dimensione media dei
condomini amministrati da ciascun amministratore (in pratica numero appartamenti / numero condomini ); inoltre è stato chiesto a ciascun amministratore di esprimere un punteggio sul grado di rissosità
complessivamente percepito circa i condomini da essi amministrati (0 = situazione assolutamente tranquilla; 10 = situazione da ricovero). Il campione in esame (riferito a centri da 50-mila a 200-mila abitanti
del centro-nord Italia) è composto da 82 unità; alcune statistiche sono riportate nella seguente tabella.
Dimensione
Rissosità
medie
25.8
4.79
varianze-covarianze
Dimensione
Rissosità
Dimensione
75.9
−10.587
Rissosità
−10.587
3.34
Interessa valutare se il grado di rissosità percepito dagli amministratori è in qualche misura legato alla
dimensione media dei condomini amministrati.
(A) Formulare un modello statistico che risponda alle esigenze espresse. Stimarne i parametri.
(B) La rissosità dipende in modo significativo dalla dimensione? (α = 0.01).
(C) Scomporre la devianza della variabile dipendente nelle sue componenti (di regressione e residua)
fornendone i valori. Quale indicazione utile fornisce tale scomposizione?
(D) Fornire l’intervallo di previsione al 1 − α = 0.99 per la variabile dipendente in corrispondenza di un
valore 29.81 della variabile indipendente.
Esercizio 2. X e Y sono due variabili casuali. Si sa che: X ha media 5.4 e varianza 4.57; Y ha media
8.4 e varianza 4.99; sono indipendenti e ciascuna delle due ha distribuzione normale.
(A) Si calcolino le probabilità congiunte degli eventi riportati a margine della seguente tabella:
Y ≤ 11.2
Y > 11.2
X ≤ 5.2
X > 5.2
(B) Si estraggono da X e da Y due campioni casuali semplici indipendenti: quello di X ha dimensione
45; quello di Y ha dimensione 26. Indicare la distribuzione di X − Y , valore dei parametri compreso.
Esercizio 3. Una rilevazione grossolanamente simile a quella dell’esercizio (1) è stata fatta anche sui
condòmini. Ad un campione casuale semplice di intervistati è stato loro chiesto se si ritengono soddisfatti
(molto o abbastanza) del loro amministratore. Fra i condòmini che abitano in piccoli condomini (≤ 15
appartamenti), gli intervistati sono stati 1062 di cui il 49.5% si è detto soddisfatto; fra i condòmini che
abitano in medio grandi condomini (gli altri), gli intervistati sono stati 892 di cui il 45.7% si è detto
soddisfatto.
(A) La proporzione di condòmini soddisfatti è significativamente diversa nei due gruppi di intervistati?
Rispondere mediante il p-value.
(B) Se le dimensioni dei due campioni, invece di quelle riportate sopra, fossero state rispettivamente 9 e
12 sarebbe cambiato qualcosa nella procedura di test? Spiegare senza fare calcoli.
99.2
Soluzioni
Esercizio 1. Modello di regressione lineare yi = β0 + β1 xi + ui , ui ∼ N (0, σ 2 ), in cui Y =’grado di
rissosità’, X =’dimensione media’.
(A) βb1 = −0.13949, βb0 = 8.3887, σ
b2 = 1.9098.
198
(B) Test di H0 : β1 = 0 contro H0 : β1 6= 0. La statistica test, sotto H0 , è (βb1 − 0)/se(βb1 ) con
distribuzione T (n − 2). Valore campionario della statistica test: −7.9627; regione di accettazione per
α = 0.01: [2.6387, −2.6387].
(C) dev(y) = 273.88, dev(REGR) = 121.0927, dev(RES) = 152.7873. R2 = 0.4421, per cui il modello
spiega il 44.21% della variabilità della variabile dipendente.
(D) Intervallo di previsione al 1 − α = 0.99 per y in corrispondenza di x0 = 29.81: [3.7874, 4.674].
Calcoli e valori utili:
n = 82, x = 25.8, y = 4.79, dev(x) = var(x)n = 6223.8, dev(y) = var(y)n = 273.88, codev(x, y) =
cov(x, y)n = −868.13; dev(RES) = dev(y) − βb12 dev(x) = 152.7873; βb1 = codev(x, y)/dev(x) = −0.13949,
p
b
b
b2 = dev(RES)/(n − 2) = 1.9098, σ
b = 1.382; se(βb1 ) =
σ
b2 /dev(x) =
β
√0 = y − β1 x = 8.3887, σ
2
0.000306861 = 0.0175, dev(REGR) = dev(y) − dev(RES) = 121.0927, R = dev(REGR)/dev(y) =
p
0.4421; b
y(x0) = βb0 + βb1 x0 = 4.2307, se(b
y(x0)) = σ
b 1/n + (x − x0 )2 /dev(x) = 0.168, t = 2.63869.
2
Esercizio 2. Assunzioni. X ∼ N (µX = 5.4, σX
= 4.57), Y ∼ N (µY = 8.4, σY2 = 4.99) indipendenti.
(A) Essendo indipendenti vale P (X ≤ 5.2, Y ≤ 11.2) = P (X ≤ 5.2)P (Y ≤ 11.2); allo stesso modo
per le altre caselle. Per il fatto che la distribuzione è normale con i parametri specificati si ottiene
P (X ≤ 5.2) = 0.46273, P (Y ≤ 11.2) = 0.89498, da cui
X ≤ 5.2
X > 5.2
Y ≤ 11.2
0.41413
0.48084
Y > 11.2
0.0486
0.05642
2
2
(B) X ∼ N (µX , σX
/nX ), Y ∼ N (µY , σY2 /nY ) indipendenti, per cui X − Y ∼ N (µX − µY = −3, σX
/nX +
2
σY /nY = 0.29348) dove nX = 45, nY = 26.
Esercizio 3. Assunzioni: X =’condòmino in piccolo condominio soddisfatto’∼ Be(pX ), Y =’condòmino
in medio-grande condominio soddisfatto’∼ Be(pY ).
(A)pTest di H0 : pX − pY = 0 contro H1 : pX − pY 6= 0; statistica test sotto H0 : [(X − Y ) −
0]/ pb(1/nX + 1/nY ) la cui distribuzione è, approssimativamente, N (0, 1) in base alle dimensioni campionarie sufficientementepelevate; valore campionario della statistica test sotto H0 : zcamp = 1.6751; p-value
= 2P ([(X − Y ) − 0]/ pbqb(1/nX + 1/nY ) > |zcamp ||H0 ) = 2P (Z > 1.6751|H0 ) = 2 ∗ 0.04696 = 0.09392.
(B) Se le dimensioni dei due campioni, invece di quelle riportate sopra, fossero state rispettivamente 9 e
12 la procedura di test utilizzata non sarebbe stata legittima, dato che l’approssimazione normale della
distribuzione della statistica test risulta valida, per il teorema del limite centrale, solo caso di dimensioni
campionarie sufficientemente elevate.
Calcoli e valori utili:
n
pX = 1062, nY = 892,√x = 0.495, y = 0.457, pb = (xnX + ynY )/(nX + nY ) = 933.334/1954 = 0.4777,
pbqb(1/nX + 1/nY ) = 0.000515 = 0.02269.
199
100
Compito del 27.01.2010
100.1
Testo
Premessa: TechnoHouse è una società di intermediazione immobiliare attiva nel centro-nord Italia.
Esercizio 1. TechnoHouse sta mettendo in piedi una procedura “oggettiva” per una prima valutazione
“automatica” del valore degli appartamenti in funzione della loro dimensione. Le caratteristiche degli
appartamenti valutati dalla società a Firenze (centro storico e zone collinari escluse) nel secondo semestre
2009 sono riassunte nella seguente tabella. Entrambe le variabili sono prese in logaritmo naturale (v =
ln(valore in euro); d = ln(dimensione in m2 )).
1 X
di
62 i=1
62
1 X
vi
62 i=1
62
2
1 X
di − d
62 i=1
62
1 X
2
(vi − v)
62 i=1
62
62
1 X
di − d (vi − v)
62 i=1
4.51
5.98
0.05146
0.036
0.03485
Si formuli un opportuno modello statistico finalizzato a quanto sopra indicato.
(A) Stimarne tutti i parametri col metodo dei minimi quadrati.
(B) Fornire la stima per intervallo (α = 0.05) per la deviazione standard della componente di residua.
(C) Scomporre la devianza della variabile dipendente nelle sue componenti, di regressione e residua,
fornendone i valori. Derivarne una misura della bontà del modello.
(D) Fornire l’intervallo di previsione (α = 0.02) per il valore in euro di un appartamento di 112m2 .
Esercizio 2. Si ritiene che, fra primo e secondo semestre 2009, in media ci sia stato un leggero calo dei
prezzi per gli appartamenti del centro storico. La tabella seguente riporta i prezzi, in migliaia di euro,
di due distinti campioni di compravendite effettivamente realizzate nei due periodi (per omogeneità il
confronto è su appartamenti fra 90 e 100 m2 ).
Primo semestre
Secondo semestre
410
520
440
470
420
500
450
500
440
500
Si assuma che i prezzi seguano una distribuzione Normale.
(A) L’opinione formulata nel testo dell’esercizio è confermata dai dati campionari? (α = 0.05)
(B) Se, nei due distinti periodi, i prezzi degli appartamenti avessero distribuzioni con parametri pari a
quelli stimati sui due campioni, quale delle due distribuzioni sarebbe più bassa e larga? Perché?
Esercizio 3. Due variabili casuali hanno la seguente distribuzione congiunta.
Y
X
1
2
3
0.11
0.26
4
0.52
0.11
(A) X e Y sono incorrelate? Perché?
(B) Si ricavi la funzione di massa di probabilità della variabile casuale W = X + Y .
100.2
Soluzioni
Esercizio 1. Modello di regressione lineare yi = β0 + β1 xi + ui , ui ∼ N (0, σ 2 ), in cui Y = v =
ln(valore in euro), X = d = ln(dimensione in m2 ).
(A) βb1 = 0.67723, βb0 = 2.9257, σ
b2 = 0.0128.
(B) Pivot per σ 2 : (n − 2)b
σ 2 /σ 2 la cui distribuzione è χ2 (n − 2); intervallo all’1 − α = 0.95 per σ 2 :
[0.0092, 0.019]; corrispondente intervallo per σ: [0.0961, 0.1378] (valori tavola χ2 : c1 = 40.4817, c2 =
83.2977).
(C) dev(y) = 2.232, dev(REGR) = 1.4633, dev(RES) = 0.7687, da cui R2 = 0.6556.
200
(D) Intervallo di previsione al 1−α = 0.98 per y in corrispondenza di x0 = ln(112) = 4.7185: [6.0745, 6.1679];
per derivare il corrispondente intervallo per il valore (invece del suo logaritmo naturale) basta esponenziare
i due estremi: [434.6471, 477.1672] (valore tavola T : t = 2.39012).
Calcoli e valori utili:
n = 62, x = 4.51, y = 5.98, dev(x) = var(x)n = 3.1905, dev(y) = var(y)n = 2.232, codev(x, y) =
cov(x, y)n = 2.1607; dev(RES) = dev(y) − βb12 dev(x) = 0.7687; βb1 = codev(x, y)/dev(x) = 0.67723,
βb0 = y − βb1 x = 2.9257, σ
b2 = dev(RES)/(n − 2) = 0.0128, σ
b = 0.1132; dev(REGR) = dev(y) −
2
b
dev(RES) = 1.4633, R = dev(REGR)/dev(y) = 0.6556; y(x0) = βb0 + βb1 x0 = 6.1212, se(b
y(x0)) =
p
σ
b 1/n + (x − x0 )2 /dev(x) = 0.0195.
Esercizio 2. Assunzioni: X =‘prezzo primo semestre’∼ N (µX , σ 2 ), Y =‘prezzo secondo semestre’∼
N (µY , σ 2 ) (varianze uguali) e campioni indipendenti.
(A) Test di H
q0 : µX − µY = 0 contro H0 : µX − µY < 0 per α = 0.05; la statistica test sotto H0 è
(X − Y − 0)/ Sp2 (1/nX + 1/nY ) con distribuzione T (nX + nY − 2); la regione di rifiuto è (−∞, −1.8595);
il valore campionario statistica test sotto H0 è −6.0758.
(B) La forma della distribuzione Normale (assunta per X ed Y in base al testo dell’esercizio) dipende
2
esclusivamente dalla varianza. Poiché si assume che i valori di σX
e σY2 sono pari alle rispettive stime
2
2
2
(sX = 270, sY = 320), si deduce che σY è maggiore per cui Y ha distribuzione più bassa e larga.
Calcoli e valori utili:
nX = nY = 5, x = 432, y = 498, s2X = 270, s2Y = 320, s2p = [s2X (nX −1)+s2Y (nY −1)]/(nX +nY −2) = 295,
q
√
Sp2 (1/nX + 1/nY ) = 118 = 10.8628.
Esercizio 3.
(A) X e Y sarebbero incorrelate se la loro covarianza fosse zero. Invece C(X, Y ) = E(XY )−E(X)E(Y ) =
4.85 − 1.37 ∗ 3.63 = −0.1231
(B) Dai valori in tabella si calcolano facilmente i possibili valori che W = X + Y può assumere con le
rispettive probabilità:
w
f (w)
4
0.11
5
0.78
6
0.11
201
Scarica

Esercizi di esame con soluzioni