Soluzioni
Esercizio 1
1. Ricordiamo che l’ampiezza di un intervallo di confidenza è funzione
della numerosità campionaria n e del livello di confidenza. A parità
di tutto il resto, l’ampiezza diminuisce al crescere di n e aumenta al
crescere di 1 − α. Quindi, se da 1 − α = 0, 95 si passa a 1 − α=0,99
l’ampiezza aumenta, ma per compensare questo aumento possiamo far
crescere n.
Sia R la variabile casuale che descrive il reddito di un abitante della
cittadina. In base alle ipotesi del problema, R ∼ N (µ, σ 2 ) con σ 2 nota.
Un intervallo di confidenza per µ al livello 95% con n = 100 è
�
�
�
�
σ2
σ2
x̄ − 1, 96
, x̄ + 1, 96
100
100
L’ampiezza dell’intervallo è
σ
10
Se l’interallo avesse livello di confidenza 99%, al posto di 1,96 avremmo z0,995 = 2, 576 e l’ampiezza dell’intervallo, per una numerosità
campionaria n generica, sarebbe
σ
2 · 2, 576 √
n
2 · 1, 96
Allora, affinché i due intervalli abbiano uguale ampiezza
σ
σ
2 · 1, 96 = 2 · 2, 576 √
10
n
Risolvendo l’equazione ottenuta rispetto ad n si ottiene n = 173 (arrotondando).
2. Se σ 2 diminuisce l’ampiezza diminuisce, per compensare questa riduzione e mantenere inalterata l’ampiezza dell’intervallo dobbiamo ridurre
n.
L’intervallo di confidenza di livello 95% per µ con una varianza di
popolazione pari a σ 2 /2 e una numerosità campionaria n generica è
�
�
� �
σ2
σ2
x̄ − 1, 96
, x̄ + 1, 96
2n
2n
L’ampiezza dell’intervallo è
σ
2 · 1, 96 √
2n
Allora, per avere la stessa ampiezza dell’intervallo con n = 100 e
varianza pari a σ 2 , deve essere
σ
σ
2 · 1, 96 = 2 · 1, 96 √
10
2n
Risolvendo l’equazione rispetto a n si deriva n = 50.
Esercizio 2
1. Abbiamo visto che una stima corretta di una probabilità è la corrispondente frazione calcolata sul campione osservato. In questo caso,
il numero di furti in bigiotteria complessivamente è pari a 1295. Tra
questi furti 377 sono commessi da persone di età compresa tra 15 e 21
anni. La frazione cercata è allora
377
= 0, 29
1295
p=
2.
1 − α = 0, 95
�
1 − α/2 = 0, 975
α = 0, 05
z0,975 = 1, 96
L’intervallo cercato è
�
�
�
0, 29 · (1 − 0, 29)
0, 29 · (1 − 0, 29)
0, 29 − 1, 96
; 0, 29 + 1, 96
=
1295
1295
= (0, 265; 0, 315)
3. Sı̀, perché 0,3 è incluso nel precedente intervallo di livello 95%.
Esercizio 3
1. Indichiamo con µ la media dell’aumento delle ore di lavoro e con σ 2 la
varianza dell’aumento. Sia µ che σ 2 sono ignoti. Facciamo un’ipotesi
di normalità per l’aumento delle ore di lavoro. Gli ingredienti necessari
per costruire l’intervallo sono
x̄ = 3, 9
s2 = 2, 55
e quindi
2, 52 · 20
s =
= 6, 58
19
dove si è supposto che la deviazione standard campionaria specificata
nel testo sia quella associata a s2 ,
�2
1 − α = 0, 9 1 − α/2 = 0, 95 t19;0,95 = 1, 729
Allora, l’intervallo richiesto è
�
�
3, 9 ± 1, 729
6, 58
20
�
= (2, 91; 4, 89) ore
2. Per il nuovo intervallo, abbiamo
.
t119;0,95 = z0,95 = 1, 645
Allora,
�
3, 9 ± 1, 645
�
6, 58
120
�
= (3, 52; 4, 29) ore
L’intervallo è più corto, come ci potevamo aspettare, dato che all’aumentare della numerosità campionaria, a parità di tutto il resto, si
riduce l’ampiezza dell’intervallo.
3. L’ampiezza dell’intervallo del punto precedente è 0,77. Allora, l’ampiezza del nuovo intervallo deve essere 0,77-0,77/4=0,58. Vogliamo
determinare la numerosità campionaria n in modo tale che il nuovo intervallo abbia ampiezza 0,58. Per ridurre la dimensione dell’intervallo,
a parità di tutto il resto, la numerositè deve aumentare, quindi n > 120.
Il nuovo intervallo è
�
�
�
6, 58
3, 9 ± 1, 645
n
con ampiezza
2 · 1, 645
�
6, 58
n
Risolvendo rispetto a n l’equazione
�
6, 58
2 · 1, 645
= 0, 58
n
si deriva n = 212 (arrotondando).
Esercizio 4
(a) Indicando con πI la percentuale di italiani che andranno in settimana
bianca per le vacanze di Natale e con nI = 700 la numerosità del
campione, allora la stima campionaria di πI è data da pI = 200/700 =
0, 286. Poichè nI × pI = 200 e nI × (1 − pI ) = 500 sono entrambi
maggiori di 5, un intervallo di confidenza approssimato per πI è


�
pI ± z0,95 pI · (1 − pI ) 
nI
dove z0,95 = 1, 645 e pertanto (0, 286±1, 645×0, 017) = (0, 258 ; 0, 314).
(b) Occorre determinare la numerosità campionaria n∗I in modo tale che
l’ampiezza dell’intervallo individuato al punto precedente sia minore o
uguale a 0,04. Allora
�
0, 286 · 0, 714
2 × 1, 645
≤ 0, 04
n∗I
da cui n∗I ≥ 1381, 45, ossia avrebbero dovuto essere intervistati almeno
1382 italiani.
(c) Vogliamo saggiare senza effettuare calcoli il sistema di ipotesi con
alternativa bilaterale
�
H0 : πI = 0, 24
H1 : πI �= 0, 24
al livello α = 0, 1. Essendo la numerosità campionaria elevata e siccome l’intervallo di confidenza al 90% (ossia di livello corrispondente ad
α = 10%) per πI individuato al punto a) non include il valore 0, 24 specificato dall’ipotesi nulla, tendenzialmente saremmo portati a rifiutare
H0 .
(d) Indicando con πT la percentuale di tedeschi che andranno in settimana
bianca per le vacanze di Natale, vogliamo testare al livello α = 0, 01 il
seguente sistema di ipotesi
�
H0 : π T = π I
H 1 : π T > πI
Indicando con
30
= 0, 3
100
la percentuale campionaria di tedeschi che andranno in settimana bianca per le vacanze di Natale e con nT la numerosità del campione di tedeschi estratto, il test asintotico da adottare in questo ambito consiste
nel rifiutare H0 se
pT − pI
�
> z0,99 = 2, 326
p̄(1 − p̄)( n1T + n1I )
pT =
dove
pT × nT + pI × nI
200 + 30
=
= 0, 287 .
nT + nI
100 + 700
Dato che la statistica test risulta pari a 0,29 dobbiamo accettare l’ipotesi nulla H0 .
p̄ =
Esercizio 5
(a) La media campionaria T1 è uno stimatore corretto per µ, ma anche T2
è corretto infatti
�
5E(Y1 ) + 6i=2 E(Yi )
E(T2 ) =
= µ.
10
Pertanto, dovendo scegliere quale utilizzare tra i 2, dobbiamo optare
per T1 se V (T1 ) ≤ V (T2 ). Indicando con σ 2 la variabilità del contenuto
di riso, si ha che
6
V (T1 ) =
e
1 �
σ2
V (Yi ) =
= 0, 17 · σ 2
36 i=1
6
�
25V (Y1 ) + 6i=2 V (Yi )
V (T2 ) =
= 0, 3 · σ 2
100
e pertanto è opportuno utilizzare lo stimatore T1 .
(b) Per costruire l’intervallo di confidenza richiesto calcoliamo la varianza
campionaria corretta:
6
1� 2
1013539
s =
yi − (y)2 =
− 410, 8332 = 139, 413 gr2
6 i=1
6
2
2
ns
da cui s� 2 = n−1
= 6·139,413
= 167, 29 gr2 . L’intervallo di confidenza di
5
livello 1 − α = 0, 99 per σ 2 è dato da
�
� �
�
5 · 166, 97 5 · 166, 97
(n − 1)s� 2 (n − 1)s� 2
;
=
;
χ2n−1;1−α/2 χ2n−1;α/2
χ25; 0,995
χ25; 0,005
ossia
�
831, 45 831, 45
;
16, 75
0, 41
�
= (49, 64 ; 2027, 93) gr2 .
(c) Vogliamo ora saggiare al livello di significatività α = 0, 02 il seguente
sistema di ipotesi
�
H0 : µ = 400
H1 : µ =
� 400
Dato che l’alternativa è bilaterale, rifiutiamo H0 se
�
� �
�
�
� �
�
� ȳ − µ0 � � 410, 83 − 400 �
� �
�=� �
� = 2, 053 > tn−1;1−α/2 = t5 ; 0,99 = 3, 3649
�
� �
�
�2
166,97
s
�
� �
�
n
6
Siccome ciò non è verificato dobbiamo accettare l’ipotesi nulla H0 secondo cui il peso medio delle confezioni prodotte corrisponde al valore
dichiarato.
Esercizio 6
Indicando con X la spesa bisettimanale per il minimetrò, dal testo si ha che
X ∼ N (µ; 5).
(a) Dato che: x̄ = 15 euro, 1 − α = 0, 95 e quindi α = 0, 05, z1−α/2 =
z0,975 = 1, 96 ed n = 120 allora l’intervallo di confidenza di livello 95%
per µ è
�
�
� � �
�
σ2
5
x̄ ± z1−α/2
= 15 ± 1, 96
= (14, 6; 15, 4) euro.
n
120
(b) Essendo soddisfatte le condizioni di applicabilità del Teorema Centrale
del Limite, un intervallo di confidenza approssimato di livello 99% per
la percentuale richiesta è
�
� �
�
�
�
p (1 − p)
0, 6 (1 − 0, 6)
p ± z1−α/2
= 0, 6 ± 2, 576
.
n
120
ossia (0, 485 ; 0, 715).
(c) Dobbiamo ora verificare al livello α = 0, 02 il seguente sistema di ipotesi:
�
H0 : π = 0, 55
H1 : π > 0, 55
Essendo soddisfatte le condizioni di applicabilità del Teorema del Limite Centrale, la statistica test adeguata è
p − 0, 55
�
0,55·(1−0,55)
120
0, 60 − 0, 55
= �
= 1, 101 .
0,55·0,45
120
Il test approssimato prevede di rifiutare H0 se la statistica test risulta
superiore al valore soglia z0,98 = 2, 06. Tale condizione non è verificata
e pertanto, alla luce dei risultati osservati, dobbiamo accettare l’ipotesi
nulla assumendo quindi che la percentuale di residenti a Perugia che
utilizzano il minimetrò per motivi non lavorativi sia pari a 55%.
(d) Avendo accettato H0 al livello 2% abbiamo la garanzia che p-value>
0, 02.
Esercizio 7
(a) Sotto le ipotesi specificate dal problema, un intervallo di confidenza di
livello 90% per la differenza tra la media µA del tempo per il caricamento di A, e la media µB del tempo per il caricamento di B è dato
da
�
�
�
2
(x̄A − x̄B ) ± t8;0,95 sP · (1/5 + 1/5)
dove x̄A è la media campionaria per il provider A
60 + 50 + 65 + 83 + 76
= 66, 8 secondi
5
x̄B è la media campionaria per il provider B
x̄A =
x̄A =
55 + 61 + 57 + 95 + 71
= 67, 8 secondi
5
e s2P è la varianza combinata. Per determinare s2P , calcoliamo innanzitutto le due varianze campionarie:
s2A =
602 + 502 + 652 + 832 + 762
− 66, 82 = 135, 76,
5
s2B =
552 + 612 + 572 + 952 + 712
− 67, 82 = 215, 36
5
Quindi,
135, 76 · 5 + 215, 36 · 5
= 219, 45.
5+5−2
Controllando le tavole della distribuzione t si trova che t8;0,95 = 1, 8595;
infine, l’intervallo richiesto è
�
�
�
(66, 8 − 67, 8) ± 1, 8595 219, 45 · (1/5 + 1/5) = (−18, 42; 16, 42) secondi
s2p =
(b) E’ possibile costruire l’appropriato test (i cui ingredienti possono essere
derivati dal punto precedente), oppure più semplicemente notare che
l’intervallo al 90% per µA − µB include il valore 0, il che implica che al
livello 10% i due tempi medi non sono significativamente diversi.
(c) Una stima non distorta per il tempo medio µ per il caricamento di C
è la media campionaria x̄, mentre per la varianza σ 2 , una stima non
distorta è la varianza campionaria corretta s�2 . L’intervallo riportato è
della forma
�
�
�
�2
x̄ ± t4;0.975 s /n
Sappiamo che t4;0.975 = 2, 776 e n = 5. Possiamo allora impostare il
sistema di due equazioni in due incognite
�
�
x̄ − 2, 776 s�2 /5 = 52, 4
�
x̄ + 2, 776 s�2 /5 = 87, 6
Dalla prima equazione
x̄ = 2, 776
�
s�2 /5 + 52, 4
che sostituito nella seconda equazione produce
�
2 · 2, 776 s�2 /5 + 52, 4 = 87, 6
ossia
s� = 14, 18
e
s�2 = 201, 07 secondi2 .
Sostituendo il risultato nell’espressione per x̄ si ottiene
√
x̄ = 2, 776 · 14, 18/ 5 + 52, 4 = 70 secondi
Esercizio 8
(a) Indichiamo con π la vera ed ignota probabilità di vincita del premio da
200.000 euro in una data puntata del gioco. La probabilità di vincita
nel caso in cui il gioco non sia truccato è 1/20=0,05. Vogliamo verificare
ad un livello pari a 1% il seguente sistema di ipotesi
�
H0 : π = 0, 05
H1 : π < 0, 05
Sia p = 8/200 = 0, 04 la frazione osservata di puntate che risultano
nella vincita massima. Poiché 200 · p, 200 · (1 − p) ≥ 5, una statistica
test adatta a saggiare il precedente sistema di ipotesi è
(0, 04 − 0, 05)
�
= −0, 649
0,05·0,95
200
Rifiutiamo H0 ad un livello approssimato pari a 0,01 se -0,649 è inferiore
a −z0,99 = −2, 33. La condizione non è soddisfatta, pertanto accettiamo
l’ipotesi che il gioco non sia truccato.
(b) Usando la notazione del punto (a), si richiede un intervallo di confidenza
di livello 0,95 per π. Sotto le condizioni sopra specificate, questo è dato
da
�
�
�
p(1 − p)
p ± z0,975
= (0, 013; 0, 067)
200
dove z0,975 = 1, 96.
(c) Per un n generico, l’ampiezza dell’intervallo di livello 0,95 per π è
�
�
p(1 − p)
0, 04(1 − 0, 04)
= 2 · 1, 96
2 · 1, 96
n
n
L’ampiezza dell’intervallo al punto (b) è (0,067-0,013)=0,054; se la vogliamo ridurre di 1/4 deve diventare 0,054-(0,054/4)=0,041. Pertanto,
la nuova numerosità campionaria n dovrà essere tale che
�
0, 04(1 − 0, 04)
2 · 1, 96
= 0, 041
n
Risolvendo la precedente equazione rispetto a n si deriva n = 351 (arrotondando), ossia si dovrebbero guardare 351 puntate del programma.
(d) Indichiamo con m la vera ed ignota vincita media per puntata. Si vuole
verificare ad un livello α pari a 0,1 il sistema
�
H0 : m = 12500
H1 : m < 12500
Se possiamo assumere che 200 osservazioni siano sufficienti per garantire una buona approssimazione del test asintotico, una statistica test
adatta a saggiare il precedente sistema di ipotesi è
x̄ − 12500
(12100 − 12500)
�
�
=
= −3, 14
S �2
200
18002
200
dove si è assunto che la deviazione standard campionaria di 1800 euro
sia la radice di s�2 e non di s2 . Rifiutiamo H0 al livello 10% se la
statistica test risulta inferiore al quantile −z0,9 = −1, 28. La condizione
di rifiuto è verificata, pertanto, l’evidenza empirica ci indica che la
vincita media per puntata è inferiore al valore quotato dagli autori del
programma.
Esercizio 9
(a) Indichiamo con π la vera ed ignota frazione di famiglie nella popolazione
di riferimento che preferiscono mete alternative al mare. Un intervallo
di livello approssimato 90% per π è
�
�
�
p(1 − p)
p ± z0,95
n
dove p = (35 + 10)/100 = 0, 45 è la frazione campionaria di scelte
alternative al mare, n = 100 è la numerosità campionaria e z0,95 =
1, 645. Combinando questi ingredienti, si ottiene l’intervallo approssimato (0,37;0,53). Si noti che l’approssimazione dell’intervallo può
essere considerata soddisfacente, in quanto np, n(1 − p) ≥ 5.
(b) Come sopra, indichiamo con π la vera ed ignota frazione di famiglie che
nel 2009 preferiscono mete alternative al mare. Si vuole verificare ad
un livello α = 0, 05 il seguente sistema di ipotesi:
�
H0 : π = 0, 4
H1 : π > 0, 4
Una statistica test appropriata per il sistema precedente è
�
p − 0, 4
0, 4(1 − 0, 4)/n
dove p = 0, 45 e n = 100 sono derivati dal punto (a). Combinando gli
ingredienti, la statistica test risulta pari a 1,02. Rifiutiamo H0 al livello
approssimato α = 0, 05 se 1, 02 > z0,95 = 1, 645. La condizione non è
verificata e accettiamo H0 , concludendo che non vi è stato un aumento
significativo della percentuale di famiglie che scelgono mete alternative
al mare.
(c) Indichiamo con µ1 e µ2 , rispettivamente, la spesa media per famiglia
per le vacanze al mare e per le vacanze in montagna. Il sistema che
vogliamo saggiare per α = 0, 01 è
�
H 0 : µ1 = µ2
H1 : µ1 > µ2
Se assumiamo che le spese siano normalmente distribuite con uguale
varianza per le due mete e se i due campioni sono indipendenti, allora
una statistica test adatta a saggiare il precedente sistema di ipotesi è
x̄1 − x̄2
�
s2p (1/55 + 1/35)
dove x̄1 = 2, 5 e x̄2 = 2, 3 sono le medie campionarie, rispettivamente,
per le vacanze al mare e in montagna e
s2p =
12 · 54 + 1, 22 · 34
= 1, 17
54 + 34
è la varianza campionaria combinata. Combinando gli ingredienti, si
deriva una statistica test pari a 0,855. Rifiutiamo H0 se 0, 855 > t98;0,99
dove t98;0,99 può essere approssimato con z0,99 = 2, 33. La condizione
non è soddisfatta e concludiamo che la spesa media per le vacanze
al mare non è significativamente superiore a quella per le vacanze in
montagna.
(d) Poiché il p-value del test è 0, 23 > 0, 1, ossia maggiore del più grande
valore di α tipicamente impiegato nelle verifiche di ipotesi, possiamo
concludere che l’ipotesi nulla di uguaglianza della spesa media tra il
2008 e il 2009 è sostenuta dai dati e può essere accettata a qualsiasi
livello di significatività α “ragionevole”.
Esercizio 10
(a) Calcoliamo la media campionaria e la varianza campionaria corretta di
CR sul campione delle imprese fallite:
x̄ =
0, 7 · 24 + 1, 1 · 22 + 1, 3 · 4
= 0, 924
50
�
�
50 0, 72 · 24 + 1, 12 · 22 + 1, 32 · 4
2
s =
− 0, 924 = 0, 05
49
50
Possiamo, allora, costruire l’intervallo di confidenza richiesto che, sotto
ipotesi di normalità di CR, è dato da
�
� �
s�2
x̄ ± t49;0,95
.
50
�2
Poiché i gradi di libertà della t sono maggiori di 30, t49;0,95 può essere approssimato con z0,95 = 1, 645. Sostituendo i valori ottenuti nel
precedente intervallo, si deriva
�
�
�
0, 05
0, 924 ± 1, 645
= (0, 87; 0, 98)
50
(b) Non possiamo affermare che la media di CR nelle aziende fallite è
significativamente diversa da 0,95 al livello α = 0, 1, in quanto 0,95
è incluso nel precedente intervallo di confidenza. (Si ricorda che un
intervallo di confidenza di livello 1-α include tutti i valori del parametro
che verrebbero accettati contro una alternativa bilaterale ad un livello
di significatività α).
(c) Indichiamo con µF e µS , rispettivamente, il valore medio di CR nella
popolazione delle aziende fallite e nella popolazione delle aziende sane.
Si vuole verificare il seguente sistema di ipotesi
�
H 0 : µF = µS
H1 : µF < µS
al livello di significatività α = 0, 01. Se, oltre alle condizioni distributive
specificate dal problema, assumiamo l’indipendenza e l’omoschedasticità di CR tra le due tipologie di impresa, allora una statistica test
adatta a verificare il sistema di interesse è
x̄ − ȳ
�
,
2
s2p 50
dove x̄ = 0, 924 è la media campionaria di CR sulle imprese fallite,
calcolata al punto (a), e
ȳ =
1, 1 · 7 + 1, 3 · 17 + 1, 7 · 26
= 1, 48
50
è la corrispondente media sul campione delle imprese sane. Per calcolare la varianza campionaria combinata, s2p , abbiamo bisogno della
varianza campionaria per le imprese sane, data da
�
�
50 1, 12 · 7 + 1, 32 · 17 + 1, 72 · 26
2
− 1, 48 = 0, 06,
49
50
da cui
49 · 0, 05 + 49 · 0, 06
= 0, 055.
50 + 50 − 2
Sostituendo nell’espressione della statistica test, si ottiene -11.85. Si
rifiuta H0 al livello α = 0, 01 se −11.85 < −t98;0,99 =· −z0,99 = −2, 33.
La condizione è soddisfatta, quindi, rigettiamo H0 e accettiamo H1 ,
concludendo che le imprese sane sono caratterizzate da un valore medio
di CR superiore alle imprese fallite.
s2p =
(d) Un modo per affrontare il quesito è costruire il test chi–quadrato sulla
tabella a doppia entrata campionaria data dal problema. La tabella
delle frequenze teoriche sotto ipotesi di indipendenza è data da
CR
0,4 � 1,0
1,0 � 1,2
1,2 � 1,4
1,4 � 2,0
Stato di salute dell’impresa
Sane
Fallite
12
12
14,5
14,5
10,5
10,5
13
13
da cui si deriva
χ2 =
(12 − 0)2
(13 − 0)2
+ ... +
= 65, 8
12
13
Rifiutiamo al livello 5% l’ipotesi H0 di indipendenza tra le due variabili
se 65, 8 > χ23,0,95 = 7, 81. La condizione è soddisfatta e concludiamo che
esiste una relazione tra il valore di CR e lo stato di salute dell’impresa.
Scarica

Soluzioni