Soluzioni Esercizio 1 1. Ricordiamo che l’ampiezza di un intervallo di confidenza è funzione della numerosità campionaria n e del livello di confidenza. A parità di tutto il resto, l’ampiezza diminuisce al crescere di n e aumenta al crescere di 1 − α. Quindi, se da 1 − α = 0, 95 si passa a 1 − α=0,99 l’ampiezza aumenta, ma per compensare questo aumento possiamo far crescere n. Sia R la variabile casuale che descrive il reddito di un abitante della cittadina. In base alle ipotesi del problema, R ∼ N (µ, σ 2 ) con σ 2 nota. Un intervallo di confidenza per µ al livello 95% con n = 100 è � � � � σ2 σ2 x̄ − 1, 96 , x̄ + 1, 96 100 100 L’ampiezza dell’intervallo è σ 10 Se l’interallo avesse livello di confidenza 99%, al posto di 1,96 avremmo z0,995 = 2, 576 e l’ampiezza dell’intervallo, per una numerosità campionaria n generica, sarebbe σ 2 · 2, 576 √ n 2 · 1, 96 Allora, affinché i due intervalli abbiano uguale ampiezza σ σ 2 · 1, 96 = 2 · 2, 576 √ 10 n Risolvendo l’equazione ottenuta rispetto ad n si ottiene n = 173 (arrotondando). 2. Se σ 2 diminuisce l’ampiezza diminuisce, per compensare questa riduzione e mantenere inalterata l’ampiezza dell’intervallo dobbiamo ridurre n. L’intervallo di confidenza di livello 95% per µ con una varianza di popolazione pari a σ 2 /2 e una numerosità campionaria n generica è � � � � σ2 σ2 x̄ − 1, 96 , x̄ + 1, 96 2n 2n L’ampiezza dell’intervallo è σ 2 · 1, 96 √ 2n Allora, per avere la stessa ampiezza dell’intervallo con n = 100 e varianza pari a σ 2 , deve essere σ σ 2 · 1, 96 = 2 · 1, 96 √ 10 2n Risolvendo l’equazione rispetto a n si deriva n = 50. Esercizio 2 1. Abbiamo visto che una stima corretta di una probabilità è la corrispondente frazione calcolata sul campione osservato. In questo caso, il numero di furti in bigiotteria complessivamente è pari a 1295. Tra questi furti 377 sono commessi da persone di età compresa tra 15 e 21 anni. La frazione cercata è allora 377 = 0, 29 1295 p= 2. 1 − α = 0, 95 � 1 − α/2 = 0, 975 α = 0, 05 z0,975 = 1, 96 L’intervallo cercato è � � � 0, 29 · (1 − 0, 29) 0, 29 · (1 − 0, 29) 0, 29 − 1, 96 ; 0, 29 + 1, 96 = 1295 1295 = (0, 265; 0, 315) 3. Sı̀, perché 0,3 è incluso nel precedente intervallo di livello 95%. Esercizio 3 1. Indichiamo con µ la media dell’aumento delle ore di lavoro e con σ 2 la varianza dell’aumento. Sia µ che σ 2 sono ignoti. Facciamo un’ipotesi di normalità per l’aumento delle ore di lavoro. Gli ingredienti necessari per costruire l’intervallo sono x̄ = 3, 9 s2 = 2, 55 e quindi 2, 52 · 20 s = = 6, 58 19 dove si è supposto che la deviazione standard campionaria specificata nel testo sia quella associata a s2 , �2 1 − α = 0, 9 1 − α/2 = 0, 95 t19;0,95 = 1, 729 Allora, l’intervallo richiesto è � � 3, 9 ± 1, 729 6, 58 20 � = (2, 91; 4, 89) ore 2. Per il nuovo intervallo, abbiamo . t119;0,95 = z0,95 = 1, 645 Allora, � 3, 9 ± 1, 645 � 6, 58 120 � = (3, 52; 4, 29) ore L’intervallo è più corto, come ci potevamo aspettare, dato che all’aumentare della numerosità campionaria, a parità di tutto il resto, si riduce l’ampiezza dell’intervallo. 3. L’ampiezza dell’intervallo del punto precedente è 0,77. Allora, l’ampiezza del nuovo intervallo deve essere 0,77-0,77/4=0,58. Vogliamo determinare la numerosità campionaria n in modo tale che il nuovo intervallo abbia ampiezza 0,58. Per ridurre la dimensione dell’intervallo, a parità di tutto il resto, la numerositè deve aumentare, quindi n > 120. Il nuovo intervallo è � � � 6, 58 3, 9 ± 1, 645 n con ampiezza 2 · 1, 645 � 6, 58 n Risolvendo rispetto a n l’equazione � 6, 58 2 · 1, 645 = 0, 58 n si deriva n = 212 (arrotondando). Esercizio 4 (a) Indicando con πI la percentuale di italiani che andranno in settimana bianca per le vacanze di Natale e con nI = 700 la numerosità del campione, allora la stima campionaria di πI è data da pI = 200/700 = 0, 286. Poichè nI × pI = 200 e nI × (1 − pI ) = 500 sono entrambi maggiori di 5, un intervallo di confidenza approssimato per πI è � pI ± z0,95 pI · (1 − pI ) nI dove z0,95 = 1, 645 e pertanto (0, 286±1, 645×0, 017) = (0, 258 ; 0, 314). (b) Occorre determinare la numerosità campionaria n∗I in modo tale che l’ampiezza dell’intervallo individuato al punto precedente sia minore o uguale a 0,04. Allora � 0, 286 · 0, 714 2 × 1, 645 ≤ 0, 04 n∗I da cui n∗I ≥ 1381, 45, ossia avrebbero dovuto essere intervistati almeno 1382 italiani. (c) Vogliamo saggiare senza effettuare calcoli il sistema di ipotesi con alternativa bilaterale � H0 : πI = 0, 24 H1 : πI �= 0, 24 al livello α = 0, 1. Essendo la numerosità campionaria elevata e siccome l’intervallo di confidenza al 90% (ossia di livello corrispondente ad α = 10%) per πI individuato al punto a) non include il valore 0, 24 specificato dall’ipotesi nulla, tendenzialmente saremmo portati a rifiutare H0 . (d) Indicando con πT la percentuale di tedeschi che andranno in settimana bianca per le vacanze di Natale, vogliamo testare al livello α = 0, 01 il seguente sistema di ipotesi � H0 : π T = π I H 1 : π T > πI Indicando con 30 = 0, 3 100 la percentuale campionaria di tedeschi che andranno in settimana bianca per le vacanze di Natale e con nT la numerosità del campione di tedeschi estratto, il test asintotico da adottare in questo ambito consiste nel rifiutare H0 se pT − pI � > z0,99 = 2, 326 p̄(1 − p̄)( n1T + n1I ) pT = dove pT × nT + pI × nI 200 + 30 = = 0, 287 . nT + nI 100 + 700 Dato che la statistica test risulta pari a 0,29 dobbiamo accettare l’ipotesi nulla H0 . p̄ = Esercizio 5 (a) La media campionaria T1 è uno stimatore corretto per µ, ma anche T2 è corretto infatti � 5E(Y1 ) + 6i=2 E(Yi ) E(T2 ) = = µ. 10 Pertanto, dovendo scegliere quale utilizzare tra i 2, dobbiamo optare per T1 se V (T1 ) ≤ V (T2 ). Indicando con σ 2 la variabilità del contenuto di riso, si ha che 6 V (T1 ) = e 1 � σ2 V (Yi ) = = 0, 17 · σ 2 36 i=1 6 � 25V (Y1 ) + 6i=2 V (Yi ) V (T2 ) = = 0, 3 · σ 2 100 e pertanto è opportuno utilizzare lo stimatore T1 . (b) Per costruire l’intervallo di confidenza richiesto calcoliamo la varianza campionaria corretta: 6 1� 2 1013539 s = yi − (y)2 = − 410, 8332 = 139, 413 gr2 6 i=1 6 2 2 ns da cui s� 2 = n−1 = 6·139,413 = 167, 29 gr2 . L’intervallo di confidenza di 5 livello 1 − α = 0, 99 per σ 2 è dato da � � � � 5 · 166, 97 5 · 166, 97 (n − 1)s� 2 (n − 1)s� 2 ; = ; χ2n−1;1−α/2 χ2n−1;α/2 χ25; 0,995 χ25; 0,005 ossia � 831, 45 831, 45 ; 16, 75 0, 41 � = (49, 64 ; 2027, 93) gr2 . (c) Vogliamo ora saggiare al livello di significatività α = 0, 02 il seguente sistema di ipotesi � H0 : µ = 400 H1 : µ = � 400 Dato che l’alternativa è bilaterale, rifiutiamo H0 se � � � � � � � � � ȳ − µ0 � � 410, 83 − 400 � � � �=� � � = 2, 053 > tn−1;1−α/2 = t5 ; 0,99 = 3, 3649 � � � � �2 166,97 s � � � � n 6 Siccome ciò non è verificato dobbiamo accettare l’ipotesi nulla H0 secondo cui il peso medio delle confezioni prodotte corrisponde al valore dichiarato. Esercizio 6 Indicando con X la spesa bisettimanale per il minimetrò, dal testo si ha che X ∼ N (µ; 5). (a) Dato che: x̄ = 15 euro, 1 − α = 0, 95 e quindi α = 0, 05, z1−α/2 = z0,975 = 1, 96 ed n = 120 allora l’intervallo di confidenza di livello 95% per µ è � � � � � � σ2 5 x̄ ± z1−α/2 = 15 ± 1, 96 = (14, 6; 15, 4) euro. n 120 (b) Essendo soddisfatte le condizioni di applicabilità del Teorema Centrale del Limite, un intervallo di confidenza approssimato di livello 99% per la percentuale richiesta è � � � � � � p (1 − p) 0, 6 (1 − 0, 6) p ± z1−α/2 = 0, 6 ± 2, 576 . n 120 ossia (0, 485 ; 0, 715). (c) Dobbiamo ora verificare al livello α = 0, 02 il seguente sistema di ipotesi: � H0 : π = 0, 55 H1 : π > 0, 55 Essendo soddisfatte le condizioni di applicabilità del Teorema del Limite Centrale, la statistica test adeguata è p − 0, 55 � 0,55·(1−0,55) 120 0, 60 − 0, 55 = � = 1, 101 . 0,55·0,45 120 Il test approssimato prevede di rifiutare H0 se la statistica test risulta superiore al valore soglia z0,98 = 2, 06. Tale condizione non è verificata e pertanto, alla luce dei risultati osservati, dobbiamo accettare l’ipotesi nulla assumendo quindi che la percentuale di residenti a Perugia che utilizzano il minimetrò per motivi non lavorativi sia pari a 55%. (d) Avendo accettato H0 al livello 2% abbiamo la garanzia che p-value> 0, 02. Esercizio 7 (a) Sotto le ipotesi specificate dal problema, un intervallo di confidenza di livello 90% per la differenza tra la media µA del tempo per il caricamento di A, e la media µB del tempo per il caricamento di B è dato da � � � 2 (x̄A − x̄B ) ± t8;0,95 sP · (1/5 + 1/5) dove x̄A è la media campionaria per il provider A 60 + 50 + 65 + 83 + 76 = 66, 8 secondi 5 x̄B è la media campionaria per il provider B x̄A = x̄A = 55 + 61 + 57 + 95 + 71 = 67, 8 secondi 5 e s2P è la varianza combinata. Per determinare s2P , calcoliamo innanzitutto le due varianze campionarie: s2A = 602 + 502 + 652 + 832 + 762 − 66, 82 = 135, 76, 5 s2B = 552 + 612 + 572 + 952 + 712 − 67, 82 = 215, 36 5 Quindi, 135, 76 · 5 + 215, 36 · 5 = 219, 45. 5+5−2 Controllando le tavole della distribuzione t si trova che t8;0,95 = 1, 8595; infine, l’intervallo richiesto è � � � (66, 8 − 67, 8) ± 1, 8595 219, 45 · (1/5 + 1/5) = (−18, 42; 16, 42) secondi s2p = (b) E’ possibile costruire l’appropriato test (i cui ingredienti possono essere derivati dal punto precedente), oppure più semplicemente notare che l’intervallo al 90% per µA − µB include il valore 0, il che implica che al livello 10% i due tempi medi non sono significativamente diversi. (c) Una stima non distorta per il tempo medio µ per il caricamento di C è la media campionaria x̄, mentre per la varianza σ 2 , una stima non distorta è la varianza campionaria corretta s�2 . L’intervallo riportato è della forma � � � �2 x̄ ± t4;0.975 s /n Sappiamo che t4;0.975 = 2, 776 e n = 5. Possiamo allora impostare il sistema di due equazioni in due incognite � � x̄ − 2, 776 s�2 /5 = 52, 4 � x̄ + 2, 776 s�2 /5 = 87, 6 Dalla prima equazione x̄ = 2, 776 � s�2 /5 + 52, 4 che sostituito nella seconda equazione produce � 2 · 2, 776 s�2 /5 + 52, 4 = 87, 6 ossia s� = 14, 18 e s�2 = 201, 07 secondi2 . Sostituendo il risultato nell’espressione per x̄ si ottiene √ x̄ = 2, 776 · 14, 18/ 5 + 52, 4 = 70 secondi Esercizio 8 (a) Indichiamo con π la vera ed ignota probabilità di vincita del premio da 200.000 euro in una data puntata del gioco. La probabilità di vincita nel caso in cui il gioco non sia truccato è 1/20=0,05. Vogliamo verificare ad un livello pari a 1% il seguente sistema di ipotesi � H0 : π = 0, 05 H1 : π < 0, 05 Sia p = 8/200 = 0, 04 la frazione osservata di puntate che risultano nella vincita massima. Poiché 200 · p, 200 · (1 − p) ≥ 5, una statistica test adatta a saggiare il precedente sistema di ipotesi è (0, 04 − 0, 05) � = −0, 649 0,05·0,95 200 Rifiutiamo H0 ad un livello approssimato pari a 0,01 se -0,649 è inferiore a −z0,99 = −2, 33. La condizione non è soddisfatta, pertanto accettiamo l’ipotesi che il gioco non sia truccato. (b) Usando la notazione del punto (a), si richiede un intervallo di confidenza di livello 0,95 per π. Sotto le condizioni sopra specificate, questo è dato da � � � p(1 − p) p ± z0,975 = (0, 013; 0, 067) 200 dove z0,975 = 1, 96. (c) Per un n generico, l’ampiezza dell’intervallo di livello 0,95 per π è � � p(1 − p) 0, 04(1 − 0, 04) = 2 · 1, 96 2 · 1, 96 n n L’ampiezza dell’intervallo al punto (b) è (0,067-0,013)=0,054; se la vogliamo ridurre di 1/4 deve diventare 0,054-(0,054/4)=0,041. Pertanto, la nuova numerosità campionaria n dovrà essere tale che � 0, 04(1 − 0, 04) 2 · 1, 96 = 0, 041 n Risolvendo la precedente equazione rispetto a n si deriva n = 351 (arrotondando), ossia si dovrebbero guardare 351 puntate del programma. (d) Indichiamo con m la vera ed ignota vincita media per puntata. Si vuole verificare ad un livello α pari a 0,1 il sistema � H0 : m = 12500 H1 : m < 12500 Se possiamo assumere che 200 osservazioni siano sufficienti per garantire una buona approssimazione del test asintotico, una statistica test adatta a saggiare il precedente sistema di ipotesi è x̄ − 12500 (12100 − 12500) � � = = −3, 14 S �2 200 18002 200 dove si è assunto che la deviazione standard campionaria di 1800 euro sia la radice di s�2 e non di s2 . Rifiutiamo H0 al livello 10% se la statistica test risulta inferiore al quantile −z0,9 = −1, 28. La condizione di rifiuto è verificata, pertanto, l’evidenza empirica ci indica che la vincita media per puntata è inferiore al valore quotato dagli autori del programma. Esercizio 9 (a) Indichiamo con π la vera ed ignota frazione di famiglie nella popolazione di riferimento che preferiscono mete alternative al mare. Un intervallo di livello approssimato 90% per π è � � � p(1 − p) p ± z0,95 n dove p = (35 + 10)/100 = 0, 45 è la frazione campionaria di scelte alternative al mare, n = 100 è la numerosità campionaria e z0,95 = 1, 645. Combinando questi ingredienti, si ottiene l’intervallo approssimato (0,37;0,53). Si noti che l’approssimazione dell’intervallo può essere considerata soddisfacente, in quanto np, n(1 − p) ≥ 5. (b) Come sopra, indichiamo con π la vera ed ignota frazione di famiglie che nel 2009 preferiscono mete alternative al mare. Si vuole verificare ad un livello α = 0, 05 il seguente sistema di ipotesi: � H0 : π = 0, 4 H1 : π > 0, 4 Una statistica test appropriata per il sistema precedente è � p − 0, 4 0, 4(1 − 0, 4)/n dove p = 0, 45 e n = 100 sono derivati dal punto (a). Combinando gli ingredienti, la statistica test risulta pari a 1,02. Rifiutiamo H0 al livello approssimato α = 0, 05 se 1, 02 > z0,95 = 1, 645. La condizione non è verificata e accettiamo H0 , concludendo che non vi è stato un aumento significativo della percentuale di famiglie che scelgono mete alternative al mare. (c) Indichiamo con µ1 e µ2 , rispettivamente, la spesa media per famiglia per le vacanze al mare e per le vacanze in montagna. Il sistema che vogliamo saggiare per α = 0, 01 è � H 0 : µ1 = µ2 H1 : µ1 > µ2 Se assumiamo che le spese siano normalmente distribuite con uguale varianza per le due mete e se i due campioni sono indipendenti, allora una statistica test adatta a saggiare il precedente sistema di ipotesi è x̄1 − x̄2 � s2p (1/55 + 1/35) dove x̄1 = 2, 5 e x̄2 = 2, 3 sono le medie campionarie, rispettivamente, per le vacanze al mare e in montagna e s2p = 12 · 54 + 1, 22 · 34 = 1, 17 54 + 34 è la varianza campionaria combinata. Combinando gli ingredienti, si deriva una statistica test pari a 0,855. Rifiutiamo H0 se 0, 855 > t98;0,99 dove t98;0,99 può essere approssimato con z0,99 = 2, 33. La condizione non è soddisfatta e concludiamo che la spesa media per le vacanze al mare non è significativamente superiore a quella per le vacanze in montagna. (d) Poiché il p-value del test è 0, 23 > 0, 1, ossia maggiore del più grande valore di α tipicamente impiegato nelle verifiche di ipotesi, possiamo concludere che l’ipotesi nulla di uguaglianza della spesa media tra il 2008 e il 2009 è sostenuta dai dati e può essere accettata a qualsiasi livello di significatività α “ragionevole”. Esercizio 10 (a) Calcoliamo la media campionaria e la varianza campionaria corretta di CR sul campione delle imprese fallite: x̄ = 0, 7 · 24 + 1, 1 · 22 + 1, 3 · 4 = 0, 924 50 � � 50 0, 72 · 24 + 1, 12 · 22 + 1, 32 · 4 2 s = − 0, 924 = 0, 05 49 50 Possiamo, allora, costruire l’intervallo di confidenza richiesto che, sotto ipotesi di normalità di CR, è dato da � � � s�2 x̄ ± t49;0,95 . 50 �2 Poiché i gradi di libertà della t sono maggiori di 30, t49;0,95 può essere approssimato con z0,95 = 1, 645. Sostituendo i valori ottenuti nel precedente intervallo, si deriva � � � 0, 05 0, 924 ± 1, 645 = (0, 87; 0, 98) 50 (b) Non possiamo affermare che la media di CR nelle aziende fallite è significativamente diversa da 0,95 al livello α = 0, 1, in quanto 0,95 è incluso nel precedente intervallo di confidenza. (Si ricorda che un intervallo di confidenza di livello 1-α include tutti i valori del parametro che verrebbero accettati contro una alternativa bilaterale ad un livello di significatività α). (c) Indichiamo con µF e µS , rispettivamente, il valore medio di CR nella popolazione delle aziende fallite e nella popolazione delle aziende sane. Si vuole verificare il seguente sistema di ipotesi � H 0 : µF = µS H1 : µF < µS al livello di significatività α = 0, 01. Se, oltre alle condizioni distributive specificate dal problema, assumiamo l’indipendenza e l’omoschedasticità di CR tra le due tipologie di impresa, allora una statistica test adatta a verificare il sistema di interesse è x̄ − ȳ � , 2 s2p 50 dove x̄ = 0, 924 è la media campionaria di CR sulle imprese fallite, calcolata al punto (a), e ȳ = 1, 1 · 7 + 1, 3 · 17 + 1, 7 · 26 = 1, 48 50 è la corrispondente media sul campione delle imprese sane. Per calcolare la varianza campionaria combinata, s2p , abbiamo bisogno della varianza campionaria per le imprese sane, data da � � 50 1, 12 · 7 + 1, 32 · 17 + 1, 72 · 26 2 − 1, 48 = 0, 06, 49 50 da cui 49 · 0, 05 + 49 · 0, 06 = 0, 055. 50 + 50 − 2 Sostituendo nell’espressione della statistica test, si ottiene -11.85. Si rifiuta H0 al livello α = 0, 01 se −11.85 < −t98;0,99 =· −z0,99 = −2, 33. La condizione è soddisfatta, quindi, rigettiamo H0 e accettiamo H1 , concludendo che le imprese sane sono caratterizzate da un valore medio di CR superiore alle imprese fallite. s2p = (d) Un modo per affrontare il quesito è costruire il test chi–quadrato sulla tabella a doppia entrata campionaria data dal problema. La tabella delle frequenze teoriche sotto ipotesi di indipendenza è data da CR 0,4 � 1,0 1,0 � 1,2 1,2 � 1,4 1,4 � 2,0 Stato di salute dell’impresa Sane Fallite 12 12 14,5 14,5 10,5 10,5 13 13 da cui si deriva χ2 = (12 − 0)2 (13 − 0)2 + ... + = 65, 8 12 13 Rifiutiamo al livello 5% l’ipotesi H0 di indipendenza tra le due variabili se 65, 8 > χ23,0,95 = 7, 81. La condizione è soddisfatta e concludiamo che esiste una relazione tra il valore di CR e lo stato di salute dell’impresa.