Testi e soluzioni dei compiti di esame di STATISTICA 1 c.l. Economia Aziendale 6 febbraio 2010 1 33. Compito del 26.06.2002 Elenco 34. Compito del 16.07.2002 1. Compito del 17.12.1998 35. Compito del 17.12.2002 2. Compito del 08.01.1999 36. Compito del 08.01.2003 3. Compito del 26.01.1999 37. Compito del 23.01.2003 4. Compito del 10.02.1999 38. Compito del 10.02.2003 5. Compito del 08.06.1999 39. Compito del 23.04.2003 6. Compito del 23.06.1999 40. Compito del 29.05.2003 7. Compito del 13.07.1999 41. Compito del 04.06.2003 8. Compito del 28.09.1999 42. Compito del 25.06.2003 9. Compito del 14.12.1999 43. Compito del 17.07.2003 10. Compito del 11.01.2000 44. Compito del 05.09.2003 11. Compito del 02.02.2000 45. Compito del 18.09.2003 12. Compito del 17.02.2000 46. Compito del 17.12.2003 13. Compito del 03.05.2000 47. Compito del 13.01.2004 14. Compito del 06.06.2000 48. Compito del 27.01.2004 15. Compito del 22.06.2000 49. Compito del 10.02.2004 16. Compito del 12.09.2000 50. Compito del 15.04.2004 17. Compito del 28.09.2000 51. Compito del 28.05.2004 18. Compito del 15.12.2000 52. Compito del 03.06.2004 19. Compito del 15.01.2001 53. Compito del 18.06.2004 20. Compito del 31.01.2001 54. Compito del 07.07.2004 21. Compito del 15.02.2001 55. Compito del 14.09.2004 22. Compito del 06.04.2001 56. Compito del 15.12.2004 23. Compito del 07.06.2001 57. Compito del 11.01.2005 24. Compito del 26.06.2001 58. Compito del 26.01.2005 25. Compito del 11.07.2001 59. Compito del 10.02.2005 26. Compito del 20.09.2001 60. Compito del 31.05.2005 27. Compito del 19.12.2001 61. Compito del 09.06.2005 28. Compito del 09.01.2002 62. Compito del 28.06.2005 29. Compito del 23.01.2002 63. Compito del 13.07.2005 30. Compito del 12.02.2002 64. Compito del 16.12.2005 31. Compito del 04.04.2002 65. Compito del 19.01.2006 32. Compito del 11.06.2002 66. Compito del 02.02.2006 2 67. Compito del 16.02.2006 68. Compito del 16.03.2006 69. Compito del 31.05.2006 70. Compito del 21.06.2006 71. Compito del 12.09.2006 72. Compito del 18.01.2007 73. Compito del 01.02.2007 74. Compito del 15.02.2007 75. Compito del 30.03.2007 76. Compito del 31.05.2007 77. Compito del 05.06.2007 78. Compito del 26.06.2007 79. Compito del 10.07.2007 80. Compito del 07.09.2007 81. Compito del 19.12.2007 82. Compito del 16.01.2008 83. Compito del 31.01.2008 84. Compito del 13.02.2008 85. Compito del 21.04.2008 86. Compito del 18.06.2008 87. Compito del 02.07.2008 88. Compito del 03.09.2008 89. Compito del 18.12.2008 90. Compito del 15.01.2009 91. Compito del 29.01.2009 92. Compito del 12.02.2009 93. Compito del 21.04.2009 94. Compito del 10.06.2009 95. Compito del 24.06.2009 96. Compito del 08.07.2009 97. Compito del 09.09.2009 98. Compito del 16.12.2009 99. Compito del 27.01.2010 3 1 1.1 Compito del 17.12.1998 Testo (1) Un’azienda sita in Firenze manda usualmente un proprio funzionario nelle sedi di Roma, Siena e Bologna. Il viaggio sempre effettuato con le Ferrovie dello Stato: Firenze-Roma il 20% delle volte, Firenze-Bologna il 55 % delle volte e il rimanente 25% Firenze-Siena. Il funzionario partito di prima mattina ha comunicato solamente di essere arrivato in ritardo. (I) Quale la probabilit che esso sia a Siena? (II) E che sia a Roma? Ricorrere alla Tabella 1 delle statistiche annuali di percorrenza. Tabella 1: Statistiche annuali di percorrenza (numero treni nel 1997) sulle tratte considerate. Tratta Treni puntuali Treni totali Firenze-Siena 2714 3252 Firenze-Bologna 6911 9897 Firenze-Roma 7555 9524 (2) In una classe delle medie superiori 3 studenti hanno elevate capacit ed elevato impegno, 6 studenti impegno regolare e capacit elevate, 11 studenti con elevato impegno e capacit regolari ed 3 studenti con impegno e capacit regolari. Un nuovo docente chiama tre studenti per un’interrogazione orale. Quale la probabilit che i tre studenti siano: uno appartenente con elevato impegno e capacit, un’altro con gruppo regolare impegno ed elevate capacit, un’altro con regolare capacit ? (3) Nella Tabella 2 sono riportate le tonnellate di marmo estratte da 3 cave differenti (A,B,C) in 4 mesi. Calcolare media, varianza, coeff. di variazione per il mese I, poi per il mese II . Calcolare un’adeguato indice di connessione e ricavare la percentuale di variabilità spiegata dalla differenza tra cave. Tabella 2: Tonnellate di marmo (in centinaia) estratte da tre cave differenti. Cava - Mese I II III IV A 4.773 4.116 5.6833 2.9673 B 7.0678 3.2368 8.2897 7.5859 C 2.1041 2.3533 1.204 1.7398 (4) Un’azienda produce fogli di materiale plastico trasparente di dimensione 3 m per 8 m, e con spessore assimilabile ad una variabile casuale gaussiana con media 0.528 mm e varianza uguale a 0.0124 . Il prodotto ha mediamente 0.1 difetti per m2 . Al momento della consegna ogni foglio esaminato dal compratore che chiede un risarcimento economico pari al numero di difetti riscontrati per lire 262 pi 799 se il foglio ha spessore non incluso nell’intervallo [ 0.467 , 0.567 ]. Quale il valore atteso del risarcimento economico per un foglio prodotto da tale azienda? Si commenti brevemente la scelta della funzione di massa di probabilit per la variabile casuale ‘numero di difetti’. 1.2 Soluzioni (1) P(Ritardo) = 0.2486465 (I) P(Siena|Ritardo) = 0.1663372 (II) P(Roma|Ritardo) = 0.1662930 (2) P(1o = IE e CE) = 3/23, P(2o = IR e CE| 1o = IE e CE) = 6/22, P(3o = CR| 2o = IR e CE,1o = IE e CE) = 14/21. Siccome non interessa l’ordine occorre moltiplicare per le permutazioni di questi 3 elementi (3! = 6). Risultato =3/23*6/22*14/21*6 = 0.142293 (3) Media(I) = 4.6483 Media(II) = 3.2354 Varianza(I) = 4.1142 Varianza(II) = 0.5179 CV(I) = 0.43636 CV(II) = 0.22242 DevB = 44.17483 DevT = 64.18549 η 2 = 0.688237 4 (4) E(Risarcimento) = 262*E(difetti) + 799*P(spessore ∈ / (0.467,0.567)) = 262*0.1*3*8+799*0.65499885 = 1152.1441 5 2 Compito del 08.01.1999 2.1 Testo (A) Una macchina industriale per la verniciatura impiega un certo solvente chimico. La verniciatura ottimale richiede una quantit di solvente compresa tra 19.3071 e 26.1249 kg. Assumendo che la quantit X di solvente impiegata dalla macchina sia assimilabile ad una variabile casuale Gaussiana con media µ e varianza σ 2 , (1) come regolare il dispositivo di verniciatura perch la la probabilit dell’evento E1 = {X < 19.3071} sia uguale a 0.0205 e la probabilit dell’evento E2 = {X > 26.1249} sia uguale a 0.0181? Come sarebbe possibile ridurre i costi dovuti al solvente pur ottenendo una verniciatura ottimale? (B) Un’azienda produce guanti in gomma, con un numero medio di micro-lacerazioni pari a 0.5239 per guanto. Quale la probabilit che una coppia di guanti rechi complessivamente pi di 2 micro-lacerazioni? (C) In una falegnameria industriale sono prodotti assi di legno con uno spessore che assimilabile ad una variabile casuale Gaussiana. Usando i dati in tabella, (1) effettuare il test bilaterale dell’ipotesi nulla H0 : σ 2 = 1.838 a tre diversi valori di probabilit dell’errore di primo tipo: 0.10, 0.05, 0.01. (2) Commentare brevemente i risultati ottenuti. Tabella 1: Campione di 10 osservazioni (spessori in mm). 32.0009 29.5421 30.632 29.8283 33.4661 28.4688 28.4654 28.3078 26.9319 31.3147 (D) Su 28 salumerie operanti in un certo comune e con medesimo ammontare di vendite, 14 appartengono alla catena di negozi Appia e 14 alla catena di negozi Aurelia. Lo spessore della fetta di salume si distribuisce come una variabile casuale Gaussiana, nella catena di negozi Appia con media 0.2235 e varianza 0.16, mentre nella catena Aurelia con media 0.3782 e varianza 0.25. Quale la probabilit che una fetta di salume adulterata sia stata acquistata in un negozio della catena Aurelia dato che il suo spessore di 0.3266 mm? 2.2 Soluzioni (A) (1) µ = 22.67387 σ = 1.64753 (2) µ = 19.3071 σ = 0 (B) P (X > 2) = 1 − [P (X = 0) + P (X = 1) + P (X = 2)] = 0.0893005 da calcolare per X ∼ P oisson(λ = 2 ∗ 0.5239 = 1.0478). (C) valore campionario della statistica test = 19.179671. (I) α = 0.1: regione accettazione = [3.32511, 16.91898] α = 0.05: regione accettazione = [2.70039, 19.02277] α = 0.01: regione accettazione = [1.73493, 23.58935] (II) Al diminuire di α = P (rif iutare|H0 ) aumenta 1 − α = P (accettare|H0 ) e quindi aumenta l’ampiezza della regione di accettazione. f (0.3266|Aurelia) = 0.4513417 f (0.3266|Aurelia) + f (0.3266|Appia) Note: f (0.3266|Aurelia) e f (0.3266|Appia) sono le densit della distribuzione normale corrispondente; le probabilit a priori P (Aurelia) e P (Appia), essendo entrambe 1/2 sono state semplificate. (D) P (Aurelia|x = 0.3266) = 6 3 3.1 Compito del 26.01.1999 Testo ( A ) Un produttore di nastri magnetici deve consegnare un lotto di 1174 unit. Prima di inviare il lotto, vengono estratti casualmente e controllati 18 pezzi. Nel caso in cui non siano riscontrati difetti, il lotto viene spedito, altrimenti si procede al controllo di ogni nastro. Quale è la probabilità che il lotto non sia consegnato se si assume che: 1) vi siano 22 nastri con difetti nel lotto; 2) vi siano 25 nastri con difetti nel lotto ( B ) Il fatturato annuale di 5 aziende toscane è risultato nel 1997 pari a: 2.9638 ; 2.0367 ; 1.2293 ;2.433 ; 2.7007 miliardi di lire 1) Procedere al calcolo di un appropriato indice di variabilità; 2) Rappresentare graficamente la concentrazione del fenomeno. ( C ) Un catalizzatore chimico è impiegato per aumentare il prodotto utile di una reazione (in Kg). La reazione è ripetuta in analoghe condizioni per 7 volte senza catalizzatore e per altre 7 volte con il catalizzatore. Sapendo che il catalizzatore non modifica la varibilità dei risultati, si effettui un test delle ipotesi per saggiare se vi siano differenze significative imputabili al catalizzatore. Effettuare i calcoli a livello di significatività : 0.10 ed 0.01. Tabella 1: Campione di 7 osservazioni (spessori in mm). Senza: Con: 2.3482 9.402 5.0204 6.2065 4.6712 6.7958 3.8549 7.5236 1.2232 9.8812 3.1651 8.2425 5.1555 9.2238 ( D ) Il carico di rottura in Kg di una barra di materiale plastico assimilabile ad una variabile casuale gamma, con parametro α = 26 e β incognito. Una barra prodotta con un nuovo procedimento ha mostrato un carico di rottura pari a 62.1 Kg. Impiegando il rapporto di verosimiglianza, saggiare l’ipotesi nulla H0 : β = 0.26 verso l’alternativa H1 : β nell’insieme {0.15, 0.30, 0.50}, con significativit uguale a 0.10, e in seguito con con significativit pari a 0.01 (si usi un chiquadro con un grado di libert). La funzione di densit di probabilit gamma definita da: βα f (x; α, β) = Γ(α) · xα−1 · e(−β·x) . 3.2 Soluzioni (A) 1174 − 22 18 (1) P (N C) = 1 − P (X = 0) = 1 − = 1 − 0.709622 1174 18 25 1174 − 25 0 18 (2) P (N C) = 1 − P (X = 0) = 1 − = 1 − 0.676847 1174 18 Se si utilizza l’approssimazione binomiale i risultati vengono leggermente diversi. 22 0 (B) (1) R = (2) i pi qi ∆ 0.8266 = = 0.181854 2M 2 ∗ 2.2727 1 0.2 0.1081 2 0.4 0.2874 3 0.6 0.5015 4 0.8 0.7392 5 1 1 7 (C) Occorre fare un confronto fra medie per dati non appaiati. x = 3.63407, y = 8.1822, s2X = 2.17446, s2Y = 1.95372, s2p = 2.06409 Valore campionario della statistica test = 5.92246 α = 0.1: regione accettazione = [−1.7823, 1.7823] α = 0.01: regione accettazione = [−3.0545, 3.0545] (D) valore campionario della statistica test = 4.1961763 α = 0.1: regione accettazione = [0, 2.7055435] α = 0.01: regione accettazione = [0, 6.6348966] 8 4 4.1 Compito del 10.02.1999 Testo ( A ) Dall’urna U contenente palline di tre colori diversi (Tabella 0) sono estratte due palline con reimmissione. Se le due palline sono uguali allora si procede ad una terza estrazione da U. (1) Quale è la probabilità di procedere alla terza estrazione? (2) Quale è la probabilità che al termine dell’esperimento statistico si abbia almeno una pallina nera tra le estratte? Tabella 0: Urna U. Bianche Rosse Nere 2 3 5 ( B ) Si considerino 3 monete sbilanciate. In tabella 1 sono riportati i valori numerici impressi sulle due facce di ogni moneta e la relative probabilità. Per un lancio simultaneo delle tre monete, si calcoli: (I) La distribuzione campionaria del campo di variazione C; (II) La probabilità dell’evento P [C ≥ 2]. Tabella 1: Caratteristiche di tre monete sbilanciate. Faccia 1 Faccia 2 Prob. Faccia 1 Moneta 1: 79 80 0.27 Moneta 2: 78.5 80.5 0.41 Moneta 3: 80 81 0.40 (C) Il tempo richiesto per completare in corsa un giro di pista assimilabile ad una variabile casuale gaussiana. Utilizzando i tempi ottenuti da un campione di 7 atleti (Tabella 2), eseguire il test delle ipotesi sulla media con H 0 : µ = 123.6848 ed alternativa H 1 : µ > 123.6848. Si impieghi un livello di significativi uguale a 0.10, ed in seguito 0.05. Tabella 2: Tempi ottenuti da un campione di 7 atleti (secondi). 122.202 122.0359 135.6836 125.0614 125.7182 134.2323 126.1651 ( D ) Il diametro esterno in millimetri dei tubi prodotti da un’azienda è assimilabile ad una variabile casuale X con funzione di densità di probabilità: f (X; α, β) = 3.308 · α 2 3 · α + (X − β) 2 con parametro α = 0.09 e β incognito. Una tubo prodotto dall’azienda ha diametro pari a 10.864 millimetri. Impiegando il rapporto di verosimiglianza, saggiare l’ipotesi nulla H0 : β = 10 verso l’alternativa H1 : β nell’insieme {9, 11, 12}, con significativit uguale a 0.10, e in seguito con con significativit pari a 0.01 (si usi un chiquadro con un grado di libert). 4.2 Soluzioni (A) III estraz :0.38 Almeno una nera :0.815 (B) Valori: 0.5; 1; 1.5; 2; 2.5 Probabilità:0.1723; 0.2584; 0.2277; 0.0956; 0.246 Probabilità evento:0.3416 (C) Valore campionario della statistica test = 1.8549265 9 α = 0.10: Regione di rifiuto = (1.4398, +∞) α = 0.05: Regione di rifiuto = (1.9432, +∞) (D) Valore campionario della statistica test = 5.03774 α = 0.10: Regione di rifiuto = (2.7055, +∞) α = 0.01: Regione di rifiuto = (6.6349, +∞) 10 5 5.1 Compito del 08.06.1999 Testo (A) In un mazzo regolare di 52 carte, due carte sono estratte senza reimmissione. (I) Sapendo che la prima non una figura e che superiore a 5, calcolare la probabilit che essa non sia un 9 di colore rosso. (II) Sapendo che la prima un 9, quale la probabilit che la seconda carta sia di picche? ( B ) Nella Tabella 1 riportato il numero di blocchi di marmo estratti da 3 cave differenti (1,2,3) in 3 mesi differenti (1,2,3). Calcolare un’adeguato indice di associazione e spiegare brevemente il risultato ottenuto. Tabella 1: Numero di blocchi di marmo estratti da tre cave differenti. Cava - Mese 1 2 3 1 4 4 0 2 2 5 15 3 0 0 12 (C) L’effetto di un nuovo integratore alimentare viene saggiato impiegando un gruppo di 5 corridori ciclisti. In Tabella 2 sono riportati i tempi di percorrenza della pista senza e con il nuovo integratore. Effettuare il test delle ipotesi (con significativit 0.10) che l’integratore diminuisca il tempo di percorrenza. La decisione finale sarebbe cambiata scegliendo un valore di significativit uguale a 0.01 ? Tabella 2: Campione di 5 osservazioni (tempi). Corridore Senza: Con: I 61 57 II 64 56 III 55 53 IV 63 52 V 62 50 (D) Si ipotizzi che il voto medio negli esami universitari dipenda linearmente dal numero di ore dedicate al sonno, a parit di ore di studio effettuate. Impiegare il metodo dei minimi quadrati per stimare coefficienti del modello impiegando i dati in Tabella 3, e verificare statisticamente l’ipotesi formulata. Tabella 3: Campione di 5 osservazioni (tempi). Voto Medio: Ore sonno: 5.2 18 5.9 30 7.8 20.5 5.9 27.5 7.1 23.7 7.1 Soluzioni (A) (1) P(1a non(9Rosso)|1a non(Figura) e maggiore di 5) = 1-2/(5*4) = 0.9 (2) P(2a picche|1a = 9) = 1/4 = 0.25 (B) Valori dei principali indici di associazione C1 C2 C1 rel C2 rel T 0.18747 0.73168 0.1406 0.51737 0.26767 CP 0.590495 χ2 22.4848 (C) Dati appaiati. Valore campionario della statistica test = -3.8162586 α = 0.1: regione critica = (−∞, −1.533206) α = 0.01: regione critica = (−∞, −3.746947) (D) (1) βb1 = 5.55086 βb0 = −13.58381 σ b2 = 3.514926 (2) Valore campionario della statistica test = 4.947204; regione accettazione (-3.182446,3.182446). 11 6 6.1 Compito del 23.06.1999 Testo (A) Una fotocopiatrice mediamente compie 3.67 errori per 1000 cm2 di area fotocopiata. Copiando un foglio di dimensioni 21.7 cm per 29.7 cm: (I) quale la probabilit che non vi siano errori? (II) Quale la probabilit che il numero di errori sia compreso tra 3 e 5 (inclusi)? (B) Un dado arrotondato ha probabilit 0.275 di fermarsi su di uno spigolo e probabilit 0.12083 per ciascuna delle sei facce recanti i numeri da 1 a 6. In un esperimento casuale se il dado al primo lancio si ferma sullo spigolo lanciato una seconda volta. (I) Quale complessivamente la probabilit di non osservare alcun esito numerico? (II) Quale complessivamente la probabilit di osservare il 6? (C) In Tabella 1 sono riportate le misure di durezza relative ad un campione casuale di 5 leghe metalliche differenti, effettuate con il metodo tradizionale e con un nuovo metodo elettronico economico. (I) Calcolare un conveniente indice di associazione. (II) E’ ragionevole impiegare il nuovo metodo ? Perch? Tabella 1: Campione di 5 misurazioni effettuate con due metodi differenti. Tradizionale: Elettronico: 6.8 6.3 6.2 6.5 4.3 3.7 9.4 6.1 4 4.2 (D) Un idrante agricolo eroga una media di 1201 Kg di acqua ad ogni operazione di irrigazione. In Tabella 2 sono riportati i valori di un campione casuale di 5 misurazioni. Assumendo il modello normale, (I) calcolare l’intervallo di confidenza (livello 90%) della varianza. (II) Sottoporre a test l’ipotesi che la varianza sia uguale a 531.1 (alfa = 0.05), in alternativa ad un valore maggiore. Tabella 2: Campione di 5 misurazioni dei Kg di acqua erogata all’irrigazione. 1193.4 6.2 1157.6 1243.5 1159.7 1213.1 Soluzioni (A) X ∼ P oisson(λ = 2.365278) (I) P (X = 0) = 0.0939232 (II) P (3 ≤ X ≤ 5) = 0.387572 (B) T (I) P (X1 = N SX2 = N ) = 0.075625 (II) P (X1 = N X2 = N ) = 0.1540625 (C) (I) ρ = 0.757525 (D) Nota: µ nota (I) Intervallo = (505.819,4888.508) (II) Valore campionario della statistica test = 10.54353; regione critica = (11.070498, +∞) 12 7 7.1 Compito del 13.07.1999 Testo (A) L’ufficio federale americano di investigazione effettua un controllo sulla regolarit delle assunzioni in una azienda. Nei precedenti 10 anni, vi sono state 1271 domande da parte di bianchi e di neri, con assunzioni riassunte in Tabella 1. Tabella 1: Assunzioni per razza, dati decennali. Assunti Rifiutati Bianchi 274 583 Neri 127 287 Utilizzando le frequenze in tabella: (I) Quale la probabilit di assunzione per un bianco? E quale per un nero? (II) Quale la probabilit che un nuovo assunto sia nero? (B) Un reagente chimico prodotto in lotti. Sia X la variabile casuale associata alla qualit del lotto, con funzione di massa di probabilit riportata in Tabella 2. Tabella 2: Funzione di massa di probabilit. X -2 0 2 p(X) 0.269 0.494 0.237 L’utile ricavabile dalla vendita di un lotto all’estero dato da Y1 = 5x3 + 100, mentre dalla vendita in Italia Y2 = 2x + 50. Sapendo che la probabilit di effettuare la vendita di un lotto all’estero 0.192, (I) Quale l’utile atteso dalla vendita di un lotto? (II) Quale la varianza dell’utile per la vendita all’estero, e quale la varianza complessiva? (C) In uno studio sulla prontezza di riflessi, un campione casuale di 5 individui devono premere un pulsante appena udito un segnale di allarme. In Tabella 3 sono riportati i tempi di risposta, assimilabili ad una gaussiana con varianza 25 ms2 . (I) Calcolare la stima puntuale e quella per intervallo (confidenza 90%) del parametro incognito. (II) Effettuare il test d’ipotesi che il parametro sia uguale a 50 ms, in alternativa ad un valore maggiore ( α = 0.05 ). Tabella 3: Campione di 5 osservazioni. 77 74 77 66 79 ( D ) Un’azienda produce componenti elettronici la cui durata assimilabile ad una variabile casuale gamma, con parametro α = 26 e β incognito. Un componente si guastato dopo 63.5 ore di funzionamento. Saggiare l’ipotesi nulla H0 : β = 0.26 verso l’alternativa H1 : β nell’insieme {0.15, 0.30, 0.50}, ricorrendo al rapporto di verosimiglianza con significativit uguale a 0.10, e in seguito con con significativit pari a 0.01. La funzione di densit di probabilit gamma definita da: βα · xα−1 · e(−β·x) . f (x; α, β) = Γ(α) 7.2 Soluzioni (A) 127 274 = 0.319720, P (A|N ) = = 0.3067633 274 + 583 127 + 287 127 (II) P (N |A) = = 0.3167082 127 + 274 (I) P (A|B) = (B) (I) E(Y ) = 59.2508 13 (II) V (Y1 ) = 8.07962 V (Y2 ) = 807.9616 V (Y ) = 531.8312 (C) (I) µ = 74.6, Intervallo per µ = [70.822,78.178] (II) Valore campionario della statistica test = 11.0015; regione critica = (1.6448, +∞) (D) valore campionario della statistica test = 3.524 α = 0.05: regione accettazione = [0, 3.84146] α = 0.01: regione accettazione = [0, 6.6349] 14 8 8.1 Compito del 28.09.1999 Testo (A) In un’intervista telefonica, 10 soggetti hanno riferito le proprie spese mensili alimentari (Tabella 1, migliaia di lire). Calcolare: (1) L’istogramma di frequenze relative con intervalli di base [500,750), [750,1500),[1500,5000] ed effettuarne la rappresentazione grafica. (2) La mediana, il venticinquesimo ed il settantacinquesimo percentile, il coefficiente di variazione. Tabella 1: Spese mensili alimentari di 10 soggetti (migliaia di lire). 707.1 721.6 504.5 1078.7 1141.6 1411.5 1772.5 1814.6 1504.2 1817 (B) Il numero atteso di reattori chimici venduti in un anno uguale a 1.458. (1) Quale la probabilità di vendere almeno 3 reattori in due anni? (2) Se in seguito ad un cambiamento del mercato il tasso di vendita dovesse diventare 6.384, quale sarebbe il valore atteso del numero di reattori venduti in due anni? Quale la probabilità di non vendere alcun reattore? (C) In un confronto sul reddito pro-capite in due città diverse, si vuole calcolare il rapporto tra le varianze nelle due città considerate. Disponendo dell’informazione campionaria riportata in Tabella 2, calcolare l’intervallo di confidenza (livello 95%) per il rapporto delle varianze città A su B. Tabella 2: Campione di 5 osservazioni per città (in milioni). Città A 2.25 1.94 1.74 1.45 2.31 Città B 2.72 3.18 2.54 2.56 2.16 ( D ) In un esperimento statistico, una moneta che reca sulle facce rispettivamente il numero 1 ed il numero 2 è lanciata una volta, e l’esito riportato è 2. Sia θ la probabilità di un risultato pari ad 1 e 1 − θ di un esito pari a 2. (1) Sottoporre a test l’ipotesi H0 : θ = 0.95 in alternativa a H1 : θ = 0.0148, con significatività del 5%. (2) Calcolare la potenza del test e discutere i risultati ottenuti. 8.2 Soluzioni (A) Ordinata 1 :0.0012 Ordinata 2 :0.0004 Ordinata 3 :0.0001143 Mediana 3 :1276.6 Q1 = 714.35 ; Q3 =1638.35 Coeff. variazione :0.39409 (usando la varianza corretta) (B) Pr. almeno 3 reattori in 2 anni :0.5577 Attesa due anni dopo cambiamento :12.77 Pr. vendita nessun reattore :0.000002851 (C) Media A: 1.938 Dev.std A: 0.3581 Var A : 0.1283 Media B : 2.632 Dev.std B : 0.3689 Var B : 0.1361 15 rapporto varianze: 0.9423 Intervallo : 0.09811 ; 9.0506 (D) Rifiuto Potenza = 0.9852 16 9 9.1 Compito del 14.12.1999 Testo (A) Tre tennisti A, B e C partecipano ad un torneo. L’ordine degli incontri è stabilito mediante il lancio di una moneta. I tennisti che hanno ottenuto un esito identico giocano per primi. I lanci sono effettuati in ordine alfabetico, prima il tennista A e poi il B, mentre il tennista C lancia la moneta solo se i primi due lanci hanno dato esito diverso. Sapendo che la probabilità dell’evento testa è 0.898: 1) Quale è la probabilitè che A e C giochino insieme? 2) Quale è la probabilità che B e C giochino insieme dato che il lancio di A ha dato esito croce? (B) Ad un campione casuale di 7 studenti universitari è stato chiesto di indicare il numero di ore di sonno prima dell’esame di statistica ed il voto ottenuto il giorno successivo all’esame (Tabella 1). Tabella 1: Campione di 7 studenti. Voto d’esame ed ore di sonno nella notte precedente. Ore: 9.44 9.54 6 6.27 6.79 7.94 10.15 Voto: 25.52 23.5 18.47 23.58 25.51 29.54 18.48 (1) Rappresentare graficamente i risultati in tabella. (2) Calcolare un indice relativo di associazione tra voto e ore di sonno. (3) Discutere brevemente i risultati ottenuti. (C) In uno studio sulle vendite annuali di formaggio nei supermercati, sono stati ottenuti i valori relativi ad un campione casuale di 5 supermercati di caratteristiche similari. Impiegando i dati riportati in tabella ed assumendo un modello normale: (1) Effettuare la stima della media con affidabilità 0.99. (2) Calcolare l’informatività ottenuta. Tabella 2: Campione di 5 supermercati: vendite in migliaia di Kg. 153.8 143.4 149.9 147.3 151.6 ( D ) Un corriere di Firenze consegna pacchi in tre regioni del nord Italia. Il 6% delle volte si reca in Lombardia ed il numero medio di pacchi da consegnare è 54. Il 17% delle volte consegna in Veneto ed il numero medio di pacchi è 58. In Piemonte il numero medio di pacchi per consegna è di 17. Il corriere decide di partire nonostante abbia smarrito i documenti di consegna. Verso quale regione deve dirigersi avendo da consegnare 56 pacchi? Perchè ? 9.2 Soluzioni (A) Pro[AC] = 0.0916 Pro[BC|A==C] = 0.8064 (B) Correlaz: -0.019 Stat test: 0.0017 Valore critico: 6.6 (C) Media : 149.2 Varianza : 16.16 Int.inf : 140.9 Int.sup : 157.5 Informatività : 16.6 (D) Lombardia : 0.0513192 17 Veneto : 0.0514066 Piemonte: 4.6802e-014 Denominatore : 0.0118183 Post Lombardia : 0.260541 Post Veneto : 0.73269 Post Piemonte : 0 18 10 10.1 Compito del 11.01.2000 Testo (A) Un’azienda produce fuochi d’artificio a doppia camera. Se la camera C1 esplode, la probabilità che la camera C2 esploda è 0.841. Se la camera C1 non esplode, la probabilità che non esploda C2 0.723. Sapendo che la camera C1 non esplode con probabilità 0.138: 1) Qual è la probabilità che effettuando il lancio non avvengano scoppi? 2) Avendo effettuato un lancio ed udito un solo scoppio, quale è la probabilità che esso sia avvenuto per l’esplosione di C2 ? (B) In una città vi sono 5 autoscuole. Il numero di promossi all’esame di guida durante il 1999 è riportato in Tabella 1. Impiegando i dati riportati: (1) Valutare l’equidistribuzione nel numero dei promossi per le autoscuole considerate. (2) Rappresentare graficamente i valori componenti il calcolo effettuato al punto (1). Tabella 1: Campione di 5 autoscuole: numero di promossi all’esame. A1 A2 A3 A4 A5 490 100 360 490 170 (C) I risultati di un’indagine finanziaria sull’evasione fiscale in 1828 aziende sono stati riassunti per classi di dimensione aziendale (D, numero di dipendenti) e per classi di ammontare evaso (M, milioni). Tabella 2: Numero di aziende indagate per classi di evasione (M) e di dimensione (D). D: [1,50] (50,200] (200,∞) M: 0 18 78 13 (0 , 99] 290 426 297 (99,∞) 270 191 245 (1) Tabellare la funzione di massa di probabilità condizionata di D dato M=0. (2) Calcolare un indice di interconnessione relativo tra M e D che colga qualsiasi tipo di associazione eventualmente esistente. (D) Un’azienda effettua uno studio sull’efficacia del trattamento vitaminico SUPERLAV. Il rendimento lavorativo è stato misurato su di un campione casuale di 4 segretarie che hanno assunto per un mese il preparato SUPERLAV ed su un secondo campione casuale di 3 segretarie che non hanno assunto SUPERLAV. Impiegando i dati riportati in tabella 2 ed assumendo un modello normale per la variabile casuale rendimento lavorativo: (1) Decidere circa l’efficacia del preparato SUPERLAV con probabilit di un errore di tipo I pari a 0.01, assumendo che il preparato SUPERLAV non diminuisca il rendimento. (2) Come aumentare la potenza senza cambiare la dimensione dei due campioni? Con quali ulteriori effetti? Tabella 3: Rendimento lavorativo di due campioni di segretarie. Con SUPERLAV 36 49 48 55 Senza SUPERLAV 54 43 39 10.2 Soluzioni (A) Pro[0 botti] = 0.099774 P [C2|un solo scoppio] = 0.038226 = 0.21808 0.175284 (B) 19 Pi : 0.2 Pi : 0.4 Pi : 0.6 Pi : 0.8 Pi : 1 Qi : 0.06211 Qi : 0.1677 Qi : 0.3913 Qi : 0.6957 Qi : 1 R : 0.3416 (C) C1Rel: 0.12706 C2Rel: 0.16237 Cp: 0.22381 Tschup: 0.026365 (D) Media1 : 47 Media2 : 45.3333 Var 1 : 63.3333 Var 2 : 60.3333 Test stat : 0.276869 Valore critico : 3.36493 20 11 11.1 Compito del 02.02.2000 Testo (A) La serratura a combinazione di una valigia è composta da due cifre. Per aprire la valigia occorre scegliere un numero tra 1 e 8 sulla prima ed un numero tra 1 e 9 sulla seconda cifra. Avendo a disposizione tre soli tentativi, e verificando l’apertura ad ogni estrazione: (1) Quale è la probabilità di trovare la combinazione estraendo completamente a caso le due cifre per un massimo di tre volte? (2) Quale è la probabilità di trovare la combinazione estraendo a caso le due cifre per un massimo di tre volte tenendo conto delle combinazioni già provate? (B) La serie storica del numero di forme di grana padano richieste al distributore italiano in un semestre è riportato in Tabella 1 sotto forma di numeri indice a base fissa (base = sesto mese). (1) Calcolare il numero indice del terzo mese con base uguale al primo mese. (2) Sapendo che il totale del numero di forme richieste nel semestre è di 3340, calcolare il numero di richieste relative al sesto mese. Tabella 1: Numeri indice del semestre (M = mese). M1 M2 M3 M4 M5 M6 625 633.33 250 666.67 508.33 100 (C) Un macchinario produce chiodi di lunghezza nominale pari a 6 cm. Un campione casuale di 7 chiodi è stato misurato per valutare la qualità dei chiodi prodotti. Assumendo un modello di tipo normale per Y (lunghezza del chiodo): (1) sottoporre a test l’ipotesi che il valore atteso della lunghezza sia uguale alla lunghezza nominale (α = 0.05); (2) spiegare formalmente come si potrebbe sottoporre a test l’ipotesi che la varianza nella lunghezza dei chiodi prodotti sia inferiore of uguale al valore 0.6 verso l’alternativa che sia superiore al suddetto valore. Tabella 2: Lunghezze (cm) in un campione di 7 chiodi. 6.6 4.4 6.6 5.1 6.4 5.8 4.4 (D) In uno studio sulla relazione tra investimento pubblicitario, X, e fatturato aziendale mensile, Y, sono stati registrati i valori relativi ad un campione casuale di 5 aziende (vedi Tabella 3). Ipotizzando che il fatturato sia assimilabile ad una variabile casuale gaussiana: (1) Rappresentare graficamente i dati in tabella. (2) Assumendo che E[Y ] = β0 + β1 X effettuare la stima puntuale dei parametri. (3) Sottoporre a test l’ipotesi che il coefficiente della spesa pubblicitaria sia nullo (α = 0.01). (4) Assumendo che un’azienda investa 167.7 milioni di lire in un certo mese, quale è l’intervallo di confidenza (livello 0.95) per il valore del fatturato osservabile in tale mese? Tabella 3: Fatturato osservato (miliardi) per investimento effettuato (milioni). Fatturato 4.78 4.75 4.79 3.13 3.37 Investimento 192 183 188 107 116 11.2 Soluzioni (A) Pro1 = 0.041091 Pro2 = 0.041667 (B) M 1 IM 3 : 0.4 M6 : 120 21 (C) Media1 : 5.6143 Var 1 : 0.9681 Test stat : -1.0372 Critical value : 2.44691 (D) β0 = : 1.02893 β1 = 0.0199432 TeststaT : 25.2531 TeststaF : 637.721 Prob : 0.000136169 Attesa Y : 4.3734 IntervInf : 4.14085 IntervaSup : 4.60595 22 12 12.1 Compito del 17.02.2000 Testo (A) I motori appena assemblati sono sottoposti ad una prova di funzionamento in cui il numero di giri spinto al massimo. Se il dispositivo di raffreddamento non funziona correttamente il motore si guasta con probabilità 0.87. Se il raffreddamento funziona correttamente, il motore si guasta con probabilità 0.11. Sapendo che la probabilità di un guasto al dispositivo di raffreddamento è 0.26: (1) Calcolare la probabilità di esaminare un motore funzionante in cui il dispositivo di raffreddamento funziona regolarmente. (2) Calcolare la probabilità di trovare il raffreddamento guasto esaminando un nuovo motore che si è guastato durante la prova. (B) In uno studio condotto su 200 ospedali Americani, è stato riportato il numero di neonati nel 1972 ed il numero di avvistamenti di cicogne nel medesimo anno. (1) Calcolare un indice relativo per valutare il grado di associazione tra avvistamenti e neonati. (2) Come interpretare i risultati ottenuti? Tabella 1: Numero di ospedali classificati per numero di neonati ed avvistamenti. Avvistamenti [0, 50] [51, ∞) Neonati [0, 50] 43 17 [51, ∞) 14 126 (C) Un macchinario viene impiegato per riempire di marmellata barattoli di vetro. Mediamente, la quantità di marmellata erogata in un’operazione è di 125 grammi. Assumendo un modello di tipo normale per Y (grammi erogati), ed impiegando i risultati provenienti da un campione di 7 barattoli (Tabella 2): (1) calcolare l’intervallo di confidenza per la varianza (livello 0.95); (2) spiegare formalmente come si potrebbe sottoporre a test l’ipotesi che la varianza della quantità erogata sia inferiore of uguale al valore 84.7 verso l’alternativa che sia superiore al suddetto valore. Tabella 2: Grammi di marmellata erogati in un campione casuale di 7 barattoli. 110 111.7 113.3 141.7 117.3 132.8 134.4 (D) Una moneta è stata ripetutamente lanciata a turno da 200 individui fino ad ottenere il primo esito di tipo testa. In Tabella 3 è riportato il numero di insuccessi X prima di osservare testa (dati raggruppati). Sottoporre a test (α = 0.05) l’ipotesi che la forma della distribuzione di X sia geometrica con parametro π = 0.41 (probabilità di osservare testa). Tabella 3: Frequenze assolute degli individui per classi di numero di insuccessi. Frequenze 49 67 84 Numero di insuccessi 0 1 [2, ∞) 12.2 Soluzioni (A) T (1) P (M R) = P (M |R)P (R) = (1 − 0.11) ∗ (1 − 0.26) = 0.6586 P (M |R)P (R) 0.87 ∗ 0.26 (2) P (R|M ) = = = 0.73537 0.3076 P (M ) (B) C1rel : 0.518 C2rel : 0.626 CHI2 : 78.38 23 Tschu : 0.3919 (C) VarStim : 146.59 l1 : 64.084 l2 : 607.24 Chisq1 : 1.6899 Chisq2 : 16.013 (D) Attesa 0 = 82 Attesa 1 = 48.38 Attesa > 1 = 69.62 Valore campionario della statistica test = 23.4169 regione critica = (5.99146, +∞) 24 13 Compito del 03.05.2000 13.1 Testo (A) Uno studente decide di recarsi negli Stati Uniti, acquistando il biglietto meno costoso. La probabilità che tale biglietto sia della compagnia AIR FRANCE è uguale a 0.27, che sia della KLM è 0.1, che sia di altre compagnie è 0.63. La probabilità che il bagaglio dello studente sia irreparabilmente danneggiato durante il viaggio aereo è uguale a 0.92 se il biglietto è di AIR FRANCE, oppure 0.12 se della KLM o di altre compagnie. La probabiltà di ricevere pieno risarcimento dato un danno irreparabile è uguale a 0.88 se il biglietto di AIR FRANCE, mentre è 0.7 con biglietto KLM oppure di altre compagnie. (1)Quale la probabilità che lo studente effettui il viaggio con AIR FRANCE, riscontri un danno irreparabile al bagaglio e riceva pieno risarcimento? (2) Sapendo che lo studente, effettuato il viaggio, ha riscontrato danni irreparabili al bagaglio, quale è la probabilità che abbia viaggiato con AIR FRANCE ? (B) La compagnia AEROFLOP durante il 1999 ha venduto un totale di 2001 biglietti aerei Firenze-San Francisco. In Tabella 1 sono riportati i numeri di biglietti venduti per classe di viaggio: super economica, economica, famiglia, lavoro, e lusso. (1) Calcolare il primo ed il terzo quartile della distribuzione dei biglietti venduti. (2) Rappresentare graficamente il grado di equidistribuzione delle vendite per tipo di biglietto e calcolare un indice riassuntivo. Tabella 1: Distribuzione dei biglietti venduti per classe di viaggio (costo in migliaia di lire). Classe: Super Econ. Econ. Famiglia Lavoro Lusso Costo Biglietto: 870 1050 1350 1600 2500 Numero Biglietti: 508 300 134 107 952 (C)La compagnia aerea FASTFLIGHT dichiara di avere venduto nel periodo 1994-1998 metà dei biglietti transoceanici totali venduti nel mondo. Un campione casuale di 84047 titolari di biglietto stato estratto tra coloro che nel quinquennio citato hanno effettuato voli transoceanici, e 41924 hanno dichiarato di aver volato con FASTFLIGHT. Sottoporre a test statistico la dichiarazione della compagnia FASTFLIGHT in alternativa all’ipotesi che il numero di biglietti venduti sia inferiore al dichiarato (α = 0.05); (D) Il carburante richiesto da un aereo di tipo JUMBO per compiere un volo di 1000 miglia a pieno carico dipende, tra le altre cose, da quante ore di volo il JUMBO ha effettuato in passato. Il carburante consumato Y da un campione casuale di 5 aerei JUMBO stato misurato su di un volo di 1000 miglia a pieno carico , e per ogni aereo stato riportato il numero di ore X di volo gi effettuate (Tabella 2). (1) Rappresentare graficamente i dati in tabella. (2) Assumendo che E[Y ] = β0 + β1 X effettuare la stima puntuale dei parametri. (3) Quale è il valore atteso del consumo per un aereo JUMBO con 13.9 ore di volo all’attivo? Tabella 2: Consumo osservato (centinaia di Kg) ed ore di volo (in centinaia). Consumo: 29.9 35.6 29.1 38 26.1 Ore: 19 16 6 17 9 13.2 Soluzioni (A) Pro1 = 0.21859 Pro 2 = 0.73929 (B) Pi : Pi : Pi : Pi : Pi : 0.2539 0.4038 0.4708 0.5242 1 25 Qi : 0.1267 Qi : 0.217 Qi : 0.2688 Qi : 0.3179 Qi : 1 R : 0.2254 (C) P : 0.49882 P0 : 0.5 sqrt(P0Q0/n) : 0.0017247 Z : -0.68642 Zcritico : -1.6449 (D) β0 = 24.6097 β1 = 0.532109 E[Y] : 32.0061 26 14 14.1 Compito del 06.06.2000 Testo (A) Uno pescatore sportivo si reca al lago GETFISH a pescare trote. Un pescatore della zona riferisce che si pescano mediamente 3 trote in due ore. Si assuma che il numero di pesci pescati in intervalli di tempo non sovrapposti siano indipendenti e che il numero medio di pesci pescati in un intervallo di tempo sia proporzionale alla sua ampiezza. Quanti minuti il pescatore sportivo deve dedicare alla pesca per pescare almeno una trota con probabilità 0.84? (B) La probabilità di pescare trote al lago GETFISH in una giornata dipende dal clima. Siano definiti gli eventi: W = clima piovoso, C = più di 15 kg di pesce pescati, T = pescato contenente trote. Impiegando i dati riportati in Tabella 1, calcolare: (1) La probabilità di pescare trote in una giornata piovosa. (2) La probabilità che la giornata sia piovosa sapendo che vi sono trote tra il pesce che è stato pescato. Tabella 1: Tavola dei valori di probabilità per diverse combinazioni di eventi. Evento Probabiltà W ∩C ∩T 0.423 W ∩C ∩T 0.1795 W ∩C ∩T 0.1813 W ∩C ∩T 0.0769 W ∩C ∩T 0.0294 W ∩C ∩T 0.0125 W ∩C ∩T 0.0685 W ∩C ∩T 0.0291 (C) La quantità di pesce (in Kg) pescata in una giornata sul lago GETFISH da un pescatore sportivo è assimilabile ad una variabile casuale Gaussiana. In Tabella 2 sono riportati i Kg di pesce pescati da un campione casuale di 4 pescatori sportivi che impiegano la canna da pesca SUPERFISHING, ed i Kg pescati da un campione casuale di 4 sportivi che usano la canna BADFISHING. Sottoporre a test statistico l’ipotesi che non ci siano differenze di pescato imputabili alla scelta della canna da pesca (α = 0.05 e medesima varianza σ 2 incognita). Tabella 2: Peso in Kg del pescato da due campioni di sportivi. SUPERFISHING 17.28 22.76 16.65 19.87 BADFISHING: 17.61 22.84 22.5 19.6 (D) Il lago GETFISH contiene principalmente 3 tipi di pesce: trota, pescegatto, alborella. In Tabella 3 è riportata la distribuzione di frequenze relativa ad un campione di pesci la cui grandezza è 4607. Sottoporre a test (α = 0.05) l’ipotesi che le probabilità di pescare una trota, un pescegatto, un alborella siano rispettivamente uguali a 0.2, 0.1, 0.5. Tabella 3: Distribuzione di frequenze in un campione di pesci. Trota Pescegatto Alborella Altro Osservata 1073 462 966 2106 Ipotizzata 0.2 0.1 0.5 0.2 14.2 Soluzioni (A) Numero di minuti: 73.3 (B) Prob[W ∩ T ] : 0.6043 Prob[W | T ] : 0.8606 27 (C) Differenza medie : -1.4975 Denominatore : 1.8677 statistica t empirica : -0.80179 t tabellato : 2.4469 (D) Attesa T = 921.4 Attesa P = 460.7 Attesa A = 2303.5 Attesa Altro = 921.4 Chi = 2324.53 Valore critico = 7.81473 28 15 15.1 Compito del 22.06.2000 Testo (A) Il numero di clienti serviti nella pizzeria PIZZAFLAT in 2 giorni lavorativi è assimilabile ad una variabile casuale di Poisson con media 68. Assumendo che vi siano 25 giorni lavorativi in un mese: (1) Calcolare il coefficiente di variazione del numero di clienti serviti in un mese. (2) Calcolare la probabilità che in un mese siano serviti meno di 821 clienti o più di 879 clienti ricorrendo ad una conveniente approssimazione. (B) La pizzeria PIZZAFLAT ha commissionato un’indagine per conoscere le preferenze dei potenziali clienti. In un campione casuale di 7360 consumatori abituali, gli intervistati hanno indicato la propria preferenza e la propria età (Tabella 1). (1) Il tipo di pizza preferita dipende dall’età del cliente? (2) Quale è la probabilità che un cliente chieda una pizza margherita dato che la sua età è un punto nell’insieme {16, ..., 25} anni? Tabella 1: Distribuzione degli intervistati per classe di età e preferenza di pizza. Pizza margherita Altre pizze ≤ 15 295 442 {16, ..., 25} 736 2944 > 25 293 2650 (C) Nella pizzeria PIZZAFLAT, il miscelatore di impasto deve erogare una quantità nominale di lievito pari a 7 grammi per pizza. In Tabella 2 sono riportati i grammi di lievito per pizza misurati in un campione casuale di 5 pizze. Assumendo che la variabile grammi erogati sia assimilabile ad una variabile casuale Gaussiana: (1) Sottoporre a test statistico l’ipotesi il miscelatore funzioni correttamente (α = 0.05). (2) Come regolereste teoricamente il dispositivo (media e varianza) per minimizzare i costi di produzione dovuti al lievito? Tabella 2: Quantità di lievito per pizza (in g) in un campione casuale di 5 pizze. 3.08 3.56 4.92 4.12 4.09 (D) Si assuma che il fatturato della pizzeria PIZZAFLAT nell’anno 2001 dipenda solo da tre scenari relativi all’economia del paese: recessione (R), stasi (S), espansione (E). Per ognuno degli scenari, il fatturato di PIZZAFLAT nel trimestre gennaio-marzo è assimilabile ad una variabile casuale gaussiana con varianza 260 e con media µR = 50.6, µS = 100.5, µE = 250.6. Ammettendo che al termine del primo trimestre PIZZAFLAT abbia fatturato 91.5 milioni: (1) Valutare la bontà dell’ipotesi R (α = 0.05). (2) Calcolare la probabilità che lo scenario sia di tipo S, ammettendo che a priori le probabilità di verificarsi degli scenari siano rispettivamente P [R] = 0.2, P [S] = 0.3 e P [E] = 0.5. 15.2 Soluzioni (A) Coefficiente di variazione: 0.0343 Probabilità evento (via Gaussiana): 0.3199 (B) C1rel : 0.1285 C2rel : 0.2277 CHI2: 381.4436 Probab. : 0.2 (C) 29 Media : 3.954 Dev.std : 0.6889 Statistica t empirica : -9.8869 t Student : 2.7764 (D) Likelihood R : 0.000991569 Max Lik.denom : 0.0211726 Loglikelihood Rapporto (LR): 0.0468327 -2 LR = 6.12235 Valore critico = 3.84146 P [S|x] =0.969723 30 16 Compito del 12.09.2000 16.1 Testo (A) Un investitore decide di comperare azioni sul mercato petrolifero. Il numero di azioni che riesce a rastrellare assimilabile ad una variabile casuale X che assume valori {1000,3000,5000} con funzione di massa di probabilit: p(X=1000) = 0.413, p(X=3000) = 0.421, p(X=5000) = 0.166. Si assuma che ad un anno di distanza una singola azione renda una valore Z, variabile casuale che assume valori {1.1,1.3,1.6} con funzione di massa di probabilit: p(Z=1.1) = 0.29, p(Z=1.3) = 0.292, p(Z=1.6) = 0.418. Assumendo che il valore ad un anno sia dato da Y = Z · X, e che Z ed X siano indipendenti: (1) Trovare la funzione di massa di probabilità di Y . (2) Calcolare il valore atteso ed il coefficiente di variazione di Y . (B) Il mercato petrolifero dominato da 7 compagnie, che producono barili (in milioni) secondo quanto riportato in tabella. (1) Calcolare la concentrazione. (2) Rappresentare la Curva di Lorentz. OilAsia 24 OilAfrica 384 CheapOil 162 MixOil 492 PexOil 450 PetrOil 96 SineOil 401 (C) Una compagnia di trivellazione effettua uno studio per valutare la profondit a cui situato il petrolio. Impiegando 5 metodi diversi, ottiene i valori in tabella. i=1 1379.8 2 1380 3 1382.2 4 1380.9 5 1381.3 Impiegando i risultati in tabella: (1) si assuma il modello yi = µ + εi in cui µ la vera profondit e εi l’errore commesso dal i-esimo metodo che fornisce l’indicazione yi ; stimare µ con i minimi quadrati. (2) Sottoporre a test (α = 0.1) l’ipotesi µ = 1350 metri, assumendo che la distribuzione degli errori (indipendenti) sia N(0,1). (D) Si assuma che la profondit a cui si guastano le trivelle di perforazione petrolifera sia assimilabile ad una variabile casuale Gaussiana, come media µ e varianza σ 2 . Se il coefficiente di variazione costante e pari a 2.4%: (1) Quanto deve essere grande il campione perch l’informativit dell’intervallo di confidenza (livello 0.95) sia almeno pari a 15.7 se la µ = 883? (2) Come cambierebbe il risultato ottenuto in (1) se il valore della media fosse 883 + 100? 16.2 Soluzioni (A) Valori : 1100,3300,5500,1300,3900,6500,1600,4800,8000 Probabilità : 0.11977,0.12209,0.04814,0.120596,0.122932,0.048472,0.172634,0.175978,0.069388 Attesa : 3427 CV : 60.135 (B) Pi : 0.14286,0.28571,0.42857,0.57143,0.71429,0.85714,1 Qi : 0.011946,0.059731,0.14037,0.33151,0.53111,0.7551,1 R : 0.39008 (C) Media: 1380.8 Denominatore : 0.44721 31 Statistica Z empirica : 68.96 Z critico : 1.6449 (D) Nota: il CV nel testo espresso in percentuale, cio CV = 2.4%. Dimensione campione 1: 27.997 Dimensione campione 2: 34.698 32 17 17.1 Compito del 28.09.2000 Testo (A) In uno studio sulla qualit dei panettoni prodotti da un’azienda, un campione casuale di 400 panettoni stato analizzato contando il numero di canditi ed il numero di uvette presenti per panettone. Impiegando i dati riportati in tabella : (1) Quantificare il grado di associazione presente tra le due variabili. (2) Saggiare l’ipotesi che la dipendenza statistica sia nulla (α = 0.05). Canditi: [0, 50] (50,200] Uvette: [0, 50] 70 20 (50, 200] 40 270 (B) Il processo di cottura dei panettoni causa la diminuzione del peso. Per studiare il fenomeno, un campione casuale di 5 panettoni stato pesato prima della cottura e dopo la cottura. Impiegando i dati in tabella: (1) Effettuare la stima puntuale della diminuzione media di peso. (2) Saggiare l’ipotesi che la diminuzione di peso sia superiore a 141 (con α = 0.05), assumendo la normalit della variabile casuale oggetto di studio. Prima: 995 1007 1014 1003 994 Dopo: 831 856 797 767 778 (C) Il peso dei panettoni prodotti da una macchina industriale assimilabile ad una variabile casuale gaussiana. La certificazione di qualit del processo produttivo richiede che la probabilit di ottenere un panettone di peso inferiore a 1415.7 sia pari a 0.01. (1) Assumendo che la varianza sia 17, come regolare il processo produttivo perch sia soddisfatto il requisito di certificazione ed al contempo il costo del prodotto sia minimo? (2) Se un panettone di peso inferiore alla soglia viene pagato lire 12500 e un panettone di peso superiore alla soglia viene pagato 18500, quale il valore atteso del pagamento per un generico panettone ? (D) Due macchinari M1 ed M2 producono panettoni. Il numero medio di canditi per Kg di panettone pari a 21.5 per il macchinario M1 e 31.5 per M2. (1) Quale il valore atteso del numero di canditi in un generico panettone da 2.250 Kg prodotto dal macchinario M2? Un panettone di 1.323Kg risulta bruciato al termine della lavorazione e l’esame rivela che contiene 27 canditi (bruciati). Assumendo che su 100 panettoni prodotti, 68 escano dal macchinario M1: (2) Quale la probabilit che il panettone bruciato e sottoposto ad esame sia stato prodotto dal macchinario M1? 17.2 Soluzioni (A) (1) C2: 0.60671 C1: 0.4525 C1rel: 0.4525 C2rel: 0.60671 CHI2: 147.238795 CP: 0.518708 Tschu: 0.368097 (2) Chiempi: 147.238795 Val.Critico: 3.841459 (B) Stima : -196.8 Statistica t : 3.3689 P.Value : 0.014036 33 (C) Media: 1425.291778 Attesa:18440 (D) Attesa: 70.875 Probabilit a posteriori: 0.97519 34 18 18.1 Compito del 15.12.2000 Testo (A) La compagnia di assicurazione ASSOSIC ha promosso uno studio sull’associazione esistente tra stato di salute e preferenza alimentare. Impiegando i risultati riportati in Tabella 1: (1) Calcolare un adeguato indice di interconnessione. (2) Ricavare la distribuzione condizionata (frequenze relative) della preferenza alimentare data la modalit ‘Sano’ dello stato di salute. Tabella 1: Numero di persone per stato di salute e preferenza alimentare. Preferenza alimentare: Dolce Salato Piccante Stato di salute: Sano 10 40 20 Malato 10 4 50 (B) A met del ciclo produttivo, un lotto di sugo BELMONTE ha un valore di acidit che assimilabile ad una variabile casuale normale con media 4.5 e coefficiente di variazione (non espresso in percentuale) 0.2222. Se l’acidit compresa tra 3.2 e 8.23 allora il lotto viene trattato termicamente, altrimenti esso viene scartato. Se l’acidit di un lotto compresa tra 4.86 e 6.19 allora il lotto inscatolato con marchio GRANDE CHEF dopo trattamento termico. (1) Quale la probabilit che un lotto sia inscatolato? (2) Quale la probabilit che un lotto sia trattato termicamente ma non inscatolato GRANDE CHEF? (C) Il numero di scatole di conserva (in migliaia) prodotte da un macchinario HIGHSCAT in una settimana assimilabile ad una variabile casuale gaussiana. Un campione casuale di 6 macchinari ha fornito i dati settimanali riportati in Tabella 2. (1) Effettuare la stima per intervallo della media (livello di confidenza 0.99) e calcolare l’informativit. (2) Quale elemento pivotale si potrebbe usare per calcolare la stima intervallare della varianza, se sapessimo che la media 4? Tabella 2: Numero di scatole di conserva (in migliaia). 4.6 3.6 2.6 3.6 4.6 2.6 (D) Il numero medio quadrimestrale di reattori venduti da un funzionario pari a 1.6. Il numero di collaboratori che l’azienda in media mette a disposizione del funzionario in un certo anno pari 5 se nel precedente anno il funzionario ha venduto 2 o pi reattori altrimenti uguale a 2.8. Si assuma l’indipendenza di eventi riferiti ad intervalli di tempo non sovrapposti e la linearit della media rispetto all’ampiezza dell’intervallo di tempo. (1) Sapendo che il funzionario ha venduto nei 3 quadrimestri rispettivamente 0, 2, 1 reattori, Quale la probabilit che al funzionario siano assegnati il successivo anno 0 oppure 1 collaboratore? (2) Sapendo che per il 2001 l’azienda ha assegnato un numero di collaboratori ≤ 1, quale la probabilit che il funzionario abbia venduto nel 2000 un numero di reattori ≥ 2? 18.2 Soluzioni (A) (1) C2: 0.5607 C1: 0.507908 C1rel: 0.507908 C2rel: 0.5607 CHI2: 42.127493 CP: 0.489068 Tschu: 0.314384 Freq. condiz: 0.14286 Freq. condiz: 0.57143 Freq. condiz: 0.28571 (B) 35 R1 : 0.31391 R2 : 0.58921 (C) Media: 3.6 Devianza: 4 Varianza: 0.8 scarto: 0.894427 t stud.: 4.03214 Estremo1: 2.12767 Estremo2: 5.07233 Informativit: 2.94466 (D) Lambda anno: 4.8 Probabilit (1): 0.040428 Probabilit (2): 0.7773 36 19 19.1 Compito del 15.01.2001 Testo (A) Un carico di rottame metallico che giunge nella fonderia THESTEEL viene pesato con una delle 3 bilance (B1,B2,B3) e quindi viene mandato ad uno dei due forni (F1, F2) per la fusione. Impiegando i dati relativi all’anno 2000 (Tabella 1): (1) Quale la probabilit che un carico sia pesato con B3 e fuso con F2? (2) Sapendo che un carico stato fuso con F2 quale la proabilit che sia stato pesato con B3? Tabella 1: Numero di carichi di rottame del 2000 classificati per macchinario di pesatura e forno di fusione. Macchinario: B1 B2 B3 Forno: F1 1100 2200 560 F2 2000 290 1000 (B) Nella fonderia THESTEEL, durante il 2000, sono stati impiegati 5 macchinari per produrre acciaio. Nel medesimo anno, ogni macchinario ha richiesto un certo numero di interventi di riparazione (Tabella 2). (1) Valutare il grado di equidistribuzione del numero di interventi mediante un opportuno indice. (2) Effettuare una rappresentazione grafica adeguata all’indice riassuntivo calcolato in (1) Tabella 2: Numero di interventi effettuati per i macchinari M1, M2, M3, M4, M5. Macchinario: M1 M2 M3 M4 M5 Numero Interventi: 13 37 19 104 6 (C) Nella fonderia THESTEEL, un forno di fusione funziona a carbone. La quantit di carbone richiesta per un carico di rottami metallici assimilabile ad una variabile casuale gaussiana. Un campione casuale di 3 fusioni ha fornito i dati riportati in Tabella 3. (1) Effettuare la stima per intervallo della media (livello di confidenza 0.90). Effettuare nuovamente la stima per intervallo della media (livello di confidenza 0.90) assumendo che la varianza sia uguale a 0.36. (2) Impiegare gli intervalli ottenuti per effettuare il test delle ipotesi che la media sia uguale a 29.82. Tabella 3: Tonnellate di carbone. 30 13 13 (D) Un forno di fusione nella fonderia THESTEEL produce una colata che pu contenere impurit. L’amministratore della THESTEEL dichiara che 60% delle colate contiene impurit. Per saggiare quanto dichiarato, stato esaminato un campione di 150 colate, e 85 sono risultate contenere impurit. (1) Saggiare l’ipotesi che il valore dichiarato dall’amministratore sia il valore esatto (α = 0.1), con alternativa che il valore sia di 57.5 %. (2) Calcolare la potenza del test. 19.2 Soluzioni (A) Prob. marginale forno: ; 0.53986 ; 0.46014 Prob. marginale macchin.: ; 0.43357 ; 0.34825 ; 0.21818 Congiunta F1 by macch.: ; 0.15385 ; 0.30769 ; 0.078322 Congiunta F2 by macch.: ; 0.27972 ; 0.040559 ; 0.13986 (1) Prob.: 0.13986 (2) Denominatore: 0.46014 Prob.: 0.30395 37 (B) Pi : 0.2 Pi : 0.4 Pi : 0.6 Pi : 0.8 Pi : 1 Qi : 0.03352 Qi : 0.1061 Qi : 0.2123 Qi : 0.419 Qi : 1 R : 0.6145 (C) Media: 18.6667 Varianza: 96.3333 Dev.std: 9.81495 t-stud: 2.91999 Estremo1-t: 2.12008 Estremo2-t: 35.2133 Dev.std nota: 0.6 Z: 1.64485 Estremo1-z: 18.0969 Estremo2-z: 19.2365 (D) Media0: 90 Varianza0: 36 Devstd0: 6 Z critico: -1.2816 Z empirico: -0.83333 Valore critico conteggio: 82.311 Media1: 86.25 Varianza1: 36.656 Devstd1: 6.0544 Potenza: 0.25764 38 20 20.1 Compito del 31.01.2001 Testo (A) L’azienda SOLAS produce lampadine da alimentare a 220 Volt. In un test condotto su 10000 lampadine alimentate a 330 Volts, ci si aspetta che si guastino 2.8 lampadine in due ore. (1) Per quanti minuti si può proseguire nell’esperimento perchè la probabilità che non si guastino lampadine sia 0.11? (2) Specificare le assunzioni impiegate per ottenere la risposta a (1). ( B ) La SOLAS possiede 3 stabilimenti per la produzione di lampadine da 60 W. La Tabella 1 riporta il numero di contratti effettuati dai tre stabilimenti nei 3 quadrimestri del 2000 (1,2,3). Calcolare un’adeguato indice di interconnessione e spiegare brevemente il risultato ottenuto. Tabella 1: Numero di ordini per stabilimento-quadrimestre. Quadrimestre Stabilimento 1 2 3 1 2 3 5 2 0 4 6 10 0 0 14 (C) La SOLAS produce lampadine da 60 W. In una relazione tecnica inerente l’anno 2000 la direzione dichiara che il coefficiente di variazione percentuale della durata di una lampadina è pari a 3.5 ore. Un campione casuale di 7 lampadine prodotte nel 2000 ha fornito i dati di durata riportati in Tabella 1. Assumendo un modello di tipo normale per Y (durata di una lampadina) con E[Y ] = 103, effettuare un test statistico per saggiare la bontà di quanto dichiarato nella relazione tecnica (α = 0.05); Tabella 1: Durata (ore) di un campione di 7 lampadine. 106 101 106 107 99 103 102 (D) Il Chief Executive Officer della SOLAS ha analizzato i dati annuali relativi al decennio 1990-1999, stimando il valore dei coefficienti β0 e β1 nel modello di regressione del fatturato annuo (Y , miliardi) sul b b numero di settimane annue di pubblicità televisiva (X). Le stime Pottenute sono Pβ02 = −22.7 e β1 = 6.2. Sapendo che la devianza residua è risultata pari a 2549.8, e che xi = 151.7, xi = 2596.9: (1) Stimare la varianza di β0 e di β1 . (2) Calcolare l’intervallo di stima di y quando x = 13.1, assumendo che i termini di errore siano normalmente distribuiti, indipendenti e con medesima varianza (1 − α = 0.95). 20.2 Soluzioni (A) Numero di minuti: 94.6 (B) C2: 0.757502 C1: 0.585366 C1rel: 0.439024 C2rel: 0.535635 CHI2: 23.52619 CP: 0.60382 Tschu: 0.286905 (C) Varianza : 12.996 Test stat.: 4.2321 Crit. val. inf : 1.6899 39 Crit. val. sup : 16.013 (D) Var β0 = : 279.995 Var β1 = 1.07819 Intervallo di stima: (15.058249,101.98175) 40 21 Compito del 15.02.2001 21.1 Testo 1 Un famoso lanciatore di coltelli interpella l’agenzia assicurativa Xsafe per una polizza di responsabilità professionale. Per stabilire il premio, la Xsafe decide di analizzare la seguente serie storica, che riporta il numero di incidenti causati da lanciatori di coltelli, durante manifestazioni o allenamenti, in Europa negli ultimi 50 anni. Anno Num. incidenti 1950-59 7208 1960-69 7064 1970-79 6199 1980-89 5406 1990-99 2811 (a) Costruire la serie di numeri indici a base mobile e commentare i risultati ottenuti. (b) Trasformare la serie di numeri indici a base mobile in quella a base fissa al 1970-79 e commentare i risultati ottenuti. 2 È noto che la precisione nel lancio di un coltello dipende dal livello di adrenalina presente nel sangue del lanciatore, che deve essere al di sotto di un certo livello di guardia (LG) nei 5 minuti prima del lancio. In generale, la probabilità che LG sia superato è 0.0513 . Esiste un test che, in pochi secondi, verifica se un individuo supera LG, ma non è completamente affidabile: se un lanciatore supera LG, il test fornisce esito positivo (corrispondente al superamento della soglia) nel 98.99 % dei casi, mentre se un lanciatore non supera LG, fornisce esito positivo nel 9.01 % dei casi. L’ordine professionale dei lanciatori decide di utilizzare il test solo se la probabilità che il lanciatore sia sotto il livello di guardia, dato che il test è risultato negativo, è almeno 0.99. Ritenete che l’ordine professionale deciderà di utilizzare il test? 3 Considerando un esperimento ipotetico in cui si pone il punto di mira sullo 0 di una retta orizzontale, l’errore commesso su tale retta da un lanciatore professionista si distribuisce normalmente con mediana pari a 0 ed il terzo quartile pari a 12 cm. Se il lanciatore vuole lanciare il coltello accanto all’orecchio destro del proprio aiutante, qual è la distanza minima alla quale deve mirare per essere certo di evitare di colpirlo con probabilità 0.9912 ? 4 L’assicurazione Xsafe scopre che la maggioranza dei lanciatori di coltelli italiani proviene da due scuole: la Cut&Kill e la Cross–eyed. Decide quindi di analizzare due campioni casuali composti, rispettivamente, da 68 e 112 lanciatori estratti dalle due scuole, ai quali è chiesto di effettuare un lancio verso un bersaglio immobile. Viene quindi misurato l’errore (X) commesso rispetto alla direzione orizzontale, ottenendo i seguenti risultati. Cross–eyed Cut&Kill Media campionaria 1.078 1.864 Varianza campionaria corretta 18 20 Verificare con un test opportuno l’ipotesi che i lanciatori della Cross–eyed sbaglino meno di quelli della Cut&Kill (con α = 0.05) e specificare quali assunzioni si ritengono necessarie. 21.2 Soluzioni 1 Anno t−1 It 70−79 It 1950-59 116.28 1960-69 98.00 113.95 1970-79 87.75 100.00 1980-89 87.21 87.21 1990-99 52.00 45.35 41 2 P (< LG|−) =0.9994 3 σ = 17.7912 Distanza minima = 42.2552 cm. 4 test unilaterale con H1: µ1 < µ2 Testoss =-1.165 zα =-1.645 Accetto H0 42 22 22.1 Compito del 06.04.2001 Testo (A) Un broker effettua un investimento. Si considerino gli eventi A1 = “investimento molto produttivo, e A2 = “investimento produttivo, con A1 ⊆ A2 . Sapendo che la probabilit di effettuare un investimento molto produttivo pari a 0.0967 e che l’investimenti sia produttivo 0.6050: (1) Calcolare la probabilit che si realizzi l’evento E1 = A1 ∩ A2 . (2) Calcolare la probabilit che si realizzi E2 = A1 ∩ A2 (spiegare). ( B ) L’ammontare (miliardi) delle fatture protestate alla SuperBroker nel quinquennio 1990-1994 riportato in Tabella 1. Tabella 1: Ammontare (miliardi delle fatture protestate). 1990 14 1991 19 1992 9 1993 12 1994 22 (1) Calcolare i numeri indici a base mobile (NON PERCENTUALI) per il quinquennio considerato. (2) Calcolare un’opportuna media dei valori degli indici calcolati al punto (1). (C) In una valutazione comparativa, le capacit previsive di due dipendenti (A e B) della SuperBroker sono state messe a confronto. Ogni dipendente esprime il valore che prevede assumeranno 5 titoli di riferimento in borsa dopo 180 giorni. In Tabella 2, sono riportati gli scostamenti zA,i e zB,i , con i = 1, . . . , 5, dei valori previsti da quelli effettivamente realizzati. Assumendo (!) che le variabili casuali zA,i e zB,i siano indipendentemente ed identicamente distribuite come normali con media 0 e varianza rispettivamente 2 2 : e σB pari a σA (1) Quantificare la precisione previsiva dei dipendenti A e B mediante una opportuna statistica campionaria. (2) Sottoporre a test l’ipotesi che la precisione di A sia identica a quella di B. (α = 0.01) Tabella 2: Scarti dal valore realizzato dei titoli. A 3.11 0.06 0.32 -1.74 2.91 B -3.04 8.36 -4.28 10.59 -7.19 (D) Alla SuperBroker si desidera investigare sull’ammontare delle spese sostenute nel 2000 dalle famiglie italiane per spostamenti effettuati mediante la societ FRENITALIA. Assumendo che la spesa annuale (centinaia di migliaia di lire) relativa agli spostamenti per una generica famiglia italiana sia assimilabile ad una variabile casuale normale con varianza 40.03: (1) Determinare il numero di famiglie da intervistare per ottenere un intervallo di confidenza la cui informativit sia 10 e per il quale la affidabilit sia 0.99. (2) Se la varianza fosse ignota, come cambierebbe l’informativit? 22.2 Soluzioni (A) (1) P [E1 ] = 0.5083 (2) P [E2 ] = 0.0967 (B) (1)Indici = 1.357, 0.474, 1.333, 1.833 (2) Geometrica = 1.119; Aritmetica = 1.249 (C) (1) Varianza con denominatore 5 : 4.25, 52.28 (2) Statistica test F: 0.081 Valori critici F5,5 = 0.07, 14.94 43 (D) (1) z = 2.57, n = 11 44 23 23.1 Compito del 07.06.2001 Testo (A) La quantit di conservante presente in un campione di n = 10 bottiglie di succo di frutta risultata pari a: 12 , 12 , 19 , 15 , 20 , 24 , 24 , 23 , 12 , 12. (1) Calcolare la moda e la mediana. (2) Costruire l’istogramma di frequenze relative con intervalli di base pari a [10, 19.5), [19.5, 22.5), [22.5, 28]. (B) Nel laboratorio chimico ANACHEM la funzione di massa di probabilit relativa all’errore X commesso quantificando il contenuto di mercurio in una soluzione standard ha valore 0.2216 in x = −0.25, e 0.7784 in x = 0.25. Per un campioni casuali di 3 misurazioni: (1) Ricavare la distribuzione campionaria del massimo campionario degli errori. (2) Calcolare il valore atteso e la varianza della statistica al punto (1). (C) Al laboratorio ANACHEM, si effettua uno studio sulla presenza di metanolo in un campione di 3 bottiglie di vino (Tabella 1). Il vino di ogni bottiglia viene esaminato con il metodo 1 (senza filtro) e con il metodo 2 (con filtro). Assumendo che la concentrazione di metanolo sia assimilabile ad una variabile casuale gaussiana : (1) Saggiare statisticamente l’ipotesi che i due metodi non comportino differenze (prob. errore I tipo = 0.01) in alternativa a che la media per il metodo 2 sia maggiore a quella del metodo 1. (2) Assumendo che la varianza delle differenze sia σ 2 = 4, calcolare la potenza del test (α = 0.05) in cui l’alternativa prevede che la differenza tra media del metodo 2 e media del metodo 1 sia pari a 5. Tabella 1: Contenuto di metanolo con due metodi. Metodo 1: Metodo 2: 19.7 23.3 21.1 26.4 18.7 24.9 (D) Alla ANACHEM si desidera investigare sulla valore medio di antibiotico bovino presente in cartoni di latte da 1 litro. Assumendo che la variabile ‘contenuto di antibiotico’ sia assimilabile ad una gaussiana con varianza 10: (1) Determinare il numero cartoni da esaminare per ottenere un intervallo di confidenza la cui informativit sia 3.7 e per il quale la affidabilit sia 0.99. (2) Cosa cambierebbe nei calcoli precedenti se la varianza fosse ignota? 23.2 Soluzioni (A) Moda : 12 Mediana : 17 H1 : 0.063158 H2 : 0.033333 H3 : 0.054545 (B) x = -0.25 : 0.01088 x = 0.25 : 0.9891 Media : 0.2446 Varianza : 0.002691 (C) Diff medie: 5.03333 Varianza: 1.74333 Dev.std: 1.32035 t-empirico: 6.60277 t-critico: 6.96456 45 d-critico 1.64485 potenza: 0.977453 (D) Numero di cartocci: 20 46 24 Compito del 26.06.2001 24.1 Testo (A) Alla NetIntern si effettua uno studio sul numero di accessi alle pagine Web in base alla fascia oraria ed al tipo di pagina (Tabella 1). (1) Valutare quantitativamente l’interconnessione. (2) Quale la moda della distribuzione condizionata alla fascia oraria del pomeriggio? Tabella 1: Numero di accessi per fascia oraria ed argomento. Fascia oraria: mattino pomeriggio notte Argomento: Sport 10 50 20 Altro 7 2 40 (B) Alla NetIntern, uno studio estensivo effettuato su 575000 pagine Web ha rivelato che solo 163 pagine trattano di criptogeni. Assumendo che all’avvio del programma di accesso al Web venga selezionata casualmente una pagina: (1) Quale la probabilit che in un avvio non compaia l’argomento criptogeni? (2) Quale la probabilit che su trecento accensioni pi di una selezioni l’argomento criptogeni? (C) In uno studio estensivo la NetIntern ha valutato che il tempo medio di connessione via modem di un utente serale pari a 42 minuti. Per quantificare la variabilit del fenomeno, la NetIntern ha misurato il tempo di connessione di un campione casuale di 3 utenti come scostamento dalla media 42. Ha ottenuto i valori: 1.7, -1, 0 minuti. Impiegando i risultati dello studio: (1) Effettuare la stima puntuale della varianza. (2) Effettuare la stima per intervallo del coeff. di variazione percentuale (livello di confidenza = 0.95). (D) Alla NetIntern si desidera investigare sulla velocit di trasmissione dati ottenuta impiegando due protocolli software differenti, ALFA e BETA. Sui calcolatori di un un campione casuale di 3 centri di calcolo sono stati installati i due software, e si sono ottenuti i valori di velocit riportati in Tabella 2. (1) Saggiare statisticamente l’ipotesi che i due software non comportino differenze di velocit (prob. errore I tipo = 0.01) in alternativa a che vi siano differenze. (2) Assumendo che la varianza delle differenze sia σ 2 = 4, calcolare la potenza del test (α = 0.05) in cui l’alternativa prevede che la differenza sia pari a 5. Tabella 2: Tempi di trasmissione. ALFA: BETA: 24.2 19.7 24.3 17.9 27.3 20.3 26.1 Soluzioni (A) (1) C2: 0.602026 C1: 0.550448 C1rel: 0.550448 C2rel: 0.602026 CHI2: 46.754161 CP: 0.515771 Tschu: 0.25628 Riga contenente: 50 (B) Prob 1 : 0.9997 Prob 2 : 0.003418 (C) S 2 : 1.29667 47 Intervallo CV = [0.015359,0.101089] (D) Diff medie: 6.6 Varianza: 6.24 Dev.std: 2.498 t-empirico: 4.57628 t-critico: 9.92484 d-critico 1.64485 potenza: 0.99638 48 25 Compito del 11.07.2001 25.1 Testo (A) La compagnia UNPROFIT ha ricevuto sottoscrizioni per sovvenzionare gli interventi sanitari in sud Africa. In Tabella 1 sono riportati i valori delle sottoscrizioni e le frequenze assolute dei versamenti. (1) Calcolare il rapporto di concentrazione R. (2) Rappresentare la spezzata di Lorenz (diagramma). Tabella 1: Distribuzione delle sottoscrizioni (milioni di lire). Valore sottoscrizione : 0.500 1 0.250 10 5 Numero Versamenti: 501 350 119 169 862 (B) Alla UNPROFIT si ricevono sottoscrizioni per interventi sanitari in sud Africa. La probabilit di ricevere una sottoscrizione pari a X ≤ x data dalla funzione in Tabella 2. (1) Calcolare la differenza interquartile. (2) Calcolare la probabilit che un versamento abbia valore inferiore-uguale a 0.300 oppure sia superiore a 2.5. Tabella 2: Probabilit dell’evento X ≤ x (milioni di lire). Probabilit Intervallo della x 0 + 2.6 · x [0,0.05) 0.086667 + 0.86667 · x [0.05,0.5) 0.50316 + 0.033684 · x [0.5,10) 0.83984 + 1.6016 · 10−5 · x [10, 10000) 1.0 [10000,∞) (C) Alla UNPROFIT stato esaminato un campione casuale di 5 container contenenti granaglia diretta in sud Africa. Il peso in tonnellate risultato pari a: 60, 62, 52, 63, 65. Assumendo che il peso di ogni container sia assimilabile ad una variabile casuale gaussiana con momento secondo rispetto all’origine pari a 5000: (1) Saggiare statisticamente l’ipotesi che mediamente un container pesi 70 tonnellate (prob. errore I tipo = 0.1) in alternativa a che la media sia inferiore a 70 tonnelate. (2) Calcolare il p-value della statistica media campionaria. (D) Alla UNPROFIT stato effettuato uno studio sulla propensione ai versamenti di solideriat per la salute in sud Africa. In nord Italia 3052 intervistati su 12992 hanno dichiarato di effettuare annualmente versamenti. Al sud, 3161 intervistati su 15993 hanno dichiarato di effettuare versamenti annuali. Assumendo che i due campioni siano casuali: (1) Effettuare un test statistico per saggiare se vi siano differenze tra propensione al nord ed al sud Italia nei confronti dei versamenti annuali (α = 0.07). (2) Se l’interesse si fosse limitato a due piccoli paesi, il primo situato in nord Italia e costituito di 39 abitanti, il secondo al sud con 18 abitanti, ed i campioni fossero stati di 5 e di 7 persone, come si sarebbe dovuto procedere per effettuare il test? 25.2 (A) Pi : Pi : Pi : Pi : Pi : Qi : Qi : Soluzioni 0.05947 0.3098 0.4848 0.9155 1 0.004487 0.04227 49 Qi : 0.09506 Qi : 0.7451 Qi : 1 R : 0.4547 (B) Q0.75 − Q0.25 : 7.14 Prob. : 0.7593 (C) Media: 60.4 Varianza: 100 Dev.std: 10 z-empirico: -2.14663 z-critico: -1.28 P-value 0.0159116 (D) pnord: 0.2349 psud: 0.1976 dev.std.diff: 0.00484687 z-empirico: 7.69568 z-critico: -1.81 50 26 26.1 Compito del 20.09.2001 Testo (A) La vasca HOTTUB possiede un dispositivo di riscaldamento dell’acqua. Si definiscano le variabili casuali seguenti: X riferita al riscaldamento (0 spento, 1 acceso), Y numero di bagnanti in vasca, Z riferita alla presenza di nuvole (0 assenti, 1 presenti). Conoscendo i valori di probabilit per gli eventi riportati in Tabella 1: (1) Quale la probabilit che il riscaldamento sia acceso e che i bagnanti siano 2? (2) Si assuma che la vasca sia aperta 22 ore al giorno e che il numero Y di bagnanti in vasca in una giornata sia distribuita come una Poisson. Se il riscaldamento acceso, il tasso pari a 0.1 bagnanti per ora, se il riscaldamento spento il tasso 0.1 2 . La probabilit di accensione del riscaldamento a priori pari a 0.6. Avendo saputo che vi sono stati 2 bagnanti in vasca nella giornata del 15 Agosto, quale la probabilit che sia stato acceso il riscaldamento? Tabella 1: Probabilit di alcuni eventi di interesse. Evento {(X, Y, Z)} Prob. {(1, 2, 0)} 0.0483 {(1, 2, 1)} 0.1126 (B) stato effettuato uno studio per valutare se il dispositivo automatico di riscaldamento dell’acqua nella vasca HOTTUB venga acceso in dipendenza dalla presenza di nuvole in cielo. In Tabella 2 riportato il numero giorni in cui stata riscaldata l’acqua con e senza nuvole in cielo, analogamente per i giorni in cui l’acqua non stata riscaldata. Tabella 2: Numero di giorni per tipologia di giornata e di acqua. Riscaldata Non Riscaldata Nuvoloso 901 120 Sereno 230 161 (1) Valutare il grado di interconnessione tra riscaldamento e nuvolosit. (2) Come ci si aspetterebbe di modificare Tabella 2 qualora la nuvolosit fosse un antecedente perfetto per spiegare il riscaldamento dell’acqua (esempio: Nuvoloso implica Riscaldamento)? (C) Un campione casuale di 26 vasche HOTTUB stato esaminato per valutare a quanto ammonta la variabilit nel numero di ore di funzionamento prima che si guasti una delle P26 P26 guarnizioni della vasca. Le statistiche campionarie derivate dell’esperimento sono: i=1 xi = 2625, i=1 x2i = 266109. Assumendo per le variabili casuali Xi una distribuzione di tipo normale: (1) Calcolare il valore del coefficiente di variazione campionario non percentuale. (2) Assumendo che la media di popolazione sia 100 ore, sottoporre a test l’ipotesi che il coefficiente di variazione (non percentuale) della popolazione si pari al 0.045 (α = 0.1) in alternativa a che sia maggiore di tale valore. (D) La vasca HOTTUB prodotta impiegando una sostanza chimica S che aumenta la resistenza della superficie alla rottura in accordo al modello di regressione lineare semplice Yi = β0 + β1 xi + ui , in cui Y il carico di rottura ed X la concentrazione di sostanza S. Si assuma che la varianza d’errore σ 2 sia nota e pari a 33.3. In uno studio sulla resistenza sono stati scelti tre valori di concentrazione X della sostanza S: 0.25, 0.5, 0.75 (g/Kg). Impiegando i dati ipotetici di Tabella 3, scegliere il pi conveniente dei tre esperimenti in modo che l’intervallo di previsione per x0 = 1 (livello 0.93) abbia informativit uguale o inferiore a 1. Tabella 3: Esperimenti sulla resistenza. P 2 Esperimento n x̄ i (xi − x̄) E1 250 0.5 982 E2 500 0.5 1733 E3 1000 0.5 3853 51 26.2 Soluzioni (A) (1)Probabilit che il riscaldamento sia acceso e che i bagnanti siano 2: 0.1609 (2) Probabilit che il riscaldamento sia stato acceso dato che i bagnanti sono stati 2: 0.6664 (B) (1) C2 = 0.3298, C1 = 0.2357, C1rel = 0.2357, C2rel = 0.3298, CHI2 = 153.6, CP = 0.3132 Tschu = 0.1087 (2) Nuvoloso Sereno Riscaldata 1131 0 Non Riscaldata 0 281 (C) (1) Media = 100.9615 Varianza = 43.39846 Coeff. Variazione Campionario= 0.0652501 (2) Impiegando la media di popolazione, S 2 = la varianza campionaria 42.65385 la statistica test Chi quadro 54.76543 Chi Quadro critico 35.56317 P26 i=1 x2i n − 2µ P26 i=1 n xi + µ2 , quindi: (D) Per le dimensioni campionarie in gioco il t di Student numericamente indistinguibile dalla normale standardizzata. z: 1.811911 La differenza tra estremi dell’intervallo di previsione E1: 1.364009 E2: 0.968339 E3: 0.6824018 I due esperimenti E2 ed E3 soddisfano il requisito ma, per quanto noto, E2 il meno costoso in termini di numero di unit statistiche coinvolte, dunque il prescelto. 52 27 27.1 Compito del 19.12.2001 Testo 1 Sei stato assunto da Blockbuster, dove ti chiedono di decidere quale calendario promuovere per il 2002, tra quello di George Clooney e quello di Brad Pitt. Decidi di intervistare un campione casuale di 453 ragazze tra le clienti di Blockbuster, chiedendo loro di scegliere tra l’acquisto di un calendario di GC o di BP: 203 preferiscono GC e 250 BP. (1) Stimare la proporzione di ammiratrici di GC con confidenza pari a 0.99; (2) calcolarne l’informatività. 2 Hai cambiato città e lavoro e sei stato assunto come manager della discoteca GoGo; devi decidere se esporre una gigantografia di GC o BP. Intervisti un campione di 297 ragazze tra coloro che entrano una sera in discoteca, ma qui 193 preferiscono GC e 104 BP. (1) Ti viene un dubbio: la proporzione di ammiratrici di GC tra le ragazze clienti di Blockbuster (vedi esercizio 1) è veramente diversa da quella delle frequentatrici del GoGo, o la differenza osservata è dovuta al caso (fissare α = 0.05)? (2) Arrivereste alla stessa conclusione calcolando un intervallo di confidenza? 3 Come manager del GoGo, devi analizzare il problema delle risse in discoteca. In una sera a caso, la probabilità che il buttafuori sia Ugo è pari a 0.320 , che sia Pietro è 0.047 . La probabilità che avvenga una rissa è pari a 0.599 se è di turno Ugo, mentre è pari a 0.364 se sono di turno Pietro o altri buttafuori. La probabilità che la rissa sia prontamente sedata è uguale a 0.860 se è di turno Ugo, mentre è pari a 0.836 con Pietro oppure con altri buttafuori. (1) Qual è la probabilità che una sera a caso sia di turno Ugo e non si verifichino risse? (2) Sapendo che la rissa è stata prontamente sedata, quale è la probabilità che sia stato di turno Ugo? 4 Finalmente sei stato assunto come direttore delle risorse umane dalla società FIND. Decidi di effettuare una verifica sull’assegnazione dei premi di produzione ai dipendenti. La tabella seguente riporta la distribuzione di frequenza del valore dei premi (in milioni di lire) rispetto al settore di provenienza. Premi in milioni 1 5 10 Totale Settore A 78 29 15 122 Settore B 19 37 88 144 Totale 97 66 103 266 (1) Calcolare un indice di connessione tra il valore del premio ed il settore di appartenenza; (2) calcolare la percentuale di variabilità spiegata dalla differenza tra i settori. 27.2 Soluzioni 1 p̂ = 0.4481 Intervallo di confidenza per p: [0.3879; 0.5083] Informatività = 0.1204 2 Test d’ipotesi bilaterale sulla differenza tra proporzioni con H0 : pB − pG = 0. σp̂B −p̂G = 0.0373 p̂G = 0.6498 Zoss = −5.4117 Zcrit = ±1.9600 Rifiuto H0 53 3 P(Ugo, nessuna rissa)= 0.128 P(Ugo | rissa, sedata) = 0.443 4 Si calcola η per la dipendenza in media M = 5.4774 MA = 3.0574 MB = 7.5278 devB = 1319.8774 . devW = 2746.4872 . devTOT = 4066.3647 η = 0.5697 Variab spiegata = 32.4584 % 54 28 28.1 Compito del 09.01.2002 Testo (A) In Tabella 1 sono riportati i numeri indici a base mobile relativi al fatturato dell’azienda TOMATIS Inc. per il primo semestre del 2000. Si calcoli: 1) il numero indice 1 I6 percentuale; 2) il fatturato del mese di gennaio 2000, sapendo che il fatturato semestrale pari a 1214. Tabella 1: Numeri indici percentuali a base mobile del fatturato mensile. Mese 1 2 3 4 5 6 Indice - 91 100 100 100 104 (B) Alla TOMATIS Inc. si sta effettuando uno studio per confrontare il costo per minuto della pubblicit in TV. In un campione casuale di 5 regioni stato rilevato il costo in emittenti pubbliche e private come da tabella seguente: Tabella 2: Costo per minuto di pubblicit in emittenti private e pubbliche. Private 97 97 98 103 102 Pubbliche 105 108 106 111 111 1) Si calcoli un adeguato indice di associazione. 2) Si sottoponga a verifica (α = 0,05) l’ipotesi che non ci siano differenze di costo medio per i due tipi di emittenti, assumendo che la differenza tra i costi sia normalmente distribuita. (C) Facendo riferimento ai dati della tabella 2 ed assumendo che il prezzo della pubblicit per minuto nelle emittenti pubbliche Y sia determinato da quello stabilito nelle emittenti private x secondo la relazione,Yi = β0 + β1 xi + ei (con gli ei ∼ N (0, σ 2 ) indipendentemente distribuiti): 1) determinare l’intervallo di confidenza per σ 2 (livello 0.90); 2) cosa cambierebbe in (1) se β0 e β1 fossero noti? (D) L’introduzione nel 2002 delle nuove norme di sicurezza per il lavoro in aziende conserviere riduce il numero medio mensile di infortuni per 1000 dipendenti da 32.5461 a 0.3079. Per un’azienda di 32 dipendenti: 1) valutare la probabilit di avere meno di 2 infortuni in azienda nel 2002; 2) sapendo che nel 2001 si sono verificati 2 infortuni e che la probabilit dell’introduzione 0.040, determinare la probabilit che la nuova normativa sia gi stata introdotta nel 2001. 28.2 Soluzioni (A) 1) Dalla relazione 1 I6 =1 I22 I33 I44 I55 I6 si ha 1 I6 percentuale = 94.64. 2) Il valore di x1 217.31348. (B) 1) Codevianza = 28.6, Devianze: 33.2, 30.8. Il coeff. di correlazione lineare 0.89438. 2) Stima varianza = 1.7. Stima errore standard della differenza = 0.5831. t empirico = 15.0919. t critico = 2.7764. (C) Dal modello di regressione la stima dei due parametri 22.5723 e 0.8614. 1) La somma dei residui al quadrato diviso per sigma2 un χ23 . Quantili del χ23 : 0.3518463 e 7.814728, da cui l’intervallo [0.7885944,17.515177]. 2) Il χ2 avrebbe 5 gradi di libert. (D) Assumendo un modello di Poisson, ottenuti i due parametri conteggio medio per anno per totale dipendenti, si ottengono i valori di probabilit: 55 1) 0.9935377 2) 0.000528446 56 29 29.1 Compito del 23.01.2002 Testo (A) La probabilit che un quattordicenne impieghi un veicolo per spostarsi 0.67. La probabilit che il veicolo sia un motorino 0.95. La probabilit che il quattordicenne causi un danno mentre alla guida di un veicolo diverso dal motorino 0.69; se il veicolo un motorino allora essa 0.15. In Tabella 1 sono riportate le distribuzioni di probabilit per il valore del danno Y causato in dipendenza dal tipo di veicolo. Si calcolino: 1) la distribuzione del valore del danno senza distinzione per tipologia di veicolo. 2) la probabilit che 5 quattordicenni su 10 casualmente scelti impieghino un veicolo che non un motorino e causino un danno. Tabella 1: Distribuzione di probabilit per il valore del danno (centinaia di euro) condizionatamente al tipo di veicolo adoperato. Valore Danno: 0.1 1 5 Se motorino: 0.15 0.3 0.55 Se altri veicoli: 0.75 0.15 0.1 (B) Alla YUMAMOTO Inc. sono state vendute motociclette di 4 cilindrate differenti (Tabella 2). Si ottengano: 1) i quantili 0.33 e 0.88. 2) la rappresentazione grafica della funzione di distribuzione. Tabella 2: Frequenze di vendita per 4 cilindrate differenti (centimetri cubici). Cilindrata: 900 500 250 125 Moto vendute: 846 449 652 620 (C) Il comune di S.DONNINO prender provvedimenti se la frequenza degli incidenti dovuti ai motorini superiore al 10%. Nell’ultimo anno,il numero di incidenti causati da motorini stato 60 dei totali 349 dovuti a veicoli. 1) Calcolare l’errore standard della stima puntuale. 2) Calcolare il p-value assumendo che la varianza della variabile frequenza relativa sia 0.0007. (D) Per valutare le velocit massime di tre marche di motorini differenti sono stati provati campioni di 2 motorini appartenenti a 3 marche differenti (Tabella 3): 1) La tipologia di motorino determina cambiamenti medi di velocit?; 2) Assumendo che la velocit sia normalmente distribuita ed abbia la medesima varianza σ 2 per ogni marca, effettuare la stima per intervallo di σ 2 (1 − α = 95%). Tabella 3: Velocit per tipologia ASPES 51 GALLETTO 66 AQUILOTTO 46 29.2 di motorino. 61 56 66 Soluzioni (A) Siano rispettivamente V , M , D le variabili casuali uso Veicolo, veicolo tipo Motorino, Danno. Y il valore del danno. 1) Siano V = v, v; M = m, m; D = d, d. Le probabilit sono P (V = v) = 0.67, P (M = m|V = v) = 0.95, P (D = d|V = v, M = m) = 0.69, P (D = d|V = v, M = m) = 0.15. Allora, con i = m, m, X P (Y = y|V = v, D = d) = P (Y = y|D = d, V = v, M = i)P (M = i|D = d, V = v) i 57 dove P (M = i|D = d, V = v) = P (D = d|M = i, V = v)P (M = i|V = v) P (D = d|V = v) e P (D = d|V = v) = X P (D = d|V = v, M = i)P (M = i|V = v) = 0.69 ∗ 0.05 + 0.15 ∗ 0.95 = 0.177. i 0.69 ∗ 0.05 0.15 ∗ 0.95 = 0.80508 e P (M = m|D = d, V = v) = = Quindi P (M = m|D = d, V = v) = 0.177 0.177 0.19496. Infine P (Y = 0.1|V = v, D = d) = 0.26695, P (Y = 1|V = v, D = d) = 0.27076, P (Y = 5|V = v, D = d) = 0.46229 2) La probabilit che un quattordicenne causi un danno spostandosi con un veicolo non motorino P (M = m, D = d, V = v) = P (D = d|V = v, M = m)P (M = m|V = v)P (V = v) = 0.023115. Assumendo l’indipendenza di eventi relativi a quattordicenni differenti, la variabile causale che conta gli eventi binomiale, da cui il risultato 0.00000141794. (B) Dopo avere ordinato in senso crescente i valori di cilindrata e diviso per il totale delle vendite, si ottiene la distribuzione di frequenze relative. Il pi piccolo valore tra quelle x che soddisfano F (x) ≥ q il quantile xq . 1) x0.33 = 250; x0.88 = 900 2) Frequenze cumulate: =0.24152707, = 0.4955201 = 0.6704324 (C) 1) La stima puntuale del parametro proporzione di incidenti dovuta a motorini ha errore standard 0.02019698. 2) Stima puntuale della proporzione 0.1719198; p-value= 0.003280798 (D) 1) Il coeff. Di Gini 0.3162278, η 2 0.1 2) La migliore stima della varianza S 2 la pooled per i tre gruppi che viene 100. In tal caso 3S 2 /σ 2 ∼ χ23 . L’intervallo dato da [32.09104, 1390.206] 58 30 30.1 Compito del 12.02.2002 Testo La New.Net decide di proporsi come fornitore di accessi ad Internet. Effettua quindi un’analisi del mercato rilevando la distribuzione degli utenti riportata nella tabella seguente. Fornitori Num. utenti Tin 4442 Ciaoweb 1885 Libero 3500 Kataweb 2401 Tiscali 6275 (1) Valutare il grado di concentrazione degli utenti mediante un indice opportuno. (2) Effettuare una rappresentazione grafica dell’indice cal colato. 2 Agli utenti New.Net viene proposto un concorso a premi via Web. Nel sito del concorso ci sono due porte ed il concorrente deve sceglierne una. Nella prima sono lanciati due dadi: se esce (6,6) si vince 16 euro, altrimenti si vince 2 euro. Nella seconda porta viene lanciata 9 volte una moneta: se esce testa 7 volte si vince 160 euro, altrimenti si vince 2 euro. (1) Calcolare la vincita attesa. (2) Estraendo a caso un utente c he ha vinto 2 euro, calcolare la probabilità che questi abbia scelto la prima porta . 3 Per impostare una campagna pubblicitaria la New.Net consulta un noto esperto: questi suggerisce una pubblicità mediante un banner su un noto portale, asserendo che tale tipo di pubblicità non è notata solo dal 28.30 % degli internauti. La New.Net effettua quindi un’indagine su un campione di 427 utenti, da cui risulta che 148 non hanno notato il banner. (1) Verificare, al livello di significatività del 5%, l’ipotesi che la frequenza relativa di coloro che non notano il banner sia quella dichiarata dall’esperto contro un’ipotesi alternativa che tale frequenza sia maggiore; (2) Calcolare la probabilità dell’errore di seconda specie nel caso in cui l’ipotesi alternativa ponga tale frequenza relativa pari a 0.39 . 4 Per valutare la diversità di comportamento degli utenti si misura la durata delle connessioni (in minuti) per Tin e Tiscali su un campione di 60 accessi per Tin e di 70 per Tiscali. La varianza osservata è 121.31 per Tin e 34.91 per Tiscali. Sapendo che in generale la durata delle connessioni è distribuita normalmente con media 17 , (1) calcolare gli intervalli di confidenza (1 − α = 0.95) del coefficiente di variazione per entrambi i portali; (2) tali intervalli suggeriscono una diversità tra le due popolazioni ? 30.2 Soluzioni 1 pi = 0.20 qi = 0.1019 R = 0.2924 0.40 0.2316 0.60 0.4208 0.80 1.00 0.6609 1.0000 2 Vincita attesa = 7.7491 P(porta1| vincita)= 0.5112 3 Test d’ipotesi unilaterale su una proporzione Zoss = 2.9177 Zcrit = 1.6449 Rifiuto H0 β = 0.0009 4 59 Tin: (0.5499 ; 0.7888 ) Tiscali: (0.2983 ; 0.4165 ) 60 31 31.1 Compito del 04.04.2002 Testo (A) Al magazzino MYMOTOR sono disponibili volanti di ricambio. La casa produttrice consegna il 4.5% di volanti difettosi. 1) Assumendo che la MYMOTOR abbia ricevuto 31 volanti, quale la probabilit che ve ne siano 6 difettosi? 2) Un meccanico acquista 2 volanti di ricambio alla MYMOTORS che ne ha in magazzino 6. Quale la probabilit che vi sia almeno un volante difettoso tra quelli acquistati dal meccanico, sapendo che nel magazzino della MYMOTOR vi sono al massimo 2 volanti difettosi? (B) In un esperimento riguardante un dispensatore di bevande stato considerato un campione casuale di 1000 richieste di bevanda. Per ogni richiesta stata memorizzata la tipologia di bevanda (variabile Y) e la temperatura esterna (variabile X, bassa=-1, media=0, alta=1). In Tabella 2 riportata la distribuzione congiunta delle frequenze relative. Tabella 1: Distribuzione congiunta della Y: 1 X: -1 0.039 0 0.052 1 0.047 tipologia di bevanda e della temperatura esterna. 2 3 4 0.173 0.061 0.043 0.023 0.057 0.003 0.216 0.113 0.172 1) Data una temperatura esterna di valore medio, ricavare la distribuzione della tipologia di bevanda? 2) Calcolare un opportuno indice per valutare il grado di associazione tra temperatura esterna e bevanda prescelta. (C) Si consideri la variabile diametro relativa al foro filettato di un bullone. Un campione casuale di dimensione pari a 39 proveniente dall’azienda SECURHOLE ha fornito le seguenti statistiche campionarie: media = 13.1, varianza corretta = 4. Un campione casuale di dimensione pari a 20 proveniente dall’azienda PERFECTHOLE ha fornito le seguenti statistiche campionarie: media = 14.4 e varianza corretta = 4.1. Assumendo la normalit della variabile casuale diametro: 1) Effettuare la stima del rapporto tra varianze con affidabilit 0.95. 2) Assumendo che le varianze delle due popolazioni siano uguali a σ 2 , effettuare la stima puntuale di σ 2 . (D)Considerando il problema ( C), in particolare il punto (2): 1) saggiare statisticamente l’uguaglianza del diametro medio dei bulloni prodotti dalle due aziende (probabilit di accettare l’ipotesi di lavoro quando essa di fatto vera = 0.99). 2) Se la varianza fosse nota cosa cambierebbe nel test al punto (1)? 31.2 Soluzioni (A.1) Conoscendo la probabilit che il produttore consegni un volante difettoso, il modello adeguato alla probabilizzazione del numero di volanti difettosi consegnati alla MYMOTOR dato il totale dei consegnati binomiale: 0.001933762. (A.2) Dato il numero dei difettosi nel magazzino, il modello dei difettosi acquistati ipergeometrico. Tuttavia, occorre ricavare la distribuzione del numero dei difettosi in magazzino e marginalizzare opportunamente: 0.08679442 (B.1) Ottenuta la distribuzione marginale della variabile X, si divida la congiunta p(X = 0, Y )/p(X = 0) per ogni Y : 0.1837456, 0.2155477, 0.2014134, 0.3992933. (B.2) Uno degli indici di interconnessione stocastica adeguato, C1= 0.2879636, C2= 0.3722192, C1rel = 0.2159727, C2rel= 0.2631987, chi2=0.1384086, CP=0.3488376, Tcshuprov=0.05656162. (C.1) Il rapporto tra varianze 0.9756098. I quantili di F sono 0.4748059 e 2.342687. L’intervallo dato da [0.416449,2.054755]. 61 (C.2) La migliore stima di σ 2 la varianza pooled per i due gruppi, che viene 4.033333 (D.1) La differenza tra medie -1.3, la deviazione standard della differenza 0.5523454. Il t-empirico -2.3536, il t-critico (alfa=0.01) 2.66487. (D.2) La statistica test sarebbe distribuita normalmente ed il test risultante pi potente. Cambierebbe anche σ 2 se diversa da quella stimata. 62 32 32.1 Compito del 11.06.2002 Testo 1 Un’agenzia di viaggi pubblicizza vacanze in un’isola tropicale affermando che il numero medio di ore al giorno di pieno sole è 10. Effettuate un periodo di vacanze di 20 giorni sull’isola e rilevate un numero medio di ore al giorno di pieno sole pari a 7.50 con una deviazione standard corretta di 1.28. Se il numero di ore di pieno sole fosse distribuito normalmente: (a) avreste motivo di lamentarvi di essere stati ingannati? (porre α = 0.05) (b) E se la varianza del numero di ore di pieno sole fosse stata nota e pari ad 1? 2 Si supponga che la probabilità che una hostess di una compagnia aerea sia gentile è 0.79 , mentre tale probabilità è pari a 0.49 per uno stewart. Gli equipaggi vengono formati estraendo a caso due individui del personale, con una probabilità, ad ogni estrazione, di selezionare una hostess pari 0.75 (0.25 per uno stewart). (a) Calcolare la probabilità che un equipaggio estratto a caso, nessuno sia gentile. (b) Sapendo che un viaggiatore è stato servito da una sola persona e che questa è stata gentile, calcolare la probabilità che il viaggiatore sia stato servito da una hostess. 3 Si vuole delineare il profilo del turista italiano. Si effettua un’indagine campionaria rilevando le preferenze in termini di località (X = mare, montagna, altro) e di tipo di alloggio (Y=albergo, villaggio, altro). I dati rilevati sono riportati nella tabella seguente. Y X Mare Montagna Altro Albergo Villaggio Altro 68 130 76 205 42 21 17 22 138 (a) Calcolare un (solo) indice di interconnessione relativo tra le due variabili. (b) Derivare, in base alle frequenze relative, la distribuzione di probabilità condizionata del tipo di alloggio dato che X = mare. 4 Si vuole studiare se il numero di giorni trascorsi in vacanza nell’anno precedente (X) sia una variabile influente per il numero di giorni trascorsi in vacanza nell’anno successivo (Y). La tabella seguente riporta i dati rilevati su un campione casuale di 5 individui. X Y 14 13 18 20 18 19 14 15 16 20 (a) Calcolare i coefficienti di regressione. (b) Verificare l’ipotesi che X non abbia effetto su Y, P P specificando P 2le assunzioni P 2 necessarie. (N.B. Per velocizzare i calcoli si tenga presente che xi = 80 yi = 87 xi = 1296 yi = 1555 ) 32.2 Soluzioni 1 Test d’ipotesi unilaterale sulla media. (a)toss = −8.7287 tcrit = −1.7291 Rifiuto H0 (b)zoss = −11.1803 63 Zcrit = −1.6449 Rifiuto H0 2 P(H) = 0.75 ; P(S)= 0.25 (a) P (G) = P (G|H)P (H) + P (G|S)P (S) = 0.715 (b) P (H | G) = 0.82867 3 (a) C1 = 0.6485 C1r = 0.4864 CM = 0.3242 P (G, G) = 0.081225 C2 = 0.7246 C2r = 0.5124 CP = 0.5868 CT schuprov = 0.3713 (b) Y |Mare Albergo 0.2345 Villaggio 0.7069 Altro 0.0586 4 (a) Modello di regressione semplice : βb = 1.3750 e α b = −4.6000 P (b) s2 = 3.6500 e (xi − x)2 = 16.0000 toss = 2.8788 tcrit = ±3.1824 gdl=2 Accetto H0 64 33 33.1 Compito del 26.06.2002 Testo (A) In Tabella 1 sono riportati i numeri indici (percentuali) a base fissa 2 Ij relativi alle spese per la materia prima presso l’azienda HOTMILK per il secondo semestre del 2001. Determinare: 1) il numero indice 1 I6 percentuale; 2) Rappresentare graficamente la serie semestrale interpretando brevemente l’andamento riscontrato. Tabella 1: Numeri indici del semestre. Mese 1 2 3 4 5 6 Indice 92 100 103 103 107 110 (B) Alla HOTMILK si sta effettuando uno studio per valutare il tempo di pulitura richiesto dai recipienti di sterilizzazione con un nuovo metodo termico. Ad un campione casuale di 5 recipienti stata applicata la pulitura a 150 gradi (Tabella2): Tabella 2: Tempi di pulitura. Tempi 10 13 9 10 11 1) Riassumere i risultati sperimentali con un indice di posizione ed uno di variabilit (indice relativo). 2) Sapendo che la varianza relativa ai tempi di pulitura con il metodo standard pari a 5 minuti quadrati, valutare se la nuova procedura termica diminuisce significativamente la varianza del tempo di pulitura(α = 0,05, modello normale per la variabile casuale tempo). (C) Considerando il latte imbottigliato alla HOTMILK, il numero atteso di batteri per litro pari a 20 se sterilizzato in modo standard, oppure 2.5 se sterilizzato con procedura HIGHGRADE. Si consideri un bicchiere di latte da 10 centilitri versato da una bottiglia prodotta alla HOTMILK: 1) Quale il numero di batteri attesi se la procedura HIGHGRADE, quale se la procedura standard? 2) Si assuma che la probabilit che una bottiglia da un litro sia sterilizzata con il vecchio metodo sia pari a 0.5. Se l’analisi rivelasse che il bicchiere di latte in (1) contiene 7 batteri, quale sarebbe la probabilit che la bottiglia da cui stato versato sia stata sterilizzata con la procedura HIGHGRADE? (D) In un esperimento sulla qualit del latte stato contato il numero di batteri presenti in un campione di 7 autobotti per il trasporto latte della HOTMILK. Si assuma che il numero di batteri dipenda dalla temperatura di sterilizzazione secondo la relazione Yi = β0 + β1 xi + ei , (con gli ei ∼ N (0, σ 2 ) e indipendentemente distribuiti). Sapendo che i parametri stimati con il metodo dei minimi quadrati sono risultati pari a βb0 = 2839.18 e βb1 = −18.96 e σ b2 = 78.67,che la media delle x 105 e che la devianza delle x 700: 1) Determinare l’intervallo di confidenza per (livello 0.90); 2) Calcolare l’intervallo entro cui si situa con affidabilit 90% il numero atteso di batteri alla temperatura di 112 gradi. 33.2 Soluzioni (A) 1) 1 I6 =2 I6 /2 I1 ∗ 100 = 110/92 ∗ 100 = 119.6. 2) Situando i mesi sulle ascisse e gli indici sulle ordinate possiamo concludere che le spese sono aumentate al passare dei mesi. (B) 1) La media aritmetica = 10.6. Varianza = 1.84. CV = 12.8% 2) Stima varianza corretta = 2.3. Chi-quadro empirico = 1.84. Chi-quadro critico = 0.7107. Accetto l’ipotesi nulla. 65 (C) Si consideri il modello di Poisson per il conteggio dei batteri. 1) Essendo 10 centilitri = 0.1 litri i due valori attesi sono 0.25 e 2.0, rispettivamente. 2) X = numero batteri in un bicchiere di latte da 10 centilitri; H = 1 se sterilizzato con HIGHGRADE, 0 se sterilizzato con procedura standard. Assumendo che X abbia distribuzione di Poisson (ovviamente con un λ diverso a seconda del metodo, come chiarito nel punto precedente) abbiamo: X|H = 1 ∼ P oisson(λ1 = 0.25), X|H = 0 ∼ P oisson(λ0 = 2), P (H = 1) = 0.5 e P (H = 0) = 0.5. Allora, utilizzando la formula di Bayes, P (H = 1|X = 7) = P (X = 7|H = 1)P (H = 1)/P (X = 7) = 0.000002744, dove: P (X = 7|H = 1) = 0.00000000943139, P (X = 7|H = 0) = 0.003437087, P (X = 7) = P (X = 7|H = 1)P (H = 1) + P (X = 7|H = 0)P (H = 0) = 0.001718548 (formula della probabilit marginale). (D) 1) La varianza stimata ha 7-2=5 gradi di libert, da cui l’intervallo basato sul chi-quadro [35.53, 343.39] 2) Si tratta dell’intervallo di previsione per il valore atteso =715.6, ovvero [707.35, 723.86] 66 34 34.1 Compito del 16.07.2002 Testo 1 L’azienda produttrice di gelati FRITZ sa che il 21% dei propri clienti preferisce il gusto limone, il 31% fragola ed il 48% cioccolato. L’8% dei clienti che preferiscono il gusto limone acquista il gelato al bar, mentre tale percentuale scende al 5% per coloro che preferiscono fragola e al 3% per cioccolato. (a) Se si sceglie un cliente a caso che ha comprato il gelato al bar, determinare la probabilità che questi abbia scelto il gusto limone. (b) Sapendo che, per ciascun gelato venduto al bar, la FRITZ guadagna 0.25 euro per un gelato al limone ed il doppio per gli altri gusti, calcolare il guadagno atteso da un gelato venduto al bar. 2 Si effettua un’indagine campionaria per verificare una relazione tra gusto di gelato preferito e tendenze politiche. Si misura la preferenza di gusto (X = limone, fragola, cioccolato) e la tendenza politica (Y=Sinistra, Centro, Destra). Le frequenze rilevate riportate nella tabella seguente. Y X Limone Fragola Cioccolato Sinistra Centro Destra 46 152 64 161 39 30 26 33 168 (a) Calcolare un (solo) indice di interconnessione relativo tra le due variabili. (b) Derivare, in base alle frequenze relative, la distribuzione di probabilità condizionata delle tendenze politiche dato che X = limone. 3 La FRITZ ha acquistato un nuovo macchinario che distribuisce le amarene nelle coppe di gelato. La ditta fornitrice asserisce che il macchinario distribuisce il numero di amarene prestabilito il 98% delle volte. La FRITZ effettua un’indagine su un campione di 500 coppe di gelato, da cui risulta che 36 presentano un numero di amarene diverso da quello preimpostato. (a) Verificare, al livello di significatività del 5%, l’ipotesi che la frequenza relativa degli errori sia quella dichiarata dalla ditta fornitrice del macchinario ; (b) Come avreste dovuto procedere se il campione di coppe fosse stato di dimensione 10? 4 Si vuole studiare se il numero di cartelloni pubblicitari esposti contemporaneamente in una città (X) sia una variabile influente per il numero di bar che, in quella città, richiedono una fornitura della FRITZ (Y). La tabella seguente riporta i dati rilevati su un campione casuale di 5 città. X Y 14 13 18 20 18 19 14 15 16 20 (a) Calcolare i coefficienti di regressione. (b) Verificare l’ipotesi che X non abbia effetto su Y, specificando necessarie. P le assunzioni P P 2 P 2 (N.B. Per velocizzare i calcoli si tenga presente che xi = 80 yi = 87 xi = 1296 yi = 1555 ) 34.2 Soluzioni 1 (a) Formula di Bayes. B= comprato al bar P(B)= 0.0467 P(limone |B)=0.3597 67 (b) P(fragola |B) + P(cioccolato |B)= 0.3319 + 0.3084 =0.6403 Y=guadagno dalla vendita al bar di un gelato 0.25 p = 0.3597 Y = 0.50 p = 0.6403 E[Y ] = 0.25 · 0.3597 + 0.50 · 0.6403 = 0.41 euro. 2 (a) C1 = 0.6735 C1r = 0.5051 CM = 0.3368 C2 = 0.7245 C2r = 0.5123 CP = 0.5867 CT schuprov = 0.3712 (b) Y |Mare Albergo 0.1974 Villaggio 0.6910 Altro 0.1116 3 (a) toss = 8.3054 Zcrit = 1.6449 Rifiuto H0 (b) Calcolo del p-value mediante distribuzione binomiale 4 (a) Modello di regressione semplice : βb = 1.3750 e α b = −4.6000 P 2 (b) s = 3.6500 e (xi − x)2 = 16.0000 toss = 2.8788 tcrit = ±3.1824 gdl=2 Accetto H0 68 35 35.1 Compito del 17.12.2002 Testo Esercizio 1 La probabilit di superare un esame, se non si seguono regolarmente le lezioni, 0.69 , mentre se le lezioni sono seguite regolarmente 0.87 . Il 76 % degli studenti ha superato l’esame in questione. In quale proporzione essi hanno seguito regolarmente le lezioni? Esercizio 2 Il management del gruppo STARTEL, una compagnia che produce elettronica per le telecomunicazioni, sta mettendo a punto un piano di ristrutturazione. La sua attenzione rivolta in particolare alla produzione di telefoni cellulari, riguardo alla quale sta confrontando i dati di produttivit pervenuti dai responsabili dei 4 stabilimenti del gruppo. Tabella: Principali statistiche sulla produttivit dei 4 stabilimenti del gruppo STARTEL. I dati di base sui quali sono state calcolate le statistiche sono a cadenza mensile. Stabilimento China 1 China 2 Reno Limerick Numero mesi 20 14 30 12 Media mensile 67.4 68.6 48.1 87.3 Varianza mensile 46.6 28.8 40.2 64.5 Si valuti come la produttivit spiegata dagli stabilimenti attraverso un opportuno indice. Esercizio 3 Il responsabile marketing della STARTEL Italia ha commissionato alla NELSON, un’agenzia di ricerche di mercato, una rilevazione campionaria per conoscere quanto le famiglie italiane spenderanno in elettronica di consumo (telefonia, computer, hi-fi, ecc.) nei prossimi 2 anni (2002-2003). Le principali statistiche campionarie sul campione casuale semplice intervistato sono riportate in tabella. Tabella: Principali statistiche campionarie sulla spesa delle famiglie italiane in elettronica di consumo nel 2002-2003 (valori in Euro) Famiglie intervistate 1o quartile mediana 3o quartile media varianza (non corretta) 1543 0 894.2 1060.3 713.8 218628 (A) Costruire l’intervallo di confidenza al 99.5 % per la vendita media, specificando le ipotesi e i principali risultati teorici utilizzati per ricavarlo. (B) Alla NELSON stata commissionata una rilevazione analoga per il mercato spagnolo. Per stabilire la dimensione del campione da intervistare, la NELSON decide di sfruttare i risultati della rilevazione italiana, accrescendo prudenzialmente la varianza (non corretta) del 30 %. Su questa base, quanto deve essere n per ottenere un intervallo al 99.5 % per la spesa media di informativit pari a 34 ? Esercizio 4 Dalla rilevazione effettuata in Italia di cui all’esercizio precedente emerso che non tutte le famiglie hanno intenzione di fare acquisti di elettronica di consumo. In particolare fra le 1543 famiglie intervistate, quelle che non hanno intenzione di acquistare nel biennio 2002-2003 il tipo di beni indicati sono state 424 . (A) Sottoporre a test l’ipotesi nulla secondo la quale la percentuale di coloro che non hanno intenzione di acquistare del 30 % contro l’alternativa che sia del 26 % mediante il p-value. (B) Sulla base dei dati di cui al punto (A) determinare la potenza del test. 35.2 Soluzioni Esercizio 1 69 Siano E = ”esame superato”; S = ”lezioni seguite regolarmente”. Si risolve attraverso la formula della probabilit totale: P (E) = P (E|S)P (S) + P (E|S)[1 − P (S)] da cui sapendo P (E) = 0.76, P (E|S) = 0.87, P (E|S) = 0.69 si ricava P (S) = 0.38889. Esercizio 2 Si risolve calcolando quanta parte della variabilit complessiva della produttivit spiegata dalla variabile ”stabilimento” (che forma i gruppi) η2 = 14570.8 DevB = = 0.81465. DevT 17886 Per il calcolo di DevB si dispone delle medie (xj ) e delle numerosit (nj ) di ciascun gruppo: prima si calcola x = 63.1447 mediante la propriet di associativit e poi si applica la relativa formula. Il calcolo di DevT deve essere fatto mediante DevT = DevB + DevW = 14570.8 + 3315.2 DevW si trova prima trasformando le varianze (V arj ) di ciascun gruppo in P devianze mediante Devj = V arj nj (valori ottenuti: 932 , 403.2 , 1206 , 774 ) e poi calcolando DevW = j Devj . Esercizio 3 (A) Il campione sufficientemente elevato per invocare il teorema del limite centrale (ed altre propriet asintotiche) e considerare come pivot X −µ √ ≈ N (0, 1). S/ n √ Poiché x = 713.8, s2 = 218769.78, s = 467.73, n = 39.28, z = 2.807, l’intervallo al 99.5 % risulta [680.38 ,747.22 ]. 2zs (B) Nelle condizioni dell’esercizio, l’informativit data da I = √ . Poiché l’aumento prudenziale della n varianza non corretta fornisce s2 = 284400.72, s = 533.29 ed inoltre I = 34, z = 2.807, si ottiene n = 7755. Esercizio 4 (A) Nelle ipotesi dell’esercizio, come variabile test si pu utilizzare pb − p p ≈ N (0, 1) pq/n p dove: sotto H0 p = 0.3, sotto H1 p = 0.26. Poiché pb = 424/1543 = 0.2748, n = 1543, p0 q0 /n = 0.01167, pb − p0 allora il valore della statistica test sotto H0 -2.161 , mentre il p-value P ( p < −2.161|H0 ) = p0 q0 /n 0.01535. pb − p0 (B) Considerato α = 0.05 allora Regione di rifiuto per p = (−∞, z = −1.645). Poniamo inoltre p0 q0 /n p p s0 = p0 q0 /n ed s1 = p1 q1 /n. Allora γ = P( pb − p0 pb − p1 p0 + zs0 − p1 < z|H1 ) = P (b p < p0 +zs0 |H1 ) = P ( < |H1 ) = P (Z < 1.864|H1 ) = 0.96882 s0 s1 s1 70 36 36.1 Compito del 08.01.2003 Testo Esercizio 1 La BIGFRUIT una compagnia Neozelandese che produce ed esporta frutta. La produzione di kiwi, proveniente per il 34 % dal consorzio NORD e per la parte restante dal consorzio SUD, commercializzata in piccole cassette da 15 pezzi ciascuna. Per la stagione corrente i controlli effettuati hanno mostrato che stata messa in commercio una media di 0.22 kiwi difettosi per cassetta nel consorzio NORD e una media di 0.477 kiwi difettosi per cassetta nel consorzio SUD. (A) Presa a caso una cassetta di kiwi BIGFRUIT, calcolare la probabilit che essa contenga almeno un kiwi difettoso. (B) Sapendo che in una cassetta non stato trovato alcun kiwi difettoso, determinare la probabilit che questa provenga dal consorzio NORD. Esercizio 2 La seguente tabella riporta la serie degli numeri indice a base mobile, rispetto all’anno precedente ed espressi in percentuale, dei prezzi al consumo dei kiwi. Anno Indici a base mobile 1996 108.9 1997 95.9 1998 106.6 1999 91.6 2000 102.5 2001 107 2002 105.3 (A) Calcolare la serie dei numeri indice a base fissa con base 2000 = 100. (B) La seguente tabella riporta il prezzo medio annuale (per kg e in $NZL) dei kiwi BIGFRUIT. Si tuttavia persa memoria dei prezzi 1996 e 1997. Completare la tabella. Anno Prezzo BIGFRUIT 1996 ... 1997 ... 1998 0.7 1999 0.68 2000 0.52 2001 0.79 2002 0.83 Esercizio 3 Esportando prevalentemente in Europa Continentale, le vendite della BIGFRUIT possono risentire del tasso di cambio $NZL-Euro. La tabella seguente riporta alcune statistiche calcolate sui dati annuali del periodo 1985-2001 (V = Vendite BIGFRUIT in milioni di $NZL in Europa Continentale; T = tasso di cambio $NZL-Euro). Statistiche Valori M edia(V ) 3282 M edia(T ) 1.71 Dev(V ) 161225 Dev(T ) 3.3 Codev(V, T ) -620.3 (A) Si formuli un opportuno modello di regressione e se ne stimino i parametri (Aiuto: per la stima di σ 2 si utilizzi la relazione Dev(residui) = Dev(y) − βb12 Dev(x)). (B) Si sottoponga a test l’ipotesi che le vendite non siano significativamente influenzate dal tasso di cambio. Esercizio 4 La BIGFRUIT sta sperimentando un programma di lotta integrata per diminuire la quantit di pesticidi utilizzati nella coltivazione dei kiwi. Per la lotta contro il pico-parassita, due campioni casuali di piante sono stati sottoposti al trattamento tradizionale e a quello di lotta integrata con i risultati riportati nella seguente tabella (variabile rilevata = numero di pico-parassiti catturati dalle trappole messe su ciascuna pianta). Statistiche Tradizionale Lotta integrata piante 28 23 Q1 1809 1697 mediana 1911 1787 Q3 2011 1853 media 1921 1805 varianzacorretta 15057 29366 (1) Si formuli un opportuno modello e si sottoponga a test l’ipotesi nulla che il nuovo programma di lotta integrata non sia migliore del vecchio (α = 0.005 ). (2) Si calcoli il p-value utilizzando le tavole a disposizione. 71 36.2 Soluzioni Esercizio 1 Xi = numero di kiwi difettosi nel consorzio i, con i = N, S. Allora (X|N ) ∼ Bi(n = 15, pN ) e (X|S) ∼ Bi(n = 15, pS ). Da E(X|N ) = npN = 0.22 ed E(X|S) = npS = 0.477 si ricava pN = 0.01467 e pS = 0.0318. (A) P (X ≥ 1) = 1 − P (X = 0) = 1 − 0.67887 = 0.32113 dove P (X = 0) = P (X = 0|N )P (N ) + P (X = 0|S)P (S) = 0.80121 ∗ 0.34 + 0.61585 ∗ 0.66 = 0.67887 (B) P (N |X = 0) = 0.80121 ∗ 0.34 P (X = 0|N )P (N ) = = 0.40127 P (X = 0) 0.67887 Esercizio 2 xt xt xt−1 = partendo da x00 /x00 = x00 xt−1 x00 xt xt /xt+1 = 107. Per gli anni t < 2000 si utilizza iterativamente la relazione = = x00 x00 /xt+1 (A) Per gli anni t > 2000 si utilizza iterativamente la relazione 100 e x01 /x00 xt+1 /x00 partendo da x00 /x00 = 100 e x00 /x99 = 102.5. Cos facendo si ottiene la serie xt+1 /xt Anno Indici a base 2000 1996 104.2 1997 99.9 1998 106.5 1999 97.6 2000 100 2001 107 2002 112.7 (B) 97 I98 = x98 /x97 implica x97 = x98 /97 I98 = 0.7/1.066 = 0.6567. Sfruttando tale risultato x96 = x97 /96 I97 = 0.6567/0.959 = 0.6847. Esercizio 3 Modello: Vi = β0 + β1 Ti + ui dove ui ∼ (0, σ 2 ), con le solite ipotesi sugli ui Codev(V, T ) −620.3 (A) βb1 = = = −188; βb0 = V − βb1 T = 3282 − −188 ∗ 1.71 = 3603.4; σ b2 = Dev(T ) 3.3 [Dev(V ) − βb12 Dev(T )]/(n − 2) = (161225 − −1882 ∗ 3.3)/(17 − 2) = 2975.2 (B) H0 : β1 = 0 contro H1 : β1 6= 0. Come statistica test si utilizza βb1 − β1 ∼ T (n − 2), dove σ b(βb1 ) −188 βb1 = = −6.2602 30.026 σ b(βb1 ) σ b2 . Il valore campionario della statistica test sotto H0 Dev(T ) σ b2 2975.2 (b σ 2 (βb1 ) = = = 901.56) mentre la regione di accettazione [-2.1314 ,2.1314 ]. Dev(T ) 3.3 σ b2 (βb1 ) = Esercizio 4 (A) Si supponga XT ∼ (µT , σ 2 ) e XL ∼ (µL , σ 2 ). Allora H0 : µT − µL = 0 contro H1 : µT − µL > 0. Nelle (X T − X L ) − (µT − µL ) condizioni dell’esercizio, come variabile test si pu utilizzare T = q ∼ T (n − 2). Il Sp2 (1/nT + 1/nL ) valore campionario della statistica test sotto H0 q dove (Sp2 = XT − XL Sp2 (1/nT + 1/nL ) =p 1921 − 1805 21481.45(1/28 + 1/23) = 2.81, ST2 (nT − 1) + SL2 (nL − 1) 15057 ∗ 27 + 29366 ∗ 22 = = 21481.4) mentre la regione di rifiuto nT + nL − 2 49 (2.68, +∞]. (B) p − value = P (T > 2.8124|H0 ) = 0.003527 con la T oppure 0.002458 con la Normale. 72 37 37.1 Compito del 23.01.2003 Testo Esercizio 1 Al Manicomio del gelato, famosa gelateria gestita da un gelataio matto, un inserviente robot sceglie a caso uno tra tre possibili gusti: nocciola, cioccolato e pistacchio con probabilità rispettivamente 0.17 , 0.48 e 0.35 . Il gelataio matto aggiunge una ciliegia al gelato preparato dal robot con probablità 0.43 se il gelato è alla nocciola, 0.52 se il gelato è al cioccolato oppure non aggiunge nulla. (a) Con quale probabilità si riesce ad avere un gelato senza la ciliegina? (b) Sapendo che ci è toccata la ciliegina sul gelato, con che probabilità ci è capitato un gelato al gusto di nocciola ? Esercizio 2 Il gelataio matto afferma di regalare una cialda ai clienti totalmente a caso. Sono stati osservati i clienti della gelateria durante un weekend registrandone il sesso e se avevano ottenuto o meno la cialda in regalo. I dati osservati sono riportati nella seguente tabella. Sesso Maschio Femmina Totale Cialda in regalo Si No 31 55 153 22 184 77 Totale 86 175 261 (a) Calcolare un indice descrittivo che misuri l’indipendenza stocastica dell’assegnazione della cialda in regalo dal sesso del cliente. (b) Considerando i dati osservati come un campione casuale, calcolare un intervallo di confidenza al 99% per la probabilità di ricevere una cialda in regalo. Esercizio 3 Considerando i dati nella tabella dell’esercizio precedente come un campione casuale, (a) verificare statisticamente che la proporzione di clienti di sesso femminile del Manicomio del gelato sia pari a quella maschile, contro l’ipotesi che sia superiore (α = 0.05). (b) Fissando nell’ipotesi alternativa la proporzione di femmine a 0.55, calcolare la probabilità dell’errore di seconda specie. Il valore ottenuto mette in discussione il test statistico? Commentare. Esercizio 4 Supponiamo di avere una popolazione di 5 numeri: {1, 3, 5, 7, 9 } e si supponga di estrarre un campione di dimensione 3. (a) Descrivere la distribuzione campionaria della mediana campionaria. (b) La statistica del punto (a) viene utilizzata per stimare la mediana; calcolare la distorsione dello stimatore. 37.2 Soluzioni Esercizio 1 ΩG = {N, CC, P } per il gusto e ΩC = {C, C} per la ciliegina. P (N ) = 0.1700 P (CC) = 0.4800 P (P ) = 0.3500 P (C|N ) = 0.4300 P (C|CC) = 0.5200 P (C|P ) = 0 P (C|N ) = 0.5700 P (C|CC) = 0.4800 P (C|P ) = 1 (a) P (C) = P (C|N ) · P (N ) + P (C|CC) · P (CC) + P (C|P ) · P (P ) = 0.6773 )·P (N ) (b) P (N |C) = P (C|N = 0.2265 P (C) Esercizio 2 (a) C1 = 0.4541 C2 = 0.5296 73 C1r = 0.4541 C2r = 0.5296 CM = 0.4541/2 CP = 0.4680 (b) Intervallo di confidenza. p̂ = 0.7050 Intervallo di confidenza per p: [0.6323; 0.7777] Esercizio 3 (a) Test d’ipotesi unilaterale su una proporzione con H0 : p = 0.5 vs H1 : p > 0.5 p̂ = 0.6705 e σ0 = 0.0309 Zoss = 5.5090 Zcrit = 1.6449 Rifiuto H0 (b) β = P (P̂ < C0 |H1 ) = P (P̂ < 0.5 + 1.6449σ0 |H1 ) = = P (P̂ < 0.5509|H1 ) = P (Z < 0.0295) = 0.5117 Il valore di β è elevato, ma, avendo rifiutato H0 , non si corre il rischio di commettere un errore di secondo tipo. Esercizio 4 (a) Ω = {(1, 3, 5)(1, 3, 7), (1, 3, 9), (1, 5, 7), (1, 5, 9), (1, 7, 9), (3, 5, 7), (3, 5, 9), (3, 7, 9), (5, 7, 9)} 3 3 p = 10 4 5 p = 10 Me = 3 7 p = 10 (b) E[M e] = 5.00 d = M − E[M e] = 0 Mediana = M = 5 74 38 38.1 Compito del 10.02.2003 Testo Esercizio 1 Siete un manager di una azienda. Per favorire un buon clima lavorativo, lo scorso anno avete offerto pasticcini in quantità variabile. Fate una verifica sull’efficacia dell’incentivo misurando negli ultimi 8 mesi le variabili: X = spesa mensile per pasticcini in euro e Y = indicatore di produttività. I dati sono riportati nella tabella seguente. X Y 196 59 232 53 187 64 203 62 245 47 242 49 191 65 238 51 (a) Calcolare un indice che misuri la dipendenza lineare tra X e Y e commentare. (b) Si stimi un modelloPdi regressionePsemplice specificando le ipotesi P 2 P 2necessarie. Si tenga presente che: xi = 1734, yi = 450, xi = 380132, yi = 25666. Esercizio 2 Da un vostro collaboratore, ricevete un fax che contiene la seguente frase: “ Abbiamo condotto < numero illeggibile forse di 3 cifre > interviste telefoniche, rilevando il possibile interesse all’acquisto del nostro nuovo prodotto. I risultati indicano che la percentuale di persone interessate all’acquisto è compresa tra il 18% e il 29% con confidenza 90% ”. Secondo voi, quante persone sono state intervistate? (Suggerimento: per ricavare p̂, si noti che l’intervallo di confidenza è simmetrico rispetto a p̂) Esercizio 3 Si consideri le seguenti funzioni: 0 F1 (x) = 1 2 8x x≤0 altrove F2 (x) = 1 − e−3x 0 0≤x<∞ altrove (a) Quali di queste è una funzione di ripartizione? (b) Calcolare la mediana della variabile aleatoria la cui funzione di ripartizione è stata individuata al punto precedente. Esercizio 4 Si conduce un esperimento per valutare l’efficacia del profumo al bergamotto sulla produttività. Viene individuato un campione di 5 impiegati, a cui viene misurata la produttività in due giornate scelte a caso, in una delle quali viene diffuso nel suo ufficio un leggero profumo di bergamotto. I dati ottenuti sono riportati nella tabella seguente. Impiegato Produttività senza bergamotto Produttività con bergamotto A 70 81 B 81 81 C 60 62 D 66 69 E 73 78 (a) Ipotizzando che l’indicatore di produttività si distribuisca normalmente, si valuti, mediante opportuno test, se il profumo migliora in media la produttività (α = 0.05). (b) Si calcoli la potenza del test fissando nell’ipotesi alternativa l’incremento medio di produttività pari a 8.5. (Considerare nella tavola il valore più prossimo a quello che cercate, ricordando che la distribuzione simmetrica). 38.2 Soluzioni Esercizio 1 Coefficiente di correlazione ρ = −0.9727 Ipotesi classiche. Coefficienti di regressione α̂ = 116.788 β̂ = −0.2793. Esercizio 2 75 La variabile di interesse ha distribuzione binomiale. q p̂) Se n è abbastanza grande, l’intervallo per il parametro p è ⇒ p̂ ± zα\2 p̂(1− n Data la simmetria dell’intervallo rispetto a p̂, p̂ = 0.233 . zα\2 = 1.645 q 0.287 − 0.178 = 0.1092 · 1.645 0.233·0.767 da cui n ∼ = 162. n Esercizio 3 (a) F2 è una funzione di ripartizione; F1 non lo è in quanto non tende a 1. (b) X continua. Me=mediana t.c. 0.5 = P (X ≤ M e) = F (M e) = 1 − e−2M e ⇒ M e = 0.231 Esercizio 4 (a) Test unilaterale per il confronto tra medie in campioni dipendenti. Pongo D= (Prod con bergamotto) - (Prod senza bergamotto) H0 : µD = 0 vs H1 : µD > 0 d = 4.200 σ̂D = 4.207 . toss = 2.232 e tα = 2.132 Rifiuto H0 (b) 1 − β = P (d > C0 |H1 ) = P (d > 0 + 2.132σ̂D |H1 ) = = P (d > 4.011|H1 ) = P (t > −2.386) = 0.962 N.B. Questo il valore esatto; l’uso delle tavole comporta necessariamente un’approssimazione. 76 39 39.1 Compito del 23.04.2003 Testo Esercizio 1 La VEDALEC spa una catena di supermercati. I responsabili di tale catena per una certa zona territoriale hanno in progetto di cambiare l’orario di apertura dei punti vendita situati nella zona di competenza. Per saggiare il gradimento nei confronti del nuovo orario stata effettuata una rilevazione campionaria presso la clientela VEDALEC. Il risultato della rilevazione riportato nella seguente tabella. Maschi Femmine Maschi e femmine Favorevoli 285 401 686 Contrari 355 288 643 Totale 640 689 1329 (A) Si sottoponga a test l’ipotesi nulla che ”la maggioranza non favorevole” al nuovo orario di apertura. (B) Si determini la potenza del test in corrispondenza dell’ipotesi alternativa ”il 53 % della clientela favorevole” al nuovo orario. Esercizio 2 I responsabili VEDALEC hanno giudicato interessante approfondire se, in relazione al problema di cui al precedente esercizio, maschi e femmine tendono a manifestare un diverso gradimento nei confronti del nuovo orario. (A) Si vuole misurare il diverso gradimento di maschi e femmine per il nuovo orario di apertura: si proponga uno stimatore e se ne indichi la distribuzione (approssimata). Si fornisca inoltre una stima delle grandezza d’interesse e della deviazione standard dello stimatore utilizzato. (B) Si determini un intervallo di confidenza al 90 % per valutare la differenza di gradimento del nuovo orario fra maschi e femmine. Esercizio 3 Si assuma che i clienti VEDALEC siano alcuni milioni e che, estratto casualmente un cliente, la probabilit che questo sia favorevole al nuovo orario sia esattamente quella stimata al punto A dell’esercizio 1. Estratti a caso 383 clienti: (A) Determinare media e varianza del numero di favorevoli al nuovo orario fra i 383 estratti. (B) Utilizzando opportune approssimazioni, si determini l’intervallo, simmetrico rispetto alla media, entro il quale si colloca il numero di favorevoli fra i 383 estratti col 98 % di probabilit. Esercizio 4 Sulla base dei dati della rilevazione VEDALEC di cui all’esercizio 1, si misuri il grado di associazione fra sesso e giudizio sul nuovo orario mediante un opportuno indice. Commentare il risultato. 39.2 Soluzioni Esercizio 1 X ∼ Be(p), dove 1 = ’favorevole’ e 0 = ’non favorevole’. H0 : p ≤ 0.5 (da trasformare nella pratica in H0 : p = 0.5) contro H1 : p > 0.5. (A) La dimensione del campione autorizza a considerare come statistica test pb − p0 H0 Z0 = p ≈ N (0, 1) p0 q0 /n dove p0 = 0.5. Poiché α = 0.05 allora la regionep di rifiuto per p Z0 (z = 1.6449,√+∞); inoltre pb = 686/1329 = 0.5162, p0 = 0.5 ed n p = 1329 implicano p0 q0 /n = 0.5 ∗ 0.5/1329 = 0.000188 = 0.0137 e quindi z − empirico = (b p − p0 )/ p0 q0 /n = 1.1795. 77 (B) Poniamo s0 = Allora γ = P( p p p √ p0 q0 /n = 0.0137 e s1 = p1 q1 /n = 0.53 ∗ (1 − 0.53)/1329 = 0.000187 = 0.0137. pb − p0 pb − p1 p0 + zs0 − p1 > z|H1 ) = P (b p > p0 +zs0 |H1 ) = P ( > |H1 ) = P (Z > −0.5435|H1 ) = 0.70659 s0 s1 s1 Esercizio 2 (A) Come stimatore di pM − pF si pu utilizzare X M - X F , la cui distribuzione, in base alla dimensione dei campioni di maschi e di femmine, pu essere approssimata da N (pM − pF , pM qM pF qF + ). nM nF Pertanto possiamo stimare pM con xM = 285/640 = 0.4453, pF con xF = 401/689 = 0.582, pM qM /nM )/nF = 0.582(1 − con xM (1 − xM )/nM = 0.4453(1 − 0.4453)/640 = 0.000386, pF qF /nF con xF (1 − xF √ 0.582)/689 = 0.000353 e infine p −p con 0.4453−0.582 = −0.1367 e σ(X −X ) con 0.000386 + 0.000353 = M F M F √ 0.000739 = 0.027185. (B) Dato che α = 0.9 allora z = 1.6449, che unito a quanto detto sopra porta all’intervallo di confidenza cercato [−0.1367 − 1.6449 ∗ 0.0272, −0.1367 + 1.6449 ∗ 0.0272] = [−0.1814, −0.092]. Esercizio 3 (A) In base alle ipotesi dell’esercizio, l’opinione Pnespressa da ciascun estratto, Xi si distribuisce come una Bernoulli(p) e il numero di favorevoli X = i=1 Xi come una Binomiale(n, p). Allora E(X) = np = 383 ∗ 0.516 = 197.696 e V (X) = npq = 383 ∗ 0.516 ∗ 0.484 = 95.65. (B) Il numero di unit abbastanza grande per giustificare l’approssimazione Binomiale(n, p) ≈ N (np, npq), √ √ per cui l’intervallo cercato [np − z npq, np + z npq] = [197.696 − 2.326 ∗ 9.78, 197.696 + 2.326 ∗ 9.78] = [174.944, 220.448]. Esercizio 4 nij Maschi Femmine Favorevoli 285 401 Contrari 355 288 n∗ij Maschi Femmine Favorevoli 330.35 355.65 Contrari 309.65 333.35 C1 = C1rel = 0.1365, C2 = C2rel = 0.13667, χ2 = 24.82362, φ2 = T = 0.01868, Cp = 0.135411. 78 40 40.1 Compito del 29.05.2003 Testo Esercizio 1 In base alle quotazioni dell’ORO (X1 ) e del PALLADIO (X2 ) in un certo periodo, quotazioni espresse in Euro per grammo, sono stati determinati i seguenti momenti: E(X1 ) = 9.75, E(X2 ) = 4.16, σ(X1 ) = 0.82, σ(X2 ) = 0.49, ρ(X1 , X2 ) = 0.53 (si assuma che i momenti riportati siano quelli ”veri”, non quelli campionari). Supponiamo di acquistare un portafoglio metalli pregiati costituito da 5.9 kg di ORO e 5.1 kg di PALLADIO. (A) Si determini il valore atteso e la deviazione standard del portafoglio acquistato. (B) Si determini la probabilit che il valore del portafoglio salga sopra i 78483 Euro (prezzo al quale il portafoglio stato acquistato) assumendo che le quotazioni dei due metalli si distribuiscano in modo Normale. Esercizio 2 La quotazione di due titoli azionari del settore bancario, BANCA AQUILA e BANCA PECORA, stata oggetto di osservazione per un periodo di 78 settimane. La seguente tabella riporta alcune statistiche calcolate sui rendimenti settimanali (riportati su base annuale) delle due azioni confrontate con quelle dell’intero settore bancario: BANCA AQUILA BANCA PECORA Settore bancario media 28.55 2.31 8.13 dev. st. corretta 36.8 19.57 9.92 1o quartile 1.67 -9.97 1.07 mediana 26.13 -0.41 7.85 3o quartile 57.89 11.69 14.27 (A) Per le sue analisi, un tizio vi ha chiesto un intervallo, affidabile al 98 %, per il rapporto fra le volatilit dei 2 titoli bancari (N.B. dopo avergli chiesto una spiegazione il tizio vi ha detto che per volatilit dovete intendere la deviazione standard). Utilizzando gli strumenti statistici da voi conosciuti, rispondete alla sua richiesta dopo aver formulato le assunzioni necessarie, ivi inclusa l’assunzione che i rendimenti delle due azioni siano indipendenti. (B) La rivista specializzata PUNTO FINANZA pubblica periodicamente le proprie valutazioni. Per la volatilit del titolo Banca Aquila la rivista ha pubblicato 3 stelle (ogni stella rappresenta una volatilit pari a 10). Secondo voi la rivista ha previsto la volatilit in modo corretto? Si risponda alla domanda formulando il problema in termini di test delle ipotesi ed esplicitando le assunzioni necessarie. Esercizio 3 Con riferimento ai dati dell’esercizio precedente: (A) Si sottoponga a test l’affermazione, contenuta in un articolo di PUNTO FINANZA, ”i due titoli bancari considerati sopra si equivalgono dal punto di vista del rendimento medio”. Si risponda alla domanda dopo aver formulato le assunzioni necessarie, ivi inclusa l’assunzione che i rendimenti delle due azioni siano indipendenti. (B) Si calcoli la potenza del test utilizzato al punto precedente, in corrispondenza di una formulazione dell’ipotesi alternativa ”rendimento di Banca Pecora inferiore di 7 punti a quello di Banca Aquila”. Esercizio 4 Partendo dai dati sui quali sono state calcolate le statistiche dell’esercizio 2, PUNTO FINANZA ha stimato con i minimi quadrati un modello lineare per analizzare in che modo i rendimenti di BANCA PECORA sono legati a quelli dell’intero settore bancario. Del modello ha pubblicato soltanto le seguenti stime: βb0 = −0.441, βb1 = 0.338. (A) Si fornisca la stima dei minimi quadrati di σ. (B) Si calcoli l’intervallo di previsione per il rendimento di Banca Pecora nel caso in cui il mercato abbia un rendimento pari a 27 . 79 40.2 Soluzioni Esercizio 1 (A) Valore atteso e varianza del portafoglio metalli preziosi possono essere ricavati facilmente dalle formule dei momenti per combinazioni lineari di v.c.: E(port.) = E(p1 X1 + p2 X2 ) = p1 E(X1 ) + p2 E(X2 ) V (port.) = V (p1 X1 + p2 X2 ) = p21 V (X1 ) + p22 V (X2 ) + 2p1 p2 C(X1 , X2 ). Sostituendo p1 = 5900, p2 = 5100, E(X1 ) = 9.75, E(X2 ) = 4.16, V (X1 ) = 0.822 = 0.67, V (X2 ) = 0.492 = 0.24, p C(X1 , X2 ) = V (port.) = ρσ(X )σ(X ) = 0.53 ∗ 0.82 ∗ 0.49 = 0.213 si ottiene E(port.) = 78741, σ(port.) = 1 2 √ 42466816.72 = 6516.66. (B) Si sfrutta la propriet che la combinazione di v.c. Normali a sua volta Normale. Quindi, in base ai calcoli fatti sopra, P (port. > 78483) = P (Z > (78483 − 78741)/6516.66) = P (Z > −0.0396) = 0.5158. Esercizio 2 (A) X = rendimento di BANCA AQUILA, Y = rendimento di BANCA PECORA: si assume X ∼ 2 2 N (µX , σX ), Y ∼ N (µY , σY2 ) indipendenti. Prima si costruisce l’intervallo di confidenza per σX /σY2 2 s2X SY2 s2X σX utilizzando come pivot 2 2 ∼ F (n − 1, m − 1), ovvero [ 2 , 2 ] = [2.0708, 6.038] dove s2X = σY S X sY c2 sY c1 36.82 = 1354.24, s2Y = 19.572 = 382.9849 sono ricavati dalle statistiche della tabella mentre c1 = 0.5856 e c2 = 1.7076 sono ricavati dalle tavole della F (77, 77) (1 − α = 0.95); poi si fa la radice quadrata dei 2 estremi di tale intervallo per ricavare quello cercato [1.439 , 2.4572 ]. (B) Come sopra si assume X ∼ N (µ, σ 2 ) e si sottopone a test H0 : σ = 30 contro H1 : σ 6= 30. Come v.c. test si utilizza (n − 1)S 2 /σ 2 ∼ χ2 (n − 1), che sotto H0 vale ((n − 1)S 2 /σ02 |H0 ) ∼ χ2 (n − 1). La regione di accettazione per la statistica indicata (scegliendo α = 0.05) data da [54.6234 ,103.1581 ], da confrontare col valore campionario (n − 1)s2 /σ02 = (78 − 1) ∗ 36.82 /302 = 115.8628. Esercizio 3 (A) Le assunzioni sono identiche a quelle formulate al punto A dell’esercizio precedente. Si deve sottoporre a test H0 : µX − µY = 0 contro H1 : µX − µY 6= 0. Considerata la dimensione dei campioni a disposizione, X − Y − (µX − µY ) X −Y ≈ N (0, 1), che sotto H0 vale ( p 2 |H0 ) ≈ si pu utilizzare la v.c. test p 2 2 2 /n SX /mp + SY /n S /m + S X Y p N (0, 1). Indicando per brevit s = s2X /m + s2Y /n = 36.82 /78 + 19.572 /78 = 4.7193, la regione di accettazione per la statistica X − Y (scegliendo α = 0.05) allora data da [c1 , c2 ] = [−zs, zs] = [−9.2497, 9.2497], dove z = 1.96. La regione di accettazione deve essere confrontata col valore campionario x − y = 28.55 − 2.31 = 26.24. (B) La formulazione dell’alternativa µX − µY = 7. Allora γ = P (campione ∈ R|H1 ) = 1 − P (campione ∈ A|H1 ) = 1 − P (c1 ≤ X − Y ≤ c2 |H1 ) = 1 − P [(c1 − 7)/s ≤ Z ≤ (c2 − 7)/s|H1 ) = 1 − P [−3.4432 ≤ Z ≤ 0.4767|H1 ) = 1 − (0.6832 − 0.0003) = 0.3171. Esercizio 4 (A) y = BANCA PECORA e x = settore bancario, la stima dei minimi quadrati di σ pu essere ottenuta con la formula seguente: σ b2 = (dev(y) − β12 dev(x))/(n − 2) = (29489.8373 − 0.3382 ∗ 7577.2928)/(78 − 2) = 376.6339, da cui σ b = 19.4071. Le due devianze sono calcolate dalle deviazioni standard: dev(x) = (n − 1)s2X = (78 − 1) ∗ 9.922 = 7577.2928, dev(y) = (n − 1)s2Y = (78 − 1) ∗ 19.572 = 29489.8373. c2 (E[y(x \0 )] = βb0 + βb1 x0 = −0.441 + 0.338 ∗ 27 = 8.685, s2 = σ \0 )]) = (1/n + (x − (B) m = E[y(x 2 2 2 x0 ) /dev(x))b σ = (1/78 + (8.13 − 27) /7577.2928) ∗ 376.6339 = 22.5277, da cui s = 4.7463. L’intervallo allora [m − ts, m + ts] = [−0.7681, 18.1381], dove t = 1.9917. 80 41 41.1 Compito del 04.06.2003 Testo Esercizio 1 S Sia Ω uno spazio campionario e siano A e B due eventi di Ω, con P (A) = 0.36 e P (A B) = 0.91 . Si calcoli P (B) nei seguenti due casi: (a) I due eventi sono indipendenti. (b) I due eventi sono incompatibili. In questo caso sono indipendenti? Esercizio 2 In un sondaggio condotto su 100 fiorentini è stato rilevato che 48 si recheranno a votare per il prossimo referendum e 52 no. Per la validità del referendum più del 50% degli aventi diritto deve recarsi alle urne. (a) Calcolare l’intervallo di confidenza per la proporzione di coloro che andranno a votare (1 − α = 0.95). (b) E’ possibile affermare che il quorum verrà raggiunto? Rispondere al quesito utilizzando un appropriato test d’ipotesi (α = 0.05). Esercizio 3 Si vuole verificare se il reddito lordo medio dei non intenzionati a votare è superiore di quello degli intenzionati a votare. Il sondaggio ha fornito i seguenti risultati. Statistiche calcolate sul campione sottoposto a sondaggio Numerosità Media del reddito Devianza del reddito Intenzionati a votare 48 18457 1992729600 Non intenzionati a votare 52 21475 3701505600 (a) Sia X 2 il reddito medio campionario dei non intenzionati a votare e X 1 quello degli intenzionati a votare. Indicare la distribuzione campionaria di X 2 − X 1 specificando le assunzioni necessarie. (b) Si sottoponga a verifica l’ipotesi ”il reddito medio dei non intenzionati a votare non è superiore a quello degli intenzionati a votare” (α = 0.01). (c) Calcolare la potenza del test nel caso in cui l’ipotesi alternativa sia ”il reddito medio dei non votanti supera quello dei votanti di 5000 euro”, assumendo che la varianza ”vera” del reddito sia 41515149 per i votanti e 71182745 per i non votanti. Esercizio 4 La stessa indagine dell’esercizio 2 è stata condotta a Milano su un campione di 140 residenti: 41 intervistati hanno dichiarato che intendono recarsi alle urne e 99 no. (a) Indicare uno stimatore corretto della differenza tra la proporzione di votanti a Firenze e a Milano ed la sua deviazione standard. Fornire una stima di tale deviazione standard. (b) Verificare se i risultati campionari evidenziano una diversa tendenza alla partecipazione al referendum tra milanesi e fiorentini. 41.2 Soluzioni Esercizio 1 S T P (A S B) = P (A) + P (B) − P (A B) = P (A) + P (B) − P (A)P (B), da cui: P (B) = 0.8594 P (A B) = P (A) + P (B), da cui P (B) = 0.5500 Esercizio 2 p̂ = 0.4800 (a) Intervallo di confidenza per p: [0.3821; 0.5779] 81 (b) Test d’ipotesi unilaterale su una proporzione con H0 : p ≥ 0.5 e H1 : p < 0.5. Zoss = −0.4000, Zcrit = −1.6449, Accetto H0 Esercizio 3 (X 2 − X 1 ) − (µ2 − µ1 ) p ∼ T (m + n − 2); Spooled 1/m + 1/n oppure, assumendo che Xi ∼ N (µi , σi2 ), i = 1, 2, e sfruttando la dimensione sufficientemente grande dei (X 2 − X 1 ) − (µ2 − µ1 ) p ≈ N (0, 1) due campioni, si ha che S22 /n + S12 /m (b) Test d’ipotesi unilaterale su differenza tra medie per (campioni indipendenti): H0 : µ2 −µ1 ≤ 0 contro H1 : µ2 − µ1 > 0. s1 =6511.413 , s2 =8519.304 , spooled = 7622.627 , numeratore(Z) = x2 −x1 = 3018.000 , denominatore(Z) = p spooled 1/m + 1/n = 1525.746 , Zoss =1.978 Zcrit = 2.326 , Accetto H0 oppure p s1 =6511.413 , s2 =8519.304 , numeratore(Z) = x2 −x1 = 3018.000 , denominatore(Z) = s21 /m + s22 /n = 1524.862 , Zoss =1.979 Zcrit = 2.326 , Accetto H0 (c) Potenza: 0.8459 a) Assumendo che Xi ∼ N (µi , σ 2 ), i = 1, 2, si ha che Esercizio 4 p̂F q̂F p̂M q̂M + =0.0630 (a) Stimatore: p̂M − p̂F . σ(p̂M − p̂F ) : nM nF (b) Test d’ipotesi bilaterale sulla differenza tra proporzioni con Hp 0 : pF − pM = 0 e α = 0.05. p̂q̂(1/m + 1/n) = 0.0632 dove p̂ = p̂F = 0.4800 p̂M = 0.2929, per cui, sotto H0 σ(p̂F − p̂M ) = (p̂F m + p̂M n)/(m + n) = 0.3708 Zoss = (p̂F − p̂M )/σ(p̂F − p̂M ) = 2.9591 Zcrit = ±1.9600 Rifiuto H0 82 42 42.1 Compito del 25.06.2003 Testo Esercizio 1 L’UNIONE INDUSTRIALI di Lecco ha effettuato, presso le imprese associate, una rilevazione congiunturale per conto della CONFINDUSTRIA. A ciascuna impresa stato chiesto se, rispetto al semestre in corso, nel prossimo si aspetta ordinativi in calo, stabili o in crescita. Le risposte sono riportate nella seguente tabella. Tendenza ordinativi In calo 32 Stabili 72 In crescita 28 Totale 132 Si consideri la v.c. che associa alla ”tendenza degli ordinativi”, secondo le classi indicate, rispettivamente i valori -1, 0 ed 1 con probabilit uguali alle frequenze relative ricavabili dalla tabella. (A) Si disegni la funzione di massa della v.c. (B) Si determini il valore atteso e la deviazione standard della v.c. (C) Si disegni la funzione di ripartizione della v.c. Esercizio 2 L’UNIONE INDUSTRIALI di Lecco ha anche chiesto a ciascuna delle 132 imprese associate di indicare, in percentuale, di quanto variato il proprio fatturato nel semestre in corso rispetto a quello precedente. Le principali statistiche della rilevazione sono riportate nella seguente tabella. Variazione % fatturato media -1.5 varianza corretta 240.57 1o quartile -13.08 mediana -2.46 3o quartile 10.48 Si indichi con X la variazione del fatturato rispetto al semestre precedente e si assuma che la sua distribuzione sia approssimativamente normale. (A) Fornire una stima puntuale e una stima per intervallo (1 − α = 0.9) della deviazione standard di X. (B) Sfruttando le informazioni di questa rilevazione si determini la dimensione del campione da intervistare nel caso in cui si voglia ottenere un intervallo di confidenza per la media di X di ampiezza 4.42 al livello di confidenza 0.99 . Esercizio 3 Negli ultimi 10 giorni lavorativi, all’UNIONE INDUSTRIALI di Lecco sono giunte le seguenti richieste di CIG (Cassa integrazione guadagni): Lu 2 Ma 3 Me 4 Gio 5 Ve 6 Lu 9 Ma 10 Me 11 Gio 12 Ve 13 Richieste di CIG 3 5 5 5 6 2 7 5 8 6 (A) Si scelga, fra quelli noti, il modello probabilistico pi opportuno per rappresentare la v.c. ”numero di richieste giornaliere di CIG” e stimarne il parametro. (B) Sulla base del campione sottoporre a test l’affermazione, fatta dall’UNIONE INDUSTRIALI di Lecco, ”in questo periodo si riceve una media di 4.7 richieste di CIG al giorno” contro l’affermazione alternativa ”la media delle richieste giornaliere di CIG inferiore a quanto dichiarato” (α = 0.1). Malgrado la dimensione del campione sia modesta, si risolva il problema ricorrendo ad opportune approssimazioni. Esercizio 4 Si considerino i dati e il problema di cui all’esercizio 3: (A) Si determini la potenza del test costruito all’esercizio precedente in corrispondenza dell’ipotesi alternativa ”il numero medio di richieste giornaliere di CIG 4.2 ”. (B) Nelle condizioni di cui al punto A si determini la dimensione del campione necessaria per ottenere una potenza del test pari a 0.87 . 83 42.2 Soluzioni Esercizio 1 Sia X la v.c. considerata. Le soluzioni si ricavano in base al prospetto di calcolo sotto riportato: la funzione di massa data dalle prime due righe; E(X) = −0.0303; V (X) = E(X 2 ) − E(X)2 = 0.4545 − p √ 2 −0.0303 = 0.4536; σ(X) = V (X) = 0.4536 = 0.6735; la funzione di ripartizione riportata nelle ultime due righe. x f (x) xf (x) x2 f (x) x F (x) -1 0.2424 -0.2424 0.2424 < −1 0 0 0.5455 0 0 ∈ [−1, 0) 0.2424 1 0.2121 0.2121 0.2121 ∈ [0, 1) 0.7879 altrove 0 0 0 ≥1 1 Totale 1 E(X) = -0.0303 E(X 2 ) = 0.4545 Esercizio 2 √ (A) Stima puntuale: s = 240.57 = 15.5103. Stima per intervallo: 1. prima si costruisce l’intervallo per σ 2 mediante il pivot (n − 1)S 2 /σ 2 ∼ χ2 (n − 1): [(n − 1)s2 /c2 , (n − 1)s2 /c1 ] = [198.5652, 298.5468], dove n = 132, S 2 = 240.57, α = 0.1, c1 = 105.5602, c2 = 158.7119; 2. poi si fa la radice dei due estremi per trovare l’intervallo per σ: [14.0913, 17.2785]. √ (B) L’ampiezza dell’intervallo per µ data da A = 2zσ/ n. Ricavando n si ottiene n = (2zσ/A)2 = 18.07782 = 326.8068 ' 327 dove α = 0.01, z = 2.5758, A = 4.42 e σ stimato con 15.5103 . Esercizio 3 Sia X la v.c. ”numero di richieste giornaliere di CIG”. Si assume X ∼ P oisson(λ). b = x = 52/10 = 5.2. (A) λ (B) H0 : λ = λ0 contro H1 : λ < λ0 , dove λ0 = 4.7. Ricorrendo all’approssimazione normale si ha X ' N (λ,pλ/n) per cui, sotto H0 , (X|H0 ) ≈ N (λ0 , λ0 /n). Per decidere si confronta z − empirico = (x − λp 0 )/ λ0 /n = 0.7293 contro R = (−∞, z = −1.2816) p oppure x = 5.2 contro R = (−∞, c = λ0 + z λ0 /n = 3.8214, dove α = 0.1, n = 10, λ0 /n = 0.47, λ0 /n = 0.6856. Esercizio 4 Rispetto all’esercizio precedente abbiamo H1 : λ = λ1 , dove λ1 = 4.2. p p (A) γ = P (X ∈ R|H1 ) = P (X < c|H1 ) = P [(X p− λ1 )/ λ1 /n < (c − λ1 )/ λ1 /n|H1 ] = P (Z < −0.5842) = 0.2796, dove c = 3.8214, λ1 /n = 0.42 e λ1 /n = 0.6481. p (B) Sfruttando i passaggi visti p sopra abbiamo γ = P [Z < (c − λ1 )/ λ1 /n|H1 ]. Essendo γ = 0.87 allora, dalle tavole, (c − λ1 )/ λ1 /n = 1.1264. Sostituendo a c la sua espressione (non il suo valore, p perché questo calcolato con n = 10, non con l’n da trovare!) cio c = λ + z λ /n, possiamo ricavare n: 0 0 p √ √ √ √ √ √ 1.1264 = (c − λ1 )/ λ1 /n = n(λ0 − λ1 )/ λ1 + z λ0 / λ1 = n0.244 + −1.3557, da cui n = 10.1735 e n = 103.5002 ' 104. 84 43 43.1 Compito del 17.07.2003 Testo Esercizio 1 Un’associazione di consumatori ritiene che troppe confezioni di gelato IceIce siano sottopeso. Un rappresentante si reca in un supermercato e ne compra 8 a caso. (a) Se nel bancofrigo del supermercato c’erano in tutto 26 confezioni, di cui 11 sottopeso, qual è la probabilità che nel campione acquistato ve ne siano più di 6 sottopeso? (b) Si supponga ora di non sapere quante delle 26 confezioni del bancofrigo siano sottopeso, ma solo che la loro proporzione è identica a quella prodotta dalla IceIce. Si vuole sottoporre a test l’ipotesi H0 che la proporzione delle confezioni sottopeso sia 0.5 contro l’ipotesi alternativa che sia > 0.5 utilizzando la regola decisionale ”si rifiuta H0 se il campione ha più di 6 confezioni sottopeso”. Calcolare la probabilità di commettere un errore di primo tipo utilizzando la definizione Esercizio 2 Si decide di valutare anche il peso delle confezioni. Si comprano 5 nuove confezioni a caso. Il peso delle confezioni campionate è riportato nella tabella seguente. Peso in grammi 495.5 498.8 501.2 499.2 500.0 (a) Verificare se il peso medio delle confezioni di gelato sia pari a 500gr contro l’ipotesi che sia inferiore (α = 0.05), ipotizzando che il peso si distribuisce normalmente. (b) Determinare l’intervallo di confidenza per la deviazione standard del peso delle confezioni (1 − α = 0.99). Esercizio 3 La IceIce si giutifica dicendo che il problema si limita al macchinario che confeziona il gusto cioccolato. L’associazione effettua quindi un’indagine estesa, classificando le confezioni sia per peso che gusto. Le frequenze ottenuti sono riportate nella tabella seguente. Cioccolato Altri gusti Sottopeso 36 31 Non sottopeso 26 32 (a) Sulla base delle frequenze riportate ricavare le distribuzioni probabilità condizionate del peso dato cioccolato e del peso dato altri gusti. (b) Verificare la veridicità della giustificazione delle IceIce mediante un test del confronto fra proporzioni in sottopeso per i due gusti (α = 0.05). Esercizio 4 Ancora una volta si decide di esaminare il peso delle confezioni. Si estraggono due campioni di confezioni, uno al cioccolato, l’altro di altri gusti. Alcune statistiche dei due campioni sono riportati nella tabella seguente. Gusto Cioccolato Altri gusti numero osservazioni 5 5 media 494.80 500.20 deviazione standard corretta 2.80 3.70 (a) Sottoporre a test l’ipotesi di uguaglianza fra le varianze del peso per i due gusti (α = 0.01). (b) Calcolare un intervallo di confidenza per la differenza del peso medio delle confezioni nei due gusti (1 − α = 0.95) 43.2 Soluzioni Esercizio 1 (a) P (X ≥ 7) = P (X = 7) + P (X = 8) = 0.00317 +0.00011 = 0.00327 , calcolata dalla ipergeometrica con N =26 , K =11 , n =8 (b) α = P (campione ∈ R|H0 ) = P (X ≥ 7|H0 ) = P (X = 7|H0 ) + P (X = 8|H0 ) = 0.01428 +0.00082 85 =0.01510 , calcolata dalla ipergeometrica con N =26 , K = N p0 = 13 , n =8 Esercizio 2 (a) Test d’ipotesi unilaterale su una media, con varianza ignota. H0 : µ = 500 vs H1 : µ < 500 x = 498.9400, toss = −1.1127 e tα = −2.1318 Accetto H0 (b) L’intervallo deriva da quello per la varianza, media ignota. 1.2215 ≤ σ 2 ≤ 87.6954 . 1.1052 ≤ σ ≤ 9.3646 . Esercizio 3 (a) P (sottop.|ciocco.) = 0.5806 P (nonsottop.|ciocco.) = 0.4194 P (sottop.|altri) = 0.4921 P (nonsottop.|altri) = 0.5079 (b) Test per il confronto tra proporzioni. cioccolato e pa quella degli altri gusti. H0 : pc − pa = 0 vs H1 : pc − pa > 0 p̂c = 0.5806 p̂a = 0.4921 zoss = 0.9970 Zcrit = 1.6449 Accetto H0 Chiamo pc la proporzione di sottopeso delle confezioni al Esercizio 4 (a) Test per il confronto tra varianze. H0 : σc2 = σa2 vs H1 : σc2 6= σa2 σ̂a2 = 13.6900 σ̂c2 = 7.8400 Foss = 0.5727 Fcrit,α/2 = 0.0432 Fcrit,(1−α/2) = 23.1545 Accetto H0 (b) Intervallo di confidenza per la differenza di medie, sapendo, che le variabili sono Normali e, dal punto precedente, che le varianze sono uguali. −10.1852 ≤ µc − µa ≤ −0.6148. 86 44 44.1 Compito del 05.09.2003 Testo Esercizio 1 Una legge di un Paese straniero stabilisce che il limite di velocit sulle strade extra-urbane deve essere fissato secondo criteri statistici. Una rilevazione effettuata su un certo tratto di strada misurando la velocit di percorrenza dei veicoli, secondo i criteri stabiliti in tale legge, ha fornito i risultati della seguente tabella. Velocit (km/h) Autovetture [0,50) 97 [50,60) 583 [60,70) 1587 [70,90) 2780 [90,110) 198 [110,150] 1 Totale 5246 (A) Si rappresenti graficamente la distribuzione della velocit. (B) Supponendo di disporre soltanto dei dati della tabella, si determini a quale valore dovrebbe essere fissato il limite di velocit, che secondo la legge deve essere pari al terzo quartile della distribuzione di tale variabile. Esercizio 2 Un’analisi grafica della distribuzione della velocit di cui al precedente esercizio suggerisce che la stessa pu essere rappresentata abbastanza bene mediante una distribuzione Normale. (A) Si ricavi il valore dei parametri di tale distribuzione uguagliando i valori teorici della mediana e dello scarto interquartile ai corrispondenti valori empirici. (B) In base alla distribuzione normale ottenuta, entro quale intervallo, simmetrico rispetto alla media, compresa la velocit del 80 % delle autovetture? Esercizio 3 Al fine di limitare gli incidenti stata introdotta una nuova disposizione di legge. La seguente tabella confronta il numero di incidenti rilevati su un certo tratto di strada nelle stesse 5 settimane del 2002 e del 2003: Settimana Incidenti anno 2002 Incidenti anno 2003 4a Giugno 17 19 1a Luglio 28 17 2a Luglio 20 16 3a Luglio 19 19 4a Luglio 20 14 (A) Si sottoponga a test l’ipotesi nulla che, in media, il nuovo provvedimento legislativo non abbia diminuito il numero di incidenti, specificando le ipotesi necessarie. (B) Si determini la potenza del test in corrispondenza dell’ipotesi alternativa ”nel tratto di strada considerato si avuta in media una diminuzione di 8 incidenti alla settimana” (pur non essendo completamente giustificata si utilizzi l’approssimazione Normale della v.c. test considerata). Esercizio 4 Per aumentare il livello di sicurezza, sono stati aumentati i controlli sulle strade, con particolare riguardo al livello di alcool nel sangue. A questo proposito, in uno studio condotto su un campione di 67 individui di sesso maschile stato utilizzato il modello di regressione y = β0 + β1 x + u per valutare la relazione fra x = tasso di alcool nel sangue in g/l e y = tempi di reazione ad uno stimolo (come un ostacolo in avvicinamento) in secondi. Le stime ottenute sono state βb0 = 0.287, βb1 = 0.7696, σ b = 0.05017, b b b b d σ b(β0 ) = 0.01277, σ b(β1 ) = 0.01829, Cov(β0 , β1 ) = −0.0002. (A) Si costruisca un intervallo di confidenza al 99 % per σ. (B) Si stimi il residuo per l’osservazione di coordinate (xi , yi ) = (1.1959 , 1.2278 ). (C) Si sottoponga a test l’ipotesi nulla che ”ad un livello di alcool nel sangue pari a 0.8 g/l (limite di legge) i tempi medi di reazione sono pari a 0.9 secondi”. 44.2 Soluzioni Esercizio 1 (A) Variabile continua raggruppata in classi: rappresentazione grafica istogramma. 87 Velocit (km/h) Autovetture ampiezza di classe (basi) densit di frequenza (altezze) [0,50) 97 50 1.94 [50,60) 583 10 58.3 [60,70) 1587 10 158.7 [70,90) 2780 20 139 [90,110) 198 20 9.9 [110,150) 1 40 0.025 Totale 5246 (B) La classe contenente Q3 [70 , 90 ], che ha densit 139 e lascia a sinistra una frequenza pari a 2267 . Allora Q3 = 70 + (0.75 ∗ 5246 − 2267)/139 = 81.996. Esercizio 2 (A) Per le caratteristiche della distribuzione Normale abbiamo µ = mediana empirica, Q3 = µ + σz0.75 e Q1 = µ + σz0.25 = µ − σz0.75 , da cui µ = mediana empirica = 72.561 , σ = (Q3 − Q1 )/(2z0.75 ) = (63.979 − 81.996)/(2 ∗ 0.674) = 13.356. (B) 0.8 = P (a ≤ X ≤ b) = P [(a − µ)/σ ≤ (X − µ)/σ ≤ (b − µ)/σ] = P (−z ≤ Z ≤ z). Dalle tavole z = 1.282 e quindi a = µ − σz = 55.445, b = µ + σz = 89.678. Esercizio 3 Test per dati appaiati. Si lavora sulle differenze D = X2002 − X2003 ipotizzando D ∼ N [µD , σ 2 ], con H0 : µD ≤ 0 vs H1 : µD > 0. L’ipotesi nulla, sulla base della teoria, trasformata in H0 : µD = 0 e il campione estratto da D risulta Settimana d 4a Giugno -2 1a Luglio 11 2a Luglio 4 3a Luglio 0 4a Luglio 6 (A) La v.c. [D − √ test D, la cui distribuzione, nelle assunzioni di cui sopra, data in generale da √ µD ]/[SD / n] ∼ T (n − 1). Allora 0.05 = P [campione ∈ R|H0 ] = P [D > c|H0 ], dove c = 0 + tSD / n = 6.3556 (t = 2.7764, SD = 5.1186, n = 5), da confrontare col valore campionario d = 3.8. √ √ (B) γ = P [campione ∈ R|H1 ] = P [D > c|H1 ] = P [(D − 8)/(SD / n) > (c − 8)/(SD / n)|H1 ] = P [T > −0.7184|H1 ] = 0.7439 se si usa la T (4) oppure = 0.7637 se si usa l’approssimazione Normale. Esercizio 4 (A) Pivot: (n − 2)b σ 2 /σ 2 ∼ χ2 (n − 2). L’intervallo al 99 % per σ 2 [b σ 2 (n − 2)/c2 , σ b2 (n − 2)/c1 ] = 2 [0.001668, 0.004154], dove c1 = 39.3831, c2 = 98.1051, σ b = 0.002517 e n = 67. Per trovare l’intervallo per σ basta fare la radice dei due estremi dell’intervallo per σ 2 : [0.040837, 0.064453]. (B) u bi = yi − βb0 − βb1 xi = 1.2278 − 0.287 − 0.7696 ∗ 1.1959 = 0.020435. (C) Per brevit si indichi E(y|x = 0.8) = β0 + β1 0.8 = m. Allora H0 : m = 0.9 vs H1 : m 6= 0.9. La v.c. test m b = βb0 + βb1 0.8, il cui valore q campionario 0.287 + 0.7696 ∗ 0.8 = 0.9027, la√cui deviazione standard b2 (βb0 ) + 0.82 σ b2 (βb1 ) + 2 ∗ 0.8 ∗ Cov(βb0 , βb1 ) = 5.72e − 005 = 0.00756 e pu essere stimata con σ b(m) b = σ la cui distribuzione, nelle assunzioni di cui sopra, data in generale da [m b − m]/b σ (m) b ∼ T (n − 2). Allora 0.95 = P [campione ∈ A|H0 ] = P [c1 ≤ m b ≤ c2 |H0 ], dove c1 = 0.9 − tb σ (m) b = 0.8849, c2 = 0.9 + tb σ (m) b = 0.9151 (t = 1.9971 ), da confrontare col valore campionario m b = 0.9027. 88 45 Compito del 18.09.2003 45.1 Testo Esercizio 1 Un dirigente della GIKE-sport ha deciso di analizzare il comportamento di acquisto dei clienti del principale punto vendita. Dopo aver estratto un campione casuale di scontrini relativi al semestre INVERNALE ottobre-marzo, su suggerimento ha iniziato a studiare la variabile X = logaritmo naturale dell’importo di uno scontrino. Dai dati del campione ha ricostruito la seguente distribuzione di frequenza per X. x n. scontrini [2.3,3.4) 44 [3.4,4.1) 47 [4.1,4.7) 39 [4.7,5.3) 25 [5.3,6) 14 [6,7] 1 Totale 170 (A) Si rappresenti graficamente la distribuzione di X rilevata nel campione. (B) Un cliente sta pagando la merce acquistata ad una cassa riservata a coloro che spendono meno di 200 Euro (N.B. arrotondato, il logaritmo naturale di 200 5.3). Ipotizzando che il cliente sia stato estratto casualmente secondo la distribuzione di probabilit ricavabile dalla tabella, determinare la probabilit che egli spenda meno di 60 Euro (N.B. arrotondato, il logaritmo naturale di 60 4.1). Esercizio 2 Il dirigente della GIKE-sport ha proseguito nell’analisi. Dal grafico di cui al punto precedente egli ha notato che la distribuzione di X pu essere bene approssimata da una Normale. Sul campione ha allora calcolato le seguenti statistiche: Media 4.036 Varianza corretta 0.828 Mediana 4.022 (A) Si suggerisca, fornendone l’espressione analitica, uno stimatore per la media di X e uno per la deviazione standard di X, giustificando la scelta. In base a questi si fornisca la stima della media e la stima della deviazione standard dello stimatore della media. (B) Si determini l’intervallo di confidenza al 98 % per la media di X. Esercizio 3 Con riferimento al testo dell’esercizio precedente: (A) Si determini quanto avrebbe dovuto essere la dimensione del campione per avere un intervallo per la media di X, al livello di confidenza indicato, di ampiezza pari a 0.092 . (B) Si determini l’intervallo di confidenza al 99 % per la deviazione standard di X. Esercizio 4 Il dirigente ha infine deciso di confrontare quanto spende la clientela ESTIVA rispetto a quella INVERNALE. Ha estratto un campione casuale di scontrini relativi al semestre ESTIVO aprile-settembre, e sul logaritmo naturale dell’importo ha calcolato le seguenti statistiche campionarie: totale scontrini 170 Media 4.471 Varianza corretta 3.073 Mediana 4.459 (A) Si sottoponga a test l’ipotesi nulla ”la variabilit del logaritmo naturale della spesa uguale nei due periodi”. (B) Si sottoponga a test l’ipotesi nulla ”mediamente i clienti spendono pi in inverno che in estate”. 45.2 Soluzioni Esercizio 1 (A) Variabile continua raggruppata in classi: rappresentazione grafica istogramma. 89 x n. scontrini ampiezza di classe (basi) densit di frequenza (altezze) [2.3,3.4) 44 1.1 40 [3.4,4.1) 47 0.7 67.143 [4.1,4.7) 39 0.6 65 [4.7,5.3) 25 0.6 41.667 [5.3,6) 14 0.7 20 [6,7] 1 1 1 Totale 170 T (B) S = spesa; X = ln S. Allora P (S < 60|S < 200) = P (X < 4.1|X < 5.3) = P [(X < 4.1) (X < 5.3)]/P (X < 5.3) = P (X < 4.1)/P (X < 5.3) = (44 + 47)/(44 + 47 + 39 + 25) = 0.587. Esercizio 2 Pn Pn 2 2 2 (A) Siano µX = E(X) e σX = V (X). Allora µ bX = X = i=1 Xi /n e σ bX = SX = i=1 (Xi −X)2 /(n−1) sono stimatori dei parametri q corrispondenti dalle ottime propriet. Allora x = 4.036 e, poich V (X) = p p [ = V \ b2 /n = 0.828/170 = 0.07. σ 2 /n, abbiamo σ(X) (X) = σ X X √ √ √ (B) Il pivot (X − µX )/(SX / n) ∼ T (n − 1). L’intervallo per µX al 98 %: [x − tsX / n, x + tsX / n] = [3.872, 4.2], dove x = 4.036, sX = 0.91, n = 170, t = 2.349. Esercizio 3 (A) A = ampiezza intervallo. Utilizzando la N (0, 1) come distribuzione approssimata del pivot (ricordare che n incognito) allora, n = (2zsX /A)2 = 2118, dove z = 2.3263, A = 0.092 e sX = 0.9099 una stima di σX . 2 2 2 (B) Il pivot SX (n − 1)/σX ∼ χ2 (n − 1). Intervallo per σX al 99 %: [(n − 1)s2X /c2 , (n − 1)s2X /c1 ] = [0.6358, 1.1159], dove sX = 0.9099, n = 170, c1 = 125.4012, c2 = 220.1025. Corrispondente intervallo per 2 . σX : [0.7973, 1.0563], dove gli estremi sono la radice quadrata degli estremi dell’intervallo per σX Esercizio 4 Y = ln(spesa estiva) 2 2 2 |H0 ) ∼ F (m − 1, n − 1), da cui: 6= 1. La v.c. pivot (SY2 /SX = 1 contro H1 : σY2 /σX (A) H0 : σY2 /σX regione accettazione [0.7389 ,1.3533 ], da confrontare col valore campionario 3.073 /0.828 = 3.7114 . (B) L’ipotesi in oggetto pu, in ultima analisi, essere testata sottoponendo a test H0 : µX − µY = 0 vs H1 : µX − µY < 0. Viste le dimensioni dei due campioni e la possibilit di rifiutare l’ipotesi di cui al punto p 2 /n + S 2 /m|H ≈ N (0, 1). In questo caso: la regione (A), ragionevole utilizzare la v.c. test (X − Y )/ SX 0 X p 2 /n + S 2 /m = 0.1515). di rifiuto [−∞, −1.6449] da confrontare col valore campionario -2.8716 ( SX X Nel caso in cui l’ipotesi di cui al punto (A) venga accettata, l’ipotesi pu essere testata mediante la v.c. test q Sp2 (1/n + 1/m)|H0 ∼ T (n+m−2), la regione di rifiuto [−∞, −1.6494] da confrontare col valore q campionario -2.8716 (s2p = (s2X (n − 1) + s2Y (m − 1))/(n + m − 2) = 1.9505, s2p (1/n + 1/m) = 0.1515). In realt si pu dimostrare che il valore campionario delle due statistiche, nel caso in cui m = n, identico; cambia solo, leggermente, la regione critica per effetto della diversa distribuzione. (X −Y )/ 90 46 46.1 Compito del 17.12.2003 Testo Esercizio 1 Ad un centro trasfusionale si presentano donatori dell’associazione LA-VIE e di altre associazioni. Le informazioni a disposizione del centro trasfusionale sono le seguenti: 1) ogni 100 donatori, 62 sono associati LA-VIE e 38 di altre associazioni; 2) il numero medio di donazioni annue 3.2 per i donatori LA-VIE e 0.9 per i donatori di altre associazioni. Assumendo che il numero di donazioni in un anno si distribuisce secondo una Poisson: (A) Calcolare la probabilit che un donatore faccia almeno 2 donazioni; (B) Calcolare la probabilit che un donatore appartenga ad altre associazioni sapendo che egli ha fatto almeno 2 donazioni. Esercizio 2 Prima di effettuare un prelievo di sangue, ai donatori viene misurato il livello di emoglobina. Le misurazioni effettuate sui donatori che si sono presentati una mattina hanno dato i risultati riportati in tabella (dati in g/dl). Maschi Femmine 15.2 14.5 15.2 14.7 14.1 13.8 15.2 13.9 (A) Calcolare, in percentuale, quanta parte della variabilit del livello di emoglobina spiegata dal sesso e commentare il risultato. (B) Riempiendo la tabella seguente, fare un esempio di situazione in cui il sesso spiega il 100% della variabilit del livello di emoglobina. Maschi Femmine ...... ...... ...... ...... ...... ...... ...... ...... Esercizio 3 Con riferimento ai dati dell’esercizio precedente, si assuma che il livello di emoglobina si distribuisca normalmente sia nei maschi che nelle femmine. (A) Si determini un intervallo di confidenza al 99.5 % per la deviazione standard del livello di emoglobina nei maschi. (B) Si assuma che la deviazione standard sia la stessa nei due sessi. Con l’obiettivo di stimare tale deviazione standard, si scelga un opportuno stimatore, se ne fornisca l’espressione analitica, se ne indichi la distribuzione e si fornisca la stima puntuale del parametro in oggetto. Esercizio 4 Con riferimento ai dati dell’esercizio 2 e mantenendo le assunzioni di normalit e di uguaglianza delle deviazioni standard fra maschi e femmine: (A) Si sottoponga a test l’ipotesi nulla che maschi e femmine hanno lo stesso livello di emoglobina contro l’ipotesi che quella dei maschi sia maggiore (α = 0.1 ). (B) Si determini la potenza del test per l’ipotesi nulla di cui al punto precedente, in corrispondenza dell’ipotesi alternativa ”il livello di emoglobina dei maschi superiore di 0.63 g/dl a quello delle femmine”, assumendo che la deviazione standard nei due sessi nota e pari a 0.854 . 46.2 Soluzioni Esercizio 1 Indichiamo LA-VIE = L. Sappiamo che: P (L) = 0.62, P (L) = 0.38, X|L ∼ P oisson(λL = 3.2), X|L ∼ P oisson(λL = 0.9). 91 (A) Mediante la formula della probabilit marginale si ha: P (X ≥ 2) = P (X ≥ 2|L)P (L) + P (X ≥ 2|L)P (L) = 0.60031, dove: P (X ≥ 2|L) = 1 − [P (X = 0|L) + P (X = 1|L)] = 0.8288 P (X ≥ 2|L) = 1 − [P (X = 0|L) + P (X = 1|L)] = 0.22752 P (X = 0|L) = exp(−λL ) = 0.04076, P (X = 1|L) = exp(−λL )λL = 0.13044, P (X = 0|L) = exp(−λL ) = 0.40657, P (X = 1|L) = exp(−λL )λL = 0.36591. (B) P (L|X ≥ 2) = P (X ≥ 2|L)P (L)/P (X ≥ 2) = 0.14402 (gli elementi per il calcolo sono stati trovati al punto precedente). Esercizio 2 Indichiamo MASCHIO = M e FEMMINA = F. (A) y M = 73.6/5 = 14.72, y F = 43/3 = 14.3333, y = 116.6/8 = 14.575, da cui Dev(B) = 0.2803, Dev(T ) = 2.475. Il sesso spiega quindi il 11.33 % della variabilit complessiva. (B) Affinch il sesso spieghi il 100% della variabilit complessiva occorre che la devianza within sia 0, cio che non ci sia variabilit sia fra i maschi che fra le femmine. Esempio: Maschi 14.5 14.5 14.5 14.5 14.5 Femmine 13.4 13.4 13.4 Esercizio 3 Indichiamo con X ed Y , rispettivamente, il livello di emoglobina dei maschi e delle femmine. 2 (5 − 1)/σ 2 , la cui distribuzione, in base alle assunzioni fatte, χ2 (4). Intervallo di confidenza (A) Pivot: SX 2 2 per σ : [4sX /c2 , 4s2X /c1 ] = [0.10643, 12.06625] dove c1 = 0.14487 e c2 = 16.42394 sono ricavati dalle tavole della χ2 (4), mentre s2X = 0.437. L’intervallo per σ si ottiene facendo la radice quadrata dei due estremi dell’intervallo precedente: [0.32624 , 3.47365 ]. 2 (5 − 1) + SY2 (3 − (B) Stimatore per la varianza comune σ 2 : varianza campionaria pooled SP2 = [SX 2 e SY2 sono rispettivamente le varianze campionarie di X e di Y . Distribuzione: 1)]/(5 + 3 − 2), dove SX SP2 (5+3−2)/σ 2 ∼ χ2 (6). Come stimatore di σ possiamo considerare la radice quadrata di SP2 . Sostituendo i valori campionari s2X = 0.437 e s2Y = 0.22333 si ottiene s2P = 0.36578 e la stima cercata risulta sP = 0.6048. Esercizio 4 p (A) H0 : µX − µY = 0, H1 : p µX − µY > 0. V.c. test [(X − Y ) − (µX − µY )]/ SP2 (1/m + 1/n) ∼ T (6), che sotto H0 diviene (X − Y )/ SP2 (1/m + 1/n) ∼ T (6). La regione di rifiuto per la statistica di cui sopra p 2 2 [t = 1.43976, +∞], mentre il valore campionario 0.87544 (SP (1/m + 1/n) = 0.19508, SP (1/m + 1/n) = 0.44168). (B) Essendo σ nota occorre prima ricalcolare la regione di rifiuto. V.c. test [(X − Y ) − (µX − p p µY )]/ σ 2 (1/m + 1/n) ∼ N (0, 1), che sotto H0 diviene (X − Y )/ σ 2 (1/m + 1/n) ∼ N (0, 1). La regione di rifiuto per la statistica di cui sopra [z√= 1.28155, +∞]. p Indichiamo ora s = σ 2 (1/m + 1/n) = 0.38897 = 0.62367. Allora γ = P (X ∈ R|H1 ) = P ((X −Y )/s > z|H1 ) = P ((X − Y ) > sz|H1 ) = P ((X − Y − 0.63)/s > z − 0.63/s|H1 ) = P (Z > 0.27141|H1 ) = 0.39304. 92 47 47.1 Compito del 13.01.2004 Testo Esercizio 1 Volete valutare se sia necessario acquistare un software anti-spam nella vostra società. In un giorno qualunque, chiedete al tecnico di contare quanto sia lo spam in arrivo nelle caselle email del vostro dominio. Il tecnico vi riferisce di aver trovato 10 mail spam su un totale di 18 mail analizzate. (a) Scegliendo a caso 6 mail tra quelle analizzate, qual è la probabilità che non troviate alcuna spam? (b) Qual è la probabilità che, leggendo una mail dopo l’altra, estratta a caso con reimmissione da un pc tra quelle analizzate, la prima spam sia la 7◦ ? Esercizio 2 Effettuate una ricerca sullo spam ricevuto in un giorno in 5 uffici. In un giorno scelto a caso, avete rilevato i dati riportati nella tabella seguente. Uffici Num. spam A 424 B 129 C 192 D 241 E 27 (a) Valutare il grado di concentrazione del numero di e-mail spam tra i vostri uffici mediante un indice opportuno. (b) Rappresentate graficamante la curva di Lorenz. Esercizio 3 Installate una versione di prova del software antispam su 5 computer dei 10 di un ufficio. Per valutarne l’efficacia, si confrontano il numero di email spam in arrivo in un giorno a caso tra i due gruppi di pc, ciascuno con un indirizzo email. I dati ottenuti sono riportati nella tabella seguente. N. e-mail spam in pc con software N. e-mail spam in pc senza software 24 48 6 13 14 13 8 10 5 5 Si ipotizzi che il numero di email spam in arrivo, con e senza software, si distribuisca normalmente con deviazione standard 7 e che il software sia reputato efficace se rende minore in media il numero di emal spam ricevute. (a) Si verifichi l’efficacia del software anti-spam (α = 0.05). (b) Vi comunicano un intervallo di confidenza della differenza tra numero medio di spam senza software e con software: [−10.48; −2.32]. Calcolarne il livello di confidenza. Esercizio 4 Si vuole ora confrontare il numero di email spam con e senza software, indirizzo per indirizzo: utilizzando solo i 5 computer dell’ufficio ancora senza software, si contano le email spam in arrivo, in un giorno, prima di installare il software anti-spam e, successivamente, dopo avervi installato il software. I dati ottenuti sono riportati nella tabella seguente. N. spam prima dell’installazione N. spam dopo l’installazione 45 17 13 10 21 13 14 8 12 8 (a) Ipotizzando che il numero di email spam in arrivo, con e senza software, si distribuisca normalmente con varianza ignota, si calcoli l’interv allo di confidenza per la media della differenza del numero di spam in arrivo (prima - dopo), con 1 − α = 0.95. (b) Se, invece di effettuare un opportuno test, si decidesse di valutare efficace il software se la media campionaria della differenza tra il numero di spam prima e dopo è superiore a 3 , a quanto ammonterebbe la probabilità di commettere un errore del primo tipo? (Approssimare in base alle tavole). 47.2 Soluzioni Esercizio 1 (a) X ha distribuzione ipergeometrica. P (X = 0) = 0.0015. (b) Y ha distribuzione geometrica. p= 0.5556. P (Y = 7) = 0.0043. 93 Esercizio 2 Calcolo dell’indice relativo della concentrazione. Per prima cosa ordinare i dati: Ufficio E B C pi = 0.20 0.40 0.60 0.80 1.00 qi = 0.0267 0.1540 0.3435 0.5814 1.00 R = 0.4472 D A Esercizio 3 Sia X1 ∼ N (µ1 , 49) = num. spam con software Sia X2 ∼ N (µ2 , 49) = num. spam senza software (a) Test d’ipotesi unilaterale per confronto tra medie con varianza nota. H0 : µ1 − µ2 = 0 vs H1 : µ1 − µ2 < 0 X 1 = 11.400 , X 2 = 17.800 , zoss = −1.4456 zcrit = −1.6449 ⇒ Accetto H0 (b) Intervallo diq confidenza per confronto tra medie con varianza nota: (x1 − x2 ) ± z α2 ( σ12 n1 + σ22 n2 q 2 σ2 σ Da cui (x1 − x2 ) + z α2 ( n11 + n22 = −2.3200 z α2 = ±0.9216 1 − α = 0.6433 Esercizio 4 Sia X1 ∼ N (µ1 , 49) = num. spam prima dell’installazione Sia X2 ∼ N (µ2 , 49) = num. spam dopo l’installazione Sia XD = X1 − X2 X D = 9.8000 Var. campionaria corretta = 107.2000 Dati campionari xD : 28 3 8 6 4 q (a) Intervallo di confidenza per una media, varianza ignota: xD ± t α2 ,4 L’intervallo cercato: [−3.0559; 22.6559]. (b) P (X D > 3.0000 | H0 ) = 0.2762 94 2 SD n−1 48 48.1 Compito del 27.01.2004 Testo Esercizio 1 Relativamente al credito verso le persone fisiche, la BANCA DEL PONTE attiva nelle linee mutui casa e credito al consumo. Dalle valutazioni effettuate risulta che se un credito va in sofferenza, la banca perde mediamente il 17 % del credito nei mutui casa e il 26 % nel credito al consumo. Tuttavia questa solo una valutazione media, dato che la perdita percentuale su un credito una variabile casuale che risulta N (17, 5) nei mutui casa e N (26, 34) sul credito al consumo. Sapendo che nel 2003 sono andati in sofferenza crediti per 278 milioni nei mutui casa e 105 milioni nel credito al consumo (valori in Euro) e che le perdite percentuali sono indipendenti: (A) Determinare la distribuzione della perdita complessiva, ivi compresi i suoi parametri, nel 2003. (B) Determinare il valore al di sopra del quale la perdita complessiva 2003 si colloca con probabilit del 2.5 %. Esercizio 2 L’ufficio titoli della BANCA DEL PONTE sta valutando l’andamento in borsa di due titoli azionari dello stesso settore. Sui rendimenti settimanali (espressi in percentuale e su base annua) rilevati negli ultimi 2 anni e sulla differenza fra tali rendimenti sono state calcolate le seguenti statistiche: Titolo n. osservazioni media varianza corretta BigGas 104 27.2 2415 T erGas 104 16.9 1186 BigGas − T erGas 104 10.3 1446 (A) Possiamo concludere che due titoli hanno la stessa varianza? (B) Dai dati riportati in tabella ricavare il valore campionario del coefficiente di correlazione fra i rendimenti dei due titoli. Indicare quale delle ipotesi necessarie per applicare il test di cui sopra messa in dubbio dal valore calcolato. Esercizio 3 Con riferimento ai dati dell’esercizio precedente si assuma che la variabile differenza D = BigGas − 2 ). T erGas ∼ N (µD , σD (A) Fornire un intervallo di confidenza al 90 % per la differenza media dei rendimenti dei due titoli. (B) Sottoporre a test l’ipotesi che il titolo BigGas ha avuto un rendimento medio superiore rispetto a T erGas (α = 0.1 ). Esercizio 4 La relazione fra i rendimenti dei due titoli stata studiata anche analizzando la combinazione fra i loro segni, ricavando la tabella seguente: BigGas\T erGas + Totale 18 11 29 + 14 61 75 Totale 32 72 104 (A) Si calcoli l’indice di associazione C1 relativo e si commenti il risultato. (B) Mantenendo la numerosit complessiva rilevata, si faccia un esempio di situazione in cui l’indice indicato al punto (A) sarebbe stato 1. 48.2 Soluzioni Esercizio 1 X1 ∼ N (17, 5) e X2 ∼ N (26, 34) sono le perdite percentuali, c1 = 278 e c2 = 105 le sofferenze. X1 e X2 sono indipendenti. 95 (A) La perdita complessiva combinazione lineare delle perdite nelle due linee di credito: X = c1 X1 +c2 X2 ∼ N (µ = 7456, σ 2 = 761270), dove in base alle ipotesi µ = E(X) = c1 E(X1 )+c2 E(X2 ), σ 2 = V (X) = c21 V (X1 ) + c22 V (X2 ). (B) Bisogna trovare b tale che P (X > b) = 0.025. 0.025 = P (X > b) = P [Z > (b − µ)/σ = z]. Dalle tavole z = 1.96 implica b = µ + σz = 9166.084 (σ = 872.508). Esercizio 2 (A) Assunzioni: X1 ∼ N (µ1 , σ12 ), X2 ∼ N (µ2 , σ22 ), X1 e X2 indipendenti. Ipotesi: H0 : σ12 /σ22 = 1, H1 : σ12 /σ22 6= 1. La v.c. test S12 /S22 che sotto H0 ha distribuzione F (m − 1, n − 1) = F (103, 103). Valore campionario della statistica test = 2415/1186 = 2.0363; regione di accettazione [0.6781, 1.4746]. (B) In generale V (X1 − X2 ) = V (X1 ) + V (X2 ) − 2C(X1 , X2 ). Sostituendo in questa relazione i valori campionari e ricavando C(X1 , X2 ) abbiamo C(X1 , X2 ) = [V (X1 ) + V (X2 ) − V (X1 − X2 )]/2 = [2415 + 1186 − 1446]/2 = 1077.5. Da questo ricavo ρ = C(X1 , X2 )/[σ(X1 )σ(X2 )] = 1077.5/(49.1426 ∗ 34.4384) = 0.6367. Un valore campionario di ρ cos elevato mette in forte dubbio l’ipotesi di indipendenza fra X1 e X2 . Esercizio 3 2 ) (dati appaiati). Assunzioni: D = X1 − X2 ∼ N (µD , σD √ (A) Pivot: (D − µD )/(SD / n), la cui distribuzione, √ √ in base alle assunzioni fatte, T (n − 1) = T (103). Intervallo di confidenza per√µD : [d−tsd / n, d+tsd / n] = [4.11103, 16.48897] dove t = 1.65978, d = 10.3 s2d = 1446, sd = 38.02631 n = 10.19804. √ (B) Ipotesi: H0 : µD = 0, H1 : µD > 0. La v.c. test D/(SD / n) che sotto H0 ha distribuzione T (n − 1) = T (103). Valore campionario della statistica test = 2.76229; regione di rifiuto [1.28982, +∞]. Esercizio 4 (A) C1rel = 0.34911 n∗ij + 8.92 23.08 + 20.08 51.92 (B) Va bene una qualsiasi situazione un cui su una delle due diagonali ci sia 0. Esempio: BigGas\T erGas + Totale 49 0 49 + 0 55 55 Totale 49 55 104 96 49 49.1 Compito del 10.02.2004 Testo Esercizio 1 Nella vostra città hanno aperto un piccolo casinò. Dopo due settimane, un vostro amico vi confida che la perdita attesa di un cliente, secondo quando dichiarato dal casinò, è 237 euro; secondo voi, invece, tale media è 289 euro. Volendo verificare se il casinò abbia dichiarato il vero e sapendo che la perdita si distribuisce normalmente con varianza 9216, effettuate un’indagine su 50 clienti ed ottenete una media campionaria pari a 263. (1) Concludereste che la dichiarazione del casinò sia falsa (α = 0.01)? (2) Calcolare quanti clienti avreste dovuto intervistare per garantirvi una probabilità di commettere un errore del secondo tipo inferiore a 0.01. Esercizio 2 La tabella seguente riporta la distribuzione frequenza della variabile X = numero di vincite con le slot machine Lucky in una serata. Xi ni 3 25 1 79 2 88 0 173 (1) Calcolare la mediana e il coefficiente di variazione di X. (2) Calcolare gli stessi indici per Y = numero di vincite con le slot machine LuckyPlus in una serata, sapendo che Y = 2 + 2X. Esercizio 3 Una delle roulette ha una ruota composta da 38 buche: una con 0, una con 00, e le altre con numeri da 1 a 36. Il croupier fa girare la ruota e se esce 0 o 00 il banco vince. Un visitatore si ferma ad osservare 892 giri: 0 o 00 escono ben 71 volte. (1) Ha ragione il visitatore di supporre che la roulette sia truccata (α = 0.01)? (2) In base a quanto osservato, si stimi, con affidabilità 0.90, la probabilità che il banco vinca in una singola giocata. Esercizio 4 Per promuovere il casinò, si regalano gettoni per le slot-machine mediante un gioco: si deve scegliere a caso tra due scatole apparentemente identiche. Nella prima c’è un dado: se in sei lanci non esce mai 6, si vincono 100 gettoni. Altrimenti non si vince nulla. Nella seconda c’è un’urna con 36 palline, di cui 6 rosse. Si devono estrarre 6 palline in blocco: se nessuna è rossa si vincono 100 gettoni. Altrimenti non si vince nulla. (1) Calcolare la probabilità di vincere 100 gettoni. (2) Verificare se le variabili X = numero di gettoni vinti e Y = scatola scelta, sono indipendenti. 49.2 Soluzioni Esercizio 1 Test sulla media, varianza nota, con H0 : µ = 237 σ = 96 (1) x = 263 α = 0.01. zα = 2.33. H1 : µ = 289. zoss = 1.9151. Accetto H0 . (2) β = P ( Accettare H0 | H1 vera) =0.01. Accetto H0 se zoss = Chiamo c = 2.33·96 √ n x−µ √0 σ/ n < 2.33 ovvero se x< 2.33·96 √ n + 237 97 + 237 β = P (x < c | H1 vera ) = 0.01. c−µ √1 | H1 ) = 0.01, se e solo se Dato che β = P (Z < σ/ n √ ( 2.33·96 237)−(289) n √ 96/ n = −2.33. c−µ √1 σ/ n = −2.33. n = 74.0129 ⇒ n = 75. Esercizio 2 La distribuzione ordinata dei dati è la seguente X(i) ni Ni 0 173 173 1 79 252 2 88 340 3 25 365 (1) n =365 (dispari) N2+1 = 183 MedianaX = 1 µX = 0.904 σX = 0.990 CVX = 1.095 (2) Y = 2 + 2X. Usando le proprietà di media, mediana e varianza, MedianaY = 4 µY = 3.808 σY = 1.980 CVY = 0.520 Esercizio 3 Sia p la probabiità che il banco vinca in una singola giocata. 2 = 0.053 Se la roulette non truccata p = 38 (1) Test su una proporzione, con H0 := 0.053 H1 : p > 0.053 p̂ = 0.080 zoss = 3.607 zcrit = 1.645 Rifiuto H0 . α = 0.05 . (2) Intervallo di confidenza per p. zα/2 = ± 1.645 da cui : [0.06469 ; 0.0945 ] Esercizio 4 (1) ΩY = {1, 2} con P (Y = 11) = P (Y = 2) = 0.5 Se Y = 1 ⇒ X | (Y = 1) ∼ Bin(6, 1/6), se Y = 2 ⇒ X | (Y = 2) ∼ Ipergeometrica. P (X = 100 | Y = 1) = 0.335 P (X = 100 | Y = 2) = 0.305 P (X = 100) = 0.5 · P (X = 100 | Y = 1) + 0.5 · P (X = 100 | Y = 2) = 0.320 (2) Dato che P (X = 100 | Y = 1) 6= P (X = 100 | Y = 2), X e Y non sono indipendenti. 98 50 50.1 Compito del 15.04.2004 Testo Esercizio 1 Le quotazioni di borsa del titolo SMART sono state confrontate con quelle dell’intero mercato nel quale il titolo quotato. Negli ultimi 5 anni sono stati rilevati i seguenti valori (rendimenti percentuali espressi in base annua): Anno rendimento SMART rendimento mercato 1999 -15.5 -12.9 2000 4.3 0.9 2001 3.2 12.3 2002 7.3 2.4 2003 15.9 10.6 (A) Fornire un’opportuna rappresentazione grafica dei dati rilevati. (B) Mediante un opportuno indice statistico, mettere in evidenza il grado di associazione fra rendimento di SMART e rendimento del mercato. Commentare il risultato. Esercizio 2 Con riferimento ai dati dell’esercizio 1, si assuma che la differenza D = rendimento di SMART meno 2 rendimento del mercato sia distribuita secondo una N (µD , σD ). (A) Sottoporre a test l’ipotesi nulla che, in media, il rendimento di SMART uguagli il rendimento del mercato (α = 0.01). (B) Se la differenza tra i due rendimenti medi sotto l’ipotesi alternativa fosse uguale a 3.1 , che valore 2 sia esattamente quella osservata? assumerebbe la potenza del test assumendo che la vera varianza σD Esercizio 3 Con riferimento ai dati dell’esercizio 1, approfondire l’analisi mediante un modello di regressione lineare che faccia dipendere il rendimento di SMART dal rendimento del mercato. (A) Determinare i coefficienti della retta di regressione. (B) Determinare i residui di regressione relativi agli ultimi due semestri. Esercizio 4 Il rischio di un investimento dato dalla volatilit, generalmente misurata con la deviazione standard riferita ad un certo periodo di tempo. (A) Secondo voi, il fatto che i dati a disposizione siano medie annuali invece che giornaliere sottostima o sovrastima la volatilit quinquennale? Motivare la risposta. (B) Trascurando le considerazioni fatte al precedente punto (A), sulla base dei dati a disposizione calcolate un intervallo di confidenza al 95 % per la volatilit del titolo SMART. 50.2 Soluzioni Esercizio 1 Simboli: X = ”rendimento del mercato”, Y = ”rendimento di SMART”. (A) ”Scatterplot” dei 5 punti individuati dalle coppie dei rendimenti relativi a ciascun anno. (B) Dai dati si ricavano i seguenti valori campionari: coefficiente di correlazione ρ = codev(x, y)/ q dev(x)dev(y) = 0.84402, dove codev(x, y) = 388.808, dev(x) = 401.252, dev(y) = 528.872, x = 2.66, y = 3.04. Esercizio 2 2 Test sulla differenza fra medie per dati appaiati. Assunzioni: D = Y − X ∼ N (µD , σD ). p 2 /n che per le assunzioni fat(A) Ipotesi: H0 : µD = 0, H1 : µD 6= 0. La v.c. test (D − µD )/ SD te distribuita come una T (n − 1). Sotto H0 , dove dobbiamo metterci per costruire A/R, abbiamo 99 p p 2 /n|H ∼ T (n − 1). Valore campionario della statistica test sotto H : d/ s2 /n = 0.1376; D/ SD 0 0 D p 2 /n = 2.7614) regione di accettazione [−4.6041, 4.6041] (d = 0.38, s2D = 38.127, SD 2 (B) Notare le differenze rispetto al punto (A): 1. Si assume σD = 38.127, cio varianza nota; 2. H1 : µD = 3.1 (il test cio a una coda, non a due). Questo costringe a p ricalcolare anche la regione di accettazione. 2 Assumendo di conoscere la varianza, la v.c. test (D − µD )/ σ pD /n distribuita come una N (0, 1). Sotto 2 H0 , dove dobbiamo metterci per costruire A/R, abbiamo D/ p σD /n|H0 ∼ N (0, 1). Regione p di rifiuto 2 2 /n|H ). (z = 2.3263, +∞). γ = P (campione ∈ R|H1 ) = P (D/ σD /n p > z|H1 ) = P (D > z σD 1 2 Standardizzandop D sotto H1 abbiamo alla fine γ = P (Z > z − µD1 / σD /n) = P (Z > 1.2037) = 0.1143, 2 /n = 2.7614. dove µD1 = 3.1, σD Esercizio 3 (A) βb1 = codev(x, y)/dev(x) = 0.96899, βb0 = y − βb1 x = 0.46249 (B) Dopo aver calcolato i valori teorici yb4 = βb0 + βb1 x4 = 2.78806 e yb5 = βb0 + βb1 x5 = 10.73376 abbiamo i seguenti residui: u4 = y4 − yb4 = 4.51194, u5 = y5 − yb5 = 5.16624. Esercizio 4 (A) Il fatto di considerare medie annuali sottostima la volatilit quinquennale. Infatti, ragionando non sulle deviazioni standard ma sulle devianze, la volatilit quinquennale legata alla devianza totale del rendimento nei 5 anni, mentre quella calcolata sulle medie annuali invece legata alla devianza between, che come sappiamo sempre non superiore a quella totale. (B) Pivot: S 2 (n−1)/σ 2 che ha una distribuzione χ2 (n−1). Intervallo per σ 2 : [s2 (n−1)/c2 , s2 (n−1)/c1 ] = [47.46104, 1091.7666], dove s2 = 132.218, c1 = 0.48442, c2 = 11.14329. Per ricavare l’intervallo per σ basta fare la radice quadrata degli estremi dell’intervallo precedente: [6.8892, 33.04189]. 100 51 51.1 Compito del 28.05.2004 Testo Esercizio 1 La CORNACCHINI & MINGOZZI ha in progetto di costruire e vendere posti auto privati in una zona di Milano. A questo scopo commissiona alla BINGHIRILLI una ricerca di mercato in cui viene chiesto, alle famiglie della zona che non dispongono di posto auto di propriet, se nei prossimi 4 anni hanno intenzione di acquistarne uno. Si indichi p = probabilit che una famiglia decida di acquistare un posto auto. (A) Quanto deve essere la dimensione del campione per ottenere un intervallo di confidenza per p, al livello di confidenza 0.95 , di ampiezza 0.046 ? (Si supponga di non disporre di alcuna informazione ausiliaria per rispondere a questa domanda). (B) A prescindere dal calcolo fatto al punto A, sono state intervistate 1397 famiglie, delle quali 69 hanno manifestato intenzione di acquistare un posto auto. Fornire una stima per intervallo per p al livello di confidenza 0.95 . Esercizio 2 Con riferimento al problema dell’esercizio precedente, la BINGHIRILLI ha valutato in circa 43 -mila il numero di persone della zona che non hanno ancora un posto auto di propriet. Quindi, ognuna delle 43 -mila famiglie pu decidere di acquistare o non acquistare un posto auto nei prossimi 4 anni. Supponiamo che dalla indagine di mercato sia emerso che p = probabilit che una famiglia decida di acquistare un posto auto = 0.0494 . (A) Indicare come si distribuisce la variabile casuale ”numero totale di famiglie che decidono di acquistare”. Nel rispondere, indicare i valori dei parametri della distribuzione ed esplicitare le approssimazioni utilizzate nel caso in cui se ne faccia uso. (B) Calcolare la probabilit che la CORNACCHINI & MINGOZZI riesca a vendere tutti i 2038 posti auto che vuole costruire. Nel calcolo si assuma che ogni famiglia acquisti al massimo un posto auto e che non esistano altri posti auto sul mercato. Esercizio 3 L’ osservatorio indipendente Anti-STROZZO sta analizzando se e come i tassi d’interesse sui mutui immobiliari sono legati alla durata del finanziamento. L’osservatorio ha preso come riferimento un campione di contratti di mutuo a tasso fisso (per ragioni di omogeneit dell’analisi i dati sono relativi all’ultimo anno e per importi compresi fra 100-mila e 200-mila Euro) dal quale sono state ricavate le seguenti statistiche campionarie (i tassi d’interesse sono espressi in percentuale, la durata in anni): dimensione del campione = 263 media(tasso) = 5.97 devianza(tasso) = 405.67 media(durata) = 19.97 mediana(tasso) = 5.97 codevianza(tasso,durata) = 1871.61 mediana(durata) = 20.11 devianza(durata) = 9626.44 (A) Formulare un opportuno modello lineare per studiare il problema illustrato e stimarne tutti i parametri. (B) Si fornisca una stima della deviazione standard del coefficiente angolare. Indicare a quale scopo utile fornire una stima di tale grandezza. Esercizio 4 Con riferimento all’esercizio precedente: (A) Calcolare il p-value che si ottiene nel sottoporre a test l’ipotesi nulla che, tendenzialmente, ”all’aumentare di 1 anno della durata, il tasso d’interesse aumenta di 0.197 punti percentuali”. Il valore calcolato che decisione fa prendere in merito all’ipotesi H0 ? (B) Determinare l’intervallo di previsione del tasso d’interesse per un mutuo di durata pari a 24 anni. 51.2 Soluzioni Esercizio 1 101 X = ”famiglia decide di acquistare entro 4 anni” ∼ Be(p) (A) Calcolo della dimensione del campione in funzione dell’ampiezza dell’intervallo di confidenza per p: n = (z/A)2 = 1816, dove z = 1.96 il quantile 0.975 della N(0,1) (ricordare che α = 0.05 ) e A = 0.046 l’ampiezza dell’intervallo. q (B) Intervallo di confidenza per p: il pivot da usare nella pratica (X−p)/ X(1 − X)/n la cui distribuzione p p approssimativamente N (0, 1). L’intervallo − x)/n, x + z x(1 − x)/n] = [0.038, 0.0608], pallora [x − z x(1 √ dove x = 69 /1397 = 0.0494 , z = 1.96, x(1 − x)/n = 3.4e − 005 = 0.005797 . Esercizio 2 Xi = ”famiglia i-ma decide di acquistare entro 4 anni” ∼ Be(p = 0.0494); n = 43000 il numero complessivo di famiglie considerate. Pn (A) X = totale di famiglie intenzionate ad acquistare = i=1 Xi ∼ Bi(n = 43000, p = 0.0494) (somma di Bernoulli). (B) In base al testo, la probabilit di vendere tutti i posti auto esattamente la probabilit che coloro che decidono di acquistare, X, sia ≥ 2038 . Per il calcolo si ricorre, valendo tutti i presupposti, √ all’approssi√ mazione Normale della Binomiale: P (X ≥ 2038) = P [(X − np)/ npq ≥ (2038 − 2124.2)/ 2019.2645] = P (Z ≥ −1.9183) = 0.9725 . Esercizio 3 (A) Modello lineare: yi = β0 + β1 xi + εi , dove εi ∼ N (0, σ 2 ), y il tasso d’interesse e x la durata del mutuo. Stimatori dei minimi quadrati dei parametri: βb1 = codev(x, y)/dev(x) = 1871.61/9626.44 = 0.19442, βb0 = y − β1 x = 5.97 − 0.19442 ∗ 19.97 = 2.08735, σ b2 = [dev(y) − βb12 dev(x)]/(n − 2) = (405.67 − 0.194422 ∗ 9626.44)/(263 − 2) = 0.16009. (B) Si tratta di stimare σ(βb1 ), la cui importanza sta nel fornire una misura del grado di precisione dello b(βb1 ) = stimatore utilizzato nello stimare il parametro incognito. Poich V (βb1 ) = σ 2 /dev(x), allora σ p √ σ b2 /dev(x) = 2e − 005 = 0.00408. Esercizio 4 (A) Nel modello precedente si tratta di sottoporre a test H0 : β1 = 0.197 contro H0 : β1 6= 0.197. la v.c. test βb1 . La distribuzione campionaria data da (βb1 − β1 )/b σ (βb1 ) ∼ T (n − 2) e sotto H0 diviene b b (β1 −0.197)/b σ (β1 )|H0 ∼ T (n−2). Per una dimensione campionaria cos elevata si pu tuttavia approssimare T (n − 2) ' N (0, 1). Il valore campionario della statistica test sotto H0 allora z − camp = (βb1 − 0.197)/b σ (βb1 ) = (0.19442 − 0.197)/0.00408 = −0.6317. p − value = P (’valore campionario della statistica test ancora pi spostato verso H1 rispetto a quello rilevato’|H0 ) = 2P [(βb1 − 0.197)/b σ (βb1 ]) > | − 0.6317||H0 ] = 2P (Z > 0.6317) = 2 ∗ 0.26379 = 0.52758 (B) Per brevit usiamo i seguenti simboli: parametro da stimare θ = β0 + β1 x0 , stimatore θb = βb0 + βb1 x0 , b = σ 2 [1/n + (x − x0 )2 /dev(x)]. varianza dello stimatore V (θ) b b Pivot: (θ − θ)/b σ (θ) che ha una distribuzione T (n − 2) ≈ N (0, 1) (n elevato). Intervallo per θ: [θb − √ b θb + zb b = [6.6954, 6.8116], dove z = 1.96, θb = 6.7535, σ b = 0.00088 = 0.02964. zb σ (θ), σ (θ)] b(θ) 102 52 52.1 Compito del 03.06.2004 Testo Esercizio 1 Si estrae un campione casuale di dimensione n = 35 da una popolazione X Normale con media µ incognita e deviazione standard σ = 8. Per determinare il valore di µ si sa inoltre che P (X ≤ 64) = 0.876, (a) Indicare la distribuzione campionaria di X̄, ivi compreso il valore assunto dai parametri. (b) Calcolare la probabilità di ottenere una media campionaria superiore a 51. Esercizio 2 Si vuole stabilire se le aziende dell’Italia centro settentrionale abbiano profitti superiori a quelli dell’Italia meridionale. Allo scopo vengono estratti due campioni casuali di aziende, 5 nel Centro-Nord e 5 nel Sud Italia, rilevandone il profitto settimanale (in migliaia di euro). I dati sono riportati nella tabella seguente: Profitto settimanale in migliaia di euro. Aziende del Centro-Nord 19.5 27.6 Aziende del Sud Italia 28.2 32.6 32.2 26.6 32.5 32.2 31.1 30.1 Si ipotizzi che la variabile profitto di distribuisca secondo una Normale. (a) Si sottoponga a test l’ipotesi che i due gruppi di aziende abbiano la stessa varianza (con α = 0.05). (b) Si costruisca un intervallo di confidenza per la differenza delle medie dei profitti delle due popolazioni (1 − α = 0.95). Esercizio 3 Si consideri ora il campione di 10 aziende dell’esercizio precedente come un intero campione casuale estratto dal settore oggetto di studio. Per fornire una descrizione del campione rispetto alla sola variabile profitto settimanale, (a) si calcoli il terzo quartile del profitto settimanale; (b) si costruisca l’istogramma per tale variabile, utilizzando le seguenti classi: [15 − 25) , [25 − 27), [27 − 30), [30 − 40). Esercizio 4 In un nuovo studio, vengono estratti casualmente due campioni di aziende: 113 aziende del Sud ed altrettante del Centro-Nord. (a) Tra le aziende estratte, hanno registrato un trend positivo nei profitti 56 aziende del Sud e 62 del Centro-Nord. Tale differenza di comportamento dovuta ad un trend peggiore nelle aziende del Sud? Si risponda alla domanda formulando il problema in termini di test d’ipotesi ed utilizzando il p-value. (b) Nei due campioni di aziende estratte, il tasso di crescita del profitto risultato avere media 12 e varianza campionaria corretta 32 nel Centro-Nord, mentre risultato avere media 8, e varianza campionaria corretta 20 nel Sud. Sottoporre a test l’ipotesi nulla che i tassi medi nelle due aree geografiche siano identici, contro l’ipotesi che il tasso medio di crescita sia superiore al Centro-Nord (α = 0.05). 52.2 Soluzioni Esercizio 1 Dato che P (X ≤ 64) = 0.876, allora P (Z ≤ (a) X̄ ∼ N (54.7584, 1.8286). (b) P (X̄ ≥ 51) = 0.9973. Esercizio 2 X1 = Profitto aziende del Centro-Nord, (a) Test confronto tra varianze. 64−µ 8 ) = 0.876 ⇒ 64−µ 8 = 1.1552 ⇒ X ∼ N (54.7584, 64). X2 = Profitto aziende del Sud. 103 s21 = 29.557, s22 = 6.598 Foss = 4.4797, Fcrit = 0.1041; 9.60453, Accetto H0 (b) Intervallo di confidenza per la differenza tra medie con campioni indipendenti x̄1 = 28.58, x̄2 = 29.94, s21 = 29.557, s22 = 6.598, tα/2 = ±2.306 Intervallo: [−7.5611 ; 4.8411]. Esercizio 3 Dati: 19.5 27.6 32.2 32.5 31.1 28.2 32.6 26.6 32.2 30.1 (a) Dati ordinati: 19.5 26.6 27.6 28.2 30.1 31.1 32.2 32.2 32.5 32.6 Q3 = 32.2 (b) Frequenze: 1 1 2 6 Ampiezza classi: 10 2 3 10 Densità di frequenza: 0.1 0.5 0.7 0.6 . Esercizio 4 (a) p1 = Proporzione di aziende con trend positivo al Sud p2 = Proporzione di aziende con trend positivo al Centro-Nord Test sulla differenza tra due proporzioni con n grande. H0 : p 1 − p 2 = 0 H1 : p1 − p2 < 0 p̂1 = 0.4956 p̂2 = 0.5487 p̂ = 0.5221 zoss = −0.799, p-value = 0.2121 Accetto H0 (b) X1 = Tasso di crescita delle aziende del Centro-Nord X2 = Tasso di crescita delle aziende del Sud Test confronto tra medie con campioni indipendenti. H0 : µ1 − µ2 = 0 H1 : µ1 − µ2 > 0 x̄1 = 12, x̄2 = 8, s21 = 32, s22 = 20 toss = 5.8965, tcrit = 1.6517 Rifiuto H0 104 53 53.1 Compito del 18.06.2004 Testo Esercizio 1 La PIPPOLI&NINNOLI spa ha attivato da alcuni mesi un numero verde a disposizione dei propri clienti per una serie di servizi. Per verificare il grado di utilizzo del numero nella fascia oraria di punta (9.0013.00), i responsabili hanno raccolto un campione di chiamate relative a 30 giorni lavorativi. Il tempo stato diviso in intervalli di lunghezza costante prefissata e la variabile misurata , appunto, il numero di chiamate ricevute per intervallo di tempo. Il campione sintetizzato nella seguente tabella: numero chiamate frequenza 0 49 1 150 2 262 3 332 4 278 5 159 6 118 7 53 8 26 9 13 (A) Rappresentare graficamente la distribuzione della variabile numero di chiamate nel campione, tenendo presente che l’ottica quella di confrontare la distribuzione ottenuta con quella teorica delle variabili casuali a voi note. (B) Calcolare il 90o percentile della variabile numero di chiamate nel campione. Esercizio 2 Il campione di cui all’esercizio precedente stato poi utilizzato per fare inferenza statistica. (A) Fra quelli noti, scegliere il modello (distribuzione) che vi sembra pi opportuno per rappresentare la variabile d’interesse e fornire una stima puntuale del parametro o dei parametri del modello scelto. (B) Sottoporre a test l’ipotesi nulla (formulata dai responsabili prima dell’attivazione del servizio) che il numero medio di chiamate per intervallo 3.6 (α = 0.01). Esercizio 3 L’analisi della durata delle chiamate effettuate al numero verde della PIPPOLI&NINNOLI ha rivelato una certa differenza fra quelle effettuate da privati e quelle effettuate da aziende: quelle dei privati durano in media 6.85 minuti, con una deviazione standard 2.06; quelle delle aziende durano in media 7.05 minuti, con una deviazione standard 2.82. Sapendo che ogni 100 chiamate se ne ricevono 65 da privati e le altre da aziende e assumendo che la durata delle chiamate abbia distribuzione normale: (A) Calcolare la probabilit che una chiamata presa a caso duri pi di 9.73 minuti. (B) Sapendo che una chiamata durata pi di 9.73 minuti, calcolare la probabilit che questa sia stata effettuata da un’azienda. Esercizio 4 Nei 30 giorni in cui sono stati raccolti i dati di cui agli esercizi precedenti, a conclusione della telefonata al numero verde sono state effettuate alcune domande per valutare il grado di soddisfazione relativo al servizio reso. In base alle risposte date il grado di soddisfazione stato tradotto in un punteggio. L’obiettivo analizzare, mediante un modello di regressione lineare, se il punteggio ottenuto legato alla durata della chiamata. Le principali statistiche campionarie sono riportate nella seguente tabella. dimensione del campione = 471 media(punteggio) = -0.62 devianza(punteggio) = 184193 media(durata) = 9.65 mediana(punteggio) = -0.6 codevianza(punteggio,durata) = 11676 mediana(durata) = 6.9 devianza(durata) = 35981 (A) Si espliciti nel modo pi completo possibile il modello utilizzato e se ne stimino i parametri (ricordare che devianza(residui) = (devianza(y) − βb12 devianza(x)). (B) Mediante il calcolo del p-value, sottoporre a test l’ipotesi nulla che non vi sia relazione fra grado di soddisfazione e durata della chiamata, contro l’alternativa che il grado di soddisfazione aumenti all’aumentare della durata. 53.2 Soluzioni Esercizio 1 105 X = ”numero di chiamate nell’intervallo prefissato” (A) Calcolo e disegno della distribuzione delle frequenze relative. Conviene utilizzare un ”diagramma a spaghetti”, dove ciascuno spaghetto rappresenta la frequenza relativa fi in corrispondenza del numero di chiamate xi di volta in volta considerato. xi ni fi 0 49 0.034 1 150 0.104 2 262 0.182 3 332 0.231 4 278 0.193 5 159 0.11 6 118 0.082 7 53 0.037 8 26 0.018 9 13 0.009 (B) posizione 90o percentile = (n + 1)0.9 = (1440 + 1)0.9 = 1296.9. 90o percentile: x(0.90) = 6. Esercizio 2 b = x = 4981/1440 = 3.459. (A) Modello di Poisson: si suppone allora X ∼ P o(λ). λ (B) H0 : λp = 3.6 contro H1 : λ 6= 3.6. La v.c. test X. La sua distribuzione campionaria sotto Hp 0 data da (X − λ0 )/ λ0 /n|H0 ≈ N (0, 1) (λ0 ilpvalore di λ sotto H0 ). 1 − α = 0.99 = P (−z ≤ (X − λ0 )/ λ0 /n ≤ z|H campionario: (x−λ0 )/ λ0 /n = −2.8194; regione di accettazione: [−z, z] = [−2.576, 2.576] p 0 ). Valore √ ( λ0 /n = 0.0025 = 0.05). Esercizio 3 Eventi: A = ”chiama un’azienda”, A = ”chiama un privato”. X v.c. ”durata chiamata”. X|A ∼ N (µA = 7.05, σA = 2.82); X|A ∼ N (µA = 6.85, σA = 2.06). (A) Formula delle probabilit marginali (o totali): P (X > c = 9.73) = P (X > c|A)P (A) + P (X > c|A)P (A) = 0.17097 ∗ 0.35 + 0.08105 ∗ 0.65 = 0.11252 (per il calcolo di P (X > c|A) e P (X > c|A) ricordare che X|A e X|A hanno distribuzione normale). (B) Formula di Bayes: P (A|X > c) = P (X > c|A)P (A)/P (X > c) = 0.17097 ∗ 0.35/0.11252 = 0.5318. Esercizio 4 (A) Modello lineare: yi = β0 + β1 xi + εi , dove εi ∼ N (0, σ 2 ), y il punteggio e x la durata della telefonata. Stimatori dei minimi quadrati dei parametri: βb1 = codev(x, y)/dev(x) = 11676/35981 = 0.3245, βb0 = y − β1 x = −0.62 − 0.3245 ∗ 9.65 = −3.75147, σ b2 = [dev(y) − βb12 dev(x)]/(n − 2) = (184193 − 0.32452 ∗ 35981)/(471 − 2) = 384.66. (B) H0 : β1 = 0 contro H0 : β1 > 0. La v.c. p test βb1 . La distribuzione campionaria sotto H0 data p √ da (βb1 − 0)/b σ (βb1 )|H0 ∼ T (n − 2), dove σ b(βb1 ) = σ b2 /dev(x) = 384.66/35981 = 0.01069 = 0.1034. Per una dimensione campionaria cos elevata si pu tuttavia approssimare T (n − 2) ' N (0, 1). Il valore campionario della statistica test sotto H0 allora z − camp = (βb1 − 0)/b σ (βb1 ) = 0.3245/0.1034 = 3.1385. p − value = P (”valore campionario della statistica test ancora pi spostato verso H1 rispetto a quello rilevato”|H0 ) = P [(βb1 − 0)/b σ (βb1 ) > 3.1385|H0 ] = P (Z > 3.1385) = 0.00085. 106 54 54.1 Compito del 07.07.2004 Testo Esercizio 1 Per la progettazione di una politica economica a favore della famiglia stato commissionato uno studio specifico. Viene effettuata un’indagine ad hoc misurando, su un campione di 203 giovani famiglie, alcune variabili demografiche ed economiche. La tabella seguente riporta la composizione del campione rispetto al numero di figli. Numero di figli frequenza 0 62 1 63 2 35 3 28 oltre 3 15 (a) Si calcoli la media e la mediana del numero di figli, sapendo che il numero totale di figli nella classe oltre 3 48 . (b) Si sottoponga a test l’ipotesi (nulla) che la proporzione di famiglie senza figli in Italia sia ≤ 0.3 (α = 0.01). Esercizio 2 Si vuole stabilire se le famiglie con almeno due figli abbiano redditi superiori a quelle con 0 o 1 figlio. Allo scopo vengono estratti due campioni casuali di 5 famiglie, uno dalla sottopopolazione di famiglie con almeno due figli e l’altro da quella con meno di 2 figli, rilevandone il reddito annuale (in migliaia di euro). I dati sono riportati nella tabella seguente: Reddito delle famiglie con almeno due figli Reddito delle famiglie con meno di due figli 34.5 28.1 41.1 36.8 53 28.6 48.8 39.1 40 32.2 Si ipotizzi che il reddito si distribuisca secondo una Normale. (a) Si sottoponga a test l’ipotesi che la varianza del reddito sia uguale nei due gruppi di famiglie (con α = 0.05). (b) Si costruisca un intervallo di confidenza per la differenza delle medie dei redditi delle due popolazioni (1 − α = 0.95). Esercizio 3 Nell’indagine riportata nell’esercizio 1, stata rilevata anche di interventi pubblici a sostegno della famiglia: Y = 0 per ’incrementi nei servizi alla famiglia’ (asili nido, spazi gioco, dicotomizzata (0 − 1) relativa al numero di figli. I dati sono Y ↓ X→ 0: Incentivi a pioggia 1: Incremento dei servizi 0: Meno di 2 figli 69 56 la variabile Y sulla preferenza tra due tipi ’incentivi monetari a pioggia’ e Y = 1 per eccetera); con X viene indicata la variabile riportati nella tabella seguente. 1: Almeno di 2 figli 39 39 (a) Utilizzando la definizione frequentista di probabilit (si assuma che il numero di prove sia sufficientemente elevato) si ricavi la funzione di massa della variabile casuale doppia (X, Y ) e se ne calcoli il coefficiente di correlazione. (b) Si sottoponga a test l’ipotesi nulla che la proporzione di famiglie con almeno due figli non sia superiore fra coloro che preferiscono incremento dei servizi rispetto a quelli favorevoli ad incentivi a pioggia (α = 0.05). Esercizio 4 Si consideri l’esperimento di estrazione casuale di famiglie dal campione riportato all’esercizio 3, in modo similare all’estrazione di palline da un’urna. (a)Indicare la distribuzione di probabilit della variabile X. Se si estrae a caso una famiglia dal campione, sapendo che la famiglia estratta preferisce un incremento dei servizi, qual’ la probabilit che abbia almeno 2 figli? (b) Si estrae (con reimmissione) 10 famiglie dal campione: qual la probabilit che al massimo 3 abbiano almeno 2 figli? Per il calcolo si utilizzi un’opportuna approssimazione della distribuzione di probabilit. 107 54.2 Soluzioni Esercizio 1 (a) Calcolo della mediana: la posizione della mediana (N + 1) ∗ 0.5 = (203 + 1) ∗ 0.5 = 102. Confrontando tale valore con le frequenze cumulate si ricava immediatamente che il valore della Mediana 1. Media = Totale/N = (0*62+1*63+2*35+3*28+48)/203 = 265/203 = 1.305419 (b) Definisco la variabile dicotomica X: X = 1 se la famiglia non ha figli, X = 0 altrimenti. Test su una proporzione con n grande. H0 : p ≥ 0.3 contro H1 : p > 0.3 da trasformare in H0 : p = 0.3 contro H1 : p > 0.3. p̂ = 62/203 p = 0.3054187. Il valore campionario delle statistica test (standardizzata) sotto H0 zoss = (p̂ − 0.3)/ 0.3(1 − 0.3)/203 = 0.1684748; la regione di rifiuto [zcrit , +∞) = [2.3263, +∞) per cui accetto H0 . Esercizio 2 X1 = Reddito famiglie con almeno 2 figli, X2 = Reddito famiglie con meno di 2 figli. (a) Test confronto tra varianze: H0 : σ12 /σ22 = 1 contro H0 : σ12 /σ22 6= 1. x̄1 = 43.48, x̄2 = 32.96 s21 = 54.337, s22 = 23.913. Valore della statistica test sotto H0 : Foss = s21 /s22 = 2.2723; regione di accettazione [0.1041, 9.6045] (da trovare dalle tavole della F (4, 4) per cui accetto H0 . (b) Intervallo di confidenza per la differenza tra medie con campioni indipendenti x̄1 = 43.48, x̄2 = 32.96, s21 = 54.337, s22 = 23.913, tα/2 = ±2.306 Intervallo: [1.3975 ; 19.6425]. Esercizio 3 (a) Funzione di massa della variabile doppia (X, Y ): Y ↓ X→ 0: Incentivi a pioggia 1: Incremento dei servizi Totale 0: Meno di 2 figli 0.3399 0.2759 0.6158 1: Almeno di 2 figli 0.1921 0.1921 0.3842 Totale 0.532 0.468 1 Calcolo del coefficiente di correlazione: E(X) = 0.3842, E(Y ) = 0.468, V (X) = 0.6158 ∗ 0.3842 = 0.2366, V (Y ) = 0.532 ∗ 0.468 = 0.2490, C(X, Y ) = E(XY √ ) − E(X)E(Y ) = 0.1921 − 0.468 ∗ 0.3842 = 0.01229, Corr(X, Y ) = C(X, Y )/[σ(X)σ(Y )] = 0.01229/ 0.2366 ∗ 0.2490 = 0.050634 (b) p1 = proporzione di famiglie con almeno 2 figli tra coloro che preferiscono un incremento dei servizi; p2 = proporzione di famiglie con almeno 2 figli tra coloro che preferiscono un incentivo a pioggia. Test sulla differenza tra due proporzioni con n grande. H0 : p1 − p2 = 0 contro H1 : p1 − p2 > 0. p̂1 = 39/(39 + 69) = 0.3611; p̂2 = 39/(39 + 56) = 0.4105; p̂ = (39 + 39)/(39 + 39 + 69 + 56) = 0.3842; m = 69 + 39 =p108, n = 56 + 39 = 95. Il valore osservato della statistica test sotto H0 zoss = ((p̂1 − p̂2 ) − 0)/ p̂q̂(1/m + 1/n) = −0.7220; la regione di rifiuto [zcrit , +∞) = [1.6449, +∞), per cui accetto H0 . Esercizio 4 (a) Distribuzione marginale di X2 : X2 → probabilit 0: Meno di 2 figli 1: Almeno di 2 figli 0.616 0.384 T P (X = 1|Y = 1) = P (X = 1 Y = 1)/P (Y = 1) = 0.1921/0.468 = 0.4105. (b) Y = ’numero di famiglie che, su 10 estrazioni, hanno almeno 2 figli’ ha distribuzione Binomiale(n = 10, p = 0.3842). Nel testo si consiglia di utilizzare l’approssimazione Normale, per cui Y ≈ N (µ = np = 10 ∗ 0.3842 = 3.842, σ 2 = npq = 10 ∗ 0.3842 ∗ 0.6158 = 2.3659). Allora P (Y ≤ 3) = P (Z ≤ −0.5474) = 0.2920 108 55 Compito del 14.09.2004 55.1 Testo Esercizio 1 La WINorLOSS una grossa agenzia di giochi e scommesse. Utilizzando un campione casuale di giocate al LOTTO ha elaborato la seguente tabella, in cui sono riportate le frequenze e altre statistiche. Giocate (Euro) Maschi Femmine (0, 5] 42 18 (5, 20] 42 49 (20, 50] 44 44 (50, 100] 28 34 > 100 41 13 Totale 197 158 Media 61.127 38.723 (Var. corretta)1/2 80.832 39.283 (A) Rappresentare graficamente la distribuzione marginale della variabile giocate nel campione, tenendo presente che l’ottica di tale rappresentazione confrontare la distribuzione ottenuta con quella teorica delle variabili casuali a voi note. (B) 1) Poisson; 2) Normale; 3) nessuna delle due. Sia sulla base del grafico costruito che di considerazioni teoriche, scegliete fra le 3 alternative proposte il modello probabilistico che vi sembra pi opportuno per rappresentare la variabile giocate. Motivare la risposta. Esercizio 2 Con riferimento ai dati dell’esercizio 1: (A) Limitatamente a coloro che giocano pi di 50 Euro, stimare la probabilit che un giocatore preso a caso sia un Maschio e fornire una stima della deviazione standard dello stimatore utilizzato. (B) Determinare l’intervallo di confidenza al 95% per la probabilit di cui al punto precedente. Esercizio 3 Con riferimento ai dati dell’esercizio 1: (A) Nel giocare al LOTTO, non tutti i maschi giocano la stessa somma e, allo stesso modo, non tutte le femmine giocano la stessa cifra. In altri termini, le giocate presentano in ciascuno dei due sessi una certa variabilit. Utilizzando i dati del campione possibile stabilire se la variabilit delle giocate la stessa nei due sessi? Formulare il problema in termini di test delle ipotesi. (B) Costruire l’intervallo di stima al 98% per la differenza fra quanto giocano in media i maschi rispetto alle femmine. Esercizio 4 In un’altra analisi, la WINorLOSS ha messo in relazione le giocate con l’et del giocatore per capire se vi una qualche relazione. Ha formulato alcuni modelli lineari nei coefficienti e quello che ha dato risultati migliori fa dipendere il logaritmo naturale della giocata (y) dal logaritmo naturale dell’et (x). Le statistiche calcolate sul campione sono le seguenti: n n = 152 n 1X (xi − x)2 = 0.138 n i=1 1X xi = 3.611 n i=1 n 1X (yi − y)2 = 24.492 n i=1 n n 1X yi = 3.954 n i=1 1X (xi − x)(yi − y) = 0.001 n i=1 (A) In base al modello formulato le giocate sono legate all’et del giocatore? (B) In base al modello formulato, quanta parte della variabilit del logaritmo naturale delle giocate spiegata dalla variabile x? (Aiuto: Ricordare che σ b2 = [Dev(y) − βb12 Dev(x)]/(n − 2)) 55.2 Soluzioni Esercizio 1 X = ”giocata in Euro” 109 (A) Calcolo e disegno dell’istogramma delle densit relative. Notare che per il calcolo della densit dell’ultima classe la classe va chiusa (possibilmente ad un valore ragionevole). Le densit sono state moltiplicate per 100 per evitare troppi decimali. classi (0, 5] (5, 20] (20, 50] (50, 100] [100, 500] Totale Frequenze marginali 60 91 88 62 54 355 Frequenze marginali relative 0.169 0.2563 0.2479 0.1746 0.1521 1 densit relative×100 3.3803 1.7089 0.8263 0.3493 0.038 (B) La risposta pi opportuna nessuna delle due. Infatti la Poisson da escludere perch la variabile continua; la Normale non appropriata per l’elevata asimmetria che emerge dall’istogramma. Esercizio 2 X ∼ Be(p), dove X = 1 se maschio e 0 se femmina. b stimatore di p dalle ottime propriet. La stima puntuale pb = x = 69/116 = 0.5948. La (A) pb = X p p √ d deviazione standard di tale stimatore σ(b p) = pbqb/n = 0.5948 ∗ 0.4052/116 = 0.00208 = 0.04558 d (B) Pivot: (b p − p)/σ(b p) ≈ N (0, 1). In base ai calcoli di cui al punto precedente, l’intervallo di confidenza d d richiesto [b p − z σ(b p), pb + z σ(b p)] = [0.5055, 0.6842], dove z = 1.96. Esercizio 3 Assunzioni: X1 = ”giocata in Euro di un maschio” ∼ N (µ1 , σ12 ), X2 = ”giocata in Euro di una femmina” ∼ N (µ2 , σ22 ). In realt le dimensioni campionarie sono abbastanza grandi da permettere di essere un po’ elastici su tali assunzioni. (A) Test delle ipotesi: H0 : σ12 /σ22 = 1 contro H1 : σ12 /σ22 6= 1. La v.c. test S12 /S22 che sotto H0 ha distribuzione F (n1 − 1, n2 − 1) = F (196, 157) Il valore campionario della statistica test allora s21 /s22 = 6533.81/1543.15 = 4.2341, da confrontare con la regione di accettazione [0.7443, 1.3503]. (B) Intervallo di confidenza per µ1 − µ2 per dati non appaiati. Essendo p la dimensione campionaria sufficientemente elevata possiamo utilizzare il pivotp [(X 1 − X 2 ) − (µ1 − µ2 )]/ s21 /n1 + s22 /n2 ≈ N (0, 1). √ Calcoli: x1 − x2 = 61.127 − 38.723 = 22.404, s = s21 /n1 + s22 /n2 = 42.93336 = 6.55236, z = 2.326. Allora l’intervallo [(X 1 − X 2 ) − zs, (X 1 − X 2 ) + zs] = [7.1609, 37.6471]. Esercizio 4 Prima alcuni calcoli: dev(x) = 0.138 ∗ 152 = 20.976, dev(y) = 24.492 ∗ 152 = 3722.784, codev(x, y) = 0.001 ∗ 152 = 0.152, βb1 = codev(x, y)/dev(x) = 0.00725, σ b2 = [Dev(y) − βb12 Dev(x)]/(n − 2) = 24.82. b (A) H0 : β1 = 0 contro H0 : β1 > 0. La v.c. test campionaria sotto H0 data p β1 , la cui distribuzione p √ b b b da (β1 − 0)/b σ (β1 )|H0 ∼ T (n − 2), dove σ b ( β1 ) = σ b2 /dev(x) = 24.82/20.976 = 1.18319 = 1.08774. Per una dimensione campionaria cos elevata si pu tuttavia approssimare T (n − 2) ' N (0, 1). Il valore campionario della statistica test sotto H0 allora z − camp = (βb1 − 0)/b σ (βb1 ) = 0.00725/1.08774 = 0.0067, da confrontare con la regione di accettazione [-1.96,1.96]. (B) In pratica si chiede l’indice R2 = Dev(regressione)/Dev(totale) che nel caso in oggetto pu essere calcolato come corr(x, y)2 = Codev(x, y)2 /[Dev(x)Dev(y)] = 2.959e − 07. 110 56 56.1 Compito del 15.12.2004 Testo Esercizio 1 La ditta GGP, produttrice di palline da golf, vuole immettere sul mercato un nuovo modello di palline. Decide di far analizzare da alcuni professionisti i 5 modelli di palline pi venduti sul mercato. Nella tabella seguente sono riportati i giudizi medi dei professionisti per i 5 modelli di palline in termini di Durezza all’impatto e Resa al lancio. Marca Durezza all’impatto Resa al lancio Strata 51.6 21.5 Nike 59.7 68.6 Callaway 82 77.9 Titleist 82.9 69.3 Wilson 37 31.4 (a) Calcolare un indice descrittivo di associazione tra le due variabili considerate. (b) Calcolare la mediana della variabile Resa al lancio. Indicare inoltre quale delle due variabili presenta maggiore variabilit confrontando gli indicatori opportuni. Esercizio 2 La GGP decide di condurre un esperimento per verificare la qualit del nuovo modello di palline da golf in termini di distanza percorsa. L’esperimento consite nel far lanciare le palline da una macchina con un angolo ed una velocit prestabiliti. Assumendo che la distanza percorsa dalla pallina si distribuisca normalmente con varianza (secondo il parere di un esperto) assumibile pari a 5600 cm2 , (a) di quanti lanci deve essere composto l’esperimento se la GGP desidera ottenere una stima per intervallo con confidenza per la distanza media percorsa 99 % ed ampiezza massima 23 cm? (b) Per problemi atmosferici, si riesce ad effetture un esperimento di soli 32 lanci, osservando una distanza percorsa media pari a 2050 cm ed una varianza campionaria corretta pari a 2025 cm2 . Calcolare una stima della distanza media con confidenza 99 %. Esercizio 3 La GGP ritiene che sia vantagioso immettere sul mercato il nuovo modello di palline solo se le distanza media del lancio dalla macchina superiore a 1957 cm. (a) Sulla base dei risultati dell’esperimento riportati nell’esercizio 2(b), consigliereste alla GGP di lanciare il nuovo modello di palline? (porre il livello di significativit α = 0.05 ) (b) Dato che la variabilit del lancio determina anch’essa la qualit del nuovo modello in termini di precisione, la GGP ritiene di poter vendere il nuovo modello di palline ad un prezzo elevato solo se la variabilit risulta inferiore a quella degli altri modelli di palline GGP, pari a 1369 cm2 . Cosa consigliate alla GGP? (porre il livello di significativit α = 0.05 ) Esercizio 4 Pare che il macchinario che stampa il marchio della GGP sul nuovo modello di palline sia difettoso: da indicazioni fornite da un tecnico, sembra che la probabilit di produrre una pallina non marchiata sia pari a 0.01 . (a) Qual la probabilit che in una confezione di 15 palline ve ne sia almeno una non marchiata? (b) L’operaio addetto alla macchina ritiene per che la probabilit che la macchina produca palline non marchiate superiore a quanto dichiarato dal tecnico. Per verificare chi abbia ragione, viene effettuata un indagine analizzando un campione casuale di 203 palline: tra le palline analizzate sono state trovate 20 non marcate. Dareste ragione al tecnico o all’operaio? (porre il livello di significativit α = 0.05 ) 56.2 Soluzioni Esercizio 1 Le due variabili sono quantitative. Chiamo X = Durezza all’impatto e Y = Resa. (a) MediaX = 62.64 MediaY = 53.74 VarX = 314.6424 VarY = 517.0264 Coefficiente di correlazione = ρXY = 0.8271 . (b) MedianaY = 68.6 . Confronto mediante i coefficienti di variazione: CVD = 0.2832 CVR = 0.4231 111 Esercizio 2 Chiamo X = Distanza percorsa dalla pallina. (a) X ∼ N (µ, 5600). Livello di confidenza = 1 − α = 0.99 zα/2 = ± 2.58 √ = 23 . Da cui n = 282 Ampiezza dell’intervallo = 2 · zα/2 · 74.8331 n 2 (b) X ∼ N (µ, σ ) con varianza ignota. tn−1, α2 = ± 2.744 . Intervallo di confidenza: [2028.1716 ; 2071.8284]. Esercizio 3 (a) Test su una media con varianza ignota. H0 : µ = 1957 H1 : µ > 1957 valore osservato = 11.6908 valore critico = 1.6955 Rifiuto H0 consiglio di immettere il nuovo modello sul mercato (b) Test su una varianza con media ignota. H0 : σ 2 = 1369 H1 : σ 2 < 1369 valore osservato = 45.8546 valore critico = 19.2806 Accetto H0 , consiglio di non immettere il nuovo modello sul mercato con prezzo elevato Esercizio 4 Chiamo X = Presenza del marchio sulla pallina ⇒ X ∼ Ber(p) (a) Chiamo Y = Numero di palline non marchiate in una confezione ⇒ Y ∼ Bin(n, p), con n = 15 e p = 0.01 n! 0 p (1 − p)n = 0.1399 P (Y ≥ 1) = 1 − P (Y = 0) = 1 − 0!n! (b) Test su una proporzione con n grande. H0 : p = 0.01 H1 : p > 0.01 p̂ = 0.0985 zoss = 12.676, zcrit = 1.6449 Rifiuto H0 112 57 Compito del 11.01.2005 57.1 Testo Esercizio 1. La Questura, per proprie finalit, ha costruito la seguente distribuzione di probabilit congiunta per le variabili casuali X e Y (entrambe possono assumere solo valori 0 o 1): X=0 X=1 Y =0 0.282 0.56 Y =1 0.021 0.137 (A) Ricavare le distribuzioni di probabilit condizionata di Y dato X = 0 e di Y dato X = 1. Commentare brevemente il risultato. (B) Calcolare il coefficiente di correlazione fra X e Y . Esercizio 2. Per stimare il numero di partecipanti a manifestazioni pubbliche che si tengono in una certa zona di propria competenza, la Questura ha suddiviso l’intera zona in un 17364 aree della stessa superficie. Utilizzando come informazione campionaria i conteggi delle persone che si trovano in un campione di queste aree possibile stimare il totale dei partecipanti. I conteggi effettuati durante una manifestazione politica nelle 76 aree che formano il campione sono stati sintetizzati nella seguente tabella: persone conteggiate frequenza 0 7 1 14 2 13 3 22 4 8 5 7 6 3 7 2 Totale 76 (A) Rappresentare graficamente la distribuzione della variabile ’numero di persone conteggiate per area’, considerando che l’ottica di tale rappresentazione deve essere quella di confrontare la distribuzione ottenuta con quella teorica delle variabili casuali a voi note. (B) 1) Bernoulli; 2) Poisson; 3) Normale. Sia sulla base del grafico costruito che di considerazioni teoriche, scegliete fra le 3 alternative proposte il modello probabilistico che vi sembra pi opportuno per la variabile ’numero di persone conteggiate per area’ e stimarne il parametro o i parametri. Esercizio 3. Con riferimento ai dati e al problema di cui all’esercizio precedente: (A) Ricordando che l’intera zona di competenza composta, in base alla suddivisione della Questura, da 17364 aree, costruire uno stimatore del numero totale di persone presenti alla manifestazione in oggetto. Fornire una stima sia della grandezza d’interesse che della deviazione standard dello stimatore utilizzato. (B) Costruire un intervallo di confidenza al 98% per il numero totale di persone presenti alla manifestazione. Esercizio 4. Il contratto degli addetti alla pubblica sicurezza (p.s.) prevede indennizzi in caso di incidenti che provochino agli stessi danni fisici. Indicata con X la variabile indennizzo (per singolo addetto e per singolo evento) in manifestazioni sportive e con Y l’analoga variabile in altro tipo di manifestazioni, i dati campionari relativi agli indennizzi sono stati elaborati nelle seguenti statistiche sintetiche (dati in migliaia di Euro): m m = 14 n = 13 1 X xi = 2.524 m i=1 n 1X yi = 2.15 n i=1 m 1 X (xi − x)2 = 0.077 m − 1 i=1 n 1 X (yi − y)2 = 0.115 n − 1 i=1 Ipotizzando la normalit delle distribuzioni degli indennizzi: (A) Sottoporre a test l’uguaglianza delle varianze delle due distribuzioni (α = 0.02). (B) Sottoporre a test l’ipotesi nulla che i due tipi di manifestazioni comportano in media gli stessi indennizzi contro l’alternativa in cui quelli per manifestazioni sportive risultano maggiori (α = 0.05). 113 57.2 Soluzioni Esercizio 1 (A) Si devono costruire 2 funzioni di massa: fY (y|X = 0) e fY (y|X = 1). Calcolo: fY (0|X = 0) esattamente P (Y = 0|X = 0) = P (X = 0, Y = 0)/P (X = 0) = 0.282/(0.282 + 0.021) = 0.9307. Gli altri si calcolano in modo analogo. Risultati: y 0 1 fY (y|X = 0) 0.9307 0.0693 y 0 1 fY (y|X = 1) 0.8034 0.1966 p √ (B) ρ(X, Y ) = C(X, Y )/ V (X)V (Y ) = 0.026874/ 0.211191 ∗ 0.133036 = 0.1603. Infatti: 1) si nota che X e Y sono due v.c. di Bernoulli, cio X ∼ Be(0.697) e Y ∼ Be(0.158). Quindi E(X) = 0.697, V (X) = 0.697 ∗ (1 − 0.697) = 0.211191, E(Y ) = 0.158, V (Y ) = 0.158 ∗ (1 − 0.158) = 0.133036. 2) Per la covarianza, C(X, Y ) = E(XY ) − E(X)E(Y ) = 0.137 − 0.697 ∗ 0.158 = 0.026874, dove E(XY ) = 0 ∗ 0 ∗ 0.282 + 0 ∗ 1 ∗ 0.021 + 1 ∗ 0 ∗ 0.56 + 1 ∗ 1 ∗ 0.137 = 0.137. Esercizio 2 (A) Grafico della distribuzione delle frequenze relative: x frequenza frequenza relativa 0 7 0.0921 1 14 0.1842 2 13 0.1711 3 22 0.2895 4 8 0.1053 5 7 0.0921 6 3 0.0395 7 2 0.0263 Totale 76 1 (B) Fra quelli considerati il modello probabilistico pi ragionevole il modello di Poisson: X ∼ P oisson(λ). b = x = 205/76 = 2.6974. Stimatore di λ dalle ottime propriet la media campionaria: λ Esercizio 3 (A) Sia N = 17364 il numero totale di pezzi in cui la Questura ha suddiviso l’area d’interesse. Al punto (B) stato stimato (λ) il numero medio di persone per area. Il totale T sar allora dato da: T = N λ e b Stima puntuale: Tb = N λ b potr essere stimato dallo stimatore Tb = N λ. p = 17364 ∗ 2.6974 = 46837.1053; b b deviazioneqstandard dello stimatore: σ(T ) = σ(N λ) = N σ(λ) = N λ/n, che pu essere stimata con p [) = N λ/n b = 17364 ∗ 2.6974/76 = 3271.2453. σ(T (B) Poich T = N λ, per costruire un intervallo di confidenza per T basta costruirne uno per λ eqpoi trasformarlo opportunamente nel corrispondente intervallo per T . Intervallo per λ: pivot (X − λ)/ X/n ≈ p p N (0, 1); intervallo: [x − z x/n, x + z x/n] = [2.2591, 3.1356], dove x = 2.6974, n = 76, z = 2.3263, α = 0.02. Intervallo per T = N λ: [N ∗ 2.2591, N ∗ 3.1356] = [39227.0506, 54447.1599]. Esercizio 4 2 X = ”indennizzo evento sportivo” ∼ N (µX , σX ), Y = ”indennizzo altri eventi” ∼ N (µY , σY2 ); X e Y indipendenti. 2 2 (A) Test delle ipotesi: H0 : σX /σY2 = 1 contro H1 : σX /σY2 6= 1. La v.c. test S12 /S22 che sotto H0 ha distribuzione F (n1 − 1, n2 − 1) = F (13, 12) Il valore campionario della statistica test allora s21 /s22 = 0.077/0.115 = 0.6696, da confrontare con la regione di accettazione [0.2525, 4.0999]. (B) Test delle ipotesi: H0 : µX −µY = 0 contro H1 : µX −µY > 0 per dati non appaiati. Lapv.c. test X −Y e, ipotizzando σX = σY , la distribuzione sotto H0 della v.c. test la seguente: (X −Y )/[Sp 1/m + 1/n] ∼ 2 T (m + n − 2), dove Sp2 = [(m − 1)SX + (n − 1)SY2 ]/(m + n − 2). Il valore campionario della statistica p test allora (x − y)/[sp 1/m + 1/n] = 3.14641, da confrontare con la regione di rifiuto [1.7081, +∞] (per i calcoli: m = 14, n = 13, x = 2.524, y = 2.15, s2X = 0.077, s2Y = 0.115, s2p = 0.09524, sp = 0.30861, p sp 1/m + 1/n = 0.11887). 114 58 Compito del 26.01.2005 58.1 Testo Esercizio 1 Siano X ed Y due variabili casuali con la seguente distribuzione di probabilit congiunta: X Y 0 1 0 1 2 0.32 0.16 0.18 0.09 0.06 0.19 (a) Calcolare il valore atteso e la mediana della variabile X. Rappresentare graficamente la sua funzione di ripartizione. (b) Si derivino le tre distribuzioni condizionate di Y data X e sulla base di queste si deduca se Y e X sono stocasticamente indipendenti. Esercizio 2 Alla gara dei 3000 siepi partecipano 9 atleti, tra i quali due italiani. Assumendo che tutti i partecipanti abbiano la stessa probabilit di vittoria, (a) qual la probabilit che i due italiani si classifichino nelle prime tre posizioni? (b) Sapendo che nel superamento di una barriera un atleta (di cui non si conosce la nazionalit) cade ed costretto ad abbandonare la corsa, qual la probabilit che vinca un italiano? Esercizio 3 Le misure ottenute da un certo atleta nel lancio del peso sono assimilabili ad una v.c. X con distribuzione normale. I due atleti classificatisi alle prime due posizioni in una certa gara hanno ottenuto i seguenti risultati (i valori riportati sono misurati in metri): Atleta primo classificato Atleta secondo classificato 20.2 17.5 16.7 19.1 19.9 16.1 (a) Si calcoli una stima per intervallo della lunghezza media di lancio del primo classificato con confidenza 0.99 . (b) In base ai risultati ottenuti si verifichi se in media il vincitore pi bravo del secondo classificato (α = 0.01). Esercizio 4 Si vuole studiare l’uso e l’efficacia della pappa reale per migliorare le prestazioni di un atleta: (a) In uno studio su un campione casuale di 109 atleti, si rileva che 54 fanno uso di pappa reale. Sapendo che il 31 % della popolazione italiana usa la pappa reale, possibile affermare, sulla base dei risultati campionari, che la proporzione degli atleti che ne fa uso superiore a quella della popolazione italiana? (α = 0.1) (b) Si effettua un esperimento ad hoc su un campione casuale di 4 lanciatori del disco che vengono sottoposti ad un mese di trattamento con pappa reale. La lunghezza del miglior lancio in una giornata di allenamento viene misurata all’inizio dello studio e, successivamente, dopo il mese di trattamento con pappa reale. I valori relativi al miglior lancio in una giornata di allenamento dei 4 atleti prima e dopo il trattamento sono riportati nella tabella seguente: Valori medi prima del trattamento Valori medi dopo il trattamento 47.2 50.8 41.4 43.9 44.7 42.7 41.1 42.8 Si valuti l’efficacia del trattamento (α = 0.05), specificando le assunzioni necessarie. 58.2 Soluzioni Esercizio 1 (a) 115 X p(x) F(x) 0 0.48 0.48 1 0.27 0.75 2 0.25 1 E[X] = 0.77 Mediana[X] = 1. (b) Le distribuzioni condizionate non sono tutte identiche tra loro, per cui le due variabili non sono indipendenti. 0 1 P (Y | X = 0) 0.667 0.333 P (Y | X = 1) 0.667 0.333 P (Y | X = 0) 0.24 0.76 P (Y ) 0.56 0.44 Esercizio 2 (a) Chiamo X = Numero di atleti italiani classificatisi nelle prime 3 posizioni. ⇒ X ∼ Ipergeometrica con N = 9 N1 = 2, n = 3. (N1 )(N −N1 ) Quindi P (X = 2) = 2 Nn−2 = 0.0833 (n) (b) L’informazione incompleta tale da non modificare la mia conoscenza sulla nazionalit del vincitore, quindi non modifica la probabilit di verificarsi dell’evento: P ( vince un italiano | qualcuno caduto ) = P ( vince un italiano ) = 0.2222 Esercizio 3 X1 = Lunghezza del lancio in metri del primo classificato (a) Stima per intervallo della media di X1 . X1 ∼ N (µ1 , σ12 ). Varianza ignota. X = 18.9333 Varianza campionaria corretta = 3.7633 t2, α2 = ±9.9248 Intervallo di confidenza: [7.8174 ; 30.0492]. (b) X2 = Lunghezza del lancio in metri del primo classificato ∼ N (µ2 , σ22 ) Si assume l’uguaglianza delle due varianze: σ12 = σ22 . Test confronto tra medie con campioni indipendenti. H0 : µ1 − µ2 = 0 H1 : µ1 − µ2 > 0 α = 0.01 x̄1 = 18.9333, x̄2 = 17.5667, s21 = 3.7633, s22 = 2.2533 toss = 0.965, tcrit = 3.7469 gdl = 4 Accetto H0 Esercizio 4 (a) Chiamo X la variabile dicotomica X = 1 se l’atleta fa uso di pappa reale e X = 0 altrimenti. X ∼ Bin(p) Test su una proporzione con n grande. H0 : p = 0.31 H1 : p > 0.31 α = 0.1 p̂ = 0.4954 zoss = 4.1855, zcrit = 1.2816 Rifiuto H0 (b) Chiamo D = lancio migliore dopo il trattamento – lancio migliore prima del trattamento D 3.6 2.5 -2 1.7 Test confronto tra medie con campioni dipendenti H0 : µ1 − µ2 = 0 H1 : µ1 − µ2 > 0 2 x̄D = 1.45, σ̂D = 5.8967 toss = 1.1942, tcrit = 2.3534 Accetto H0 116 59 59.1 Compito del 10.02.2005 Testo Esercizio 1 La MAGNA–MAGNA spa produce pizze surgelate. L’esperienza ha mostrato che il peso alla commercializzazione non sempre uguale a quanto rilevato alla data di fabbricazione, anche quando il prodotto viene conservato correttamente. Un’analisi estensiva ha mostrato che la variazione percentuale del peso fra la fabbricazione e la commercializzazione in media del -4.1%, con una deviazione standard 4.7. Assumendo che la variazione percentuale di peso ha una distribuzione normale: (A) Determinare la distribuzione del peso alla commercializzazione per una pizza che alla data di fabbricazione pesa 238g. (B) Determinare quale deve essere il peso di fabbricazione se si vuole che, alla commercializzazione, solo il 2.5% delle pizze pesi meno dei 250g dichiarati nella confezione. Esercizio 2 Per ridurre le variazioni di peso successive alla produzione, la MAGNA–MAGNA sta studiando la possibilit di modificare il processo produttivo delle pizze surgelate. In particolare, l’uso di un nuovo addensante nell’impasto ha prodotto, su un campione di 5 pizze, i risultati riportati in tabella (i valori rappresentano la variazione percentuale di peso fra la data di fabbricazione e quella di commercializzazione). Tenendo presente che per situazione usuale si intende quella dell’analisi estensiva sintetizzata nell’esercizio precedente: pizza variazione % del peso 1 3.4 2 -0.9 3 4.1 4 -1.8 5 -4.5 (A) Verificare se il nuovo ingrediente effettivamente efficace nel limitare il calo medio di peso rispetto alla situazione usuale (livello di significativit = 0.005). (B) Verificare se la varianza del nuovo procedimento significativamente diversa da quella usuale (livello di significativit = 0.05). Esercizio 3 La MAGNA–MAGNA effettua controlli di qualit anche sulla presenza di eventuali difetti estetici presenti nelle pizze prodotte, quali bruciacchiature, bolle, residui di lavorazione, ecc. I controlli effettuati su un campione di 20 pizze hanno prodotto i risultati riportati in tabella (A = ’nessun difetto visibile’, D = ’difetti lievi’, DD = ’difetti importanti’): D DD D A DD A A A A A D A DD A A A A A A D (A) Sintetizzare i dati osservati in una distribuzione di frequenza, in modo che si possano confrontare i risultati con quelli di campioni di dimensioni diverse. (B) Calcolare un opportuno indice di posizione. Esercizio 4 Alcuni tecnici vorrebbero utilizzare il campione di cui all’esercizio precedente per stimare la proporzione di pizze con difetti estetici ma ritengono che il campione sia di dimensioni troppo limitate. (A) Calcolare la dimensione del campione per ottenere un intervallo di confidenza per la proporzione di pizze con difetti di ampiezza 0.18 al livello di confidenza 0.98. (B) E’ stato estratto un campione di dimensione pari a quella calcolata al punto A, dal quale si rilevato che il 38.6% delle pizze presenta difetti estetici. Fornire una stima puntuale della grandezza d’interesse (la proporzione di pizze con difetti) e una stima della deviazione standard dello stimatore utilizzato. 59.2 Soluzioni Esercizio 1 117 (A) X = variazione % del peso ∼ N (µX = −4.1, σX = 4.7). Allora il peso alla commercializzazione di una pizza da 238g la v.c. Y = 238(1 + X/100). Poich si tratta di una trasformazione lineare di una v.c. Normale abbiamo Y ∼ N (µY = 228.242, σY = 11.186), dove µY = 238(1 + µX /100) e σY = 238/100σX . (B) Y = peso alla commercializzazione; P0 = peso alla fabbricazione (incognito). Allora, indicato con y = 250 il peso in g dichiarato nella confezione si ha: 0.025 = P (Y < y) = P (P0 (1 + X/100) < y) = P [X < 100(y/P0 − 1)] = P [Z < [100(y/P0 − 1) − µX ]/σX ] (dopo aver standardizzato ambo i membri). Poich il termine [100(y/P0 − 1) − µX ]/σX uno z che lascia a sx una probabilit 0.025, dalle tavole si ricava [100(y/P0 − 1) − µX ]/σX = z = −1.96, da cui P0 = 100y/(zσX + µX + 100) = 100 ∗ 250/86.6882 = 288.39. Esercizio 2 Assunzioni: X = variazione % di peso col nuovo addensante ∼ N (µ, σ 2 ). √ (n − 1), che sotto H0 (A) Test di H0 : µ = −4.1 √ contro H1 : µ > −4.1. V.c. test (X − µ)/(S/ n) ∼ T 2 n)|H ∼ T (n − 1). Calcoli: n = 5, x = 0.3/5 = 0.06, s = 52.652/4 = 13.163, diviene (X − −4.1)/(S/ 0 √ √ s = 3.6281, s/ n = 1.6225; valore campionario = (x − −4.1)/(s/ n) = 2.5639, regione di rifiuto al 0.5%: (4.6041, +∞). (B) Test di H0 : σ 2 = 4.72 contro H1 : σ 2 6= 4.72 . V.c. test (n − 1)S 2 /σ 2 ∼ χ2 (n − 1), che sotto H0 diviene (n − 1)S 2 /4.72 ∼ χ2 (n − 1). Dai valori riportati al punto A si ricava: valore campionario = (n − 1)S 2 /4.72 = 2.3835, regione di accettazione al 5%: [0.4844, 11.1433]. Esercizio 3 (A) Distribuzione delle frequenze relative o percentuali: modalit frequenze relative A 0.65 D 0.2 DD 0.15 (B) Come indice di posizione possibile calcolare sia la moda che la mediana: moda = A, mediana = A. Esercizio 4 X = ”pizza con difetti estetici” ∼ Be(p). (A) Dimensione del campione pu essere calcolata con la formula n = (z/A)2 = 167.034 da arrotondare a 168 (nei calcoli A = 0.18 l’ampiezza dell’intervallo, 0.02 il livello di confidenza e z = 2.326 dalle tavole). (B) Si vuole stimare la proporzione di pizze con difetti. Uno stimatore dalle p buone propriet pb = X. La stima puntuale allora pb = x = 0.386 la cui deviazione standard σ(b p) = pq/n pu essere stimata con p p √ d σ(b p) = \ pq/n = pbqb/n = 0.00141 = 0.0376. 118 60 60.1 Compito del 31.05.2005 Testo Esercizio 1. La CIABATTI spa una societ che produce piccoli mobili (mobili tv e computer, carrelli, piccole scaffalature, ecc.). L’impresa possiede stabilimenti sia in Italia che altri Paesi, ma sta valutando la possibilit di delocalizzare interamente le proprie produzioni in un paese dell’Est europeo, dove ritiene che i costi siano pi bassi. Si tratta per di valutare se questo non vada a discapito della qualit. Per verificare questo, un nuovo prodotto stato messo in produzione sia in uno stabilimento italiano che in uno collocato in Romania. Il test comparativo ha dato i risultati mostrati in tabella. numero difettosi numero non difettosi stabilimento italiano 6 129 stabilimento rumeno 27 139 Indicate con p1 e p2 le proporzioni di prodotti difettosi, rispettivamente, nello stabilimento italiano e in quello rumeno (di cui la tabella costituisce un campione) rispondere alle seguenti domande: (A) La qualit delle produzioni fra i due stabilimenti diversa? Formulare il problema in termini di test delle ipotesi su p1 − p2 ed effettuare il test (α = 0.02). (B) Calcolare il p–value del test costruito al punto precedente. Il p–value ottenuto che considerazioni suggerisce? Esercizio 2. Relativamente ai costi, una delle variabili di maggiore importanza riguarda come noto quelli relativi al personale. La tabella seguente mostra alcune statistiche relative alla retribuzioni orarie dei dipendenti dei due stabilimenti (valori monetari espressi in euro). numero dipendenti media retribuzioni orarie √ varianza corretta delle retribuzioni orarie stabilimento italiano 58 16.54 2.92 stabilimento rumeno 63 3.89 1.32 Dopo aver specificato le assunzioni necessarie: (A) Fornire una stima puntuale della differenza fra le retribuzioni orarie medie nei due stabilimenti e della deviazione standard dello stimatore utilizzato. (B) Costruire l’intervallo di confidenza (1 − α = 0.9) per la differenza fra le retribuzioni orarie medie. Esercizio 3. Naturalmente l’analisi del costo del lavoro deve essere pi correttamente valutata in termini di produttivit. Per analizzare questo aspetto la CIABATTI ha raccolto alcuni bilanci di imprese italiane direttamente concorrenti e per ciascuna societ ha calcolato l’indicatore valore aggiunto/costo del personale (in pratica il reciproco dell’indice CLUP). I dati sono riportati in tabella. Valore dell’indicatore Frequenza [0,0.7] 1 (0.7,1.2] 6 (1.2,1.5] 5 (1.5,1.9] 7 (1.9,2.5] 6 (2.5,3.5] 4 (A) Rappresentare graficamente la distribuzione. (B) Calcolare lo scarto interquartile. Esercizio 4. Con riferimento al test comparativo di cui all’esercizio 1: (A) Ilie, nuovo addetto alla qualit dello stabilimento rumeno, ha il compito di saggiare la qualit di solo 6 fra i 166 totali prodotti nel suo stabilimento per il test comparativo. Calcolare la probabilit che Ilie non trovi prodotti difettosi. (B) Utilizzando le informazioni ricavabili dai dati dell’esercizio 1, calcolare quanto devono essere le dimensioni n1 ed n2 dei due campioni (cio il numero totale di prodotti in ciascuno dei due stabilimenti per il test comparativo) se si vuole un intervallo di confidenza per p1 − p2 di ampiezza 0.142 al livello di confidenza 0.98 e si assume n1 = n2 . 119 60.2 Soluzioni Esercizio 1 Assunzioni: X1 = ’difettoso/non difettoso stabilimento italiano’∼ Be(p1 ), X2 = ’difettoso/non difettoso stabilimento rumeno’∼ Be(p2 ). (A) Test per H0 : p1 −pp2 = 0 contro H1 : p1 − p2 6= 0 (α = 0.02). La v.c. test (standardizzata) [X 1 − X 2 − (p1 − p2 )]/p p1 q1 /n1 + p2 q2 /n2 la distribuzione , approssimativamente, N (0, 1). Sotto H0 abbiamo [X 1 − X 2 − 0]/ pbqb(1/n1 + 1/n2 )|H0 ≈ N (0, 1), dove pb la stima pooled di p sotto H0 e qb = 1 − pb. Regione di accettazione per la statistica standardizzata = [−2.326, 2.326], con cui occorre confrontare il = 0.0444, x2 = 27/166 valore campionario -3.2645 della statistica test. (Calcoli: x1 = 6/135p √ = 0.1627, pb = (6 + 27)/(135 + 166) = 33/301 = 0.1096, qb = 1 − 0.1096 = 0.8904, pbqb(1/n1 + 1/n2 ) = 0.001311 = 0.036209.) p (B) p − value = 2P ([X 1 − X 2 − 0]/ pbqb(1/n1 + 1/n2 ) > | − 3.2645||H0 ) = 2P (Z > 3.2645) = 2 ∗ 5e − 04 = 0.001. Esercizio 2 Assunzioni: X1 = ’retribuzione oraria stabilimento italiano’∼ [µ1 , σ12 ], X2 = ’retribuzione oraria stabilimento rumeno’[µ2 , σ22 ]. Le dimensioni campionarie sono abbastanza elevate da poter utilizzare criteri di inferenza di tipo asintotico senza dover specificare la forma delle distribuzioni delle due v.c. Parametro su cui fare inferenza: µ1 − µ2 . (A) Stimatore puntuale p di µ1 − µ2 : X 1 − X 2 , la cui distribuzione campionaria approssimata data da [X 1 − X 2 − (µ1 − µ2 )]/ S12 /n1 + S22 /n2 ≈ N (0,p1). Stima puntuale: = 12.65. p x1 − x2 = 16.54 − 3.89 √ 2 2 2 2 Stima della deviazione standard dello stimatore: s1 /n1 + s2 /n2 = 2.92 /58 + 1.32 /63 = 0.1747 = 0.4179. (B) L’output dell’esercizio precedente serve anche per costruire l’intervallo di confidenza per µ1 − µ2 p p all’1 − α = 0.9: [x1 − x2 − z s21 /n1 + s22 /n2 , x1 − x2 + z s21 /n1 + s22 /n2 ] = [11.9626, 13.3374], dove z = 1.645. Esercizio 3 (A) Istogramma di frequenza (assolute o relative a scelta dello studente): Valore dell’indicatore Densit assolute Densit relative [0,0.7] 1.429 0.049 (0.7,1.2] 12 0.414 (1.2,1.5] 16.667 0.575 (1.5,1.9] 17.5 0.603 (1.9,2.5] 10 0.345 (2.5,3.5] 4 0.138 (B) Q1 = 1.215, Q3 = 2.175. Quindi lo scarto interquartile Q3 − Q1 = 0.96. Esercizio 4 (A) X = ’numero difettosi fra quelli di Ilie’ ∼ Ipergeometrica(N = 166, K = 27, n = 6). Allora P (X = 0) = 0.3386. Se si fosse utilizzata l’approssimazione binomiale (di cui, nelle condizioni dell’esercizio, esistono i presupposti) avremmo avuto X ∼ Binomiale(n = 6, p = 0.1627) e quindi P (X = 0) = 0.3447. p (B) L’ampiezza dell’intervallo di confidenza per p1 − p2 data da A = 2z x1 (1 − x1 )/n1 + x2 (1 − x2 )/n2 . Assumendo n1 = n2 e, in base alle informazioni dell’esercizio 1, x1 = 0.0444 e x2 = 0.1627 possiamo p ricavare np (ed n che uguale) come incognita: n = [2z x (1 − x1 ) + x2 (1 − x2 )/A]2 = 191.8099 ' 192. 1 2 1 1 √ (Calcoli: x1 (1 − x1 ) + x2 (1 − x2 ) = 0.178665 = 0.4227 e z = 2.326, dato che α = 0.02). 120 61 61.1 Compito del 09.06.2005 Testo Esercizio 1. L’ASSOFIDI un’associazione che vigila sul mondo del credito al consumo. In uno studio l’associazione ha presentato un’analisi comparativa sul credito al consumo fra Nord–Est e Sud. In un commento ha dichiarato che ’. . . a livello territoriale, l’importo medio dei finanziamenti concessi risultato sostanzialmente uguale nelle due aree, con una variabilit pi elevata nella prima’. La tabella seguente sintetizza i dati campionari sui quali sono basate tali considerazioni (valori monetari espressi in euro). numero finanziamenti media dell’importo finanziato √ mediana dell’importo finanziato varianza corretta dell’importo finanziato Nord–Est 126 357.49 360.59 125.44 Sud 146 330.51 332.02 73.56 (A) Sottoporre a test l’affermazione di ASSOFIDI sulle medie dei finanziamenti concessi nelle due aree territoriali (α = 0.1). (B) Determinare l’intervallo di confidenza al livello di confidenza 0.998 per la differenza fra le medie degli importi finanziati nelle due aree territoriali. Esercizio 2. In base ai dati dell’esercizio 1: (A) Costruire l’intervallo di confidenza per il rapporto fra le deviazioni standard degli importi finanziati nelle due aree territoriali (1 − α = 0.98). (B) Utilizzando le informazioni desumibili dai dati dell’esercizio 1, quale dovrebbe essere la dimensione del campione al Sud per ottenere un intervallo di confidenza per la media di ampiezza 16.53 al livello di confidenza 0.998? Nel calcolo si assuma che la varianza dell’importo finanziato al Sud sia identica a quella rilevata nel campione. Esercizio 3. ASSOFIDI ha comunicato inoltre che, come numero, il 56.6% dei crediti sono stati erogati nel Nord–Est e il rimanente 43.4% al Sud. Assumendo che, nelle due aree territoriali considerate, l’ammontare degli importi finanziati siano indipendenti e abbiano distribuzione normale con momenti identici a quelli rilevabili dal campione: (A) Calcolare la probabilit che, estratto a caso un finanziamento, questo riguardi un importo maggiore di 469 euro. (B) Calcolare la probabilit che un finanziamento superiore 469 euro venga effettuato al Nord–Est. Esercizio 4. La ricerca di ASSOFIDI di cui all’esercizio 1 risultata interessante anche per un interlocutore americano, che per in base alla sua esperienza desidera qualche informazione supplementare. (A) L’interlocutore preferisce ragionare sulle mediane piuttosto che sulle medie: possibile fornirgli il valore delle due mediane (al Nord–Est e al Sud) se si utilizza come unit monetaria il dollaro americano (1 euro = 1.25 dollari)? Se s, calcolare quali sono i valori; se no, dire perch. (B) L’interlocutore preferisce ragionare sul coefficiente di variazione piuttosto che sulla deviazione standard: possibile fornirgli il valore dei due coefficienti di variazione (al Nord–Est e al Sud) se si utilizza come unit monetaria il dollaro americano (1 euro = 1.25 dollari)? Se s, calcolare quali sono i valori; se no, dire perch. 61.2 Soluzioni Esercizio 1 Assunzioni: X1 = ’importo finanziato nel Nord-Est’∼ N (µ1 , σ12 ), X2 = ’importo finanziato nel Sud’∼ N (µ2 , σ22 ). (A) Test per H0 : µ1 − p µ2 = 0 contro H1 : µ1 − µ2 6= 0 (α = 0.1). La v.c. test (standardizzata) [X 1 − X 2 − (µ1 − µ2 )]/ S12 /n1 + S22 /n2 la cui distribuzione , approssimativamente, N (0, 1) (n1 ed 121 n2 sono sufficientemente elevate da poter utilizzare criteri di inferenza asintotici). Sotto H0 abbiamo p [X 1 − X 2 − 0]/ S12 /n1 + S22 /n2 |H0 ≈ N (0, 1). Regione di accettazione per la statistica standardizzata = [−1.645, 1.645], con cui occorre confrontare il valore campionario 2.1201 della statistica p test. (Calcoli: 2 2 x = 357.49, x = 330.51, s = 125.44, s = 73.56, s s21 /n1 + s22 /n2 = = 15735.19, s = 5411.07, 2 1 2 1 2 √1 161.9446 = 12.7257.) p −x −z s21 /n1 + s22 /n2 , x1 − (B) Intervallo di confidenza per µ −µ (livello di confidenza 1−α = 0.998): [x 1 2 1 2 p 2 2 x2 + z s1 /n1 + s2 /n2 ] = [−12.3454, 66.3054] (Calcoli: z = 3.09; gli altri dati all’esercizio precedente.) Esercizio 2 Assunzioni: le stesse dell’esercizio precedente. (A) Intervallo di confidenza per σ12 /σ22 (livello di confidenza 1−α = 0.98): [c1 s21 /s22 , c2 s21 /s22 ] = [1.9368, 4.3421] (Calcoli: c1 = 0.666, c2 = 1.4932; gli altri dati all’esercizio precedente.) Il corrispondente intervallo di confidenza per σ1 /σ2 allora [1.3917, 2.0838]. (B) Utilizzando le informazioni desumibili dal campione si ricava n = (2zs/A)2 = 27.5042 = 756.45 ' 757, dove: z = 3.09 (α = 0.002), s = 73.56, A = 16.53. Esercizio 3 Assunzioni: X = ’importo finanziamento’, S = ’finanziamento effettuato al Sud’; abbiamo X|S ∼ N (µS = 330.51, σS = 73.56), X|S ∼ N (µS = 357.49, σS = 125.44), P (S) = 0.434, P (S) = 0.566. (A) Formula della probabilit marginale (o totale): P (X ≥ 469) = P (X ≥ 469|S)P (S) + P (X ≥ 469|S)P (S) = 0.0299 ∗ 0.434 + 0.187 ∗ 0.566 = 0.1188. (B) Formula di Bayes: P (S|X ≥ 469) = P (X ≥ 469|S)P (S)/P (X ≥ 469) = 0.187 ∗ 0.566/0.1188 = 0.8909. Esercizio 4 (A) La mediana un operatore equivariante: considerata una trasformazione strettamente crescente, ’la mediana della trasformazione la trasformazione della mediana’. Quindi: M e(importo in dollari) = M e(1.25×importo in euro) = 1.25 × M e(importo in euro). Al Nord–Est: M e(importo in dollari) = 1.25 × 360.59 = 450.7375; al Sud: M e(importo in dollari) = 1.25 × 332.02 = 415.025. (B) Dalle propriet della media e della deviazione standard abbiamo in definitiva che CV (importo in dollari) = CV (importo in euro). Infatti: µ(importo in dollari) = µ(1.25×importo in euro) = 1.25 × µ(importo in euro) e σ(importo in dollari) = σ(1.25×importo in euro) = 1.25 × σ(importo in euro), per cui CV (importo in dollari) = σ(importo in dollari)/µ(importo in dollari) = 1.25 × σ(importo in euro)/[1.25 × σ(importo in euro)] = σ(importo in euro)/µ(importo in euro) = CV (importo in euro). Allora: al Nord–Est CV (importo in dollari) = 125.44/357.49 = 0.3509 e al Sud CV (importo in dollari) = 73.56/330.51 = 0.2226. 122 62 Compito del 28.06.2005 62.1 Testo Esercizio 1 Considerate la seguente distribuzione di probabilit discreta: X 0 1 2 0 0.05 0.21 0.08 Y 1 0.10 0.11 0.15 2 0.03 0.19 0.08 (a) Calcolate P (X < 2 ∩ Y > 0); P (X < 2 | Y = 1). (b) Calcolate Var[Y ] e Var[Y | X = 1]. Esercizio 2 Alcune aziende stanno sperimentando l’orario flessibile, in cui ogni impiegato pu scegliere l’orario di lavoro pi adatto alle proprie esigenze, entro certi limiti. Si ritiene che l’orario flessibile riduca l’assenteismo. L’azienda CUP ha registrato nel periodo 2000-03 un numero medio di giorni di assenza pari a 6.3 l’anno. Nel 2004 la Cup ha introdotto l’orario flessibile. Alla fine del 2005 stato estratto un campione di 101 impiegati, registrando in media 5.3 giorni di assenza con varianza campionaria corretta 8.41 giorni2 . Si assuma che la variabile giorni di assenza abbia distribuzione Normale. (a) Potreste affermare che l’orario flessibile ha ridotto l’assenteismo rispetto al 2000-03? (livello di significativit α = 0.05) (b) Riportate una stima per intervallo della varianza del numero di giorni di assenza (livello di confidenza 1 − α = 0.99). Esercizio 3 La CUP vuole verificare se vi siano differenze in termini di puntualit tra i dipendenti della filiale CUP-1st e quelli della CUP-2nd. A tal fine, rileva la variabile scarto in minuti = orario di arrivo del dipendente - orario ufficiale di inizio lavoro del personale su un campione di 5 dipendenti della CUP-1st e di altri 5 dipendenti della CUP-2nd. I dati sono riportati nella tabella seguente: Scarto in minuti per dipendente CUP-1st Scarto in minuti per dipendente CUP-2nd -23 42 40 -10 57 -5 -10 12 1 23 Si noti che con dipendente puntuale si intende dipendente non in ritardo rispetto all’orario ufficiale di inizio lavoro. Assumendo che gli scarti in minuti si distribuiscano normalmente con uguale varianza nota e pari a 302.5: (a) stimare un intervallo di confidenza di livello 0.90 che confronti le medie degli scarti in minuti nelle due filiali. (b) si effettui un test d’ipotesi per capire se i dipendenti della CUP-2sd siano pi puntuali di quelli della CUP-1st, utilizzando il p–value. Esercizio 4 La CUP ritiene che il livello di assenteismo sia diferrenziato per settore. Nella tabella seguente riporta alcune statistiche per i 4 settori della filiale CUP-1st. Settore Settore Settore Settore Settore A B C D media gg. assenza 6.7 4.7 3.8 8.5 n. dipendenti 35 51 20 12 (a) Calcolare il numero medio di giorni di assenza nella intera filiale CUP-1st. (b) Un dirigente ha intenzione di penalizzare i settori con alto livello di assenteismo e propone come 123 variabile d’interesse Y = (numero di giorni di assenza)2 . possibile ottenere per ciascun settore la media della variabile Y utilizzando i dati riportati in tabella? Se s, effettuare il calcolo, altrimenti spiegare il motivo. 62.2 Soluzioni Esercizio 1 (a) P (X < 2∩Y > 0) = P (X = 0∩Y = 1)+P (X = 0∩Y = 2)+P (X = 1∩Y = 1)+P (X = 1∩Y = 2) = = 0.10 + 0.03 + 0.11 + 0.19 = 0.43. P (X < 2 | Y = 1) = P (X < 2 ∩ Y = 1)/P (Y = 1) = (0.10 + 0.11)/(0.10 + 0.11 + 0.15) = 0.583̄ (b)Y assume valori 0, 1, e 2 con probabilit 0.34 , 0.36 e 0.30 rispettivamente. Quando X = 1, Y assume valori 0, 1, e 2 con probabilit 0.41 , 0.22 e 0.37 rispettivamente. Da cui E[Y ] = 0 · 0.34 + 1 · 0.36 + 2 · 0.30 = 0.96 Var[Y ] = (0 − 0.96)2 · 0.34 + (1 − 0.96)2 · 0.36 + (2 − 0.96)2 · 0.30 = 0.6384. E[Y | X = 1] = 0 · 0.41 + 1 · 0.22 + 2 · 0.37 = 0.96 Var[Y | X = 1] = (0 − 0.96)2 · 0.41 + (1 − 0.96)2 · 0.22 + (2 − 0.96)2 · 0.37 = 0.7784. Esercizio 2 X = numero di giorni di assenza ∼ N (µ, σ 2 ). (a) Test d’ipotesi: H0 : µ = 6.3 contro H1 : µ < 6.3, α = 0.05. Varianza ignota ma n grande. zoss = √5.3−6.3 = −3.465. zcrit = −1.645. Rifiuto H0 . 8.41/101 2 (b)Media ignota: (n−1)S ∼ χ2n−1 . σ2 2 2 χn−1,α/2 = 67.3275, χn−1,1−α/2 = 140.1697 (sono indicati i quantili della distribuzione - come da tavole). Intervallo di confidenza: [5.9999 ; 12.4912]. Esercizio 3 X1 = scarto in minuti per la CUP-1st ∼ N (µ1 , 302.5); ∼ N (µ2 , 302.5). Campioni indipendenti. σ2 (a) X̄1 − X̄2 ∼ N µ1 − µ2 , n11 + x̄1 = 13 x̄2 = 12.4 σ22 n2 X2 = scarto in minuti per la CUP-2nd con n1 = n2 = 5 e σ12 = σ22 = 302.5. zα/2 = ±1.645. Da cui l’intervallo cercato [−17.495 ; 18.695]. (b) Test d’ipotesi: H0 : µ1 = µ2 contro H1 : µ1 > µ2 , α = 0.05. Varianza nota. Variabile test (sotto H0 ): Z = X̄1 −X̄2 r 2 σ1 n1 σ2 ∼ N (0, 1). + n2 2 √ zoss = (13−12.4)−0 = 0.0545. p-value ' P (Z > 0.05) = 1 − 0.51994 = 0.48006. Accetto H0 . 2∗302.5/5 Esercizio 4 (a) µCU P = (6.7 · 35 + 4.7 · 51 + 3.8 · 20 + 8.5 · 12)/118 = 5.5271. (b) Non possibile effettuare il calcolo, in quanto la Y non una trasformazione lineare della X. 124 63 63.1 Compito del 13.07.2005 Testo Esercizio 1. Nel mese di maggio la COXXA ha condotto una ricerca sui bilanci delle societ di capitale con sede nella provincia di Siena. Durante il convegno in cui ha presentato i risultati della ricerca, un relatore della COXXA ha affermato che ’. . . nel 2003 il settore agricolo ha mostrato una redditivit mediamente superiore rispetto agli altri’. Tali conclusioni sono basate sulle statistiche (presentate in tabella) relative a due campioni di bilanci, dove la redditivit misurata con l’indice ’ROI = reddito operativo/capitale investito’ espresso il percentuale. numero bilanci media ROI √ varianza corretta del ROI Agricoltura 56 9.35 6.19 Altri settori 215 4.36 5.5 (A) Sottoporre a test l’affermazione di COXXA sulla maggiore redditivit media del settore agricolo (α = 0.1). (B) Determinare la potenza del test costruito al punto precedente, in corrispondenza dell’ipotesi alternativa ’la differenza fra i ROI medi (agricoltura – altri settori) pari a 1.3’. Nel calcolo si assuma che le varianze campionarie coincidano con quelle vere. Esercizio 2. In base ai dati dell’esercizio 1: (A) Fornire stima puntuale e per intervallo (1 − α = 0.998) della deviazione standard del ROI nel settore agricolo. (B) Si assuma ora che il vero valore della deviazione standard del ROI in agricoltura sia esattamente quello stimato al punto precedente. In tale caso, quanto vale il terzo quartile del suo stimatore? Esercizio 3. Analizzando pi in dettaglio il ROI del settore agricolo, la COXXA ha ricavato la distribuzione di frequenza riportata nella seguente tabella. Valore del ROI Frequenza [-5,0] 3 (0,4] 7 (4,6] 4 (6,8] 9 (8,12] 17 (12,20] 16 Totale 56 Supponendo di disporre dei soli dati riportati in tabella: (A) Determinare la moda del ROI in agricoltura. (B) Determinare la mediana del ROI in agricoltura. Esercizio 4. Un politico intervenuto al convegno non ha chiaro il modo in cui la COXXA ha tratto le conclusioni di cui all’esercizio 1. Con questo pretesto ha ’agganciato’ alcuni interlocutori della societ durante il buffet: gli hanno parlato anche del concetto di ’distribuzione campionaria’ ma alla fine non ne ha ricavato molto. In questo ambito si assuma che una variabile casuale X assuma solo valori nell’insieme {8, 32, 16}, ciascuno dei quali con probabilit 1/3. Supponendo di estrarre con reimmissione campioni di dimensione n = 2: (A) Ricavare la distribuzione campionaria della media campionaria. (B) La media campionaria uno stimatore corretto della media della variabile casuale X? Giustificare la risposta. 63.2 Soluzioni Esercizio 1 Assunzioni: X1 = ’ROI del settore agricolo’∼ N (µ1 , σ12 ), X2 = ’ROI degli altri settori’∼ N (µ2 , σ22 ). (A) Test per H0 : µ1 − p µ2 = 0 contro H1 : µ1 − µ2 > 0 (α = 0.1). La v.c. test (standardizzata) [X 1 − X 2 − (µ1 − µ2 )]/ S12 /n1 + S22 /n2 la cui distribuzione , approssimativamente, N (0, 1) (n1 ed n2 sono sufficientemente elevate da poter utilizzare criteri di inferenza asintotici). Sotto H0 abbiamo p [X 1 − X 2 − 0]/ S12 /n1 + S22 /n2 |H0 ≈ N (0, 1). Regione di accettazione per la statistica standardizzata 125 = (−∞, z.critico = 1.282], con cui occorre confrontare il valore campionario test. p 5.4941 della statistica √ (Calcoli: x1 = 9.35, x2 = 4.36, s1 = 6.19, s2 = 5.5, s21 = 38.32, s22 = 30.25, s21 /n1 + s22 /n2 = 0.8249 = 0.9082.) (B) In base al testo σ1 = s1 = 6.19 e σ2 = s2 = 5.5. Seppure con questa modifica facile verificare che la regionepdi rifiuto R rimane inalterata, anche se adesso deve essere riferita alla variabile test σ22 /n2 che sotto H0 ha una distribuzione N (0, 1). Potenza = γ = P (campione ∈ [X 1 −X 2 −0]/ σ12 /n1 + p R) p = P ([X 1 − X 2 − 0]/ σ12 /n1 + σ22 /n2 > z.critico|H1 ). Sotto H1 , la distribuzione di [X 1 − X 2 − 0]/ σ12 /n1 + σ22 /n2 non pi (approssimativamente) N (0, 1), dato che sotto H1 si ha µ1 − µ2 = 1.3, non pi µ1 − µ2 = 0. Allora, in pratica, bisogna ’togliere la standardizzazione basata su H0 e mettere p 2 /n + σ 2 /n > z.critico|H ) = quella sotto H1 ’. Riprendendo i passaggi: γ = P ([X − X − 0]/ σ 1 2 2 1 1p 1 2 p σ12 /n1 + σ22 /n2 |H1 ) = P ([X 1 − X 2 − 1.3]/ σ12 /n1 + σ22 /n2 > z.critico − P (Xp 1 − X 2 > z.critico ∗ 1.3/ σ12 /n1 + σ22 /n2 |H1 ) = P (Z > 1.282 − 1.3/0.9082|H1 ) = P (Z > −0.1498|H1 ) = 0.55953. Esercizio 2 Assunzioni: X = ’ROI del settore agricolo’∼ N (µ, σ 2 ). (A) Stima puntuale di σ: s = 6.19. Intervallo di confidenza per σ 2 relativo al settore agricolo (livello di confidenza 1 − α = 0.998): [(n − 1)s2 /c2 , (n − 1)s2 /c1 ] = [22.6216, 74.8089] (Calcoli: c1 = 28.1731, c2 = 93.1675 dalle tavoleχ2 (n − 1); n = 56, s2 = 38.32). Il corrispondente intervallo di confidenza per σ allora [4.7562, 8.6492]. (B) In pratica si richiede il valore x tale che P (S > x) = 0.75, assumendo di conoscere che σ = 6.19. Nel calcolo opportuno ricondursi ad una variabile di cui ’si sa maneggiare la distribuzione’, ovvero (n − 1)S 2 /σ 2 ∼ χ2 (n − 1). Allora 0.75 = P (S < x) = P (S 2 < x2 ) = P ((n − 1)S 2 /σ 2 < (n − 1)x2 /σ 2 = c). Quindi c =p (n − 1)x2 /σ 2 il √ quantile 0.75 della χ(n − 1) dove n = 56: dalle tavole c = 61.665, da cui si ricava x = cσ 2 /(n − 1) = 42.9637 = 6.5547. Esercizio 3 Valore del ROI Frequenza Densit [-5,0] 3 0.6 (0,4] 7 1.75 (4,6] 4 2 (6,8] 9 4.5 (8,12] 17 4.25 (12,20] 16 2 Totale 56 (A) Moda (per modalit raggruppate in classi) = valore centrale della classe con densit pi alta = 7. (B) Mediana (per modalit raggruppate in classi) = 9.1765. Esercizio 4 (A) Per determinare la distribuzione campionaria basta fare: 1) la lista di tutti i possibili campioni di dimensione n = 2 con ripetizione; 2) calcolare di ognuno la corrispondente probabilit e la statistica desiderata (nell’esercizio la media); 3) tabulare la distribuzione ottenuta. Risultato: x P (X = x) 8 0.1111 12 0.2222 16 0.1111 20 0.2222 24 0.2222 32 0.1111 Totale 1 (B) Dai dati dell’esercizio si ha che E(X) = 18.6667 mentre dalla distribuzione campionaria di cui sopra si ricava immediatamente che E(X) = 18.6667. La media campionaria allora uno stimatore corretto di E(X). Si poteva anche rispondere argomentando che la media campionaria in generale uno stimatore corretto di E(X) (purch la media di X, come nel caso dell’esercizio, esista). 126 64 64.1 Compito del 16.12.2005 Testo Esercizio 1 Il sig. Rossi afferma di avere poteri extrasensoriali e di poter indovinare il risultato del lancio di una comune moneta da 1 euro. (a) Se il sig. Rossi dicesse il falso, quale sarebbe la probabilit che egli indovini il risultato del lancio della moneta per 4 volte di seguito e sbagli solo alla 5a volta? (b) Il sig. Rossi viene sottoposto ad un esperimento composto da 10 prove: noto che, per ciascuna prova, la probabilit di indovinare il risultato 0.5 se non si hanno poteri extrasensoriali e 0.68 con poteri extrasensoriali. Ponendo come equiprobabile il fatto che il sig. Rossi possa avere o meno poteri extrasensoriali, quale la probabilit che egli indovini esattamente 7 risultati? Esercizio 2 Un istituto di ricerca interessato a valutare quale sia la proporzione di italiani che credono di avere poteri extrasensoriali. (a) L’Istituto desidera ottenere una stima per intervallo con un errore di al massimo ±0.1 per tale proporzione, al livello di confidenza 0.99. Quale dovrebbe essere la dimensione del campione? (b) Per motivi contingenti, l’indagine viene effettuata su un campione di 221 individui, di cui 77 hanno dichiarato di avere poteri extrasensoriali. Sapendo che la proporzione di inglesi che ritengono di avere poteri extrasensoriali 0.07 , si verifichi se gli italiani ritengono di avere poteri extrasensoriali in proporzione superiore agli inglesi. (α = 0.01) Esercizio 3 Al sig. Rossi viene chiesto di effettuare una prova multipla, composta da due esperimenti: al primo, X, egli pu ottenere un punteggio di 0, 1 e 10; al secondo, Y , egli pu ottenere un punteggio di 0 e 1. La tabella seguente riporta la distribuzione delle frequenze relative congiuntamente per i due esperimenti. Y =0 Y =1 X=0 0.28 0.04 X=1 0.14 0.11 X = 10 0.16 0.27 (a) Calcolare un indice di associazione tra i punteggi ottenuti nei due esperimenti. (b) Sia W una variabile casuale N (µ, σ 2 ) avente moda e 90o percentile identici a quelli della distribuzione condizionata di X dato Y = 0. Si determini il valore dei parametri µ e σ 2 . Esercizio 4 Sia X ∼ N (µ, σ 2 ). Si estrae un campione di dimensione n = 111 da tale popolazione e si intende stimare µ mediante uno dei seguenti stimatori: n T1 = 8X1 1X T2 = Xi n i=1 T3 = X3 + Xn−3 2 (a) Calcolare la distorsione dei tre stimatori. (b) Calcolare la varianza dei tre stimatori ed effettuare una scelta motivata tra i tre stimatori proposti, sulla base anche di quanto ottenuto al punto (a). 64.2 Soluzioni Esercizio 1 (a) Se il sig. Rossi dice il falso, allora egli indovina a caso l’esito del lancio di una moneta con probabilit 0.5. Ogni lancio una prova bernoulliana con X = 1 se egli indovina. Le prove sono indipendenti. Y = numero di lanci fino al primo errore. P (Y = 5) = 0.55 = 0.0312 (b) X = 1 se il sig. Rossi ha poteri extrasensoriali, 0 altrimenti. X ∼ Ber(0.5). 127 Y = Numero di risultati indovinati su n = 10 prove ∼ Bin(n, p). Y | X = 0 ∼ Bin(n, 0.5), e Y | X = 1 ∼ Bin(n, 0.68). P (Y = 7) = P (Y = 7 | X = 0)P (X = 0) + P (Y = 7 | X = 1)P (X = 1) = 0.1908. Esercizio 2 Chiamo X = 1 se l’unitqstatistica ritiene di avere poteri extrasensoriali e 0 altrimenti. Allora X ∼ Ber(p). (a) Si desidera che z α2 p(1−p) ≤ 0.1 con livello di confidenza = 1 − α = 0.99 . Posta la varianza di X n pari al suo valore massimo, ossia p(1 − p) = 0.25 , si ottiene n = 167 (b) Test su una proporzione con n grande. H0 : p = 0.07 H1 : p > 0.07 α = 0.01 p̂ = 0.3484 zoss = 16.2218, zcrit = 2.3263 Rifiuto H0 Esercizio 3 (a) X e Y sono due variabili quantitative. Un indice di associazione lineare ρ. E(X) = 4.55 E(Y ) = 0.42 V ar(X) = 22.5475 V ar(Y ) = 0.2436. CovXY = 0.899 ρXY = 0.3836 (b) Distribuzione condizionata di X | Y = 0 prob X=0 0.48 X=1 0.24 X = 10 0.28 Moda di X | Y = 0: 0 90o percentile: 10 W ∼ N (0, σ 2 ) con P (W ≤ 10) = 0.75. Da cui σ 2 = 60.8875 Esercizio 4 (a) Per le propriet del valore atteso, E(T1 ) = 8µ per cui D = E(T1 ) − µ = 7µ. E(T2 ) = µ per cui D = 0. E(T3 ) = µ+µ per cui D = 0. 2 =µ (b) Per le propriet della varianza 2 V ar(T1 ) = 82 σ 2 . V ar(T2 ) = σn . V ar(T3 ) = 14 σ 2 + 14 σ 2 = 12 σ 2 . 128 65 65.1 Compito del 19.01.2006 Testo Esercizio 1. Sia X una distribuzione Normale, con media µ = 4 e deviazione standard σ = 3, da cui viene estratto un campione casuale semplice di dimensione n = 3. (A) Determinare la distribuzione campionaria di ciascuno dei seguenti stimatori della media: T1 = 2X1 + X2 3 T2 = X1 + X2 + X3 − 0.2 3 (B) Dovendo sceglierne uno, quale fra i due stimatori di µ risulta preferibile? Giustificare la risposta. Esercizio 2. SNOWBUZZ spa progetta e costruisce attrezzature sportive per lo sci. Attualmente sta studiando nuovi materiali per lo sci di fondo. La scorsa settimana i tecnici dell’impresa hanno svolto una prova comparativa nella quale hanno confrontato i nuovi sci con quelli attualmente in produzione in un test di scorrevolezza su due prove indipendenti di sci. I risultati del test sono riassunti in tabella: i numeri riportati sono i secondi impiegati a percorrere un tratto di pista innevato. Nuovi sci Vecchi sci 23.8 30.9 19.3 20.2 23.1 37 33.2 27.3 26.7 24.1 Facendo le opportune assunzioni sulla variabile casuale ’tempo impiegato a percorrere il tratto di pista’ rispondere alle seguenti domande: (A) I nuovi sci sono più veloci dei vecchi? (α = 0.05). (Ai fini della formulazione delle ipotesi, tenere presente che si vuole evitare di produrre i nuovi sci se non sono più veloci dei vecchi.) (B) Calcolare il p-value del test di cui al punto precedente assumendo che le vere varianze risultino identiche a quelle calcolate. Esercizio 3. Con riferimento all’esercizio precedente, si considerino ora solo i dati relativi ai nuovi sci e si indichi con X la variabile casuale ’tempo di percorrenza del tratto di pista innevato’. (A) Fra quelle note, scegliere la distribuzione che vi sembra più adatta per la variabile X e stimarne i parametri. (B) Assumendo ora che i parametri stimati al punto precedente coincidano con il valore vero degli stessi, determinare il terzo quartile di X. Esercizio 4. La velocità di uno sci non è però l’unico aspetto da tenere presente: risultano assai importanti anche stabilità, controllo, maneggevolezza e altre caratteristiche che risultano tuttavia non facilmente misurabili in modo oggettivo. A questo proposito SNOWBUZZ spa si serve di alcuni atleti di alto livello come tester: dal loro giudizio viene ricavato un indice sintetico, chiamato FUN, per valutare la bontà dei nuovi attrezzi relativamente questo insieme di caratteristiche. Elaborando i test effettuati è stato valutato che: per i nuovi sci il FUN ha media 4.5 e deviazione standard 1.9; per i vecchi il FUN ha media 4.9 e deviazione standard 2.1. Si assuma che il FUN abbia distribuzione Normale sia per i vecchi che per i nuovo sci. (A) Un atleta sta provando un paio di sci: egli lo ha scelto casualmente fra due paia, di cui uno del vecchio tipo e uno del nuovo. Nessuno ci ha però informati sul tipo scelto dall’atleta. Calcolare la probabilità che l’atleta attribuisca un FUN superiore a 5.5. (B) Con riferimento alla situazione di cui al punto precedente, sapendo che l’atleta ha attribuito un FUN superiore a 5.5, calcolare la probabilità che gli sci testati siano del nuovo tipo. 65.2 Soluzioni Esercizio 1 Assunzioni: X ∼ N (µ = 4, σ = 3). X = (X1 , X2 , X3 ) campione casuale semplice estratto da X. (A) I due stimatori proposti sono combinazioni lineari di X1 , X2 , X3 e quindi di v.c normali indipendenti. La loro distribuzione è allora Normale con media e varianza calcolabile in base alle proprietà dei valori 129 attesi. E(T1 ) = 2µ + µ µ+µ+µ−4 4σ 2 + σ 2 = 4; E(T2 ) = = 3.93333; V (T1 ) = = 5; V (T2 ) = 3 3 9 σ2 + σ2 + σ2 =3 9 (B) T1 è corretto ma la sua varianza è maggiore di quella di T2 . La scelta può allora basarsi sull’MSE: M SE(T1 ) = V (T1 ) + bias(T1 )2 = 5 + 02 = 5, M SE(T2 ) = V (T2 ) + bias(T2 )2 = 3 + −0.066672 = 3.00444. Preferibile quello con MSE più piccolo. Esercizio 2 Assunzioni: X1 = ’tempo impiegato dai nuovi sci’∼ N (µ1 , σ12 ), X2 = ’tempo impiegato dai vecchi sci’∼ N (µ2 , σ22 ). (A) Test per H0 : µ1 − µ2 = 0 contro H1 : µ1 − µ2 < 0 (α = 0.05). Stante l’esigua dimensione p campionaria − µ )]/[S 1/n1 + 1/n2 ] occorre assumere σ1 = σ2 . La v.c. test da utilizzare quindi [X 1 − X 2 − (µ 2 p p1 la cui distribuzione T (n1 + n2 − 2). Sotto H0 abbiamo [X 1 − X 2 − 0]/[Sp 1/n1 + 1/n2 ]|H0 ∼ T (n1 + n2 − 2). Regione di rifiuto per la statistica standardizzata = (−∞, t.critico) = (−∞, −1.8595), con cui occorre confrontare il valore campionario −0.72495 della statistica test. (Calcoli: n1 = n2 = 5, s2 (n1 − 1) + s22 (n2 − 1) x1 = 25.22, x2 = 27.9, s21 = 26.857, s22 = 41.475, s2p = 1 = 34.166, sp = 5.84517, n1 + n2 − 2 p sp 1/n1 + 1/n2 = 3.69681) (B) In base al testo dell’esercizio σ12 = s21 = 26.857 epσ22 = s22 = 41.475. Dato che le varianze sono adesso note la statistica test divienep[X 1 − X 2 − (µ1 − µ2 )]/ σ12 /n1 + σ22 /n2 la cui distribuzione p è N (0, 1). Sotto 2 2 2 2 H0 abbiamo [X 1 − X 2 − 0]/ σ1 /n1 + σ2 /n2 ∼ N (0, 1). p-value = P ([X 1 − pX 2 − 0]/ σ1 /n1 + σ2 /n2 < 2 2 z.camp|H 0 ) = P (Z < z.camp|H0 ) = 0.23424, dove z.camp = [x1 − x2 − 0]/ σ1 /n1 + σ2 /n2 = −0.72495, p √ σ12 /n1 + σ22 /n2 = 13.6664 = 3.69681. Esercizio 3 Assunzioni: X = ’tempo impiegato dai nuovi sci’∼ N (µ, σ 2 ). c2 = s2 = 26.857 (alte info: P5 x2 = 3287.67). (A) µ b = x = 25.22; σ i=1 i (B) In base al testo, X ∼ N (µ = 25.22, σ = 5.18237). Si tratta di trovare il valore Q3 tale che P (X ≤ Q3 ) = 0.75. Standardizzando (la distribuzione di X è Normale) e facendo i conti si ha: Q3 = µ + σz0.75 = 25.22 + 5.18237 ∗ 0.674 = 28.71546. Esercizio 4 Assunzioni: X =’FUN’; N =’nuovi sci’. X|N ∼ N (µ1 = 4.5, σ1 = 1.9), X|N =∼ N (µ2 = 4.9, σ2 = 2.1). P (N ) = P (N ) = 0.5. (A) P (X > 5.5) = P (X > 5.5|N )P (N ) + P (X > 5.5|N )P (N ) = 0.34344, dove P (X > 5.5|N ) = P (Z > 0.52632) = 0.29933 e P (X > 5.5|N ) = P (Z > 0.28571) = 0.38755. (B) P (N |X > 5.5) = P (X > 5.5|N )P (N ) = 0.43579. P (X > 5.5) 130 66 Compito del 02.02.2006 66.1 Testo Esercizio 1. Sia X una variabile casuale, avente media µ = 3 e deviazione standard pari a σ = 4, da cui viene estratto un campione casuale semplice di dimensione n = 4. (A) Cosa è possibile dire circa la distribuzione campionaria dei seguenti stimatori di µ? T1 = 7X1 + 5X2 12 T2 = 6X2 + 2X3 + 12X4 20 (B) Dovendo sceglierne uno, quale fra i due stimatori di µ risulta preferibile? Giustificare la risposta. Esercizio 2. BV spa è una piccola società che commercializza vini. In collaborazione con alcune pizzerie–ristoranti della zona ha rilevato per alcuni giorni dati relativi agli abbinamenti fra tipologia di vino (bianco/rosso) e pasto ordinato (pizza/altro). I dati raccolti (numero di clienti) sono riportati in tabella. Pasto pizza altro Vino rosso bianco 57 46 134 60 Oggetto d’interesse è la differenza di comportamento, relativamente alla tipologia di vino scelto, fra chi ordina pizza e chi non la ordina. Si indichino con p1 e p2 le proporzioni di clienti che ordinano vini rossi, rispettivamente, fra chi consuma pizza e chi consuma altro e si assuma che queste due popolazioni siano indipendenti. (A) Proporre uno stimatore puntuale per p1 − p2 e se ne indichi la distribuzione campionaria. Sulla base di questo fornire una stima puntuale di p1 − p2 e una stima della deviazione standard dello stimatore utilizzato. (B) È possibile concludere che le proporzioni p1 e p2 sono diverse? Impostare il problema come test delle ipotesi e risolverlo utilizzando il p–value. Esercizio 3. Con riferimento al campione di cui all’esercizio precedente, BV spa ha calcolato che i clienti che hanno ordinato pizza hanno speso in media 26.28 Euro con una deviazione standard 6.89 Euro, mentre coloro che non hanno ordinato pizza hanno speso in media 38.71 Euro con una deviazione standard 10.26 Euro. (A) I dati a disposizione consentono di ricavare quanto hanno speso in media tutti i clienti inclusi nel campione? Se sı̀ calcolare il valore, altrimenti spiegare il perché. (B) Fornire una stima per intervallo (1 − α = 0.98) della differenza di spesa media fra i due tipi di pasto. Esercizio 4. A scopo promozionale, BS spa ha indetto un concorso fra vini. Al termine della gara, i due vini finalisti sono stati giudicati da 6 enologi mediante assegnazione di un punteggio. I punteggi assegnati dagli enologi a ciascuno dei vini sono riportati in tabella. Vino vinoA vinoB Dario 7 6.4 Carlo 4.3 4.9 Enologo Piero Rocco 7 3 7.2 5.3 Gianni 3.3 2.4 Enrico 3.5 4.4 Specificando le assunzioni necessarie: (A) I due vini differiscono quanto a punteggio medio? (α = 0.1) (B) Utilizzando le informazioni che è possibile ricavare dalla tabella, quanti enologi occorrerebbe interpellare (in una eventuale futura rilevazione) per ottenere un intervallo di confidenza per la differenza di punteggio medio fra i due vini che abbia ampiezza 0.48 al livello di confidenza 0.9? 131 66.2 Soluzioni Esercizio 1 Assunzioni: X ∼ N (µ = 3, σ = 4). X = (X1 , X2 , X3 , X4 ) campione casuale semplice estratto da X. (A) I due stimatori proposti sono combinazioni lineari di X1 , X2 , X3 , X4 , v.c. indipendenti. La loro distribuzione ha allora media e varianza calcolabile in base alle proprietà dei valori attesi. E(T1 ) = 6µ + 2µ + 12µ 49σ 2 + 25σ 2 7µ + 5µ = 3; E(T2 ) = = 3; V (T1 ) = = 0.5139 ∗ σ 2 = 8.222; V (T2 ) = 12 20 144 36σ 2 + 4σ 2 + 144σ 2 = 0.46 ∗ σ 2 = 7.36. 400 (B) Sia T1 che T2 sono corretti: quindi per entrambi l’MSE coincide con la varianza. Preferibile quello con varianza più piccola. Esercizio 2 Assunzioni: X1 ∼ Be(p1 ), X2 ∼ Be(p2 ). (A) ’Buon’ stimatore di p1 − p2 è X 1 − X 2 , la cui distribuzione campionaria è, approssimativamente, N (p1 − p2 , p1 q1 /n1 + p2 q2 /n2 ) (q1 = 1 − p1 , q2 = 1 − p2 ). Stima p puntuale di p1 − p2 è pb1 − √pb2 = −0.1373, mentre una stima della sua deviazione standard è data da: pb1 qb1 /n1 + pb2 qb2 /n2 = 0.00350066 = 0.059166 (calcoli: pb1 = x1 = 57/103 = 0.5534, pb2 = x2 = 134/194 = 0.6907). (B) Test per H0 : p1 − p2 = 0 contro H1 : p1 − p2 6= 0. La v.c. test è p X1 − X2 , che sotto pbqb(1/n1 + 1/n2 ) H0 ha una distribuzione, approssimativamente, N (0, 1) (b p = (X 1 n1 + X 2 n2 )/(n1 + n2 ) è il p–pooled e x1 − x2 qb = 1 − pb). Allora: valore campionario della statistica test è zcamp = p = −2.35071, pbqb(1/n1 + 1/n2 ) per cui p − value = 2P (Z > |zcamp ||H 0 ) = 2 ∗ 0.00937 = 0.01874 (calcoli: p0 ) = 2P (Z > | − 2.35071||H √ pb = 0.6431, qb = 1 − 0.6431 = 0.3569, pbqb(1/n1 + 1/n2 ) = 0.00341 = 0.05841 . Esercizio 3 (A) La media della spesa per l’intero campione si ricava dalla proprietà di associatività della media: x1 n1 + x2 n2 10216.58 26.28 ∗ 103 + 38.71 ∗ 194 x= = = 34.3993. = n1 + n2 103 + 194 297 2 2 (B) Assunzioni: X1 ∼ (µ1 , σ1 ) e X2 ∼ (µ2 , σ2 ), dove X1 e X2 indicano, rispettivamente, la spesa per pasti a base di pizza e a base di altro. La dimensione campionaria è sufficientemente elevata da poter invocare X 1 − X 2 − (µ1 − µ2 ) la cui distriproprietà asintotiche anche senza assunzioni sulle distribuzioni. Pivot p 2 S1/n1 + S22 /n2 q q buzione è, approssimativamente, N (0, 1). Intervallo di confidenza per µ1 −µ2 : x1 − x2 − z s21 /n1 + s22 /n2 , x1 − x2 + z s 2 2 [−14.76043, −10.09957] p √ (calcoli: 1 − α = 0.98, α = 0.02, z = 2.326, s1 = 47.4721, s2 = 105.2676, 2 2 s1 /n1 + s2 /n2 = 1.00351 = 1.00175). 2 Esercizio 4 Assunzioni: trattasi di dati appaiati, per cui D = X1 − X2 ∼ N (µD , σD ), dove X1 = ’giudizio sul vinoA’ e X2 = ’giudizio sul vinoB’. D−0 √ , che sotto H0 ha una distribuzione SD / n d−0 √ = −0.88644, mentre la regione T (n−1). Allora: valore campionario della statistica test è tcamp = sD / n di accettazione è [−2.015, 2.015] √ √ (calcoli: di = 0.6, −0.6, −0.2, −2.3, 0.9, −0.9, d = −2.5/6 = −0.41667, sD = 1.32567 = 1.15138, sD / n = 0.47005). (A) Test per H0 : µD = 0 contro H1 : µD 6= 0. La v.c. test è 2 (B) n = (2zsd /A) = 7.891052 = 62.26864 ' 63 (calcoli: 1 − α = 0.9, α = 0.1, z = 1.645, sd = 1.15138, A = 0.48). 132 67 67.1 Compito del 16.02.2006 Testo Esercizio 1 Il Belushi’s bar famoso a Londra per i suoi aperitivi. La probabilit di trovare tutti i tavoli occupati alle happy hours 0.81 . Inoltre, noto che il numero di tavoli liberati dai clienti in tale fascia oraria si distribuisce secondo una Poisson con varianza pari a 7.4 in un intervallo temporale di 20 minuti. (a) Qual la probabilit che recandosi per un aperitivo al Belushi’s bar ci si sieda ad un tavolo entro un minuto dall’ingresso nel bar (nessun altro in attesa di un tavolo)? (b) Sapendo che un vostro amico non ha aspettato neanche un minuto per ottenere un tavolo, qual la probabilit che il locale fosse pieno? Esercizio 2 Si vuole misurare la spesa per tavolo dei visitatori del Belushi’s bar. I dati riportati nella seguente tabella riguardano il conto per tavolo in un campione di 4 tavoli da due persone occupati da amici ed in un campione di 4 tavoli occupati da coppie di fidanzati. Fidanzati Amici 18.00 7.00 16.00 15.00 21.00 14.00 19.00 10.00 (a) Si indichi se il valore 18.00 : (i) un parametro, (ii) una modalit, (iii) una frequenza assoluta, una frequenza percentuale. (b) Si calcoli il primo quartile della spesa per tavolo, indipendentemente dal tipo di occupanti. (iv) Esercizio 3 Si considerino i dati riportati all’esercizio precedente. (a) Si calcoli l’intervallo di confidenza (1−α = 0.95) della varianza del conto per tavolo nei tavoli occupati da amici. Si specifichino le assunzioni necessarie. (b) Si verifichi se nei tavoli occupati da amici la spesa per tavolo sia mediamente inferiore a quella delle coppie. Si specifichino le assunzioni necessarie.(α = 0.05) Esercizio 4 Si consideri la seguente tabella (incompleta). X F (x) (−∞, 0) [0, 1) 0.04 [1, 2) 0.27 [2, 3) 0.71 [3, +∞) (a) Si completi la tabella in modo che siano soddisfatte le condizioni affinch F (x) possa essere la funzione di ripartizione di una variabile discreta X. Se ne derivi la funzione di massa di probabilit. (b) In base a quanto ottenuto al punto (a), calcolare il valore atteso e la varianza della variabile X. 67.2 Soluzioni Esercizio 1 (a) Sia A l’evento tutti i tavoli sono occupati e Ā l’evento complementare. P (A) = 0.81, mentre P (Ā) = 1 − P (A) = 0.19 X =numero di tavoli liberati in un intervallo temporale I X ∼ P oi(λ) con λ20 = 7.4 se I= 20 minuti. Per I=1 minuto, λ1 = 0.37 (a) Se il locale non pieno, la probabilit di non aspettare pari a 1. Se il locale pieno, la probabilit di non aspettare corrisponde alla probabilit che in un intervallo di 1 minuto si liberi almeno un tavolo ovvero λ0 P (X ≥ 1) = 1 − P (X1min = 0) = 1 − (e−λ1 0!1 ) = 0.3093 Si indichi con B l’evento non aspettare per avere un tavolo. Allora, P (B) = 1 · P (Ā) + P (A) · P (X ≥ 1) = 0.4405 P (A)·P (X≥1) (b) P (A | B) = P P(A∩B) = 0.5687 (B) = P (B) 133 Esercizio 2 (a) Una modalit. (b) N = 8. N · 41 = 2.0 . Si cercano le unit 2a e 3a nella distribuzione ordinata. La modalit relativa alla seconda unit : 10 quella relativa alla terza : 14 . Il primo quartile la media tra i due: 12 Esercizio 3 (a) Si assume che la variabile X = conto per tavolo si distribuisca secondo una N (µ, σ 2 ). Intervallo di confidenza per la varianza con media ignota x̄ = 11.5, σ̂ 2 = 13.6667 gdl= 3 , χ2α/2 = 0.2158 χ21−α/2 = 9.3484 Intervallo: [4.3858 ; 189.9953]. (b) Si assume che la variabile X1 = conto per tavolo di fidanzati si distribuisca secondo una N (µ1 , σ 2 ) e che X2 = conto per tavolo di fidanzati si distribuisca secondo una N (µ2 , σ 2 ). Test confronto tra medie con campioni indipendenti. H0 : µ1 − µ2 = 0 H1 : µ1 − µ2 > 0 α = 0.05 x̄1 = 18.5, x̄2 = 11.5, s21 = 4.3333, s22 = 13.6667 toss = 3.2998, tcrit = 1.9432 gdl = 6 Rifiuto H0 Esercizio 4 (a) La tabella completa la seguente: X F (x) (−∞, 0) 0 [0, 1) 0.04 [1, 2) 0.27 [2, 3) 0.71 [3, +∞) 1 La funzione di massa di probabilit : X 0 1 2 3 otherwise f (x) 0.04 0.23 0.44 0.29 0 (b)E[X] = 1.98 , V ar[X] = 0.6796 134 68 68.1 Compito del 16.03.2006 Testo Esercizio 1. AT è un’azienda che effettua servizio di trasporto urbano in una grande città. Durante la stagione invernale gli autisti AT hanno ricevuto un timer per registrare i tempi effettivi di percorrenza su certe tratte e in certe fasce orarie dei giorni feriali. Dall’elaborazione del campione raccolto è stata ricavata la seguente tabella: la parte sinistra riguarda distribuzioni di frequenza, la parte destra alcune statistiche. Si evidenzia che ciascun tempo di percorrenza misurato dagli autisti è stato espresso (per motivi di confrontabilità) come ’scostamento percentuale rispetto al tempo di percorrenza fissato dall’orario ufficiale’. La tabella si riferisce a tale variabile, da ora in poi indicata con X. Meteo pioggia no pioggia totale X = Scostamento % rispetto all’orario ufficiale tabella di frequenza (modalità in classi) statistiche √ [−10, 0) [0, 10) [10, 25) [25, 50) [50, 100) [100, 200) media var. corretta 16 25 43 26 11 20 59.3 131 60 186 122 111 72 38 31.4 47.6 76 211 165 137 83 58 (A) Dai dati della tabella è possibile ricavare l’esatta media campionaria della variabile X nell’intero campione a disposizione? Se sı̀ effettuare il calcolo, altrimenti spiegare perchè non è possibile. (B) Ricavare quanti viaggi, in percentuale, hanno una durata che si discosta di oltre il 30% da quanto prefissato dall’orario ufficiale (qualora risulti necessario suddividere una classe, assumere distribuzione uniforme delle frequenze all’interno della stessa). Esercizio 2. A partire dalla tabella di frequenza relativa alla variabile X si costruisca una nuova variabile casuale Y nel modo seguente: 1) si assegni a ciascuna delle classi, in ordine crescente, un numero progressivo intero a partire da 0; 2) si ricavi la distribuzione di probabilità corrispondente definendo la probabilità come frequenza relativa nel campione. (A) Rappresentare graficamente la funzione di massa di probabilità della variabile casuale Y |pioggia. (B) Calcolare media e deviazione standard della variabile casuale Y |pioggia. Esercizio 3. (A) I dati del campione fanno pensare che i tempi medi di percorrenza (espressi come scostamento percentuale) quando piove e quando non piove siano diversi. Indicando con θ la differenza fra i tempi medi di percorrenza nei giorni di pioggia rispetto a quelli in cui non piove, proporre uno stimatore puntuale di θ e se ne indichi la distribuzione campionaria (almeno approssimata). Sulla base di questo fornire una stima puntuale di θ e una stima della deviazione standard dello stimatore proposto. (B) È possibile concludere che, mediamente, la pioggia provoca un aumento dei tempi di percorrenza (espressi come scostamento percentuale)? Impostare il problema come test delle ipotesi e risolverlo utilizzando il p–value. Esercizio 4. (A) Costruire l’intervallo di confidenza (1 − α = 0.99) per la deviazione standard della variabile casuale X in caso di pioggia (si assuma X distribuita in modo normale). (B) AT ha in programma di ripetere fra 2 anni una rilevazione analoga. Facendo uso delle informazioni a disposizione, da quante osservazioni dovrebbe essere composto il campione in presenza di pioggia per avere un intervallo di confidenza per la media con margine di errore pari a ±9 al livello di confidenza 1 − α = 0.9? 68.2 Soluzioni Esercizio 1 135 (A) È possibile applicando la proprietà associativa della media aritmetica: x = (x1 n1 +x2 n2 )/(n1 +n2 ) = (59.3 ∗ 141 + 31.4 ∗ 589)/(141 + 589) = 26855.9/730 = 36.79. (B) I viaggi che si discostano per meno del 30% sono pari alla frequenza cumulata fino a 30, data dalla somma di due componenti: 1) la frequenza cumulata fino a 25; 2) la frequenza da 25 a 30 (da calcolare sfruttando l’ipotesi di distribuzione uniforme all’interno della classe). Quindi 452 + 27.4 = 479.4, che in percentuale corrisponde a 479.4/730 = 65.67%. I viaggi che si discostano per più del 30% sono allora il 34.33%. Esercizio 2 (A, B) Funzione di massa (da disegnare) della variabile Y |pioggia e prospetto di calcolo di media e varianza della stessa (nota: per brevità si omette il condizionamento |pioggia): y f (y) yf (y) y 2 f (y) 0 0.1135 0 0 1 0.1773 0.1773 0.1773 2 0.305 0.6099 1.2199 3 0.1844 0.5532 1.6596 4 0.078 0.3121 1.2482 5 0.1418 0.7092 3.5461 totale 1 2.361702 7.851064 da cui consegue che E(Y ) = 2.361702, V (Y ) = E(Y 2 ) − E(Y )2 = 7.851064 − 2.3617022 = 2.273427, p σ(Y ) = V (Y ) = 1.507789 Esercizio 3. Simbologia e assunzioni: X1 = ’tempo percorrenza (come scostamento % rispetto all’orario ufficiale) con pioggia’ ∼ [µ1 , σ12 ]; X2 = ’tempo percorrenza (come scostamento % rispetto all’orario ufficiale) senza pioggia’ ∼ [µ2 , σ22 ]. (A) Il parametro d’interesse è θ = µ1 −µ2 . Stimatore proposto è X 1 −X 2 , la cui distribuzione campionaria X 1 − X 2 − (µ1 − µ2 ) (approssimata in base alla ’elevata’ dimensione del campione) è espressa da p 2 ≈ S1 /n1 + S22 /n2 N (0, 1). La corrispondente stima puntuale di µ1 − µ2 è allora 31.4 = 27.9; la deviazione p x1 − x2 = 59.3 −p 2 /n + s2 /n = standard dello stimatore proposto può essere stimata con s 1312 /141 + 47.62 /589 = 1 2 1 2 √ 125.556 = 11.205. X 1 − X 2 − (µ1 − µ2 ) (B) Test per H0 : µ1 − µ2 = 0 contro H1 : µ1 − µ2 > 0. La variabile test è p 2 che sotto S1 /n1 + S22 /n2 H0 ha una distribuzione, approssimativamente, N (0, 1). Allora: valore campionario della statistica test x1 − x2 = 2.49, per cui p − value = P (Z > zcamp |H0 ) = P (Z > 2.49|H0 ) = 0.00639. è zcamp = p 2 s1 /n1 + s22 /n2 Esercizio 4. Assunzioni: X ∼ N (µ, σ 2 ). (A) Il pivot per σ 2 è (n − 1)S 2 /σ 2 , la cui distribuzione è χ2 (n − 1). L’intervallo di confidenza per 2 σ√ è quindi √[(n − 1)s2 /c2 , (n − 1)s2 /c1 ] = [12858.34, 23869.1], da cui si ottiene che quello per σ è [ 12858.34, 23869.1] = [113.3946, 154.4963] (calcoli: α = 0.01, c1 = 100.6548, c2 = 186.8468, s = 131, s2 = 17161, n = 141). 2 (B) In base all’intervallo di confidenza per µ si ottiene n = (2zs/A) = 23.94182 = 573.2078 ' 574 (calcoli: α = 0.1, z = 1.645, s = 131, A = 2 ∗ 9 = 18). 136 69 69.1 Compito del 31.05.2006 Testo Premessa: Da mesi si sono diffuse voci di irregolarità nell’amministrazione della PinOIL company, tanto che l’assemblea degli azionisti ha deciso di sostituire il vertice del management. Prima di iniziare il proprio lavoro, il nuovo management ha però deciso di fare esaminare i conti della PinOIL al fine conoscere la reale situazione dell’impresa. L’analisi della contabilità è stata commissionata alla AAC, una multinazionale che si occupa di revisione dei conti e che fino ad ora non aveva mai avuto rapporti di affari con PinOIL. Esercizio 1. Nell’impossibilità di vagliare tutte le scritture contabili, AAC ha proceduto con controlli a campione. Nel caso specifico, AAC ha esaminato un campione di 631 operazioni, dalle quali è emerso che il 9.23% sono irregolari. Sapendo che, nella prassi dei controlli contabili, viene considerato fisiologico un tasso di irregolarità del 7%, rispondere alle seguenti domande. (A) Le scritture della PinOIL presentano un tasso di irregolarità superiore a quello considerato fisiologico? Rispondere impostando il problema come test delle ipotesi e risolverlo utilizzando il p–value. (B) Calcolare la potenza del test per un livello di significatività del 1% ed una l’ipotesi alternativa ’le operazioni irregolari sono il 11%’. Esercizio 2. Sono state poi analizzate solo scritture ritenute irregolari. L’obiettivo era saggiare, mediante un modello di regressione, se la percentuale irregolare, calcolata rispetto al valore dichiarato, è legata a quest’ultimo. Si indichi con A l’ammontare dichiarato (in milioni di Euro) e con P la percentuale, rispetto ad A, identificata come irregolare. Sono state calcolate le seguenti statistiche campionarie: n = 102, n n n n n 1X 1X 1X 1X 1X pi = 12.521, ai = 1.01, (pi − p)2 = 1.695, (ai − a)2 = 0.538, (ai − a)(pi − p) = n i=1 n i=1 n i=1 n i=1 n i=1 0.168. (A) Il modello evidenzia un legame di P con A? (α = 0.01). (B) Costruire un intervallo di confidenza per la deviazione standard della componente residua del modello (1 − α = 0.99). Esercizio 3. La squadra AAC che ha revisionato i conti è stata divisa in due team: uno per la parte operativa, l’altro per la parte finanziaria della contabilità PinOIL. In termini relativi, è stato valutato che il 73.8% delle operazioni PinOIL riguardano la gestione operativa mentre le rimanenti hanno natura finanziaria. Alla fine del controllo ciascuno dei due team ha prodotto un prospetto nel quale ha riassunto le principali statistiche risultanti dalla propria attività di ispezione. La variabile misurata è P = percentuale irregolare rispetto all’ammontare dichiarato. Prospetto del team ’gestione operativa’. valori di P [0, 10] (10, 20] (20, 30] frequenze relative 0.197 0.248 0.277 [30, 50) 0.228 > 50 0.05 √ media = 23.49 var. corretta = 14.79 Prospetto del team ’gestione finanziaria’. valori di P [0, 10] (10, 20] (20, 30] frequenze relative 0.407 0.346 0.148 [30, 50) 0.099 > 50 0 √ media = 14.91 var. corretta = 10.85 (A) Calcolare lo scarto interquartile della variabile P nell’ambito della gestione operativa. (B) Dai dati a disposizione, è possibile ricostruire un’unica tabella delle frequenze relative congiunte per le variabili P e tipologia della gestione (nelle due modalità operativa e finanziaria)? Se sı̀ effettuare l’operazione altrimenti spiegare il perchè. Esercizio 4. Nella situazione di cui all’esercizio precedente, si assuma che i due campioni siano costituiti, rispettivamente, da 101 operazioni di carattere ’operativo’ e 81 operazioni di carattere ’finanziario’ e che la variabile P abbia distribuzione Normale (quest’ultima non è completamente giustificata). (A) Sottoporre a test l’ipotesi nulla che le deviazioni standard della variabile P fra le due gestioni siano uguali (α = 0.1). 137 (B) Sfruttando le informazioni a disposizione, si dica quanto dovrebbe essere grande il campione di operazioni esaminate nella gestione operativa per ricavare un intervallo di confidenza per la media di P di ampiezza 3 al livello di confidenza 0.98. 69.2 Soluzioni Esercizio 1 Assunzioni: X =’Una scrittura contabile è irregolare’∼ Be(p). p (A) Test di H0 : p = 0.07 contro H1 : p > 0.07. La v.c. test è (X −pp0 )/ p0 q0 /n, che sotto H0 ha ) = P (Z > distribuzione, approssimativamente,pN (0, 1). p − value = P ((X − p0 )/ p0 q0 /n > zcamp |H0p √ 2.1955) = 0.01406. Calcoli utili: p0 q0 /n = 0.00010317 = 0.01016, zcamp = (x − p0 )/ p0 q0 /n = (0.0923 − 0.07)/0.01016 = 2.1955. Per brevità si è posto 0.07 = p0 . (B) Calcolo potenza per H0 : p = 0.07 contro H1 : p = 0.11 e α = 0.01. La variabile test è descritta sopra. p 0.01 = P (X ∈ R|H0 ) = P ((X − p0 )/ p0 q0 /n > zcritico |H0 ) = P (Z > zcritico ) implica chepla regione critica per la variabile standardizzata è (zcritico , ∞) = (2.3263, ∞).pPotenza = P ((X p − p0 )/ p0 q0 /n > p > p + p q /nz |H ) = P ((X − p )/ p q /n > (p + p0 q0 /nzcritico − zcritico |H ) = P (X 0 0 0 critico 1 1 p 1 1 p 1 √ 0 p1 )/ p1 q1 /n|H1 ) = P (Z > −1.3138) = 0.90554. Calcoli utili: p1 q1 /n = 0.00016 = 0.01246. Per brevità si è posto 0.11 = p1 Esercizio 2 Assunzioni: Modello di regressione lineare semplice pi = β0 + β1 ai + ui , dove ui ∼ N (0, σ 2 ). p b2 /dev(x), che (A) Test di H0 : β1 = 0 contro H1 : β1 6= 0 (α = 0.01). La v.c. test è (βb1 − 0)/ σ sotto H0 ha una distribuzione T (n − 2). 0.01 = P (campione ∈ R|H ) implica 0.99 = P (campione ∈ 0 p 2 b A|H0 ) = P (−t ≤ (β1 − 0)/ σ b /dev(x) ≤ t|H0 ) = P (−t ≤ T ≤ t|H0 ). La regione di accettazione per la variabile standardizzata è [−t, t] = [−2.6259, 2.6259]. Il valore campionario della statistica test p è (βb1 − 0)/ σ b2 /dev(a) = 1.78715. Calcoli utili: n = 102, dev(a) = n ∗ 0.538 = 54.876, dev(p) = n ∗ 1.695 = 172.89, codev(a, p) = n ∗ 0.168 = 17.136, βb1 = codev(p, a)/dev(a) = 0.312268, σ b2 = (dev(p) − p √ 2 βb1 dev(a)/(n − 2) = 1.67539, σ b2 /dev(a) = 0.03053 = 0.17473. (B) Il pivot per σ 2 è (n − 2)b σ 2 /σ 2 , con distribuzione χ2 (n√− 2). L’intervallo al (1 − α) = 0.99 per σ 2 √ 2 2 è [(n − 2)b σ /c2 , (n − 2)b σ /c1 ] = [1.1953, 2.4884], per σ è [ 1.1953, 2.4884] = [1.0933, 1.5775]. Calcoli utili: c1 = 67.3276, c2 = 140.1695. Esercizio 3. (A) Q1 sta nella classe 10,20, per cui Q1 = 10 + (0.25 − 0.197)/0.0248 = 12.1371. Q3 sta nella classe 30, 50, per cui Q3 = 30 + (0.75 − 0.722)/0.0114 = 32.4561. Scarto interquartile = Q3 − Q1 = 20.319. (B) Le frequenze riportate nei due prospetti sono frequenze relative condizionate. Moltiplicandole per le corrispondenti frequenze relative marginali (rispettivamente 0.738 per la gestione operativa e 0.262 per la finanziaria) si ottengono quelle congiunte: Tipo gestione operativa finanziaria [0, 10] 0.1454 0.1066 (10, 20] 0.183 0.0907 valori di P (20, 30] [30, 50) 0.2044 0.1683 0.0388 0.0259 > 50 0.0369 0 Esercizio 4. Assunzioni: X1 ∼ N (µ1 , σ12 ), X2 ∼ N (µ2 , σ22 ), dove X1 , X2 indipendenti; 1 = ’operativa’, 2 = ’finanziaria’; si è posto X invece di P . (A) Test di H0 : σ12 /σ22 = 1 contro H1 : σ12 /σ22 6= 1 (α = 0.1). La v.c. test è S12 /S22 , che sotto H0 ha una distribuzione F (n1 − 1, n2 − 1). 0.9 = P (campione ∈ R|H0 ) implica 0.9 = P (campione ∈ A|H0 ) = P (−c1 ≤ S12 /S22 ≤ c2 |H0 ) = P (c1 ≤ F ≤ c2 |H0 ). La regione di accettazione è [c1 , c2 ] = [0.7069, 1.4259]. Il valore campionario della statistica test è s21 /s22 = 218.7441/117.7225 = 1.8581. Calcoli utili: n1 = 101, n2 = 81. 138 2 (B) In base all’intervallo di confidenza per µ si ottiene n = (2zs/A) = 22.93782 = 526.1422 ' 527 (calcoli: α = 0.02, z = 2.326, s = 14.79, A = 3). 139 70 70.1 Compito del 21.06.2006 Testo Premessa: AzTraMe spa è una società che effettua raccolta di rifiuti urbani. In collaborazione con alcuni tecnici, uno dei comuni serviti da AzTraMe sta cercando di pianificare in modo più sistematico l’attività svolta. Esercizio 1. All’interno del comune, AzTraMe vuole allocare sul territorio 12 piazzole identiche per la raccolta dei rifiuti. I tecnici ritengono che in ogni piazzola verrà portata, ogni giorno, una media di 432 kg di rifiuti con una deviazione standard pari a 43 kg. Assumendo che la quantità di rifiuti raccolta ogni giorno in ciascuna piazzola si distribuisca Normalmente e che le quantità raccolte in piazzole diverse siano indipendenti, sfruttare le congetture dei tecnici per rispondere alle seguenti domande. (A) Dopo aver indicato come si distribuisce la quantità totale di rifiuti depositati ogni giorno nell’insieme delle 12 piazzole, ivi compreso il valore dei parametri, si calcoli la probabilità che, in una data giornata, vengano superati i 5400 kg di rifiuti totali. (B) Se, invece di essere indipendenti, le quantità raccolte fossero positivamente correlate (cioè tutte con covarianza maggiore di 0) la probabilità di cui al punto precedente subirebbe variazioni? Argomentare la risposta senza effettuare calcoli. Esercizio 2. Dopo aver raggiunto nell’anno passato gli obiettivi del decreto Ronchi, il comune in questione ha pianificato per l’anno in corso di incrementare ulteriormente la percentuale di raccolta differenziata (RD) in rapporto al totale dei rifiuti solidi urbani (RSU). A questo fine sta monitorando l’andamento delle raccolte: quelle effettuate nei primi tre mesi dell’anno hanno consentito di predisporre la seguente tabella. RD/RSU% (classi) frequenza [20, 30] 1 (30, 35] 12 (35, 40] 28 (40, 45] 14 (45, 50] 5 (50, 60] 1 (A) Rappresentare graficamente la distribuzione della percentuale di RD, tenendo presente che l’ottica è quella di un confronto con l’andamento grafico delle distribuzioni delle variabili casuali a voi note. (B) Determinare lo scarto interquartile della percentuale di RD. Esercizio 3. L’obiettivo del comune per l’anno in corso è quello di portare la percentuale di RD oltre il 36% in rapporto al totale dei RSU. Nelle raccolte effettuate nei primi tre mesi dell’anno, la percentuale media di RD è stata pari a 38.2, con una deviazione standard (corretta) pari a 4.83. Assumendo che la percentuale di RD sui RSU si distribuisca in modo normale, si utilizzino i dati relativi alle raccolte effettuate (considerati come un casuale semplice) per rispondere alle seguenti domande. (A) Calcolare l’intervallo al livello di confidenza 1 − α = 0.98 per la deviazione standard della percentuale di RD. (B) In base all’informazione del campione, gli obiettivi di raccolta differenziata verranno raggiunti? Si risponda alla domanda formulando il problema in termini di test delle ipotesi (α = 0.1). Esercizio 4. Nella situazione di cui all’esercizio precedente, punto (B), si assuma ora che: α sia fissato allo stesso valore; l’ipotesi nulla sia la stessa; l’ipotesi alternativa sia ’la percentuale media di raccolta differenziata è pari a 37’; la deviazione standard campionaria della percentuale di RD raccolta coincida con quella vera. (A) Se fosse vera l’ipotesi nulla, quale sarebbe la probabilità di prendere la decisione errata? Rispondere argomentando. (B) Se invece fosse vera l’ipotesi alternativa, quale sarebbe la probabilità di prendere la decisione errata? Rispondere argomentando. 140 71 Soluzioni Esercizio 1 Assunzioni: Xi = ’quantità rifiuti al giorno nella piazzola i’∼ N (µ = 432, σ 2 = 432 ) per i = 1, . . . , 12. (A) T = ’Totale rifiuti al giorno nelle 12 piazzole’ = 12 X Xi ∼ N (µT = 12µ, σT2 = 12σ 2 ), dove µT = i=1 12µ = 12 ∗ 432 = 5184, σT2 = 12σ 2 = 12 ∗ 432 = 22188. P (T > 5400) = P (Z > (5400 − µT )/σT ) = P (Z > 1.45) = 0.07352. Calcoli utili: σT = 148.9564. (B) Chiamiamo T ∗ la somma delle Xi in presenza di correlazioni positive fra le Xi . SfruttandoX le proprietà ∗ 2 2 dei momenti, è possibile verificare che µT ∗ = µT , mentre σT ∗ > σT . Infatti µT ∗ = E(T ) = E(Xi ) = i X XX X µT mentre σT ∗ = V (T ∗ ) = V (Xi ) + 2 Cov(Xi , Xj ) > V (Xi ) = σT2 , dato che le covarianze i i<j i sono per assunzione tutte positive. Questo implica che, rispetto al punto precedente, la probabilità aumenta. Infatti P (T ∗ > 5400) = P (Z > (5400 − µT ∗ )/σT ∗ ) > P (Z > (5400 − µT )/σT ) = P (T > 5400), dato che (5400 − µT ∗ )/σT ∗ < (5400 − µT )/σT . Esercizio 2 (A) Istogramma delle frequenze relative (le frequenze cumulate servono per il punto (B)): RD/RSU% (classi) Densit relative Frequenze cumulate [20, 30] 0.0016 1 (30, 35] 0.0393 13 (35, 40] 0.0918 41 [40, 45) 0.0459 55 [45, 50) 0.0164 60 [50, 60] 0.0016 61 (B) Q1 sta nella classe 35,40, per cui Q1 = 35 + (15.25 − 13)/5.6 = 35.4018. Q3 sta nella classe 40, 45, per cui Q3 = 40 + (45.75 − 41)/2.8 = 41.6964. Scarto interquartile = Q3 − Q1 = 6.2946. Esercizio 3 Assunzioni: X = ’RD/RSU in percentuale’ ∼ N (µ, σ 2 ). (A) Il pivot per σ 2 è (n − 1)S 2 /σ 2 , con distribuzione χ2 (n al (1 − α) = 0.98 per σ 2 è √ − 1). L’intervallo √ 2 2 [(n − 1)s /c2 , (n − 1)s /c1 ] = [15.8378, 37.3413], per σ è [ 15.8378, 37.3413] = [3.9797, 6.1108]. Calcoli utili: c1 = 37.4849, c2 = 88.3794. √ (B) Test di H0 : µ = 36 contro H1 : µ > 36 (α = 0.1). La variabile test è (X − 36)/(S/ n), che sotto H0 ha una distribuzione T (n − 1). 0.1 = P (campione ∈ R|H √0 ) implica che la regione di rifiuto è√(1.2958, ∞). Il valore campionario della statistica test è (x − 36)/(s/ n) = 3.5575. Calcoli utili: n = 61, n = 7.8102, √ s = 4.83, s/ n = 0.6184. Esercizio 4 Assunzioni: X = ’RD/RSU in percentuale’ ∼ N (µ, σ 2 = 23.329). Test di H0 :√µ = 36 contro H1 : µ = 37. Per brevità indichiamo 36 = µ0 e 37 = µ1 . La variabile test è (X − µ0 )/(σ/ n), che sotto H0 ha una distribuzione N (0, 1). (A) L’evento ’decisione errata|ipotesi nulla vera’, ovvero ’campione ∈ R|H0 ’, è per definizione l’errore di primo tipo. La sua probabilità α è il livello di signicatività, fissato nell’esercizio a 0.1. (B) L’evento ’decisione errata|ipotesi alternativa vera’, ovvero ’campione ∈ A|H1 ’, è per definizione l’errore di secondo tipo. La sua probabilità β, è da calcolare in base ai dati. Prima occorre determinare R. 0.1 = P (campione ∈ R|H0 ) implica che la regione di rifiuto per la variabile standardizzata è (zcritico = 1.282, ∞), mentre quella √ di accettazione è (−∞, zcritico = 1.282]. √ β = P (’campione ∈ A|H ) = P ((X − µ )/(σ/ n)√≤ zcritico |H1 ) = P (X ≤ µ0 + σ/ nzcritico 1 0 √ √ √ |H1 ) = P ((X − µ1 )/(σ/ n) ≤ (µ0 + σ/ nzcritico − √ µ1 )/(σ/ n)|H1 ) = P (Z ≤ z√ critico + (µ0 − µ1 )/(σ/ n)|H1 ) = P (Z ≤ −0.335) = 0.36863. Calcoli utili: σ/ n = 0.6184, (µ0 − µ1 )/(σ/ n) = −1.617. 141 72 72.1 Compito del 12.09.2006 Testo Premessa: Gourmet spa gestisce una catena di ristoranti di fascia medio–alta. Il management della società ha commissionato una serie di rilevazioni per guidare le proprie strategie. Esercizio 1. Da tempo la scelta della lista vini è centralizzata a livello di catena, con l’obiettivo di contenere i costi. Ai clienti consumatori di vino è stato chiesto: ’Nel complesso, come giudica la nostra lista vini?’. Le risposte sono state elaborate nella seguente tabella. Giudizio Frequenza insufficiente 18 sufficiente 52 medio 71 buono 59 ottimo 40 (A) Quali indici di posizione (di tipicità) ha senso costruire per la variabile ’Giudizio’ ? Argomentare la risposta e calcolare tali indici. (B) Ha senso calcolare il terzo quartile della variabile ’Giudizio’ ? Se sı̀ effettuare il calcolo, altrimenti spiegare il perché. Esercizio 2. In base ai dati dell’esercizio precedente, costruire la variabile casuale X che associa alle modalità del ’Giudizio’, nell’ordine indicato, i numeri interi da −2 a +2 inclusi. Si derivino le relative probabilità in base alle frequenze relative ricavabili dalla tabella. Trattando la X come una pura e semplice variabile casuale: (A) Disegnare la funzione di ripartizione di X. (B) Calcolare media e deviazione standard di X. Esercizio 3. Per seguire meglio le esigenze della clientela, il management ha deciso di decentrare la scelta della lista vini ai singoli esercizi. Una rilevazione analoga a quella di cui all’esercizio 1 è stata ripetuta dopo tale provvedimento. Per valutare la decisione, i giudizi espressi dai singoli clienti sono stati opportunamente sintetizzati, ricavando un ’voto’ (su una scala continua da 0 a 10) alla lista vini di ciascun ristorante. I voti ottenuti dai 5 esercizi del campione prima e dopo il provvedimento di decentramento sono riportati in tabella. Si assuma che la variabile voto si distribuisca normalmente. Ristorante voto ante–decentramento voto post–decentramento Abete 6.7 7.3 Bra 4.4 3.7 Cantoni 3.4 1.4 Duecento 4.9 3.6 Ercole 7.2 5.7 (A) Il provvedimento di decentramento ha modificato il voto medio? Rispondere formulando il problema in termini di test delle ipotesi (α = 0.01). (B) Fornire una stima per intervallo della deviazione standard del voto dopo il decentramento (1 − α = 0.99). Esercizio 4. Lo studente si concentri ora sul campione rilevato in seguito all’operazione di decentramento e assuma che la deviazione standard ’vera’ sia esattamente quella stimata dal campione. Prima della rilevazione corrispondente, un manager ha espresso la seguente opinione: ’Il voto medio dopo il decentramento sarà inferiore a 5’. (A) Il campione dà ragione al manager? Rispondere formulando il problema in termini di test delle ipotesi (α = 0.1). (B) Si calcoli la potenza del test dell’ipotesi di cui al punto (A) in corrispondenza dell’alternativa ’il voto medio dopo il decentramento è 4.3’. 72.2 Soluzioni Esercizio 1 Il ’Giudizio’ è una variabile qualitativa ordinabile. Questa considerazione è la base per risolvere (A) e (B). 142 (A) Come indici di posizione (tipicità) hanno senso sia la moda (che non sfrutta la possibilità di ordinare le osservazioni) che la mediana (la quale invece sfrutta la possibilità di ordinare le osservazioni): Moda = medio, Mediana = medio. (A) Ha senso calcolare il terzo quartile perchè: al pari della mediana, la statistica in oggetto richiede che la variabile sia almeno ordinabile: Terzo quartile = buono. Esercizio 2 (A) Costruzione della funzione di ripartizione (solo valori corrispondenti ai ’salti’ del grafico) più prospetto di calcolo dei momenti E(X) e σ(X): x f (x) F (x) xf (x) x2 f (x) −2 0.075 0.075 −0.15 0.3 −1 0.217 0.292 −0.217 0.217 0 0.296 0.588 0 0 1 0.246 0.833 0.246 0.246 2 0.167 1 0.333 0.667 1 0.212 1.429 (B) Dalle ultime due righe del prospetto di calcolo precedente si ricava: E(X) = 0.212, V (X) = E(X 2 ) − E(X)2 = 1.429 − 0.2122 = 1.384, σ(X) = 1.1764. Esercizio 3 (A) Test sulla differenza fra medie per dati appaiati. Poniamo X1 = ’voto ante-decentramento’, X2 = 2 ’voto post-decentramento’. Si assume D = X2 − X1 ∼ N (µ √D , σD ). Test di H0 : µD = 0 contro H1 : µD 6= 0 (α = 0.01). La variabile test è (D − 0)/(SD / n), che sotto H0 ha una distribuzione T (n − 1). 0.99 = P (campione ∈ A|H0 ) implica che la√regione di accettazione è (−4.6041, 4.6041). Il valore campionario della statistica √ √ test è (d − 0)/(sD / n) = −2.1946. Calcoli e valori utili: n = 5, n = 2.2361, sD = 0.9985, sD / n = 0.4465, d = −0.98, tabella delle differenze di : di = x2i − x1i 0.6 −0.7 −2 −1.3 −1.5 (B) Assunzioni: X = ’voto post-decentramento’ ∼ N (µ, σ 2 ). Il pivot per σ 2 è (n − 1)S 2 /σ 2 , con distri2 2 2 2 buzione χ √ (n − 1).√L’intervallo al (1 − α) = 0.99 per σ è [(n − 1)s /c2 , (n − 1)s /c1 ] = [1.3601, 97.6477], per σ è [ 1.3601, 97.6477] = [1.1662, 9.8817]. Calcoli e valori utili: c1 = 0.207, c2 = 14.8603. Esercizio 4 Assunzioni: X = ’voto post-decentramento’ ∼ N (µ, σ = 2.248). (A) Test di H √0 : µ = 5 contro H1 : µ < 5. Per brevità indichiamo 5 = µ0 . La variabile test è (X − µ0 )/(σ/ n), che sotto H0 ha una distribuzione N (0, 1). 0.1 = P (campione ∈ R|H0√ ) implica che la regione di rifiuto è (−∞, −1.282). √ Il valore campionario della statistica test è (x−µ )/(σ/ n) = −0.6565. 0 √ Calcoli e valori utili: n = 1.0053, n = 5, σ/ n = 2.236, x = 4.34. √ (B) Per brevità √ indichiamo 4.3 = µ1 . γ = P (campione ∈ R|H1 ) = √ √P ((X − µ0 )/(σ/ n) √ < zcritico |H1 ) = P (X < µ0 + σ/ nzcritico |H ) = P ((X − µ )/(σ/ n) < (µ + σ/ nz − µ )/(σ/ n)|H1 ) = P 1 0 critico 1 √ 1 √(Z < zcritico + (µ0 − µ1 )/(σ/ n)|H1 ) = P (Z < −0.585) = 0.2792. Calcoli e valori utili: (µ0 − µ1 )/(σ/ n) = 0.6963. 143 73 73.1 Compito del 18.01.2007 (solo studenti PT) Testo Premessa: ENEIDE spa è una società italiana che archivia dati contabili, a partire da documenti cartacei o da files pdf, trasferendoli su supporto informatico. Per la digitalizzazione dei dati, la società dispone di un centro situato in Bulgaria, al quale si riferiscono gli esercizi seguenti Esercizio 1. Un controllo di qualità effettuato su un campione casuale semplice di 200 bilanci, ha mostrato che 6 di questi presentavano errori di digitalizzazione. (A) In base al campione, fornire una stima per intervallo (1 − α = 0.99) della probabilità di trovare un bilancio con errori di digitalizzazione. (B) Le condizioni e il risultato del punto precedente fanno sorgere dei dubbi circa la procedura impiegata per effettuare la stima per intervallo: in particolare, p appare piuttosto vicino al bordo dello spazio parametrico, per cui l’approssimazione normale della distribuzione binomiale, di norma utilizzata per rispondere all’esercizio precedente, non sembra completamente appropriata. Utilizzando le informazioni di cui sopra, quando dovrebbe essere grande il campione affinchè la varianza (stimata) della variabile numero di errori di digitalizzazione nel campione sia almeno pari a 10? Esercizio 2. Si considerino i dati di cui all’esercizio precedente. Si assuma che la vera proporzione di bilanci digitalizzati in modo errato sia esattamente quella ricavabile dal campione. (A) Si calcoli la probabilità che, su 100 bilanci estratti a caso e con reimmissione, quelli errati siano 1 al massimo. (B) Il calcolo di cui al punto precedente poteva essere effettuato, seppure in modo approssimato, ricorrendo a qualche altra distribuzione? Effettuare i calcoli e verificare l’accuratezza dell’approssimazione o delle approssimazioni utilizzate. Esercizio 3. Gli obiettivi dei responsabili sono di stare sotto il 3% come percentuale di bilanci con errori di digitalizzazione. Per verificare se l’obiettivo e‘ stato raggiunto, sono stati estratti casualmente altri bilanci portando la numerosità complessiva del campione a 1100. Di questi 45 sono risultati errati. (A) In base al campione, è possibile stabilire se l’obiettivo è stato raggiunto? Rispondere utilizzando il p-value. (B) Determinare la potenza del test in corrispondenza di H1 : p = 0.02 e α fissato a 0.01. Esercizio 4. Gli informatici di ENEIDE hanno progettato alcune soluzioni per migliorare la digitalizzazione dei documenti in formato pdf, al fine di ridurre gli errori. La nuova metodologia è stata comparata con quella usuale attraverso un test su due campioni casuali semplici indipendenti di documenti: la nuova ha fallito 45 volte su 300; quella usuale, invece, ha sbagliato 56 volte su 310. (A) Fornire una stima puntuale del miglioramento ottenuto con la nuova procedura rispetto a quella usuale. Dare anche una stima puntuale della deviazione standard dello stimatore utilizzato. (B) La nuova procedura è migliore della vecchia? Rispondere impostando il problema in termini di test delle ipotesi. 73.2 Soluzioni Esercizio 1. Assunzioni: X =’bilancio con errori?’∼ Be(p). p p (A) Intervallo di confidenza per p al livello di confidenza del p − z pbqb/n, pb + z pbqb/n = p 0.99%: [b [−0.0011, 0.0610]. Valori utili: pb = 6/200 = 0.03, qb = 0.97, pbqb/n = 0.01206, n = 200, z = 2.576. (In funzione dell’esercizio seguente, notare l’estremo di sx dell’intervallo fuori dallo spazio parametrico!) 144 (B) Y =’numero bilanci con errori su n estratti’∼ Bi(n, p = 0.03) (si assume p uguale a quello campionario). Allora V (Y ) = npq. Per avere V (Y ) = npq > 10 basta prendere n > 10/(pq) = 343.64 e quindi n = 344. Esercizio 2. (A) Y =’numero bilanci con errori su 100 estratti’∼ Bi(n = 100, p = 0.03) (si assume p uguale a quello campionario). Si vuol calcolare P (Y ≤ 1) = P (Y = 0) + P (Y = 1) = 0.04755 + 0.1471 = 0.1946 (conti effettuati mediante la funzione di massa della binomiale). (B) Le approssimazioni che vengono in mente per la Bi(n = 100, p = 0.03) sono P o(λ = 3) (dove λ = np) e N (µ = 3, σ 2 = 2.91) (dove µ = np, σ 2 = npq). Con la Poisson: P (Y ≤ 1) = P (Y = 0) + P (Y = 1) = 0.04979 + 0.1494 = 0.1991. Con la Normale (utilizzando l’approssimazione per la continuità): P (Y ≤ 1) ' P (Y ≤ 1.5) = 0.1896. Le approssimazioni tengono ai 2 decimali. Esercizio 3. Assunzioni: X =’bilancio con errori?’∼ Be(p). (A) Test p di H0 : p = 0.03 contro H1 : p < 0.03. Indichiamo 0.03 = p0 . Statistica test sotto H0 : p p −pp0 )/ p0 q0 /n < zcamp |H0 ) = P (Z < 2.1210) = (b p − p0 )/ p0 q0 /n|H0 ≈ N (0, 1). p − value = P ((b 0.98304. Valori e calcoli utili: pb = 45/1100 = 0.04091, p0 q0 /n = 0.00514. (B) Potenza p del test per H0 : p = 0.03 contro H1 : p = 0.02 con α =p0.01. Statistica test sotto H0 : (b p − p0 )/ pp p − p0 )/ p0 q0 /np< zcrit |H1 ) = P (b p < 0 q0 /n|H0 ≈ N (0, 1). zcrit = −2.3263, γ =pP ((b p − p1 )/ p1 q1 /n < (c − p1 )/ p1 q1 /n|H1 ) = P (Z < p0 + zcrit ∗ p0 q0 /n = c = 0.01803|H1 ) = P ((b −0.4656|H1 ) = 0.32075. Esercizio 4. X1 = ’errori metodologia usuale’ ∼ Be(p1 ), X2 =’errori metodologia alternativa’ ∼ Be(p2 ) Gli informatici di ENEIDE hanno progettato alcune soluzioni per migliorare la digitalizzazione dei documenti in formato pdf, al fine di ridurre gli errori. La nuova metodologia è stata comparata con quella usuale attraverso un test su due campioni casuali semplici indipendenti di documenti: la nuova ha fallito 45 volte su 300; quella usuale, invece, ha sbagliato 56 volte su 310. (A) Miglioramento: p1 − p2 stimato con lo stimatore pb1 − pb2 . La distribuzione dello stimatore è, approssimativamente, N (p1 − p2 , p1 q1 /n1 + p2 q2 /n2 ). Stima puntuale: pb1 − pb2 p = 45/300 + 56/310 = 0.15 − 0.1806 = −0.0306, stima della deviazione standard dello stimatore: p1 q1 /n1 + p2 q2 /n2 = √ 0.00090246 = 0.030041. (B)pTest di H0 : p1 − p2 = 0 contro H1 : p1 − p2 < 0. α = 0.05. Statistica test sotto H0 : [(b p1 − pb2 ) − 0]/ pbqb(1/n1 + 1/n2 )|H0 ≈ N (0, 1) dove pb = (45 + 56)/(300 + 310) = 0.1656 è la stima pooled di p. p zcrit = −1.645. Valore campionario statistica test sotto H0 : zcamp = [(b p1 − pb2 ) − 0]/ pbqb(1/n1 + 1/n2 ) = −1.018. 145 74 74.1 Compito del 01.02.2007 (solo studenti PT) Testo Premessa: Una fondazione ha commissionato uno studio sul fumo di sigaretta. Nell’ambito dello studio, un campione di sigarette di marche diverse è stato sottoposto ad una serie di analisi chimiche. In base dati rilevati rispondere alle domande. Esercizio 1. Per ciascuna sigaretta è stata misurata la quantità emessa di monossido di carbonio (CO) espressa in mg. Le misurazioni effettuate sono state sintetizzate nella seguente tabella. 13.6 16.6 23.5 5.4 15 12.3 16.3 15.4 14.4 10 10.2 18.5 17.5 15.9 8.5 13.9 10.2 9.0 13.0 9.5 12.6 10.6 14.9 4.9 (A) Calcolare mediana e scarto interquartile della quantità di CO emessa (esplicitare l’unità di misura). (B) Rappresentare graficamente la distribuzione di frequenza della CO emessa (si utilizzino 4 classi, scegliendone da soli gli estremi). Esercizio 2. Il campione di sigarette esaminato è stato poi suddiviso in 2 gruppi: quelle con dicitura light e le altre (normali ). Le statistiche ricavate sulle misurazioni di CO nei due gruppi sono state sintetizzate nella seguente tabella. Tipo sigaretta normale light Numero osservazioni 16 8 Media(CO) 14.2 10.6 Varianza corretta(CO)1/2 4.3 3.0 (A) È possibile concludere che le sigarette light producono mediamente meno CO di quelle normali? (α = 0.01). Formulare le assunzioni necessarie per effettuare il test. (B) Il test effettuato al punto precedente si basa su una particolare assunzione riguardante le varianze. Sottoporre a verifica se questa assunzione tiene (α = 0.1). Esercizio 3. Sono stati effettuati alcuni calcoli per simulare l’assunzione di CO di un fumatore. Nella simulazione si è assunto che la CO emessa da ciascun tipo di sigaretta si distribuisce in modo normale con momenti pari a quelli ricavabili dalla tabella precedente. (A) Si consideri un fumatore di light che fuma 20 sigarette al giorno. Si calcoli la probabilità che tale fumatore superi, in un giorno, i 200 mg di CO (soglia considerata a rischio dall’OMS). (B) Quante sigarette light occorrerebbe fumare in un giorno affinchè la probabilità di superare la soglia OMS sia il 5%? (Spiegare in dettaglio il procedimento e scrivere l’equazione risolutiva senza effettuare i calcoli) Esercizio 4. La CO emessa da ciascuna sigaretta è stata messa in relazione con la quantità di catrame (in mg) presente nella stessa. Sono state ricavate le seguenti statistiche: numero osservazioni = 24; media(CO) = 13.00; Varianza distorta(CO)1/2 = 4.15; media(catrame) = 12.68; Varianza distorta(catrame)1/2 = 5.16; Correlazione(CO, catrame) = 0.9575. (A) Formulare un modello di regressione lineare che evidenzi se la quantità di CO emessa è legata alla quantità di catrame è stimarne i coefficienti. (Suggerimento: ricordare che lo stimatore dei minimi quadrati di σ b2 è ricavabile anche come [Devianza(y) − βb12 Devianza(x)]/(n − 2)). (B) In base al modello, è possibile stabilire se la quantità di CO emessa è legata in modo significativo alla quantità di catrame? (α = 0.01). 74.2 Soluzioni Esercizio 1. La chiave di tutto l’esercizio è ordinare le osservazioni (meglio se in ordine crescente). 4.9 5.4 8.5 9 9.5 10 10.2 10.2 10.6 12.3 12.6 13 13.6 13.9 14.4 14.9 15 15.4 15.9 16.3 16.6 17.5 18.5 23.5 (A) posizione(M e) = 0.5(n + 1) = 0.5(24 + 1) = 12.5; M e = (13 + 13.6)/2 = 13.3. 146 posizione(Q1 ) = 0.25(n + 1) = 0.25(24 + 1) = 6.25; Q1 = (10 + 10.2)/2 = 10.1 posizione(Q3 ) = 0.75(n + 1) = 0.75(24 + 1) = 18.75; Q3 = (15.4 + 15.9)/2 = 15.65 (B) Classi [0,5] (5,10] (10,15] (15,25] Frequenza 1 5 11 7 Ampiezza 5 5 5 10 Densità 0.2 1 2.2 0.7 Esercizio 2. Assunzioni: X1 =’mg CO di 1 sigaretta normale’ ∼ N (µ1 , σ12 ), X2 =’mg CO di 1 sigaretta light’ ∼ N (µ2 , σ22 ). (A) Test di H0 : µ1 − µ2 = 0 contro H1 : µ1 − µ2 > 0. Si assume inoltre che σ12 = σ22 . Statistica test p X 1 − X 2 , che sotto H0 si distribuisce come [(X 1 − X 2 ) − 0]/[Sp 1/n1 + 1/n2 ]|H0 ∼ T (n1 + n2 − 2), dove Sp2 è la varianza pooled. Regione di rifiuto: [2.51, inf ty); valore campionario della statistica test sotto H0 : 2.1137. Valori e calcoli utili: gl = n1 + n2 − 2 = 22; s2p = s21 (n1 − 1) + s22 (n2 − 1)/(n1 + n2 − 1) = 15.4704 p sp = 3.933, sp 1/n1 + 1/n2 = 1.703, s21 = 18.49, s22 = 9. (B) Test di H0 : σ12 /σ22 = 1 contro H1 : σ12 /σ22 6= 1. Statistica test S12 /S22 , che sotto H0 si distribuisce come S12 /S22 |H0 ∼ F (n1 − 1, n2 − 1). Regione di accettazione: [0.3695, 3.5107]; valore campionario della statistica test sotto H0 : 2.0544. Esercizio 3. Assunzioni: X =’mg CO di 1 sigaretta light’ ∼ N (µ = 10.6, σ = 3). Pn (A) Y =’mg CO di n sigarette light’= i=1 Xi , dove XP i =’mg CO dell’i-ma sigaretta light’ Pn ∼ N (µ = n 10.6, σ = 3). Per le proprietà dei valori attesi, V (Y ) = E(X ) = n ∗ 10.6 V (Y ) = i i=1 i=1 V (Xi ) + PP Pn 2 C(X , X ) = V (X ) = n ∗ 3 = 9n. Nell’ultima formula le covarianze sono 0 perchè la CO i j i i6=j i=1 prodotta da ciascuna sigaretta è indipendente dalle altre. Per le proprietà della Normale, Y ∼ N (µY = 10.6n, σY2 = 9n). Per n = 20 sigarette si ha Y ∼ N (µY = 212, σY2 = 180), per cui P (Y > 200) = P (Z > −0.89) = 0.81445. (B) Si tratta di √ calcolare n tale che P (Y > 200) = 0.05. Allora 0.05 √= P (Y > 200) = P (Z > (200 − 10.6n)/ 9n = z). Dalle tavole z = 1.645 per cui (200 − 10.6n)/ 9n = 1.645. Da questa si può ricavare n. Facendo i calcoli (non richiesti) n = 16.9513 da arrotondare Pn a 16. Attenzione: non va bene fare Y = nX ∼ N (nµ, n2 σ 2 ) al posto di Y = i=1 Xi ∼ N (nµ, nσ 2 ). Esercizio 4. Modello di regressione lineare yi = β0 + β1 xi + ui , dove ui ∼ N (0, σ 2 ), y = CO, x = catrame. (A) βb1 = Cov(x, y)/V ar(x) = 20.5039/26.6256 = 0.7701, βb0 = y − βb1 x = 13 − 0.7701 ∗ 12.68 = 3.2354, σ b2 = [Dev(y) − βb12 Dev(x)]/(n − 2) = 413.34 − 0.77012 ∗ 639.01 = 1.5631. p (B) Test di H0 : β1 = 0 contro H1 : β1 6= 0. α = 0.01. Statistica test sotto H0 : [βb1 −0]/ σ b/Dev(x)|H0 ≈ T (n − 2). Regione accettazione: [−2.8188, 2.8188]. Valore campionario statistica test sotto H0 : tcamp = p [βb1 − 0]/ σ b/Dev(x) = 15.5706. 147 75 75.1 Compito del 15.02.2007 (solo studenti PT) Testo Esercizio 1. Un’analista sta osservando i bilanci 2006 di 5 grossi alberghi appartenenti ad un’unica catena. Molte cose sono strutturate in modo simile fra i diversi alberghi, ma i singoli esercizi godono di alcuni margini di autonomia su certi aspetti della gestione. In particolare l’analista sta valutando se esiste una relazione fra profittabilità (misurata da MON/Ricavi in %) e propensione ad esternalizzare alcune fasi della gestione (valutata con Costi Esterni/Costi Totali in %). I dati sono raccolti nella seguente tabella. Indicatore Torino Milano 1 Milano 2 Genova Verona MON/Ricavi % 10.0 19.3 16.9 9.6 15.0 Costi Esterni/Costi Totali % 12.1 15.3 31.9 17.0 24.5 (A) Iniziare l’analisi mettendo in evidenza l’eventuale relazione attraverso un grafico. (B) A scopo puramente puramente descrittivo, fornire un indice statistico per valutare la relazione i due indicatori. Esercizio 2. L’analisi di cui al punto precedente può essere approfondita mediante la regressione. (A) Formulare un opportuno modello lineare che risponda alle esigenze dell’analista (si veda il testo dell’esercizio 1) e stimarne i coefficienti. (B) Fornire una stima per intervallo della variabilità intorno alla retta di regressione (α = 0.05). Esercizio 3. Con riferimento all’esercizio precedente: (A) È possibile concludere che la profittabilità è legata in modo significativo alla propensione ad esternalizzare? (α = 0.1) (B) Calcolare i residui di regressione per Torino e Milano 1. Esercizio 4. Sia X una variabile casuale. La sua distribuzione è stata tabulata nella seguente tabella. x -2 -1 0 1 2 3 f (x) 0.1 0.4 0.3 0.1 0 0.1 (A) La distribuzione data nella tabella è ben definita? Rispondere argomentando in modo opportuno. (B) Calcolare i principali valori attesi della variabile X in modo da misurarne tendenza centrale e variabilità. In base alla risposta alla domanda (A), prima di effettuare i calcoli può essere necessario aggiustare la distribuzione in tabella se questa non è ben definita. 75.2 Soluzioni Esercizio 1. (A) Semplice scatterplot o diagramma x, y, dove X = indicatore dei costi, Y = indicatore di profittabilità. (B) Calcolo del coefficiente di correlazione. Prospetto di calcolo: Torino Milano 1 Milano 2 Genova Verona Somma Media x 12.1 15.3 31.9 17.0 24.5 100.80 20.16 y 10.0 19.3 16.9 9.6 15.0 70.80 14.15 x2 146.41 234.09 1017.61 289.00 600.25 2287.36 457.47 y2 99.25 372.18 284.46 92.11 226.18 1074.18 214.84 xy 120.55 295.17 538.03 163.15 368.46 1485.35 297.07 Allora: n = 5, M (X) = 20.16, M (Y ) = 14.15, V (X) = 457.47−20.162 = 51.05 V (Y ) = 214.84−14.152 = 14.57, σ(X) = 7.1447, σ(Y ) = 3.8176 C(X, Y ) = 297.07 − 20.16 ∗ 14.15 = 11.7788, ρ = 11.7788/(7.1447 ∗ 3.8176) = 0.4318. 148 Esercizio 2. Modello di regressione lineare yi = β0 + β1 xi + ui , dove ui ∼ N (0, σ 2 ), y = indicatore di profittabilità, x = indicatore dei costi. (A) βb1 = Cov(x, y)/V ar(x) = 11.7788/51.05 = 0.2307, βb0 = y − βb1 x = 14.15 − 0.2307 ∗ 20.16 = 9.4995, σ b2 = [Dev(y) − βb12 Dev(x)]/(n − 2) = (72.8711 − 0.23072 ∗ 255.232)/(5 − 2) = 19.7604. (B) Intervallo di confidenza per σ 2 o per σ. Pivot: σ 2 (n − 2)/σ 2 distribuito come χ2 (n − 2). Intervallo per σ 2 : [σ 2 (n − 2)/c2 , σ 2 (n − 2)/c1 ] = [6.3413, 274.7111] Intervallo per σ: [2.5182, 16.5744]. Valori e calcoli utili: gl = n − 2 = 3, c1 = 0.2158, c2 = 9.3484. Esercizio 3. p b/Dev(x)|H0 ≈ (A) Test di H0 : β1 = 0 contro H1 : β1 6= 0. α = 0.1. Statistica test sotto H0 : [βb1 − 0]/ σ T (n − 2). Regione accettazione: [−2.3534, 2.3534]. Valore campionario statistica test sotto H0 : tcamp = p [βb1 − 0]/ σ b/Dev(x) = 0.2307. Valori e calcoli utili: βb1 = 0.2307, σ 2 = 19.7604, Dev(x) = 255.232, p b/Dev(x) = 0.2782. σ b(βb1 ) = σ (B) Calcolo residui stimati u bi (solo i primi due erano richiesti) Torino Milano 1 Milano 2 Genova Verona ybi = βb0 + βb1 xi 12.2916 13.0300 16.8604 13.4222 15.1528 u bi -2.3291 6.2620 0.0057 -3.8250 -0.1136 Esercizio x f (x) xf (x) x2 f (x) 4. -2 0.1 -0.2 0.4 -1 0.4 -0.4 0.4 0 0.3 0 0 1 0.1 0.1 0.1 2 0 0 0 3 0.1 0.3 0.9 Somma 1 -0.2 1.8 (A) La distribuzione di X è ben definita in quanto rispetta le P due caratteristiche fondamentali che deve avere affinchè lo sia, ovvero: 1. f (x) ≥ 0 per ogni valore di x; x f (x) = 1. (B) Dal prospetto di calcolo sopra riportato: E(X) = −0.2, V (X) = E(X 2 ) = E(X)2 = 1.8 − (−.2)2 = 1.76. 149 76 76.1 Compito del 30.03.2007 (solo studenti PT) Testo Esercizio 1. Un’agenzia ministeriale ha formato un pool di 6 esperti per decidere quale linea strategica seguire in merito alla gestione delle somme destinate al nuovo regime del TFR. Ognuno degli esperti ha valutato entrambe le strategie in esame: una più prudente, l’altra più rischiosa. Al termine, le valutazioni di ciascuno degli esperti sono state sintetizzate nei punteggi di cui alla seguente tabella. Esperto Strategia A. Aranci B. Bianco C. Celestino G. Grigioni R. Rossi V. Verdi Prudente 4.5 4.0 6.5 6.7 3.0 6.1 Rischiosa 3.2 3.7 4.9 7.8 2.6 5.6 (A) È possibile stabilire se una delle due strategie è giudicata significativamente migliore dell’altra? Formulare il problema in termini di test delle ipotesi (α = 0.1). (B) Specificare in dettaglio le assunzioni formulate per rispondere alla domanda precedente. Esercizio 2. (A) In merito alla nuova gestione del TFR, gli esperti del ministero avevano preventivato che, entro marzo 2007, oltre il 35% del personale avrebbe già deciso di aderire al nuovo regime. Da una rilevazione a campione commissionata allo scopo è emerso che, su 1505 intervistati, 560 sono già propensi ad aderire. In base a tale informazione, è possibile ritenere che le aspettative ministeriali sono giuste? Rispondere mediante il calcolo del p–value e commentare il risultato. (B) Un’altra indagine, effettuata per conto dei sindacati, ha evidenziato che su 780 operai intervistati il 33% ha intenzione di aderire, mentre la percentuale dei propensi all’adesione risulta il 47% fra i 560 impiegati intervistati. Fornire stima puntuale e per intervallo (1 − α = .98) per valutare la diversa propensione ad aderire fra le due categorie di dipendenti. Esercizio 3. Un dirigente sindacale, che non ha una chiara percezione del concetto di rischio, vi ha chiesto consulenza privata. Cercate di fargli capire il concetto proponendogli la seguente situazione. Avete 100 euro da investire in una qualsiasi combinazione (portafoglio) fra 2 titoli: (a) un bond senza rischio, che rende il 2.5% fisso l’anno; (b) un’azione rischiosa, che in media rende il 4% l’anno con una deviazione standard del 10%. Tenendo presente un orizzonte temporale di un anno e che non è possibile indebitarsi: (A) Quale ripartizione dei 100 euro fra i 2 titoli risulta la migliore se uno vuol massimizzare il rendimento atteso del portafoglio? Quale ripartizione dei 100 euro fra i 2 titoli risulta la migliore se uno vuol minimizzare il rischio (misurato dalla deviazione standard) del portafoglio? Rispondere argomentando. (B) Quale ripartizione dei 100 euro risulta ottimale se uno vuole massimizzare il rendimento ma, contemporaneamente, vuole che la probabilità di avere un rendimento negativo del portafoglio sia non più del 10%? Nel rispondere si assuma che il rendimento dell’azione rischiosa abbia distribuzione normale. Esercizio 4. Si consideri il rendimento del titolo rischioso menzionato nell’esercizio precedente, e si assuma che esso abbia distribuzione normale con la media e la deviazione standard indicati. Pur consapevoli che non è sensato andare a stimare delle quantità che invece sono note, rispondere alle seguenti domande. Avendo a disposizione un campione casuale di 10 osservazioni e con riferimento alle statistiche/stimatori visti nel corso: (A) Per stimare il rendimento medio, quale stimatore suggerite? Rispondere argomentando. Calcolare l’MSE dello stimatore suggerito. (B) Per stimare la varianza, quale stimatore suggerite? Rispondere argomentando. Calcolare l’MSE dello stimatore suggerito. 76.2 Soluzioni Esercizio 1. 150 (B) X1 =’giudizio sulla strategia prudente’, X2 =’giudizio sulla strategia rischiosa’. Per come è rilevato il campione si tratta di effettuare un test sulla differenza fra medie per dati appaiati. Quindi: D = 2 X1 − X2 ∼ N (µD , σD ). √ (A) Test di H0 : µD = 0 contro H0 : µD 6= 0. La variabile test è (sotto H0 ) (D − 0)/(SD / n) che sotto H0 ha distribuzione T (n − 1). Esperto C. Celestino G. Grigioni R. Rossi V. Verdi 6.5 6.7 3.0 6.1 4.9 7.8 2.6 5.6 1.6 -1.1 0.4 0.5 2.56 1.21 0.16 0.25 Pn 2 Dalla tabella, d = 3.0/6 = 0.5, dev(d) = i di − n ∗ d = 5.96 − 6 ∗ 0.52 = 4.46, s2d = dev(d)/(n − 1) = 4.46/5 = 0.892, sd =√0.9444575; valore campionario della statistica test sotto H0 , tcamp = (d − √ 0)/(sd / n) = 1.2968 (sd / n = 0.38557), regione di accettazione [−2.01505, 2.01505]. Quindi i dati raccolti non autorizzano a ritenere che una strategia sia significativamente migliore dell’altra. Strategia Prudente Rischiosa di d2i A. Aranci 4.5 3.2 1.3 1.69 B. Bianco 4.0 3.7 0.3 0.09 Esercizio 2. (A) Assunzioni: X = ’lavoratore propenso ad aderire’ ∼ Be(p). Test p di H0 : p = 0.35 contro H0 : p > 0.35. Poniamo p0 = 0.35. Statistica test (sotto H0 ) Z = (b p − p0 )/ p0 q0 /n che sotto H0 ha una distribuzione, p approssimativamente, N (0, 1). Valore campionariopdella statistica p test sotto H0 , zcamp = (b √p − p0 )/ p0 q0 /n = 1.7969 dove pb = 560/1505 = 0.372093, p0 q0 /n = 0.35 ∗ (1 − 0.35)/1505 = 0.0001511628 = 0.01229483. p − value = P [Z > 1.769|H0 ] = 0.03617, che porta a dar ragione al ministero se si sceglie un α maggiore di tale valore (ad esempio l’usuale 0.05). (B) Assunzioni: X1 = ’operaio propenso ad aderire’ ∼ Be(p1 ), X2 = ’impiegato propenso ad aderire’ ∼ Be(p2 ). Stima per intervallo e intervallo di confidenza per p2 − p1 . Stima puntuale: pb2 − pb1 = 0.47 − 0.33 = 0.14. Quindi si stima che fra i due gruppi di dipendenti c’è una differenza, a favore degli operai,pdi circa 14 punti percentuali in p merito alla propensione ad aderire. Stima per intervallo: [(b p2 − pb1 )−z pb2 qb2 /n2 + pb1 qb1 /n1 , (b p2 − pb1 )+z pb2 qb2 /n2 + pb1 qb1 /n1 ] = [0.07712, 0.20288], dove p b q b /n = 0.47∗ 2 2 2 p p b q b /n + p b qb1 /n1 ] = (1 − 0.47)/560 = 0.0004448214, p b q b /n = 0.33 ∗ (1 − 0.33)/780 = 0.0002834615, 2 2 2 1 1 1 1 √ 0.000728283 = 0.02699, z = 2.33 dato che 1 − α = 0.98. Esercizio 3. (A) Indico con c la somma investita nel titolo rischioso; quindi 100 − c sarà la somma investita in quello non rischioso. Rendimento del portafoglio ad un anno: X = (100 − c) ∗ 0.025 + cX2 , dove X2 ∼ [0.04, 0.10] è il rendimento del titolo rischioso. Per le proprietà dei valori attesi: µX = E(X) = (100 − c) ∗ 0.025 + cE(X2 ) = (100 − c) ∗ 0.025 + c0.04 = 2.5 + 0.015c risulta massimo se si investe tutto nel 2 titolo rischioso, cioè c = 100; σX = V (X) = c2 V (X2 ) = c2 ∗ 0.102 , che risulta minimo se non si investe niente nel titolo rischioso e tutto in quello non rischioso (quindi c = 0). (B) Si è capito che più si punta su quello rischioso e più, mediamente(!), si guadagna. Se però si vuole P (X < 0) = 0.10 allora, includendo l’assunzione di normalità, 0.10 = P (X < 0) = P [(X − µX )/σX < (0 − µX )/σX ] = P [Z < (0 − µX )/σX ]. Dalle tavole si trova che z = (0 − µX )/σX = −1.28. Sostituendo le formule di µX e σX ricavo c: (0 − 2.5 − 0.015c)/(0.1 ∗ c) = −1.28, da cui c = 22.12 euro. Esercizio 4. (A) Uso X, dato che è stimatore efficiente di µ. Siccome è corretto allora M SE(X; µ) = V (X) = σ 2 /n = 0.102 /10 = 0.001. 2 (B) Uso S∗∗ , dato che è stimatore efficiente di σ 2 e si conosce la media. Siccome è corretto allora 2 ; σ 2 ) = V (S 2 ) = 2 ∗ σ 4 /n = 2 ∗ .104 /10 = 0.00002. M SE(S∗∗ ∗∗ 151 77 77.1 Compito del 31.05.2007 (solo studenti PT) Testo Premessa: RAPAnet è una società che offre servizi via internet, wap e simili. Uno di questi consiste nell’invio di contenuti (tipo suonerie per cellulari o files mp3) agli iscritti al servizio. Per usufruire dei servizi gli iscritti pagano una quota settimanale: ogni settimana possono decidere se pagare (scalando la quota dalla scheda telefonica) o uscirne definitivamente. Esercizio 1. RAPAnet vuole valutare se esiste differenza di comportamento fra coloro che dispongono di scheda TIM e di scheda WIND. Su un campione di utenti che si sono iscritti nel mese di dicembre 2006 sono state rilevate le seguenti statistiche (iscritti = iscritti nel mese di dicembre 2006; usciti = usciti dal servizio entro 5 settimane dall’iscrizione). Scheda telefonica TIM WIND n. iscritti 3969 1986 n. usciti 669 378 (A) Si fornisca stima puntuale e per intervallo per valutare la differente propensione ad uscire dal servizio fra i clienti TIM e WIND. (B) I dati mostrano una maggiore propensione ad uscire dal servizio da parte dei clienti WIND? Calcolare il p-value e commentare il risultato. (C) Si calcoli la potenza del test ottenuto ponendo α = 0.02 e l’ipotesi alternativa secondo la quale la differenza fra WIND e TIM circa la probabilità di abbandonare il servizio entro le 5 settimane è pari a 2.3 punti percentuali. Esercizio 2. Si assuma che le probabilità di uscire dal servizio entro le 5 settimane, separatamente per i clienti TIM e WIND, siano identiche a quelle desumibili dai dati dell’esercizio 1. Si assuma anche, come è noto a RAPAnet, che il 63% dei propri clienti sia TIM e il rimanente WIND. (A) Preso a caso un cliente, calcolare la probabilità che questo esca dal servizio entro 5 settimane dall’iscrizione. (B) Su 100 clienti estratti casualmente e con reimmissione, indicare come si distribuisce (compreso il valore dei parametri) la variabile ’numero di usciti dal servizio entro 5 settimane dall’iscrizione’. Calcolarne i quartili (1o , 2o , 3o ). Esercizio 3. In un’altra analisi RAPAnet ha utilizzato i dati rilevati per quantificare la relazione fra investimento pubblicitario (su motori di ricerca, banner e simili) e numero di nuove iscrizioni al servizio. I dati degli ultimi 5 mesi sono riassunti in tabella. Variabile spesa (milioni euro) nuovi iscritti (migliaia) gennaio 0.28 36.1 febbraio 0.1 18.6 marzo 0.28 38.8 aprile 0.24 29.4 maggio 0.23 29.6 (A) Aiutate RAPAnet formulando un modello che risponda alle sue esigenze. Stimarne i parametri. (B) Valutare l’indice R2 e commentare il risultato. (C) Per il mese di giugno RAPAnet ha in progetto di investire 0.22 milioni di euro in pubblicità. Fornire una previsione, puntuale e per intervallo (α = 0.2), su quanti saranno i nuovi iscritti al servizio nel mese. 77.2 Soluzioni Esercizio 1 Assunzioni: X1 = ’utente TIM esce entro 5 settimane’ ∼ Be(p1 ); X2 = ’utente WIND esce entro 5 settimane’ ∼ Be(p2 ); X1 , X2 indipendenti. (A) Stima puntuale e per intervallo diq p2 − p1 . Stimatore puntuale: X 2 − X 1 ; stima puntuale x2 − x1 = 0.0218. Pivot: [(X 2 −X 1 )−(p2 −p1 )]/ X 2 (1 − X 2 )/n2 + X 1 (1 − X 1 )/n1 con distribuzione campionaria (approssimata) N (0, 1); intervallo di confidenza al 95% di probabilità: [x1 − x2 − z ∗ se, x1 − x2 + z ∗ se] = p [9e − 04, 0.0426], dove se = x2 (1 − x2 )/n2 + x1 (1 − x1 )/n1 , z = 1.96. 152 (B) Ipotesi: H0 : p2 − p1 = 0 contro H1 : p2 − p1 > 0. p Statistica test (sotto H0 ): [(X 2 − X 1 ) − 0]/se0 , la cui distribuzione sotto H0 è N (0, 1), dove se0 = pbqb(1/n2 + 1/n1 ) e pb = (x2 n2 + x1 n1 )/(n2 + n1 ) è la stima pooled di p. Nelle condizioni dell’esercizio, p − value = P (Z > zcamp ) = 0.0186, dove zcamp = [(x2 − x1 ) − 0]/se0 = 2.084. (C) γ = P (campione ∈ R|H1 ). Facendo i conti, la regione di rifiuto per la statistica test di cui al punto precedente è (zcrit = 2.054, ∞) (α = 0.02). Allora γ = P (campione ∈ R|H1 ) = P ([(X 2 − X 1 ) − 0]/se0 > zcrit |H1 ) = P ([(X 2 − X 1 ) > zcrit ∗ se0 |H1 ) = P ([(X 2 − X 1 ) > 0.0215|H1 ). Sotto H1 abbiamo che, approssimativamente, [(X 2 − X 1 ) − 0.023]/se ≈ N (0, 1) (vedi sopra per se), per cui γ = P ([(X 2 − X 1 ) > 0.0215|H1 ) = P ([(X 2 − X 1 ) − 0.023]/se > (0.0215 − 0.023)/0.0106|H1 ) = P (Z > −0.142) = 0.55657. p Calcoli e valori utili: x1 = 669/3969 √ = 0.169, x2 = 378/1986 = 0.19, se = x2 (1 − x2 )/n2 + x1 (1 − x1 )/n1 = √ 3.531e − 05 + 3.531e − 05 = 0.00011291 = 0.0106; pb = p √ (x2 n2 +x1 n1 )/(n2 +n1 ) = (378+669)/(1986+ 3969) = 0.1758, qb = 0.8242, se0 = pbqb(1/n2 + 1/n1 ) = 0.00010947 = 0.0105. Esercizio 2 Notazione e assunzioni: T = T IM , W = W IN D; X|T = ’utente TIM esce entro 5 settimane’ ∼ Be(p1 = 0.169); X|W = ’utente WIND esce entro 5 settimane’ ∼ Be(p2 = 0.19). Sappiamo che P (T ) = 0.63, P (W ) = 0.37. (A) P (X = 1) = P (X = 1|T )P (T ) + P (X = 1|W )P (W ) = 0.169 ∗ 0.63 + 0.19 ∗ 0.37 = 0.17661. In pratica, quindi, la v.c. X =’utente esce entro 5 settimane ∼ Be(p = 0.17661)’. (B) Nelle condizioni dell’esercizio, la v.c. Y =’n. clienti su 100 che abbandonano il servizio entro 5 settimane’∼ Bi(n = 100, p = 0.17661). I quantili possono essere calcolati utilizzando l’approssimazione normale Bi(n = 100, p = 0.17661) ' N (np = 17.661, npq = 14.542): Q1 = 15.09, Q2 = M e = µ = 17.66, Q3 = 20.23. Esercizio 3 (A) Modello lineare: yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), dove X = spesa, Y = n. nuovi iscritti. Stime: Pn b2 = i=1 εb2i /(n−2) = dev(y)− βb12 dev(x)/(n− βb1 = cod(x, y)/dev(x) = 101.7792, βb0 = y−β1 x = 7.4979, σ 2) = 5.6035. (B) Nel modello lineare semplice R2 = ρ2 = 0.96492 = 0.9311. (C) Stima puntuale e per intervallo di E(y|x0 ), che per brevità indicheremo con θ. Stimatore puntuale: b con distribuzione campionaria θb = βb0 + βb1 x0 ; stima puntuale βb0 + βb1 x0 = 29.8893. Pivot: [θb − θ]/b σ (θ) 2 b 2 2 T (n − 2), dove σ b (θ) = σ b (1/n + (x0 − x) /dev(x)); intervallo di confidenza al 95%: [28.15, 31.63], dove t = 1.6377. Calcoli e valori utili Variabile gennaio xi 0.28 yi 36.1 x2i 0.0784 yi2 1303.21 xi yi 10.108 febbraio 0.1 18.6 0.01 345.96 1.86 marzo 0.28 38.8 0.0784 1505.44 10.864 aprile 0.24 29.4 0.0576 864.36 7.056 maggio Somma 0.23 1.13 29.6 152.5 0.0529 0.2773 876.16 4895.13 6.808 36.696 Pn 2 2 da cui: x P = 1.13/5 = 0.226, y = 152.5/5 = 30.5, dev(x) = i=1 xi − = 0.2773 − 5 ∗ 0.2262 = 0.02192, Pnx n n 2 2 2 dev(y) = i=1 yi − ny = 4895.13 − 5 ∗ 30.5 = 243.88, cod(x, y) = i=1 xi yi − nxy = 36.696 − 5 ∗ 0.226 ∗ q b = σ 30.5 = 2.231, ρ = cod(x, y)/ dev(x)dev(y) = 0.9649, σ b2 (θ) b2 (1/n + (x0 − x)2 /dev(x)) = 1.1299, b = 1.063. σ b(θ) 153 78 Compito del 05.06.2007 (solo studenti PT) 78.1 Testo Premessa: La AllMart è una grossa catena di prodotti di consumo. Esercizio 1. AllMart vuole quantificare la relazione fra sconti concessi alla clientela nelle offerte periodiche e volumi venduti. L’analisi di una serie di offerte fra loro comparabili ha fornito i risultati in tabella (legenda: sconto % medio = sconto percentuale medio dell’offerta; variazione % volumi = differenza percentuale dei volumi venduti durante l’offerta rispetto alla media). Variabile sconto % medio variazione % volumi offerta 1 34 23 offerta 2 34 23 offerta 3 11 -5 offerta 4 22 17 offerta 5 14 7 (A) Esiste una relazione significativa fra volumi venduti e sconto medio concesso? (α = 0.05) (B) Nella prossima offerta, AllMart intende proporre una percentuale di sconto medio pari al 22%. Fornire una previsione, puntuale e per intervallo (α = 0.1), sulla variazione percentuale dei volumi rispetto al livello medio. Esercizio 2. Per incentivare la clientela, AllMart usa anche un sistema di raccolta punti. La situazione al 31.12.2006 di un particolare punto vendita, relativamente ai punti raccolti da ciascun cliente, è schematizzata nella seguente tabella. punti per cliente numero clienti [0,100] 6255 (100,300] 3892 (300,600] 973 (600,1000] 834 oltre 1000 1946 (A) Rappresentare graficamente la distribuzione della variabile numero di punti raccolti per cliente. (B) Ricavare una misura di tendenza centrale e una misura di variabilità della variabile numero di punti per cliente. Esercizio 3. AllMart gestisce anche una propria carta di credito, utilizzabile anche in altri punti vendita esattamente come una comune carta di credito. AllMart ritiene che nonostante le condizioni piuttosto vantaggiose i clienti non la usino a sufficienza. A titolo di esperimento, ha selezionato un campione casuale di utenti 2005, offrendo a ognuno di loro di togliere la commissione annuale 2006 se in tale anno avessero superato i 2000 euro di utilizzo. I dati campionari sull’utilizzo della carta sono sono stati elaborati come schematizzato in tabella (valori monetari in euro; dev. st. = radice quadrata della varianza campionaria corretta). dimensione 141 media (del 2005) 1648 media (del 2006) 1744 media (della differenza 2006 − 2005) 96 dev. st. (del 2005) 380 dev. st. (del 2006) 435 dev. st. (della differenza 2006 − 2005) 450 (A) Mediante un opportuno test delle ipotesi, verificare se il provvedimento fa incrementare in modo significativo l’utilizzo medio della carta. (α = 0.01) (B) Sfruttando le informazioni a disposizione, indicare quanto dovrebbe essere grande il campione per ottenere un intervallo di confidenza per il parametro d’interesse di ampiezza 0.69 al livello di confidenza 1 − α = 0.9. Esercizio 4. Sia X ∼ N (µ, σ = 17). L’obiettivo è stimare µ: a questo scopo si raccomanda di utilizzare un buon stimatore. (A) È stato estratto un campione di dimensione n = 7. Calcolare la probabilità di commettere un errore di stima, in valore assoluto, superiore a 8.2. (B) È possibile effettuare lo stesso calcolo di cui al punto precedente, magari in via approssimata, rimuovendo l’assunzione di normalità della variabile X? Argomentare la risposta. 154 78.2 Soluzioni Esercizio 1. Assunzioni: modello lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), dove Y = variazione % volumi, X = sconto % medio. (A) Esiste una relazione significativa se β1 è diverso da 0. Quindi test di H0 : β1 = 0 contro H1 : β1 6= 0. Variabile test βb1 , con la seguente distribuzione campionaria: (βb1 − β1 )/b σ (βb1 ) ∼ T (n − 2). Sotto H0 : b b (β1 − 0)|H0 /b σ (β1 ) ∼ T (n − 2). Per α = 0.05 e n − 2 = 3 la regione di accettazione è [−3.1824, 3.1824], mentre il valore campionario della statistica test sotto H0 è (βb1 − 0)/b σ (βb1 ) = 4.608014. (B) Stima puntuale e per intervallo di E(y|x0 ), che per brevità indicheremo con θ. Stimatore puntuale: b con distribuzione campionaria θb = βb0 + βb1 x0 ; stima puntuale βb0 + βb1 x0 = 11.96153. Pivot: [θb − θ]/b σ (θ) T (n − 2); intervallo di confidenza al 95%: [6.8031, 17.1100], dove per α = 0.1 e n − 2 = 5 si ha t = 2.3534. Calcoli e valori utili offerta1 offerta2 xi 34 34 yi 23 23 x2i 1156 1156 yi2 529 529 xi yi 782 782 offerta3 11 -5 121 25 -55 offerta4 22 17 484 289 374 offerta5 14 7 196 49 98 Somma 115 65 3113 1421 1981 Pn 2 2 2 da cui: nP= 5, x = 115/5 = 23, y = 65/5 = 13, dev(x) = i=1 xi − nx = 3113 − 5 ∗ 23 = 468, P n n 2 2 2 dev(y) = i=1 yi − ny = 1421 − 5 ∗ 13 = 576, cod(x, y) = i=1 xi yi − nxy = 1981 − 5 ∗ 23 ∗ 13 = 486, b2 = βb1 = cod(x, y)/dev(x) = 486/468 = 1.038462, βb0 = y − βb1 x = 13 − 1.038462 ∗ 23 = −10.88463 σ √ 2 2 (dev(y) − βb1 dev(x))/(n − 2) = (576 − 1.038462 ∗ 468)/(5 − 2) = 23.76908, σ b = 23.76908 = 4.875354, p √ b b b σ b ( β1 ) = σ b/ dev(x) = 4.875354/ 468 = 0.22536, (β1 − 0)/b σ (β1 ) = 1.038462/0.22536 = 4.608014, b =σ θb = βb0 + βb1 x0 = −10.88463 + 1.038462 ∗ 22 = 11.96153, σ b2 (θ) b2 (1/n + (x0 − x)2 /dev(x)) = 23.76908 ∗ √ 2 b (1/5 + (22 − 23) /468) = 4.804605, σ b(θ) = 4.804605 = 2.19194. Esercizio 2. (A) Istogramma, da costruire in base ai dati della tabella seguente (N.B.: la classe > 1000 è stata chiusa a 2500 punti). (B) Indice di tendenza centrale: M e = 100 + (6950 − 6255)/19.4600 = 135.71. Indice di variabilità: ∆Q = Q3 − Q1 = 385.72 − 55.56 = 330.16, dove Q1 = 0 + 3475/62.5500 = 55.56, Q3 = 300 + (10425 − 10147)/3.2433 = 385.72. classi freq ampiezza densità freq. cumulate [0,100] 6255 100 62.5500 6255 (100,300] 3892 200 19.4600 10147 (300,600] 973 300 3.2433 11120 (600,1000] 834 400 2.0850 11954 > 1000 1946 1500 1.2973 13900 Esercizio 3. Test per dati appaiati (il campione è lo stesso nei due anni). Notazione e assunzioni: 2 D = utilizzo2006 − utilizzo2005 ∼ N (µD , σD ). √ (A) Ipotesi: H0 : µD = 0 contro H1 : µD > 0. Statistica test (sotto H0 ): (D − 0)/(SD / n), la cui distribuzione sotto H0 è T (n − 1). Regione di rifiuto per √ 140: (2.3533, ∞); valore √ α = 0.01 e n − 1 = campionario della statistica test sotto H0 : (d − 0)/(sD / n) = (96 − 0)/(450/ 141) = 2.5332. (B) In base al valore di α = 0.9 si ha z = 1.645. Per σ si sfrutta quanto si conosce, ovvero la stima pari a 450. Quindi n = (2zσ/A)2 = (2 ∗ 1.645 ∗ 450/0.69)2 = 4603823. Esercizio 4. (A) Si stima µ mediante X, la cui distribuzione, nelle condizioni dell’esercizio, è N (µ, σ 2 /n = 41.2857). Allora P (|X − µ| > 8.2) = 1 − P (|X − µ| ≤ 8.2). Ma P (|X − µ| ≤ 8.2) = P (−8.2 ≤ X − µ ≤ 8.2) = 155 √ √ √ P (−8.2/ 41.2857 ≤ (X − µ)/(σ/ n) ≤ 8.2/ 41.2857) = P (−1.276 ≤ Z ≤ 1.276) = 0.79945, per cui la probabilità richiesta viene 0.20055. (B) No. Il campione ha dimensione troppo ridotta per poter utilizzare approssimazioni di sorta, tipo teorema del limite centrale. 156 79 79.1 Compito del 26.06.2007 (solo studenti PT) Testo Premessa: COWSTER è un sito web specializzato in software musicale creato da Jill Bates. Per usufruire dei servizi del sito è necessario iscriversi, ricevendo una login e una password di accesso. Esercizio 1. Per valutare a quale ritmo stanno procedendo le nuove iscrizioni al sito, nel primo trimestre 2007 COWSTER ha raccolto il campione casuale semplice sintetizzato nella tabella che segue. La variabile rilevata è X = ’numero di nuove iscrizioni al secondo’ (nell’orario di maggior traffico in rete). Nuove iscrizioni al secondo Frequenza 0 862 1 732 2 294 3 79 4 16 >4 0 (A) Rappresentare graficamente la distribuzione della variabile nel campione tenendo presente l’obiettivo di scegliere un opportuno modello probabilistico per la variabile X. (B) Limitando la scelta a Bernoulli, Poisson, Normale scegliere quello che vi sembra più adatto come modello probabilistico per X. In base alla scelta fatta e sfruttando i dati del campione spiegare i passi necessari per calcolare la probabilità e quindi frequenza assoluta teorica della classe > 4. Non effettuare i conti. Esercizio 2. Jill Bates aveva previsto che, nel primo trimestre 2007, il numero di nuove iscrizioni al secondo avrebbe superato, in media, 0.78. In base ai dati e al modello di cui all’esercizio 1: (A) La previsione di Jill Bates si è avverata? (α = 0.01). (B) Calcolare la potenza del test di cui al punto precedente in corrispondenza dell’ipotesi alternativa ’le nuove iscrizioni sono in media 0.84 al secondo’. Esercizio 3. COWSTER ha cercato di stimare se e in che misura il numero di nuovi iscritti alla settimana (espresso in logaritmo naturale) è legato al numero di contenuti (programmi, files, forums, etc.) messi a disposizione degli utenti. La stima dei coefficienti del modello di regressione lineare semplice formulato ha fornito le stime riportate in tabella (s.e. = standard error): dimensione campione 202 βb0 9.5833 s.e.(βb0 ) 0.6886 βb1 0.0647 s.e.(βb1 ) 0.0326 σ b2 15.1557 s.e.(b σ2 ) 1.5156 (A) In base ai dati della tabella, il numero di nuovi iscritti è legato in modo significativo al numero di contenuti? Rispondere calcolando il p-value. (B) Determinare l’intervallo di confidenza per σ al livello di confidenza 0.01. Esercizio 4. Si assuma che il numero di nuovi iscritti al secondo X sia distribuito secondo una P o(λ = 0.64) e che il numero di nuovi iscritti in intervalli di tempo disgiunti siano indipendenti. (A) Specificare la distribuzione (ivi compreso il valore dei parametri) del numero di nuovi iscritti in un intervallo di tempo di un minuto. Motivare la risposta in base alla teoria. (B) Calcolare la probabilità che in un minuto vengano effettuate almeno 34 nuove iscrizioni. 79.2 Soluzioni Esercizio 1 (A) Rappresentazione grafica della distribuzione della variabile X nel campione: diagramma ’a spaghetti’ delle frequenze relative, da costruire in base alle elaborazioni seguenti (righe xi ed fi ). xi = Nuove iscrizioni al secondo ni = Frequenza fi = Frequenza relativa xi ni 0 862 0.4347 0 1 732 0.3691 732 157 2 294 0.1483 588 3 79 0.0398 237 4 16 0.0081 64 >4 0 0 0 Totale 1983 1 1621 (B) Fra le tre alternative l’unica ragionevole appare X ∼ P o(λ). Allora frequenza teorica(X > 4) = N ∗ P (X > 4), dove P (X > 4) = 1 − P (X ≤ 4) = 1 − [P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3) + P (X = 4)]. Ciascuna di queste probabilità può essere calcolata tramite la funzione dei massa della Poisson, f (x) = λx exp(λ)/x!, sostituendo a λ la stima (che può essere ricavata dal campione come x = 1621/1963 = 0.81745) e ad x, di volta in volta, i valori da 0 a 4. Risultato finale (non richiesto) P (X > 4) = 1983 ∗ 0.001549849 = 3.07335, che può essere arrotondato a 3. Esercizio 2 Notazione e assunzioni: X ∼ P o(λ). (A) Test di H0 : λ = 0.78 contro H1 : λ > 0.78. Per comodità indichiamo 0.78 = λ0 . Variabile test X chepnelle condizioni dell’esercizio ha distribuzione approssimativamente N (λ, λ/n). Sotto H0 : (X − λ0 )/ λ0 /n ≈ N (0, 1). Per α = 0.01 la regione rifiuto è (zcrit = 2.326, ∞), mentre il valore della statistica test (sotto H0 ) nel campione è zcamp = 1.8882. I risultati campionari non sembrano pertanto sufficienti a dare ragione a Bates. (B) Calcolo potenza in corrispondenzapdi H1 : λ = 0.84. Per comodità indichiamo 0.84 = λ1 . γ = p + z λ /n|H P (campione ∈ R|H1 ) = P ([X − λ0 ]/ λ0 /n > zcrit |H1 ) = P (X > λp 0 crit 0 1 ) = P (X > 0.82614|H1 ). Sotto H1 abbiamo che, (X − λ1 )/ λ1 /n ≈ N (0, 1), per cui γ = p approssimativamente, p P (X > 0.82614|H1 ) = P ([X − λ1 ]/ λ1 /n > (0.82614 − λ1 )/ λ1 /n|H1 ) = P (Z > −0.67351) = 0.74969. p p √ Calcoli e valori utili: x = 1621/1963 = 0.81745, λ0 /n = 0.000393343 = 0.019832887, λ1 /n = √ 0.000423601 = 0.02058156. Esercizio 3. Assunzioni: Modello lineare: yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), dove X = ’indicatore numero di contenuti’, Y = ln(n. nuovi iscritti). (A) Test di H0 : β1 = 0 contro H0 : β1 6= 0 Statistica test βb1 la cui distribuzione è in generale data da (βb1 − β1 )/b σ (βb1 ) ∼ T (n − 2), mentre sotto H0 (βb1 − 0)/b σ (βb1 )|H0 ∼ T (n − 2). Per n = 202 i gradi di libertà della T sono 200, valore per cui possiamo approssimarla con una N (0, 1) nei calcoli. p − value = 2P (βb1 > |0.0647||H0 ) = 2P ([βb1 − 0]/b σ (βb1 )/1.98467|H0 ) = 2P (Z > 1.98467) = 0.04718, significativo per α = 0.05, non significativo per α = 0.01. Il conto con la T (200) avrebbe dato p − value = 0.04855. (B) Pivot per σ 2 : (n − 2)b σ 2 /σ 2 distribuito χ2 (n − 2). Intervallo per σ 2 : [(n − 2)b σ 2 /c2 , (n − 2)b σ 2 /c1 ] = [11.875, 19.910], dove n = 202, σ b2 = 15.1557, c1 = 152.241, c2 = 255.264 (α = 0.01). Intervallo per σ: [3.446, 4.462]. Esercizio 4. Assunzioni: X = ’n. iscritti in 1 secondo’ ∼ P o(λX = 0.64). (A) Y = ’n. iscritti in 1 minuto’ ∼ P o(λY = 60 ∗ 0.64 = 38.4) per la proprietà di additività della Poisson, dato che Y è la somma di 60 v.c. Xi ∼ P o(0.64) indipendenti. (B) È possibile effettuare il calcolo utilizzando l’approssimazione normale P o(38.4) ≈ N√(38.4, 38.4), dato √ che λY è sufficientemente elevato. P (Y ≥ 34) = P ([Y − 38.4]/ 38.4 ≥ [34 − 38.4]/ 38.4) = P (Z ≥ −0.71) = 0.76116. 158 80 80.1 Compito del 10.07.2007 (solo studenti PT) Testo Premessa: SCAMS è un’impresa di cosmetici e affini. Esercizio 1. SCAMS sta attualmente testando un nuovo principio antirughe, siglato PJ11, frutto della sua attività di ricerca. Nel comparare la sua allergenicità con quella della molecola attualmente in commercio, su due distinti campioni casuali semplici di modelli animali, ha ricavato i seguenti risultati (l’unità di misura è omessa). Molecola PJ11 Attuale Numero osservazioni 26 26 Media 30.12 34.48 Varianza corretta 9.53 18.68 Assumendo che la misura di allergenicità utilizzata si distribuisca in modo normale: (A) Sottoporre a test se l’allergenicità presenta la stessa variabilità nelle due molecole (α = 0.01). (B) Il risultato del test ha conseguenze sul procedimento di test per la differenza fra le allergenicità medie delle due molecole? Quali e perché? Spiegare adeguatamente. Esercizio 2. Si risponda alle seguenti domande a prescindere dal risultato dell’esercizio precedente: (A) È possibile stabilire se la nuova molecola presenta un livello di allergenicità inferire a quella attualmente in commercio? (α = 0.05). (B) Assumendo che la deviazione standard sia la stessa per entrambe le molecole, se ne effettui una stima per intervallo (1 − α = 0.95). Esercizio 3. Lo studio della PJ11 è stato motivato dai problemi che l’attuale molecola sembra aver causato in connessione con l’esposizione solare. Per saggiare se questo è vero i laboratori SCAMS hanno effettuato un esperimento che ha dato i risultati riportati in tabella. Esposizione al sole (ore) Misura allergenicità 0.5 17.3 1 16.4 1.5 12.3 2 20.2 2.5 18.5 3 22.7 (A) In base ai dati della tabella, è possibile stabilire se il livello di allergenicità è veramente legato alla durata dell’esposizione solare? (α = 0.1) (B) Quanta parte della variabilità del livello di allergenicità è ’spiegata’ dalla durata dell’esposizione al sole? Esercizio 4. I ricercatori SCAMS hanno letto uno studio in base al quale, in generale, l’ipersensibilità verso questo tipo di prodotti risulta maggiore per i soggetti di pelle chiara. Dallo studio emerge che la probabilità che un soggetto sia ipersensibile al prodotto è del 12.5% per le persone di pelle chiara e il 4.4% per le altre. Per una popolazione di riferimento composta per il 30.9% con pelle chiara: (A) Calcolare la probabilità che un soggetto preso a caso nella popolazione manifesti ipersensibilità verso il prodotto. (B) Calcolare la probabilità che su 10 soggetti presi casualmente, ci sia più di 1 soggetto ipersensibile. 80.2 Soluzioni Esercizio 1. Notazione e assunzioni: X1 =’misura allergenicità della PJ11’, X2 =’misura allergenicità di quella venduta attualmente’; X1 ∼ N (µ1 , σ12 ), X2 ∼ N (µ2 , σ22 ); i due campioni casuali estratti sono indipendenti. (A) Test di H0 : σ12 /σ22 = 1 contro H1 : σ12 /σ22 6= 1. Variabile test: S12 /S12 σ22 /σ12 . Sotto H0 : S12 /S12 |H0 ∼ F (n1 − 1, n2 − 1). Regione accettazione: [0.3451, 2.8981]. Valore campionario della statistica test sotto H0 : 0.51017. (B) In termini generali, l’accettazione dell’ipotesi di uguaglianza fra le due varianze permette di assumere, nel test sulla differenza fra le medie, che le varianze di X1 ed X2 sono uguali, ovvero σ12 = σ22 . 159 Ciò è importante perché le dimensioni dei due campioni non sono sufficienti a poter utilizzare il test, basato sull’approssimazione normale ma che richiede n1 ed n2 sufficientemente elevati, che non richiede l’assunzione dell’uguaglianza delle varianze. Si fa comunque notare che, per quanto riguarda il caso in oggetto in cui n1 = n2 , il valore della statistica test è identico nei due test, dato che n1 = n2 implica 2 Spooled (1/n1 + 1/n2 ) = S12 /n1 + S22 /n2 (verificare da soli scrivendo le formule, assumendo n1 = n2 e facendo le opportune semplificazioni). Esercizio 2 Notazione e assunzioni: identiche a quelle dell’esercizio 1 con l’aggiunta di σ12 = σ22 . p (A) Test di H0 : µ1 −µ2 = 0 contro p H1 : µ1 −µ2 < 0. Variabile test (X 1 −X 2 )−(µ1 −µ2 )/(Spooled 1/n1 + 1/n2 ). Sotto H0 : (X 1 − X 2 ) − 0/(Spooled 1/n1 + 1/n2 )|H0 ∼ T (n1 + n2 − 2). Regione rifiuto: (−∞, −1.6759). Valore campionario della statistica test sotto H0 : -4.18573. Il PJ11 appare mediamente meno allergenico del principio attivo attualmente in commercio. (B) Intervallo di confidenza per il σ comune ad entrambe le variabili casuali. Pivot per σ 2 : (n1 + 2 n2 − 2)Spooled /σ 2 che ha distribuzione χ2 (n1 + n2 − 2). Intervallo di confidenza per σ 2 : [(n1 + n2 − 2 2)spooled /c2 , (n1 +n2 −2)s2pooled /c1 ] = [9.87466, 21.79566]. Intervallo di confidenza per σ: [3.14240, 4.66858]. Calcoli e valori utili per gli esercizi 1 e 2: n1 = n2 = 26, s21 = 9.53, s22 = 18.68, s2pooled = s21 /n1 + s22 /n2 = p √ 14.105, spooled = 3.75566, spooled 1/n1 + 1/n2 = 1.085 = 1.04163, c1 = 32.3574, c2 = 71.4202. Esercizio 3. Assunzioni: Modello lineare: yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), dove X = ’h. di esposizione al sole’, Y =misura di allergenicità. (A) Test di H0 : β1 = 0 contro H0 : β1 6= 0. Variabile test (βb1 − β1 )/b σ (βb1 ). Sotto H0 (βb1 − 0)/b σ (βb1 )|H0 ∼ T (n − 2). Regione accettazione: [−2.1318, 2.1318]. Valore campionario della statistica test sotto H0 : 1.5891. L’esposizione solare sembra effettivamente accrescere il grado di allergenicità ma non in misura significativa (probabilmente per l’esigua dimensione del campione). (B) L’indice R2 fornisce quanto richiesto. Nella regressione semplice può essere calcolato come ρ2 = 0.622092 = 0.38700 Calcoli e valori utili: Somma xi 0.5 1 1.5 2 2.5 3 10.5 yi 17.3 16.4 12.3 20 18.5 22.7 107.4 x2i 0.25 1 2.25 4 6.25 9 22.75 yi2 299.29 268.96 151.29 408 342.25 515.29 1985.12 xi yi 8.65 16.4 18.45 40 46.25 68.1 198.25 Pn 2 da cui: x P = 10.5/6 = 1.75, y = 107.4/6 = 17.9, dev(x) = i=1 x2i − nx = 22.75 − 6 ∗ 1.752 = 4.375, P n n 2 dev(y) = i=1 yi2 − ny = 1985.12 − 6 ∗ 17.92 = 62.66, cod(x, y) = i=1 xi yi − nxy = 198.25 − 6 ∗ 1.75 ∗ 17.9 = 10.3; βb1 = codev(x, y)/dev(x) = 2.35429, σ b2 = [dev(y) − β12 dev(x)]/(n − 2) = 9.60271, q p √ b2 /dev(x) = 2.19491 = 1.48152, ρ = cod(x, y)/ dev(x)dev(y) = 0.62209. σ b(βb1 ) = σ Esercizio 4. (A) A =’pelle chiara’; B =’manifesta ipersensibilità’. P (B) = P (B|A)P (A) + P (B|A)P (A) = 0.125 ∗ 0.309 + 0.044 ∗ 0.691 = 0.069029. (B) X =’numero ipersensibili su 10 persone estratte a caso’ ∼ Bi(n = 10, p = 0.069029). P (X > 1) = 1 − P (X ≤ 1) = 1 − [P (X = 0) + P (X = 1)] = 1 − (0.489059 + 0.362624) = 0.148316 160 81 81.1 Compito del 07.09.2007 (solo studenti PT) Testo Premessa: Un gruppo di ricerca ha condotto uno studio su un piccolo campione di società del settore orafo in collaborazione con una sede provinciale di un’associazione nazionale di imprese. Esercizio 1. Uno degli obiettivi dello studio è stato quello di investigare l’eventuale relazione fra performances reddituali (misurate mediante l’indicatore M ON/RICAV I espresso in percentuale) e la propensione ad innovare (misurata attraverso un indicatore elaborato sulla base delle risposte ad un questionario). La tabella riporta alcune statistiche ricavate da tale elaborazione (P ERF sta per performances reddituali; IN N sta per propensione ad innovare). n 16 media(P ERF ) 7.4 dev.st(P ERF ) 9 media(IN N ) 5.7 dev.st(IN N ) 1.5 correlazione(P ERF, IN N ) 0.313 Formulare un opportuno modello statistico e rispondere alle seguenti domande: (A) La propensione ad innovare tende a far incrementare in modo significativo le performances reddituali? (α = 0.02). (B) Costruire l’intervallo di confidenza al 99% per la deviazione standard dei residui del modello. Esercizio 2. Un’altra analisi a mirato a verificare l’eventuale relazione delle performances con il ruolo dell’imprenditore. Il campione è stato diviso in due gruppi: uno costituito dalle imprese in cui l’imprenditore è anche colui che dirige l’impresa in modo esclusivo; le altre, in cui la direzione dell’impresa è affidata, completamente o parzialmente, ad altri. La tabella seguente riporta alcune statistiche. Gruppo imprese con imprenditore dirigente altre imprese numero 7 9 media(P ERF ) 18 16.6 p varianza corretta(P ERF ) 12.01 7.79 (A) I due gruppi differiscono in quanto a redditività media? (α = 0.05). (B) Il test precedente si basa su una determinata assunzione circa le varianze. Specificare quale e sottoporre a verifica tale ipotesi (α = 0.1). Esercizio 3. Per cercare di interpretare lo studio effettuato in un contesto più generale, gli autori hanno elaborato i dati di bilancio delle imprese orafe presenti nel database AIDA ottenendo la seguente distribuzione dell’indicatore M ON/RICAV I: M ON/RICAV I % (classi) Frequenza <0 20 [0, 10) 50 [10, 15) 44 [15, 20) 50 [20, 30) 56 ≥ 30 10 (A) Ricavare dalla tabella un indice di variabilità. (B) Assumendo densità costante all’interno di ciascuna classe, ricavare la percentuale di imprese con indicatore superiore a 22. Esercizio 4. Si consideri una popolazione composta da 4 unità statistiche aventi modalità, rispettivamente, 3, 6, 9, 60 di una variabile X. Supponendo di estrarre campioni senza reimmissione di dimensione 3: (A) Costruire la distribuzione della media e della mediana campionaria. (B) Come stimatore della media di X, quale delle sue statistiche di cui sopra è più efficiente? Motivare la risposta. 81.2 Soluzioni Esercizio 1. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui Y = P ERF , X = IN N . 161 (A)pIpotesi: H0 : β1 = 0 contro H1 : β1 > 0. Statistica test (sotto H0 ): (βb1 − 0)/se(βb1 ), dove se(βb1 ) = σ b/ dev(x), la cui distribuzione sotto H0 è T (n − 2). Valore campionario della statistica test (sotto H0 ): 1.2331. Regione di rifiuto: (2.2638, ∞). (B) Pivot per σ 2 : (n−2)b σ 2 /σ 2 con distribuzione χ2 (n−2). Intervallo per σ 2 al 0.01%: [37.3262, 286.9019]. Corrispondente intervallo per σ: [6.1095, 16.9382]. Valori e calcoli utili: n = 16, gl = (n − 2) = 14, dev(x) = nV ar(x) = 36, dev(y) = nV ar(y) = q 1296, codev(x, y) = corr(x, y) dev(x)dev(y) = 67.608, βb1 = codev(x, y)/dev(x) = 1.878, se(βb1 ) = p σ b/ dev(x) = 1.523, σ b2 = (dev(y) − βb2 dev(x))/(n − 2) = 83.502; c1 = 4.075, c2 = 31.319. 1 Esercizio 2 Assunzioni: X1 = ’performances imprese con imprenditore dirigente’ ∼ N (µ1 , σ12 ); X2 = ’performances altre imprese’ ∼ N (µ2 , σ22 ); X1 , X2 indipendenti. (A) Ipotesi: H0 : µ1 −µ2 = 0 contro H1 : µ1 −µ2 6= 0. Essendo i due campioni di dimensione p relativamente esigua, si assume σ12 = σ22 , e si utilizza la statistica test (sotto H0 ): [(X 1 − X 2 ) − 0]/(Sp 1/n1 + 1/n2 ), la cui distribuzione sotto H0 è T (n1 + n2 − 2), dove Sp2 = (S12 n1 + S22 n2 )/(n2 + n1 ) è la stima pooled delle due varianze assunte uguali. Valore campionario della statistica test (sotto H0 ): 0.2817. Regione di accettazione: (−2.1448, 2.1448). (B) Come detto, il test di cui sopra si basa sull’assunzione σ12 = σ22 . Si vuole sottoporla a test. Ipotesi: H0 : σ12 /σ22 = 1 contro H1 : σ12 /σ22 6= 1. Statistica test (sotto H0 ): S12 /S22 , la cui distribuzione sotto H0 è F (n1 − 1, n2 − 1). Valore campionario della statistica test (sotto H0 ): 2.3769. Regione di accettazione: (0.2411, 3.5806). Calcoli e valori utili: x1 = 18, x2 = 16.6, s21 = 144.2401, s22 = 60.6841, s2p = (S12 (n1 − 1) + S22 (n2 − p 1))/(n2 + n1 − 2) = 97.2398, sp 1/n1 + 1/n2 = 4.9695. Esercizio 3 (A) L’indice di variabilità più semplice da ricavare è lo scarto interquartile. Q1 = 7.5, Q3 = 21.518 implicano Q3 − Q1 = 14.018. (B) Dalle frequenze cumulate si ricava che 22, lascia alla sua sinistra il 76.2% della frequenza complessiva e quindi il 23.8% alla sua destra Esercizio 4 (A) Si fa la lista dei campioni senza reimmissione che si possono ottenere; per ciascuno si calcolano le statistiche d’interesse (nel mostro caso media e mediana). Tabulando si ottengono le seguenti distribuzioni campionarie: media campionaria mediana campionaria valori 6 23 24 25 valori 6 9 prob 0.25 0.25 0.25 0.25 prob 0.5 0.5 (B) Per stabilire quale dei due è più efficiente per stimare E(X) = 19.5, occorre calcolare e comparare il loro MSE. Usando il prospetto di calcolo che segue (riferito a mediana, ma un procedimento analogo può essere usato per media) si ottiene M SE(media) = 61.25, M SE(mediana) = 146.25. x 6 9 Somma f (x) 0.5 0.5 1 xf (x) 3 4.5 7.5 x2 f (x) 18 40.5 58.5 bias(mediana) = E(mediana) − 19.5 = −12, V (mediana) = E(mediana2 ) − E(mediana)2 = 2.25, da cui M SE(mediana) = V (mediana) + bias(mediana)2 = 146.25. 162 82 Compito del 19.12.2007 (solo studenti PT) 82.1 Testo Premessa: PINGUIN è una multinazionale che commercializza audio e video via web. Da alcuni mesi è entrata nel mercato italiano mediante un’alleanza strategica con TELECOM ITALIA. Esercizio 1. Una delle preoccupazioni principali del management è la diffusa pratica di scaricare illegalmente musica e film. Sfruttando l’alleanza con TELECOM ITALIA, la PINGUIN sta cercando di capire se una legge approvata di recente (finalizzata a reprimere in modo incisivo tale pratica) ha effettivamente ridotto il download illegale. Su un campione casuale di 238 servers dedicati ad internet, TELECOM ITALIA ha confrontato i volumi di traffico con una serie di siti ritenuti potenziali fonti di materiale illegale, 3 mesi prima e 3 mesi dopo l’entrata in vigore della legge, ottenendo le statistiche riportate in tabella (dev. st. denota la radice quadrata della varianza campionaria corretta; l’unità di misura è omessa). media prima 1371.5 media dopo 1279.6 media della differenza dopo - prima -91.9 dev. st. prima 727.8 dev. st. dopo 746.1 dev. st. della differenza dopo - prima 614.7 (A) La nuova legge ha diminuito in misura significativa il livello medio verso i siti ritenuti potenziali fonti di materiale illegale? (α = 0.02). (B) Calcolare la potenza del test di cui al punto precedente in corrispondenza dell’ipotesi alternativa in base alla quale il livello medio è variato di −89 (si assuma che le varianze del campione coincidano con quelle della intera popolazione). Esercizio 2. I server italiani della PINGUIN sono in ogni momento sottoposti ad un certo lavoro. Per monitorare la situazione, i suoi tecnici utilizzano un indice di carico, indicato con W (weight). Alcuni dati raccolti nelle fasce di maggior traffico (serale e fine settimana) sono riportati nella seguente tabella. W (classi) Frequenza % < 10 13.2 [10, 40) 19.8 [40, 60) 21 [60, 80) 20.4 [80, 110) 19.8 ≥ 110 5.8 (A) Calcolare mediana e scarto interquartile di W . (B) Si assuma ora che il W abbia una distribuzione normale avente mediana a scarto interquartile pari a quelli appena calcolati. Quanto valgono i parametri della distribuzione di W ? Esercizio 3. Il management della PINGUIN tiene continuamente sotto controllo i propri conti, per adesso in perdita. La struttura dei costi è sostanzialmente sotto controllo: per arrivare agli utili ci sarebbe però bisogno di aumentare i ricavi. Variabile ricavi (milioni euro) utile (milioni euro) trim. 1 70 -10.8 trim. 2 73 -5.5 trim. 3 74 -8.9 trim. 4 96 -6.6 trim. 5 108 -8 (A) Formulare un opportuno modello che colleghi gli utili ai volumi fatturati e stimarne i parametri. (B) In base al modello stimato, a quale livello dei ricavi si colloca il punto di pareggio dei conti? (C) Si valuta che il prossimo trimestre i ricavi saliranno del 8.7% rispetto all’ultima rilevazione trimestrale. Calcolarne il valore e costruire il corrispondente intervallo di stima per l’utile (1 − α = 0.9). (D) Quanta parte della variabilità dell’utile riesce a spiegare il modello costruito? 82.2 Soluzioni Esercizio 1. Test per dati appaiati (il campione è lo stesso nei due periodi considerati). Notazione 2 e assunzioni: D = dopo − prima ∼ (µD , σD ). Data l’elevata dimensione campionaria, per effetto del teorema del limite centrale non è necessario assumere la normalità di D. √ (A) Ipotesi: H0 : µD = 0 contro H1 : µD < 0. Statistica test (sotto H0 ): (D − 0)/(SD / n), la cui distribuzione sotto H0 è approssimabile con una N (0, 1). Regione di rifiuto per α = 0.02: (−∞, −2.0537); valore campionario della statistica test sotto H0 : −2.3064. 163 √ Valori utili: d = −91.9, sD = 614.7, n = 238, sD / n = 39.8451. (B) Calcolo potenza per H1 : µD = −89, α di cui sopra e σD = sD = 614.7. La regione R è quella costruita √ sopra. Indichiamo il valore critico con z0 , il valore di µD sotto H1 con µD1 , e lo standard error σD / n con se. γ = P (campione ∈ R|H1 ) = P [(D − 0)/se < z0 |H1 ] = P [D < z0 se|H1 ] = P [(D − µD1 )/se < (z0 se − µD1 )/se|H1 ] = P [Z < z0 − µD1 /se|H1 ] = P (Z < 0.18|H1 ) = 0.5714 Esercizio 2. (A) Indice di tendenza centrale: M e = 56.19. Indice di variabilità: ∆Q = Q3 − Q1 = 53.03. Calcoli: M e = 40 + (50 − 33)/1.05 = 56.19. Q1 = 10 + (25 − 13.2)/0.66 = 27.879, Q3 = 80 + (75 − 74.4)/0.66 = 80.909. classe frequenza % ampiezza densità freq. % cumulata < 10 13.2 13.2 [10, 40) 19.8 30 0.66 33 [40, 60) 21 20 1.05 54 [60, 80) 20.4 20 1.02 74.4 [80, 110) 19.8 30 0.66 94.2 ≥ 110 5.8 100 (B) Si assume X ∼ N (µ, σ), dove X ha M e e ∆Q pari a quelli calcolati sopra. Per come è definito, un qualsiasi quantile α-esimo, indichiamolo con x(α), deve soddisfare α = P [X ≤ x(α)]. Essendo X normale abbiamo α = P [X ≤ x(α)] = P [(X − µ)/σ ≤ (x(α) − µ)/σ] = P [Z ≤ z(α)] cosicché z(α) si trova dalle tavole e si ottiene la relazione (x(α) − µ)/σ = z(α). Quindi: per la mediana M e = x(0.5) = µ + σz(0.5); per lo scarto interquartile ∆Q = x(0.75) − x(0.25) = µ + σz(0.75) − [µ + σz(0.25)] = σ[z(0.75) − z(0.25)]. Sostituendo i valori di M e, ∆Q , z(0.25) = −0.674, z(0.5) = 0, z(0.75) = 0.674 si ottiene µ = M e = 56.19, σ = ∆Q/[z(0.75) − z(0.25)] = 39.311. Esercizio 3. Assunzioni: modello lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), dove X = ricavi, Y = utili. b2 = (dev(y) − βb12 dev(x))/(n − 2) = (A) βb1 = codev(x, y)/dev(x) = 0.033, βb0 = y − βb1 x = −10.7346, σ 5.2059, (B) Il punto di pareggio corrisponde al punto in cui utile = 0. Impostando 0 = βb0 + βb1 x si ottiene x = −βb0 /βb1 = 325.7624. (C) Intervallo di stima per y in corrispondenza di x0 = 108 ∗ (1 + 8.7%) = 117.396. Pivot: [b y0 − y0 ]/b σ (b y0 ) con distribuzione campionaria T (n − 2); intervallo di confidenza al 95%: [b y0 − tb σ (b y0 ), yb0 + tb σ (b y0 )] = [−14.77, 1.04], dove per α = 0.1 e n − 2 = 3 si ha t = 2.3534. (D) R2 = ρ2 = codev(x, y)/[dev(x)dev(y)] = 0.0732. Calcoli e valori utili trim. 1 trim. 2 trim. 3 trim. 4 trim. 5 Somma xi 70 73 74 96 108 421 yi -10.8 -5.5 -8.9 -6.6 -8 -39.8 x2i 4900 5329 5476 9216 11664 36585 yi2 116.64 30.25 79.21 43.56 64 333.66 xi yi -756 -401.5 -658.6 -633.6 -864 -3313.7 Pn Pn da cui: n = 5, x = 84.2, y = −7.96, dev(x) = i=1 x2i − nx2 = 1136.8, dev(y) = i=1 yi2 − ny 2 = 16.852, Pn codev(x, y) = i=1 xi yi − nxy = 37.46, σ b = 2.2816, yb0 = βb0 + βb1 x0 = −6.8661; Vb (b y0 ) = σ b2 [1 + 1/n + 2 (x − x0 ) ]/dev(x) = 11.2934, σ b(b y0 ) = 3.3606. 164 83 83.1 Compito del 16.01.2008 (solo studenti PT) Testo Premessa: DOMAC è una catena di supermercati che commercializza anche linee proprie di prodotti. Esercizio 1. In un supermercato DOMAC è stato svolto in test di gradimento su un particolare tipo di merendina (brioche). Dopo aver tolto le confezioni, gli addetti all’esecuzione del test hanno fatto assaggiare la brioche DOMAC e quella leader del mercato ad un campione casuale di consumatori, chiedendo a ciascuno di esprimere la propria preferenza per l’una o per l’altra: 68 hanno preferito la DOMAC, 88 quella leader. (A) La brioche DOMAC è giudicata significativamente migliore di quella leader? (α = 0.02) (B) Quanto vale la potenza del test costruito al punto precedente in corrispondenza dell’ipotesi alternativa ’la percentuale di coloro che preferiscono DOMAC è il 62%’ ? Esercizio 2. Il risultati del test di gradimento non hanno completamente soddisfatto i responsabili DOMAC: per questo il procedimento di realizzazione delle brioches è stato in parte modificato. In seguito a tale modifica è stato effettuato un test di gradimento analogo al precedente (su un campione casuale semplice differente) nel quale 80 hanno preferito la DOMAC, 70 quella leader. In che misura è cambiato il gradimento nei confronti della brioche DOMAC rispetto alla versione precedente? (A) Fornire stima puntuale e standard error della quantità d’interesse. (B) Il nuovo metodo ha apportato cambiamenti significativi, in termini di gradimento, rispetto al precedente? Rispondere mediante il p-value commentando il risultato. Esercizio 3. I responsabili DOMAC hanno in mente una nuova strategia mirata alla qualità. In tale ambito si vorrebbe incrementare la percentuale di burro rispetto agli altri grassi (è noto infatti che il burro, rispetto ad altri grassi presenti nei dolciumi, presenta una qualità complessivamente migliore). Ma i consumatori riescono effettivamente, al gusto, a percepire la differenza? È stato effettuato un piccolo esperimento, variando la percentuale di burro nell’impasto (a parità di grassi complessivi) e registrando il gradimento ottenuto in corrispondenza di ciascuna percentuale. Considerando il gradimento come variabile dipendente e la percentuale di burro come variabile indipendente, un tecnico ha stimato a partire dai dati un modello di regressione lineare semplice dal quale ha ricavato la seguente tabella. gradimento residui stimati 36 -0.6 40 2.1 30 -9.2 55 14.5 35 -6.8 Dopo aver formulato il modello utilizzato dal tecnico: (A) Fornire una stima per intervallo della deviazione standard dei residui (1 − α = 0.95). (B) Quanta parte della variabilità complessiva del gradimento è spiegata dal modello? Commentare. Esercizio 4. Una popolazione composta da N = 4 unità presenta le seguenti modalità della variabile quantitativa X: 6, 30, 33, 90. Assumendo di estrarre campioni casuali senza reimmissione di dimensione n = 3, rispondere alle seguenti domande: (a) Costruire la distribuzione campionaria della media e della mediana campionaria; (b) Quale dei due stimatori è pi efficiente per stimare la media di X? Motivare la risposta. 83.2 Soluzioni Esercizio 1. Notazione: X =’singolo consumatore preferisce DOMAC’ ∼ Be(p). (A) Ipotesi: p H0 : p = 0.5 contro H1 : p > 0.5. Indichiamo 0.5 con p0 . Statistica test (sotto H0 ): (b p − p0 )/ p0 q0 /n), la cui distribuzione sotto H0 è approssimabile con una N (0, 1). Regione di rifiuto per α = 0.02: (2.054, ∞); valore campionario della statistica test sotto H0 : −1.60128. (B) Calcolo potenza per H1 : p = 0.62, α di cui sopra. Indichiamo 0.62 con p1 . La regione R è quella p costruita sopra. Indichiamo il valore critico con z0 , lo standard error sotto H0 con s0 = p0 q0 /n, quello 165 p sotto H1 con s1 = p1 q1 /n. γ = P (campione ∈ R|H1 ) = P [(b p −p0 )/s0 > z0 |H1 ] = P [b p > p0 +z0 s0 |H1 ] = P [(b p − p1 )/s1 > (p0 + z0 s0 − pp )/s |H ] = P (Z > −0.972|H ) = 0.83448. 1 1 1 1 p √ √ Valori utili: pb = 0.4359, s0 = p0 q0 /n = 0.0016 = 0.04003, s1 = p1 q1 /n = 0.00151 = 0.03886. Esercizio 2. Notazione: X1 =’singolo consumatore preferiva DOMAC (vecchio tipo)’ ∼ Be(p1 ); X2 =’singolo consumatore preferisce DOMAC (nuovo tipo)’ ∼ Be(p2 ). La misura di quanto è cambiato il gradimento per DOMAC fra le due rilevazioni è p2 − p1 . (A) Stimatore puntuale: pb2 − pb1 , la cui distribuzione, nelle condizioni dell’esercizio, è approssimativamente N (p2 − p1 , p2 q2 /n2 + p1 q1 /n1 ). Stima puntuale: pb2 − pb1 = 0.09743; corrispondente standard error p pb2 qb2 /n2 + pb1 qb1 /n1 = 0.05688. (B)pIpotesi: H0 : p2 − p1 = 0 contro H1 : p2 − p1 6= 0. Statistica test (sotto H0 ): (b p2 − pb1 − 0)/ pbqb(1/n1 + 1/n2 ), la cui distribuzione sotto H è approssimabile con una N (0, 1) e p b indica la stima 0 p pooled di p sotto H0 . p-value = 2P ((b p2 − pb1 − 0)/ pbqb(1/n1 + 1/n2 ) > |zcamp ||H0 ) = 2P (Z > 1.70497) = 0.0882. p Valori utili: pb2 = 0.53333, se2 = pb2 qb2 /n2 +b p1 qb1 /n1 = 0.00324; pb = ppooled = 0.48366, pbqb(1/n1 + 1/n2 ) = √ 0.00327 = 0.05715. Esercizio 3. Assunzioni: modello lineare yi = β0 + β1 xi + ui , ui ∼ N (0, σ 2 ), dove X = percentuale burro, Y = indice di gradimento. (A) Stima per intervallo di σ. Pivot: σ b2 (n − 2)/σ 2 la cui distribuzione è χ2 (n − 2). Intervallo per σ 2 : [37.00097, 1602.90807]; intervallo per σ: [6.08284, 40.03633]. (B) Si deve calcolare l’indice R2 = dev(REGR)/dev(y) = 0.04658 e commentare. Calcoli e valori utili: Somma yi 36 40 30 55 35 196 u bi -0.6 2.1 -9.2 14.5 -6.8 0 yi2 1296 1600 900 3025 1225 8046 u b2i 0.36 4.41 84.64 210.25 46.24 345.9 Pn Pn 2 2 da cui: n = 5, y = 39.2, dev(y) = b2i = 345.9, σ b2 = i=1 yi − ny = 362.8, dev(RES) = i=1 u dev(RES)/(n − 2) = 115.3, dev(REGR) = dev(y) − dev(RES) = 16.9. Esercizio 4. (A) Lista campioni (n = 3) (6, 30, 33) (6, 30, 90) (6, 33, 90) (30, 33, 90) probabilità 0.25 0.25 0.25 0.25 media 23 42 43 51 mediana 30 30 33 33 da cui è possibile tabulare le distribuzioni della media e della mediana campionarie (tabella seguente). (B) Lo stimatore più efficiente è quello con MSE più piccolo. Dalle distribuzioni campionarie costruite è possibile ricavare il prospetto di calcolo per la media, il bias, la varianza e quindi l’MSE dei due stimatori. media mediana x 23 42 43 51 x 30 33 f (x) 0.25 0.25 0.25 0.25 1 f (x) 0.5 0.5 1 xf (x) 5.75 10.5 10.75 12.75 39.75 xf (x) 15 16.5 31.5 x2 f (x) 132.25 441 462.25 650.25 1685.75 x2 f (x) 450 544.5 994.5 µ = 39.75; E(media) = 39.75, bias(media) = 0, V (media) = 105.6875 M SE(media) = V (media) + bias(media)2 = 105.6875; E(mediana) = 31.5, bias(mediana) = −8.25, V (mediana) = 2.25 M SE(mediana) = V (mediana) + bias(mediana)2 = 70.3125. È più efficiente la mediana. 166 84 84.1 Compito del 30.01.2008 (solo studenti PT) Testo Premessa: SENA è una società che distribuisce energia elettrica. Esercizio 1. Uno dei piani tariffari proposti da SENA per la clientela domestica prevede un sistema di sconti sulla bolletta a seconda dei consumi. Tale sistema è riassunto nella seguente tabella (consumi a bimestre espressi in kw). fascia consumo (kw) < 270 [270, 330) [330, 360) ≥ 360 sconto (in euro) 0 2 4 8 Si assuma che il consumo si distribuisca secondo una normale con media 290 e deviazione standard 68. (A) Determinare la percentuale di clienti in ciascuna delle 4 fasce di consumo. (B) Valutare l’ammontare totale degli sconti concessi assumendo un bacino di 151000 clienti. Esercizio 2. Da circa 4 mesi SENA ha rivisto il proprio piano tariffario pubblicizzando che, mediamente, per i clienti non sarebbe cambiato niente. Molti cittadini hanno però protestato. Un’agenzia appositamente incaricata ha allora raccolto due campioni casuali indipendenti di bollette, uno precedente e l’altro successivo all’adeguamento tariffario, in modo da verificare se le cose stanno come dice SENA oppure se, come sostengono in molti, i costi sono mediamente √ aumentati. Statistiche dimensione media campionaria varianza corretta costi prima 101 66 28 costi dopo 121 71 41 (A) Chi ha ragione: SENA o chi protesta? Rispondere mediante il p-value commentando il risultato. (B) Relativamente alla variabilità dei costi, invece, c’è stato qualche cambiamento rispetto alla situazione precedente? (α = 0.1) Esercizio 3. Di recente si è verificata una serie di guasti. Per cercare di capirne le ragioni, l’ing. Marino ha bisogno del valore di un certo indicatore, Y , al momento del guasto. Tale indicatore è però di difficile rilevazione per cui sta facendo prove per vedere se è possibile ricavarlo, almeno con una certa approssimazione, da grandezze più facilmente misurabili. Utilizzando una di tali grandezze come variabile indipendente, l’ing. ha stimato un modello di regressione lineare semplice ricavando la seguente tabella: valori misurati di y valori stimati di y 144 123 133 144 132 164 192 185 226 206 222 227 (A) Quali parametri del modello è possibile stimare dai dati? Fornirne una stima per intervallo (1 − α = 0.95). (B) La variabile indipendente utilizzata riesce a spiegare bene la y? Fornire una misura e commentare il risultato. Esercizio 4. Da una variabile casuale X avente media µ e varianza σ 2 vengono estratti due campioni casuali semplici in modo completamente indipendente. Il primo campione ha dimensione n1 , mentre il secondo ha dimensione n2 con n1 < n2 . Per stimare µ ci sono in ballo 4 stimatori: X 1 , X 2 , (X 1 + X 2 )/2, (n1 X 1 + n2 X 2 )/(n1 + n2 ). (a) Quanto vale la distorsione di ciascuno dei 4 stimatori? (b) Fra i 4 stimatori qual è il più efficiente? Argomentare la risposta. 84.2 Soluzioni Esercizio 1. Notazione: X =’consumo a bimestre in kw’ ∼ N (µ = 290, σ = 68). (A) La percentuale di clienti in una singola fascia è in pratica la relativa probabilità moltiplicata per 100. Considerando una generica fascia di estremi [a, b] abbiamo P (a ≤ X ≤ b) = P [(a − µ)/σ ≤ (X − µ)/σ ≤ (b − µ)/σ) = P (z1 ≤ Z ≤ z2 ). Poiché conosciamo a, b, µ, σ è possibile calcolare z1 e z2 e completare il conto mediante uso delle tavole. 167 (B) Per ricavare il numero di clienti in ciascuna fascia occorre moltiplicare le probabilità calcolate sopra per il numero complessivo di clienti. Per ricavare lo sconto totale occorre moltiplicare lo sconti di ciascuna fascia per il relativo numero di clienti e sommare. fascia consumo (kw) sconto (in euro) probabilità % clienti n. clienti sconto totale < 270 0 0.38433 38.4 58034.4 0 [270, 330) 2 0.33748 33.7 50959.3 101918.6 [330, 360) 4 0.12654 12.7 19108.2 76432.6 ≥ 360 8 0.15164 15.2 22898.1 183184.9 Totale 1 100 151000 361536.1 Esercizio 2. Notazione: X1 =’costo vecchia bolletta’ ∼ N (µ1 , σ1 ); X2 =’costo nuova bolletta’ ∼ N (µ2 , σ2 ) con campioni indipendenti. p (A) Test di H0 : µ2 − µ1 = 0 contro H1 : µ2 − µ1 > 0. Statistica test: (X 2 − X 1 )/ S12 /n1 + S22 /n2 che sotto H0 e in base alla dimensione del campione si distribuisce, approssimativamente, come una p N (0, 1). Valore campionario della statistica test 1.07446, p-value = P ([X 2 − X 1 ]/ S12 /n1 + S22 /n2 > 1.07446|H0 ) = 0.14131. (B) Ipotesi: H0 : σ12 /σ22 = 1 contro H1 : σ12 /σ22 6= 1. Statistica test: S12 /S22 , la cui distribuzione sotto H0 è F (n1 − 1, n2 − 1). Valore campionario della statistica test 0.46639, da confrontare con la regione di accettazione [0.72689, 1.3685] (α = 0.1). p √ Valori utili: s21 = 784, s22 = 1681, s21 /n1 + s22 /n2 = 21.65494 = 4.65349. Esercizio 3. Assunzioni: modello lineare yi = β0 + β1 xi + ui , ui ∼ N (0, σ 2 ), dove X = variabile indipendente (quella di facile misura), Y = variabile dipendente (quella di difficile misura). (A) I dati a disposizione si riferiscono esclusivamente ad yi e ad ybi , per cui consentono solo di fare inferenza su σ. Infatti manca completamente (e non è neppure ricavabile) l’informazione campionaria sulla variabile indipendente. Pivot: σ b2 (n − 2)/σ 2 la cui distribuzione è χ2 (n − 2). Intervallo per σ 2 : [184.86467, 4252.52082]; intervallo per σ: [13.59649, 65.21135]. (1 − α = 0.95) (B) L’indice in questione è R2 = dev(REGR)/dev(y) = 0.78703 da commentare. Calcoli e valori utili: Somma yi 144 133 132 192 226 222 1049 ybi 123 144 164 185 206 227 1049 u bi 21 -11 -32 7 20 -5 0 yi2 20736 17689 17424 36864 51076 49284 193073 u b2i 441 121 1024 49 400 25 2060 Pn Pn da cui: n = 6, y = 174.83, dev(y) = i=1 yi2 − ny 2 = 9672.83, dev(RES) = i=1 u b2i = 2060, σ b2 = dev(RES)/(n − 2) = 515, dev(REGR) = dev(y) − dev(RES) = 7612.83. Esercizio 4. Notazione: X ∼ [µ, σ 2 ]. Si può rispondere ad entrambe le domande ricordando: che la media campionaria di un campione casuale semplice di dimensione n ha media µ e varianza σ 2 /n; le seguenti proprietà dei valori attesi E(c1 X1 + c2 X2 ) = c1 E(X1 ) + c2 E(X2 ), V (c1 X1 + c2 X2 ) = c21 V (X1 ) + c22 V (X2 ) (quest’ultima valida solo se X1 e X2 sono incorrelate; nel nostro caso lo sono in quanto i 2 campioni indipendenti). (A) Sono tutti stimatori corretti per cui il loro bias è 0. Infatti: i primi due sono medie campionarie, per cui E(X 1 ) = µ, E(X 2 ) = µ. E[(X 1 + X 2 )/2] = 1/2E(X 1 ) + 1/2E(X 2 ) = µ/2 + µ/2 = µ. E[(n1 X 1 +n2 X 2 )/(n1 +n2 )] = n1 /(n1 +n2 )E(X 1 )+n2 /(n1 +n2 )E(X 2 ) = n1 /(n1 +n2 )µ+n2 /(n1 +n2 )µ = µ. (B) Lo stimatore più efficiente è quello con MSE più piccolo. Essendo corretti l’MSE coincide con la varianza. I primi due sono medie campionarie, per cui V (X 1 ) = σ 2 /n1 , V (X 2 ) = σ 2 /n2 . 168 V [(X 1 + X 2 )/2] = 1/4V (X 1 ) + 1/4V (X 2 ) = 1/4σ 2 /n1 + 1/4σ 2 /n2 = σ 2 [1/n1 + 1/n2 ]/4. V [(n1 X 1 + n2 X 2 )/(n1 + n2 )] = [n1 /(n1 + n2 )]2 V (X 1 ) + [n2 /(n1 + n2 )]2 V (X 2 ) = [n1 /(n1 + n2 )]2 σ 2 /n1 + [n2 /(n1 + n2 )]2 σ 2 /n2 = σ 2 /(n1 + n2 ). Impostando un po’ di disequazioni si ottiene che V (X 1 ) > V (X 2 ) > V [(X 1 + X 2 )/2] > V [(n1 X 1 + n2 X 2 )/(n1 + n2 )], per cui l’ultimo è il più efficiente. 169 85 85.1 Compito del 13.02.2008 (solo studenti PT) Testo Premessa: MONTESALUTE è un centro ospedaliero. Esercizio 1. Il centro ospedaliero è convenzionato con un moderno day care, al quale i pazienti possono recarsi i giorni seguenti alla dimissione dal reparto per ulteriori controlli e completare la degenza. È stato calcolato che le persone dimesse dal reparto di MEDICINA si recano al day care in media per 1.4 giorni, contro una media di 0.81 giorni per quelle provenienti da CHIRURGIA. Assumendo che il 66% dei pazienti siano dimessi da MEDICINA ed il resto da CHIRURGIA e che il numero di giorni di accesso al day care si distribuisca secondo una Poisson. (A) Calcolare la probabilità che, preso a caso un paziente, questo non si rechi al day care. (B) Si assuma, fra MEDICINA e CHIRURGIA, un totale di 24700 pazienti ricoverati all’anno e che ogni paziente si comporti in modo indipendente dagli altri. Specificare la distribuzione del numero totale di pazienti che in un anno si recano al day care calcolandone media e deviazione standard. Esercizio 2. Per limitare l’accesso al servizio di PRONTO SOCCORSO di pazienti che non ne hanno realmente necessità, una recente legge regionale ha introdotto il pagamento di un ticket. La seguente tabella riporta alcuni dati campionari relativi al numero giornaliero di accessi al pronto soccorso prima e dopo l’introduzione del ticket. √ numero giorni media degli accessi al giorno varianza corretta degli accessi al giorno senza ticket 27 68.3 18.9 con ticket 24 37.6 10.5 Assumendo che il numero giornaliero di ricoveri si distribuisca in modo approssimativamente normale: (A) Fornire stima puntuale e per intervallo (1 − α = 0.95) per valutare in che misura il numero medio giornaliero di accessi è cambiato. (B) L’intervallo di cui al punto precedente si basa su una particolare assunzione circa le varianze senza e con ticket. Tale assunzione è giustificata? (α = 0.02) Esercizio 3. Un paio di anni fa è stata effettuato un pesante riassetto del reparto di CHIRURGIA per ridurre il rischio di infezioni, rischio ritenuto eccessivo in base ai dati raccolti. I due campioni a confronto, prima e dopo il provvedimento di riorganizzazione, hanno fornito i seguenti risultati: Statistiche prima dopo pazienti ricoverati 2582 1819 di cui hanno contratto infezione 207 92 (A) Il riassetto ha avuto l’effetto sperato? (α = 0.05). (B) Calcolare la potenza del test di cui al punto precedente in corrispondenza di un’ipotesi alternativa di riduzione del tasso di infezione di -1.3 punti percentuali. Esercizio 4. Il management sta monitorando il tasso di arrivo dei pazienti allo sportello di accettazione al fine di migliorare servizio e gestione del personale. Nella fascia oraria di maggiore accesso e‘ stato rilevato il numero di pazienti che ogni due minuti si presenta allo sportello ottenendo le seguenti statistiche: Arrivi (ogni 2’) Frequenza 0 1178 1 2865 2 3691 3 2923 4 1944 5 939 6 366 7 131 8 55 (a) Rappresentare graficamente la distribuzione di frequenza. (b) Calcolare e riportare correttamente sul grafico 25o , 50o e 75o percentile. 85.2 Soluzioni Esercizio 1. Notazione: X =’giorni accesso al day care’; M =’dimesso da MEDICINA’, C =’dimesso da CHIRURGIA’. 170 (A) X|M ∼ P o(λM = 1.4), X|C ∼ P o(λC = 0.81), P (M ) = 0.66, P (C) = 1 − P (M ) = 0.34. P (non recarsi al day care) = P (X = 0) = P (X = 0|M )P (M ) + P (X = 0|C)P (C) = 0.31401, dove P (X = 0|M ) = 0.2466 e P (X = 0|C) = 0.44486 sono calcolati mediante la funzione di massa della Poisson. (B) Ognuno dei pazienti può decidere se recarsi o no al day care. La distribuzione di tale variabile è allora una Be(p = 0.68599) (vedi sopra). Il numero totale Y di coloro che si recano al day care segue allora una distribuzione Bi(n √ = 24700, p = 0.68599) che ha media E(Y ) = np = 16943.95 e deviazione √ standard σ(Y ) = npq = 5320.57 = 72.94. Esercizio 2. Notazione: X1 =’numero accessi al giorno senza ticket’ ∼ N (µ1 , σ1 ); X2 =’numero accessi al giorno col ticket’ ∼ N (µ2 , σ2 ). (A) Stima puntuale per µ2 − µ1 : x2 − x1 = −30.7. Intervallo per µ2 − µ1 . Stante p l’esigua dimensione campionaria non rimane che usare il seguente pivot: [X 2 − X 1 − (µ2 − µ1 )]/[sp 1/n1 + 1/n2 ] la cui distribuzione è T (n1 + n2 − 2). Intervallo per 1 − α = 0.98: [−39.4573, −21.9427]. (B) Ipotesi: H0 : σ12 /σ22 = 1 contro H1 : σ12 /σ22 6= 1. Statistica test: S12 /S22 , la cui distribuzione sotto H0 è F (n1 − 1, n2 − 1). Valore campionario della statistica test 3.24, da confrontare con la regione di accettazione [0.38428, 2.67071] (α = 0.02). p √ Valori utili: p s21 = 357.21, s22 = 110.25, sp = [s21 (n1 − 1) + s22 (n2 − 1)]/(n1 + n2 − 2) = 241.29 = 15.53351, sp 1/n1 + 1/n2 = 4.3578, tcamp = 2.0096. Esercizio 3. Notazione: X1 =’paziente prima contrae infezione’ Be(p1 ), X2 =’paziente dopo contrae infezione’ Be(p2 ). (A) Test di H0 : p2 − p1 = 0 contro H1 : p2 − p1 < 0. Statistica test [(b p2 − pb1 ) − 0]/s0 che sotto H0 ha distribuzione approssimativamente N (0, 1) (per brevità abbiamo posto: pb = stimatore pooled di p; p s0 = pbqb(1/n1 + 1/n2 )). Valore campionario della statistica test −3.84174 da confrontare con la regione di rifiuto [−∞, −1.645] (α = 0.05). (B) Calcolo potenza del test di cui sopra per H1 : p2 − p1 = −0.013. Indichiamo: valore critico = zcrit , −0.013 = a. γ = P (campione ∈ R|H1 ) = P ([(b p2 − pb1 ) − 0]/s0 < zcrit |H1 ) = P ((b p2 − pb1 ) < zp p2 − pb1 ) − a]/s1 < (zcrit s0 − a)/s1 |H1 ) = P (Z < 0.04446|H1 ) = 0.51773, dove s1 = crit s0 |H1 ) = P ([(b pb1 qb1 /n1 + pb2 qb2 /n2 . √ Calcoli √ e valori utili: pb1 = 0.08017, pb2 = 0.05058, pb = 0.06794, s0 = 5.934e − 05 = 0.0077031, s1 = 5.496e − 05 = 0.0074134. Esercizio 4. (A) Disegno del diagramma ’a spaghetti’. (B) Calcolo mediana e quartili che devono essere riportati sul grafico. Q1 = 1, M e = 2, Q3 = 3. Si illustra solo il calcolo di Q1 : gli altri sono analoghi. Posizione di Q1 : (N + 1) ∗ 0.25 = 3523.25. Controllando per le cumulate si ottiene che l’osservazione di posto 3523 ha modalità 1, mentre l’osservazione di posto 3524 ha modalità 1 da cui il risultato. Arrivi 0 1 2 3 4 5 6 7 8 Freq. 1178 2865 3691 2923 1944 939 366 131 55 Freq. cum 1178 4043 7734 10657 12601 13540 13906 14037 14092 171 86 86.1 Compito del 21.04.2008 (solo studenti PT) Testo Premessa: Si parla di Fisco ed Agenzia delle Entrate (in breve, Agenzia). Esercizio 1. L’Agenzia delle Entrate effettua ogni anno un certo numero di accertamenti fiscali nei confronti dei professionisti. Oggetto dell’accertamento è l’ammontare di ricavi non dichiarato: si indichi con X il valore, in Euro, contestato dall’Agenzia al contribuente come mancata dichiarazione. Una procedura di accertamento può andare incontro a due tipi di esiti: o a totale favore del contribuente, che in tal caso subisce una contestazione di ammontare X pari a zero (questo accade nel 32.8% dei casi); oppure a sfavore del contribuente, che in tal caso subisce una contestazione vera e propria per un certo X positivo (questa evenienza accade nella restante percentuale dei casi). Assumendo che, in questa seconda evenienza, X si distribuisca in modo Normale con media 9000 e deviazione standard 1300: (A) Preso a caso un professionista oggetto di accertamento calcolare la probabilità che questo riceva una contestazione per un ammontare non superiore a 10100 Euro. (B) Si sa che l’ammontare contestato ad un professionista oggetto di accertamento non supera 10100 euro. Calcolare la probabilità che l’accertamento si sia chiuso a totale favore del contribuente. Esercizio 2. Gli accertamenti effettuati sui piccoli professionisti con partita IVA fra 2004 e 2005 sono stati suddivisi in 2 gruppi, a seconda che quella professionale sia svolta come attività unica o principale oppure come attività secondaria (ad esempio, perché l’attività principale è quella di docente universitario). Da ciascuno dei due gruppi è stato estratto un campione casuale semplice che ha fornito i risultati in tabella. Attività principale Attività secondaria Accertamenti totali 253 159 di cui condannati per evasione 129 102 (A) La probabilità che un accertamento si evolva in una vera e propria condanna è la stessa in entrambi i gruppi di contribuenti? Rispondere utilizzando il p-value. (B) Sfruttando le informazioni del campione di cui sopra, calcolare quanti contribuenti occorrerebbe inserire in ciascuno dei due campioni (attività principale e attività secondaria) per avere un intervallo di confidenza per la probabilità di subire una contestazione di ampiezza 0.079 al livello di confidenza 0.98 in ciascuno dei due gruppi. (C) Perché, pur avendo imposto la stessa ampiezza e lo stesso livello di confidenza, si ottengono risultati diversi nei due gruppi? Argomentare, spiegando anche perché uno maggiore dell’altro. Esercizio 3. L’Agenzia delle Entrate sta mettendo a punto un nuovo studio di settore ultra semplificato, dedicato ai professionisti titolari di partita IVA il cui volume di affari annuale è inferiore a 30000 Euro. Lo studio di settore in questione si basa su un solo input, il valore dei costi sostenuti nell’anno fiscale: in base a tale valore si vuole stimare l’ammontare (presunto) dei ricavi utilizzando opportunamente un certo modello statistico. Allo scopo, l’Agenzia ha effettuato una rilevazione campionaria dalla quale sono stati ricavati i seguenti dati (costi e ricavi espressi in migliaia di Euro): n 567 media(costi) 5005 dev.st(costi) 2925 media(ricavi) 20036 dev.st(ricavi) 6094 correlazione(ricavi, costi) 0.948 (A) Formulare il modello e stimarne tutti i coefficienti. (B) Un professionista, nell’anno fiscale ha dichiarato costi per 2200 Euro. L’accertamento dell’Agenzia nei suoi confronti, si basa su un particolare intervallo, per i ricavi, calcolato in corrispondenza di quel livello dei costi: solo se i ricavi dichiarati dal professionista sono inferiori al minimo di detto intervallo scatta l’accertamento fiscale. Allo scopo, vi sembra più appropriato l’intervallo di previsione o l’intervallo di stima? Motivare la risposta. (C) Effettuare il calcolo dell’intervallo di cui al punto precedente per 1 − α = 0.99. 172 86.2 Soluzioni Esercizio 1. Notazione: C = ’contribuente subisce contestazione’; X =’importo contestato dall’Agenzia delle Entrate’. Allora: P (C) = 0.328, P (X = 0|C) = 1, X|C ∼ N (9000, 1300). (A) Formula della probabilità marginale: P (X ≤ 10100) = P (X ≤ 10100|C)P (C)+P (X ≤ 10100|C)P (C) = 0.86645. (B) Formula di Bayes: P (C|X ≤ 10100) = P (X ≤ 10100|C)P (C)/P (X ≤ 10100) = 0.37856. Calcoli e valori utili: P (X ≤ 10100|C) = P (Z ≤ 0.846) = 0.80127, P (X ≤ 10100|C) = 1, P (C) = 0.672, P (C) = 0.328. Esercizio 2. Notazione: X1 =’professionista (attività principale) riconosciuto evasore?’ ∼ Be(p1 ), X2 =’professionista (attività secondaria) riconosciuto evasore?’ ∼ Be(p2 ). Campioni casuali semplici indipendenti. (A)pTest di H0 : p1 − p2 = 0, contro H0 : p1 − p2 6= 0. Statistica test (sotto H0 ): (b p1 − pb2 − 0)/ pbqb(1/n1 + 1/n2 ) la cui distribuzione è, approssimativamente, N (0, 1) e pb è la stima pooled di p. p Valore campionario della statistica test zcamp = −2.6207, per cui p − value = 2P [(b p1 − pb2 − 0)/ pbqb(1/n1 + 1/n2 ) > |zcamp ||H0 ] = 2P (Z > 2.6207|H0 ) = 2 ∗ 0.00439 = 0.00878. (B) Sfruttare il campione significa utilizzare pb1 e pb2 per dimensionare n1 ed n2 . pPer entrambi i gruppi possiamo usare la formula che lega n all’ampiezza dell’intervallo, ovvero A = 2z pbqb/n da cui si ricava n = pbqb(2z/A)2 . Applicandola ad entrambi si ricava n1 = 866.813 ≈ 867, n2 = 797.693 ≈ 798. (C) Il diverso risultato dipende dal diverso valore di pbqb. Poiché la varianza dello stimatore pb è pq/n, più bassa è la valutazione di pq meno osservazioni sono necessarie per raggiungere una certa precisione (ampiezza) a parità di α. Calcoli e valori utili: pb1 = 129/253 = 0.5099, pb2 √= 102/159 = 0.6415, pb = (pb1 n1 + pb2 n2 )/(n1 + n2 ) = p 0.5607, qb = 1 − pb = 0.4393, pbqb(1/n1 + 1/n2 ) = 0.5607 = 0.050227, A = 0.079, α = 0.02, z = 2.3263. Esercizio 3. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui Y = ricavi, X = costi. (A) βb1 = 1.9751, βb0 = 10151, σ b2 = 3775129. (B) Sembra più appropriato l’intervallo di stima, dato che l’accertamento deve mirare a fornire, in corrispondenza del livello dei costi dichiarato 2200 Euro, una stima puntuale dei ricavi di quel professionista, non del valore medio. (C) Livello di confidenza: 0.99. Intervallo di stima per y in corrispondenza di x0 = 2200: [9466, 19526]. L’intervallo di previsione è invece [14204, 14788]. Valori e calcoli utili: n = 567, gl = (n − 2) = 565, dev(x) = nV ar(x) = 4851039375, dev(y) = nV ar(y) = q 21056586012, codev(x, y) = corr(x, y) dev(x)dev(y) = 9581195824, βb1 = codev(x, y)/dev(x) = 1.9751, βb0 = y − βb1 x = 10151, σ b2 = (dev(y) − βb2 dev(x))/(n − 2) = 3775129, stima yb(x0 ) = βb0 + βb1 x0 = 1 14496; varianza (stimata) per il calcolo dell’intervallo di stima = σ b2 [1/n + (x − x0 )2 + 1] = 3787910.15, corrispondente standard error = 1946.26, varianza (stimata) per il calcolo del’intervallo di previsione =σ b2 [1/n + (x − x0 )2 ] = 12781.05, corrispondente standard error = 113.05; entrambi gli intervalli (stima e previsione) hanno la seguente struttura [stima − t s.e., stima + t s.e.], dove stima = 14496, t = 2.5846 (può essere calcolato dalle tavole della Normale, visto l’n elevato), s.e. sta per i due standard errors. 173 87 87.1 Compito del 18.06.2008 (solo studenti PT) Testo Premessa: Bunny Pizza è una società che distribuisce pizze calde a domicilio su ordinazione telefonica. Alle pizze si possono abbinare anche bevande e/o gelati ma questi non vengono distribuiti separatamente. Esercizio 1. Quante pizze vengono ordinate per ciascuna ordinazione? Per studiare questo aspetto, Bunny Pizza ha elaborato un campione casuale di ordinazioni ricavando la seguente tabella. Pizze ordinate per ordinazione Numero ordinazioni 1 780 2 550 3 220 4 110 5 50 6 20 (A) Determinare media e deviazione standard della variabile d’interesse. (B) Bernoulli, Poisson, Normale, nessuna delle tre. Dovendo scegliere la distribuzione teorica più adatta a rappresentare il fenomeno studiato, quale fra queste quattro opzioni vi sembra giusta? Argomentare la risposta. Esercizio 2. Con riferimento al campione di cui all’esercizio precedente: (A) Fornire una stima per intervallo del numero medio di pizze ordinate per ordinazione (1 − α = 0.98). (B) Specificare le assunzioni utilizzate per rispondere al punto A, il pivot utilizzato e la sua distribuzione campionaria. Esercizio 3. Pizza Express ha in corso trattative per acquisire Bunny Pizza. A questo proposito, la stessa Pizza Express ha fatto svolgere una rilevazione per capire se vi sono differenze di gradimento, da parte della clientela, nei confronti delle due compagnie. La rilevazione, effettuata su due distinti campioni casuali semplici, ha fornito i risultati sintetizzati in tabella. Società Pizza express Bunny Pizza n 41 41 media 6.3 6.9 varianza corretta 2.3 2.7 Specificando le assunzioni necessarie: (A) Le due compagnie differiscono in modo significativo in quanto a gradimento dei propri clienti? (α = 0.05). (B) Il test di cui al punto precedente si basa su una particolare assunzione riguardante le deviazioni standard nei due gruppi? Specificare l’assunzione e sottoporla a test (α = 0.05). Esercizio 4. X è una variabile casuale normale, avente media µ = −5 e varianza a σ = 10, da cui viene estratto un campione casuale semplice di dimensione n = 4. Per stimare µ, la scelta è ristretta ai seguenti stimatori: X1 + X2 + 2X3 X1 + X2 T2 = T1 = 4 2 (A) Ricavare quanto e‘ possibile dire sulla loro distribuzione campionaria. (B) Quale dei due stimatori è più efficiente? Argomentare la risposta 87.2 Soluzioni Esercizio 1. (A) media = 1.9364, deviazione standard = 1.1285. Calcoli in base al seguente prospetto. xi 1 2 3 4 5 6 Somma ni 780 550 220 110 50 20 1730 xi ni 780 1100 660 440 250 120 3350 x2i ni 780 2200 1980 1760 1250 720 8690 2 da cui media = 3350/1730 = 1.9364, media √ quadratica = 8690/1730 = 5.0231, varianza = 5.0231 − 2 1.9364 = 1.2734, deviazione standard = 1.2734 = 1.1285. 174 (B) Nessuma delle tre. Infatti: 1) Bernoulli nemmeno a parlarne; 2) Normale non va bene perchè discreta e molto asimmetrica a sinistra; 3) Poisson non va bene perchè manca lo zero. Esercizio 2. Assunzioni: X = numero ordinazioni ∼ (µ, σ 2 ). √ (A)(B) Stima per intervallo di µ: pivot (X − µ)/(s/ n) ≈ N (0, 1) in base al teorema del limite centrale; intervallo per µ all’ 1 − α = 0.98: [1.8733, 1.9995]. √ Calcoli e valori utili: n = 1730, x = 1.9364 s2 = 1.2741, s = 1.1288, z = 2.326, s/ n = 0.02714. Esercizio 3. Assunzioni: X1 =’gradimento per Bunny Pizza’∼ N (µ1 , σ12 ); X2 =’gradimento per Pizza Express’∼ N (µ2 , σ22 ). I campioni estratti dalle due variabili casuali sono indipendenti. (A) Test di H0 : µ1 − µ2 = 0 contro H1 : µ1 − µ2 6= 0. In base alla dimensione del campione, prelativamente bassa, si assume σ12 = σ22 e lo si chiama σ 2 . Variabile test: [(X 1 − X ) − (µ − µ )]/(s 1/n1 + 1/n2 ) 1 2 p p2 distribuita come T (n1 + n2 − 2). Sotto H0 : [(X 1 − X 2 ) − 0]/(sp 1/n1 + 1/n2 )|H0 distribuita come T (n1 +n2 −2). Regione di accettazione [−1.9901, 1.9901]; valore campionario della statistica test −1.7181. (B) Come indicato, il test di cui al punto (A) si basa sull’assunzione σ12 = σ22 che può essere sottoposta a test. Quindi test di H0 : σ12 /σ22 = 1 contro H1 : σ12 /σ22 6= 1. Variabile test: S12 /S22 σ22 /σ12 distribuita come F (n1 − 1, n2 − 1). Sotto H0 : S12 /S22 |H0 distribuita come F (n1 − 1, n2 − 1). Regione di accettazione [0.5333, 1.8752]; valore campionario della statistica test 0.8519. p Valori e calcoli utili: s2p = [s21 (n1 − 1) + s21 (n1 − 1)]/(n1 + n2 − 2) = 2.5, sp = 1.5811, sp 1/n1 + 1/n2 = 0.3492; Esercizio 4. Assunzioni: X ∼ (µ = −5, σ = 10). X = (X1 , X2 , X3 , X4 ) campione casuale semplice estratto da X. (A) I due stimatori proposti sono combinazioni lineari di X1 , X2 , X3 , X4 e quindi di v.c. indipendenti aventi stesse media e varianza. Della loro distribuzione è possibile solo calcolare media e varianza in µ + µ + 2µ µ+µ base alle proprietà dei valori attesi. E(T1 ) = = µ = −5; E(T2 ) = = µ = −5; 4 2 2 2 2 2 2 2 σ +σ +2 σ 6 2 σ +σ 2 V (T1 ) = = σ = 37.5; V (T2 ) = = σ 2 = 50. 16 16 4 4 (B) T1 e T2 sono ambedue corretti, quindi i loro MSE coincidono con le rispettive varianze. È preferibile quello con MSE più piccolo e quindi T1 . 175 88 88.1 Compito del 02.07.2008 (solo studenti PT) Testo Premessa: La Confindustria sta studiando l’andamento del sistema economico nel prossimo futuro in base alle aspettative degli imprenditori. I dati utilizzati sono stati raccolti presso un campione di associati durante la recente assemblea nazionale. Esercizio 1. Come sarà l’economia italiana nei prossimi 5 anni? Questo dipende, chiaramente, da come evolverà l’intero sistema economico internazionale. I ricercatori hanno formulato 3 possibili scenari per l’economia internazionale: recessione, stasi, espansione. Secondo i dati raccolti, tali scenari hanno probabilità, rispettivamente, 0.2, 0.49, 0.31. Si assuma che X, la variazione annuale media del PIL italiano nei 5 anni, abbia, nei tre scenari, distribuzione Normale con deviazione standard 0.92 e media, rispettivamente, −1.7, 0.4, 3.9. (A) Determinare la probabilità che X sia inferiore a 1.5. (B) Se X risulta minore di 1.5 qual è la probabilità che lo scenario realmente realizzato sia quello di stasi? Esercizio 2. Ad una domanda riguardante le aspettative per la propria impresa nei prossimi 5 anni, gli associati dovevano rispondere con un voto da 1 (il peggiore) a 5 (il migliore). I dati raccolti sono stati riassunti nella seguente tabella. Voto Frequenze relative 1 0.05 2 0.1 3 0.33 4 0.4 5 0.12 (A) Rappresentare graficamente i risultati ottenuti. (B) Sintetizzare la distribuzione fornendo, a propria scelta, un indice di tendenza centrale ed uno di variabilità. Esercizio 3. Il voto espresso sulle aspettative per la propria impresa è stato raggruppato in base al settore di attività economica. Settore M anif atturiero Servizi osservazioni 367 373 media 3.61 3.74 varianza corretta 0.5776 0.9216 (A) In media, le aspettative differiscono in modo significativo nei due settori? Rispondere mediante il p-value. (B) Perchè le caratteristiche della variabile (vedi anche esercizio 2) rendono poco realistica l’assunzione che la variabile voto abbia distribuzione normale? E perchè, nonostante ciò, è possibile utilizzare la variabile test impiegata al punto (A)? Esercizio 4. Un’altra analisi ha mirato a verificare se le aspettative dell’imprenditore (espresse mediante la variabile voto analizzata in precedenza) sono in qualche misura legate alla sua età. Alcuni dati relativi al settore manifatturiero sono sintetizzati in tabella. n 337 media(aspettative) 3.603 dev.st(aspettative) 0.607 media(età) 50.345 dev.st(età) 9.22 correlazione(aspettative, età) −0.163 (A) Formulare un modello utile all’analisi e stimarne tutti i coefficienti. (B) Esiste una relazione significativa fra le aspettative e l’età dell’imprenditore? (α = 0.01) 88.2 Soluzioni Esercizio 1. Assunzioni e simbologia: R =’recessione’, S =’stasi’, E =’espansione’; X =’variazione annuale media del PIL italiano nei 5 anni’; P (R) = 0.2, P (S) = 0.49, P (E) = 0.31; X|R ∼ N (µR = −1.7, σR = 0.92), X|S ∼ N (µS = 0.4, σS = 0.92), X|E ∼ N (µE = 3.9, σE = 0.92). Poniamo c = 1.5. 176 (A) Formula della probabilità marginale: P (X < c) = P (X < c|R)P (R) + P (X < c|S)P (S) P (X < c|E)P (E) = 0.63456. (B) Formula di Bayes: P (S|X < c) = P (X < c|S)P (S)/P (X < c) = 0.68268. Calcoli e valori utili: P (X < c|R) = P (Z < 3.478) = 0.99975, P (X < c|S) = P (Z < 1.196) = 0.88408, P (X < c|E) = P (Z < −2.609) = 0.00454. Esercizio 2. (A) Diagramma a spaghetti per le frequenze relative. (B) Visto che la variabile ha un range limitato (le modalità sono comprese in 1 - 5) non ci possono essere valori anomali. Possiamo utilizzare media (= 3.44) e deviazione standard (= 0.9932). Benchè meno interessanti, hanno senso anche mediana e scarto interquartile. Prospetto di calcolo: Voto (xi ) 1 2 Frequenze relative (fi ) 0.05 0.1 xi fi 0.05 0.2 x2i fi 0.05 0.4 da cui σ 2 = 12.82 − 3.44 = 0.9864. 3 0.33 0.99 2.97 4 0.4 1.6 6.4 5 0.12 0.6 3 Somma 1 3.44 12.82 Esercizio 3. Assunzioni e simbologia: X1 =’aspettative di un imprenditore del manifatturiero’ ∼ N (µ1 , σ1 ), X2 =’aspettative di un imprenditore dei servizi’ ∼ N (µ2 , σ2 ). Campioni casuali semplici indipendenti. (A) Test di H0 : µ1 − µ2 = 0, contro H0 : p µ1 − µ2 6= 0. In base alle dimensioni campionarie elevate, la µ2 )]/ s21 /n1 + s22 /n2 la cui distribuzione è, approssimativamente, statistica test è: [(X 1 − X 2 ) − (µ1 −p N (0, 1); sotto H0 : [(X 1 − X 2 ) − 0]/ s21 /n1 + s22 /n2 |H0 ≈ N (0, p 1). Valore campionario della statistica test zcamp = −2.0441, per cui p − value = 2P [[(X 1 − X 1 ) − 0]/ s21 /n1 + s22 /n2 > |zcamp ||H0 ] = 2P (Z > 2.0441|H0 ) = 2 ∗ 0.02047 = 0.04094. (B) L’assunzione di normalità è forzata in quanto il voto è una variabile casuale discreta che può assumere solo 5 valori. È possibile utilizzare la variabile test di cui sopra in base al teorema del limite centrale applicato a ciascuno dei due campioni, data la loro elevata dimensione. p √ Calcoli e valori utili: s21 /n1 + s22 /n2 = 0.004045 = 0.063597. Esercizio 4. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui Y =’aspettative’, X =’età’. (A) βb1 = −0.0107, βb0 = 4.1433, σ b2 = 0.3608. c1 − β1 ]/b (B) Test di H0 : β1 = 0 contro H1 : β1 6= 0. Variabile test [β σ (βb1 ) distribuita come T (n − 2). c b Sotto H0 : [β1 − 0]/b σ (β1 ) distribuita come T (n − 2). Regione di accettazione: [−2.5758, 2.5758] (valori calcolabili con le tavole della normale per l’elevata dimensione del campione); valore campionario della variabile test −3.0238. Valori e calcoli utili: n = 337, dev(x) = nV ar(x) = 28647.8308, dev(y) = nV ar(y) = 124.1673, q codev(x, y) = corr(x, y) dev(x)dev(y) = −307.4235, βb1 = codev(x, y)/dev(x) = −0.0107, βb0 = y−βb1 x = p √ 4.1433, σ b2 = (dev(y) − βb12 dev(x))/(n − 2) = 0.3608, σ b(βb1 ) = σ b2 /dev(x) = 1.2594354276e − 05 = 0.003549. 177 89 89.1 Compito del 03.09.2008 (solo studenti PT) Testo Premessa: La provincia di Roma dispone di un Osservatorio Congiunturale. Uno degli attuali temi ’caldi’ riguarda il fronte prezzi, in particolare quello dei generi di prima necessità, come la pasta. Esercizio 1. L’Osservatorio dispone dei dati relativi ai controlli effettuati dalla Camera di Commercio. Su un campione di 140 controlli presi in esame, in 29 sono stati riscontrati fenomeni di speculazione sui prezzi. (A) Fornire stima puntuale e standard error (stima della deviazione standard dello stimatore utilizzato) per la probabilità di trovare un esercizio che specula sui prezzi. (B) Quale dimensione campionaria è necessaria affinché l’intervallo di confidenza, per la probabilità di cui sopra, abbia ampiezza 0.07 al livello di confidenza 0.98? Nel calcolo utilizzare l’informazione ricavabile dal campione a disposizione. Esercizio 2. Si assuma che la probabilità che un esercizio speculi sui prezzi sia pari a 0.21. Si estraggano casualmente due esercizi, in modo indipendente, e sia Y il totale, fra questi, di quelli che speculano. (A) Tabulare la funzione di massa di Y . (B) Disegnare la funzione di ripartizione di Y . Esercizio 3. L’Osservatorio ha anche cercato di capire se le variazioni di prezzo hanno riguardato il mercato in modo omogeneo oppure no. A tale scopo, dopo accurata analisi ha suddiviso il mercato in due segmenti: la pasta di marca e le altre. Per ciascuna referenza del campione ha calcolato la variazione percentuale del prezzo nell’arco di un anno esatto (giugno 2007 - maggio 2008) riassumendo i dati raccolti nella seguente tabella. Segmento Pasta di marca Altra pasta dimensione campione 11 12 media 42.2 44.7 varianza corretta 112.5 141.1 Si assuma che la variazione percentuale del prezzo abbia distribuzione normale. (A) La variabilità della variabile rilevata è la stessa nei due segmenti (α = 0.02)? (B) In media, i due segmenti hanno visto variare i loro prezzi in modo analogo (α = 0.05)? Esercizio 4. L’Osservatorio ha anche tentato di mettere in relazione il consumo di pasta con il suo prezzo (medio) al kg. I dati rilevati negli ultimi 6 mesi sono riassunti nella seguente tabella. Mese Consumo pasta (migliaia ton) Prezzo (medio) (centesimi al kg) gennaio 8.9 72 febbraio 8.8 75 marzo 8.4 80 aprile 8.2 83 maggio 8.1 87 giugno 8 91 (A) Formulare un opportuno modello per mettere in relazione il consumo di pasta col livello dei prezzi. Stimarne i parametri. (B) Prevedere quale sarebbe il consumo di pasta se il prezzo (medio) salisse a 104 centesimi al kg, fornendo il valore puntuale e il relativo intervallo (α = 0.02). 89.2 Soluzioni Esercizio 1. Assunzioni e simbologia: X =’l’esercizio specula’ ∼ Be(p). (A) Stima puntuale di p: pb = 0.2071; standard error: σ b(b p) = 0.034251. (B) n = 726. p p Pn p b q b /n = 0.2071 ∗ 0.7929/140 = Valori e formule utili: p b = x /n = 29/140 = 0.2071; σ b (b p ) = i i=1 √ 2 2 0.001173 = 0.034251; n = (2z/A) pbqb = (2 ∗ 2.326/0.07) ∗ 0.2071 ∗ 0.7929 = 725.57 ' 726 dove α = 0.02. 178 Esercizio 2. In pratica, Y ∼ Bi(n = 2, p = 0.21). (A) Y può assumere solo valori 0, 1, 2; le rispettive probabilità possono essere calcolate utilizzando la y 0 1 2 funzione di massa della binomiale. f (y) 0.6241 0.3318 0.0441 (B) Grafico della funzione di ripartizione, tabulata come: y F (y) (−∞, 0) 0 [0, 1) 0.6241 [1, 2) 0.9559 [2, ∞) 1 Esercizio 3. Assunzioni e simbologia: X1 =’variazione prezzo pasta di marca’ ∼ N (µ1 , σ1 ), X2 =’variazione prezzo altra pasta’ ∼ N (µ2 , σ2 ). Campioni casuali semplici indipendenti. (A) Test di H0 : σ12 /σ22 = 1, contro H1 : σ12 /σ22 6= 1. La statistica test è S12 /S22 σ22 /σ12 la cui distribuzione è F (n1 − 1, n2 − 1); sotto H0 : S12 /S22 |H0 ∼ F (n1 − 1, n2 − 1). Valore campionario della statistica test 0.7973; zona di accettazione [0.2096, 4.5393]. (B) Test di H0 : µ1 − µ2 = 0, contro H0 : µ1 − µ2 6= 0. In base alle esigue dimensioni campionarie occorre assumere σ1 = σ2 , assunzione confortata dall’esito del test di cui al punto (A). La statistica q test è [(X 1 − X 2 ) − (µ1 − µ2 )]/ s2p (1/n1 + 1/n2 ) la cui distribuzione è T (n1 + n2 − 2); sotto H0 : q (X 1 − X 2 )/ s2p (1/n1 + 1/n2 ) ∼ T (n1 + n2 − 2). Valore campionario della statistica test −0.5304; zona di accettazione [−2.0739, 2.0739]. Calcoli e valori utili: n1 = 11, n2 = 12, x1 = 42.2, x2 = 44.7, s21 = 112.5, s22 = 141.1; s2p = [s21 (n1 − 1) + q √ s22 (n2 − 1)]/(n1 + n2 − 2) = 127.481; s2p (1/n1 + 1/n2 ) = 22.2126 = 4.713. Esercizio 4. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui Y =’consumi’, X =’prezzo (medio)’. (A) βb1 = −0.0509, βb0 = 12.5404, σ b2 = 0.00828. (B) Previsione e relativo intervallo per y in corrispondenza di x0 = 104. Previsione: yb0 = 7.2461. Per l’intervallo: pivot: [b y0 − y0 ]/b σ (b y0 ) con distribuzione campionaria T (n − 2); intervallo: [b y0 − tb σ (b y0 ), yb0 + tb σ (b y0 )] = [6.7446, 7.7476], dove per α = 0.02 e n − 2 = 4 si ha t = 3.7469. Calcoli e valori utili: Mese gennaio febbraio xi 72 75 yi 8.9 8.8 x2i 5184 5625 yi2 79.21 77.44 xi yi 640.8 660 marzo 80 8.4 6400 70.56 672 aprile 83 8.2 6889 67.24 680.6 maggio giugno Somma 87 91 488 8.1 8 50.4 7569 8281 39948 65.61 64 424.06 704.7 728 4086.1 Pn Pn da cui: n = 6, x = 81.3333, y = 8.4, dev(x) = i=1 x2i − nx2 = 257.333, dev(y) = i=1 yi2 − ny 2 = 0.7, Pn b = 0.090995, yb0 = βb0 + βb1 x0 = 7.2461; Vb (b y0 ) = σ b2 [1/n + (x − codev(x, y) = i=1 xi yi − nxy = −13.1, σ x0 )2 /dev(x)] = 0.0179, σ b(b y0 ) = 0.1338. 179 90 90.1 Compito del 18.12.2008 (solo studenti PT) Testo Premessa: Un’impresa sta effettuando un importante investimento in formazione del proprio personale. Il grado di preparazione dei dipendenti è valutato mediante prove scritte. Esercizio 1. La parte del personale che ha ottenuto un risultato insufficiente alla prima prova, composta da 201 dipendenti, ha dovuto ripeterla una seconda volta. I risultati sono riassunti nella seguente tabella: media 1a prova 19.5 media 2a prova 20.6 media della differenza 2a − 1a 1 dev. st. 1a prova 7.3 dev. st. 2a prova 7.3 dev. st. della differenza 2a − 1a 6.2 Assumendo che i punteggi ottenuti abbiano distribuzione normale: (A) In media, ci sono differenze significative fra i risultati delle due prove? Rispondere mediante il p-value e commentare il risultato. (B) Fornire una stima per intervallo della deviazione standard dei punteggi ottenuti nella prima prova (1 − α = 0.95). Esercizio 2. Alcuni dirigenti hanno sollevato perplessità sul questionario, ritenendolo eccessivamente difficile. Per questo motivo, quello della seconda prova è stato somministrato anche ad un campione casuale semplice di funzionari, che hanno riportato i risultati di cui alla seguente tabella: Funzionario Punteggio F1 37.5 F2 33.3 F3 33.2 F4 36.8 F5 37.5 F6 26.4 (A) Il punteggio dei funzionari, in media, è risultato significativamente migliore di quello dipendenti che hanno ripetuto la seconda prova? (α = 0.01) (B) Fornire una stima per intervallo della media dei punteggi ottenuti dai funzionari (1 − α = 0.9). Esercizio 3. L’analisi di due domande del questionario, ritenute di particolare interesse, ha fornito i risultati riassunti nella seguente tabella (i valori all’interno della tabella sono frequenze congiunte relative; il punteggio a ciascuna domanda è negativo se la risposta è sbagliata, 0 se viene lasciata in bianco, positivo se è giusta): Punteggi domanda 12 −1 0 7 Punteggi domanda 14 −1 0 7 0.09 0 0.04 0.07 0.2 0.04 0.05 0.04 0.47 (A) Calcolare il coefficiente di correlazione fra i punteggi ottenuti nelle due domande. (B) Tabulare e rappresentare graficamente la distribuzione delle frequenze relative del punteggio alla domanda 14 per quelli che hanno risposto in modo corretto alla 12. Esercizio 4. Ciascuna delle domande del questionario era composta da 6 possibili risposte, di cui una corretta e le altre sbagliate. (A) Calcolare il valore atteso del punteggio ottenuto ad una domanda se un dipendente dà sempre una risposta anche se a caso. In base al risultato del calcolo, in caso di dubbio è meglio tirare a caso o lasciare la risposta in bianco? Motivare. (B) Su un totale di 50 domande, quante risposte corrette riesce a dare un dipendente che dà sempre una risposta a caso? Se si pensa che questa quantità sia una variabile casuale calcolarne media e varianza; se si pensa sia un valore fisso calcolarne il valore. 90.2 Soluzioni Esercizio 1. 180 (A) Test per dati appaiati (il campione è lo stesso nei due periodi considerati). Assunzioni: D = 2 punteggio 2a prova − punteggio 1a prova √ ∼ N (µD , σD ). Ipotesi: H0 : µD = 0 contro H1 : µD 6= 0. Statistica test (sotto H0 ): (D − 0)/(SD / n), la cui distribuzione è approssimabile con una N (0, 1) dato √ l’n sufficientemente elevato. p − value = 2P [(D − 0)/(SD / n) > |zcamp ||H0 ] = 2P (Z > 2.2867|H0 ) = 0.022214. √ √ Valori utili: d = 1, sD = 6.2, n = 201, sD / n = 0.4373, zcamp = (d − 0)/(sD / n) = 2.2867. (B) Assunzioni: X = punteggio 1a prova ∼ N (µ, σ 2 ). Pivot per σ 2 : (n − 1)S 2 /σ 2 la cui distribuzione è χ2 (n − 1). Intervallo per σ 2 : [(n − 1)s2 /c2 , (n − 1)s2 /c1 ] = [44.2134, 65.4958] da cui intervallo per σ: [6.6493, 8.0929]. Valori utili: s = 7.3, s2 = 53.29, n = 201, c1 = 162.73, c2 = 241.06. Esercizio 2. (A) Assunzioni: X = ’Punteggio del singolo funzionario’ ∼ N (µX , σ 2 ); Y = ’Punteggio del singolo dipendente’ ∼ N (µY , σ 2 ); si assume che le due varianze siano uguali perché uno dei due campioni non ha dimensioneqelevata. Ipotesi: H0 : µX − µY = 0 contro H1 : µX − µY > 0. Statistica test (sotto H0 ): (X − Y − 0)/ Sp2 (1/nX + 1/nY ), la cui distribuzione è T (nX + nY − 2) (ma può essere approssimata con la N (0, 1)). Regione di rifiuto: (2.3263, ∞); valore campionario della statistica test 4.5056. Valori utili: x = 34.1167, y = 20.6, sX = 4.2696, sY = 7.3, nX = 6, nY = 201, s2p = 52.4349, q √ Sp2 (1/nX + 1/nY ) = 9 = 3. (B) Assunzioni: X alla √ identiche a quelle del punto (A) (per comodità si toglie l’indice √ √ media). Pivot per µ: (X−µ)/(S/ n) la cui distribuzione è T (n−1). Intervallo per µ: [x−ts/ n, x+ts/ n] = [30.6044, 37.629]. Valori utili: x = 34.1167, s = 4.2696, n = 6, t = 2.015. Esercizio 3. (A) Assunzioni: X =’punteggio domanda 12’; X = ’punteggio domanda 14’. ρ(X, Y ) = C(X, Y )/(σX σY ) = 0.6415. Dal prospetto di calcolo sottostante: E(X) = 3.79, E(X 2 ) = 27.57, V (X) = 13.2059, σX = 3.634, E(Y ) = 3.64, E(Y 2 ) = 27.16, V (Y ) = 13.9104, σY = 3.7297, E(XY ) = 22.49, C(X, Y ) = 8.6944. x −1 0 7 f (x) 0.13 0.31 0.56 1 xf (x) −0.13 0 3.92 3.79 x2 f (x) 0.13 0 27.44 27.57 y −1 0 7 f (y) 0.21 0.24 0.55 1 yf (y) −0.21 0 3.85 3.64 y 2 f (y) 0.21 0 26.95 27.16 xyf (x, y) x −1 0 7 −1 0.09 0 −0.35 y 0 0 0 0 7 −0.28 0 23.03 (B) y −1 0 7 f (y|X = 7) 0.0893 0.0714 0.8393 dove f (y|X = 7) = f (7, y)/fX (7). Esercizio 4. (A) Se un dipendente risponde a caso su 6 possibili risposte, avrà un probabilità p = 1/6 = 0.1667 di indovinare (e quindi di prendere −1) e q = 0.8333 di sbagliare (prendendo quindi 7). Il valore atteso è allora E(X) = −1 ∗ 0.1667 + 7 ∗ 0.8333 = 0.3333. Il fatto che sia positivo spinge, in caso di incertezza, a tirare a caso, piuttosto che a non rispondere. (B) Il numero di risposte esatte ha una distribuzione Bi(n = 50, p = 0.1667). Il valore atteso è quindi np = 8.3333 e la varianza è npq = 6.9444. 181 91 91.1 Compito del 15.01.2009 (solo studenti PT) Testo Premessa: Get the World (GTW) è una grossa società che si occupa di viaggi e vacanze con una forte presenza in Italia. Una ricerca si è focalizzata su Milano. Esercizio 1. GTW ha cercato di capire se i profitti delle agenzie di viaggio sparse su territorio della città sono in qualche modo legate alla quantità di personale che vi lavora. A livello operativo, questo potrebbe fornire indicazioni per eventuali accorpamenti o, all’opposto, parcelizzazioni della rete di vendita. I risultati (riferiti al 2008, utili in migliaia di euro) sono riassunti nella seguente tabella: Agenzia Personale Utili N. 1 8 166 N. 2 8 53 N. 3 9 90 N. 4 7 -24 N. 5 5 -25 N. 6 6 101 (A) Formulare un opportuno modello statistico che risponda alle esigenze illustrate nel testo. Stimarne tutti i parametri. (B) I profitti sono legati in modo significativo alla quantità di personale (α = 0.02)? Con riferimento a quanto illustrato nel testo, l’esito del test suggerisce qualche indicazione operativa? (C) Ricavare la devianza di regressione e indicare, in percentuale, quanta parte della variabilità della variabile dipendente è spiegata dal modello. Esercizio 2. Con riferimento ai dati dell’esercizio precedente, si assuma che gli utili 2008 di ciascuna agenzia seguano una distribuzione approssimativamente normale. (A) Fornire una stima per intervallo (α = 0.05) della media degli utili. (B) Fornire una stima puntuale e per intervallo (α = 0.05) della deviazione standard degli utili. (C) Nel procedimento per risolvere il punto A, sarebbe cambiato qualcosa se la deviazione standard fosse stata nota? Nel procedimento per il punto B, sarebbe cambiato qualcosa se la media fosse stata nota? Spiegare in modo sintetico. Esercizio 3. I clienti che hanno effettuato la loro vacanza 2008 con GTW sono stati ricontattati telefonicamente dopo il loro ritorno. È stato loro chiesto se sono soddisfatti della vacanza effettuata. Le risposte sono state rielaborate nella seguente tabella (frequenze relative congiunte): Soddisfazione Sı̀ No Mare Italia 0.34 0.01 Tipo vacanza Arte Italia Altro Italia 0.22 0.11 0.03 0.01 Europa 0.06 0.01 Altro 0.15 0.06 (A) Fornire tutti gli indici di tendenza centrale che hanno senso per la distribuzione della variabile ’tipo vacanza’. (B) Si utilizzi adesso la definizione frequentista di probabilità. Le variabili ’Tipo vacanza’ e ’Soddisfazione’ sono indipendenti? Se sı̀ spiegare il perché. Se no, calcolare il valore che le frequenze congiunte relative avrebbero dovuto avere in tale caso (è sufficiente calcolarne 5 a scelta). (C) Si utilizzi ancora la definizione frequentista di probabilità. Su 176 clienti estratti casualmente e in modo indipendente, quanto vale la probabilità che gli insoddisfatti siano più di 16? 91.2 Soluzioni Esercizio 1. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui Y =’utili’, X =’numero dipendenti’. (A) βb1 = 26.57, βb0 = −130.25, σ b2 = 5124.83. (B) Test di H0 : β1 = 0 contro H1 : β1 6= 0. Statistica test (sotto H0 ): (βb1 − 0)/b σ (βb1 ) che sotto H0 ha una distribuzione T (n − 2). Valore campionario statistica test 1.2216; regione di accettazione per α = 0.02: [−3.7469, 3.7469]. Indicazione operativa: nessuna indicazione particolare. 182 (C) dev(REG) = 7647.5103; R2 = 0.2717. Calcoli e valori utili: Agenzia N. 1 N. 2 xi 8 8 yi 166 53 x2i 64 64 yi2 27556 2809 xi yi 1328 424 N. 3 9 90 81 8100 810 N. 4 7 -24 49 576 -168 N. 5 5 -25 25 625 -125 N. 6 6 101 36 10201 606 Somma 43 361 319 49867 2875 Pn Pn 2 2 2 da cui: n = 6, x = 7.1667, y = 60.1667, dev(x) = i=1 xi − nx = 10.833, dev(y) = i=1 yi − 2 Pn c1 dev(x) = 20499.32, ny 2 = 28146.83, codev(x, y) = i=1 xi yi − nxy = 287.83, dev(RES) = dev(y) − β c1 ) = 21.75, dev(REG) = c1 ) = σ b(β σ b2 = dev(RES)/(n − 2) = 5124.83, σ b = 71.59, Vb (β b2 /dev(x) = 473.06, σ 2 dev(y) − dev(RES) = 7647.5103, R = dev(REG)/dev(y) = 0.2717. Esercizio 2. Assunzioni: X = ’utile per agenzia’ ∼ N (µ, σ 2 ). √ (A) Pivot √ per µ: (X √ − µ)/(s/ n) la cui distribuzione è T (n − 1). Intervallo per µ con α = 0.05: [x − ts/ n, x + ts/ n] = [−18.57, 138.9]. (B) Pivot per σ: (n − 1)S 2 /σ 2 la cui distribuzione è χ2 (n − 1). Intervallo per σ 2 con α = 0.05: [(n − 1)s2 /c2 , (n − 1)s2 /c1 ] = [2193.4, 33862.41]; Intervallo per σ: [46.83, 184.02]. √ (C) Se σ fosse stato noto, il pivot per µ sarebbe stato (X − µ)/(σ/ n) con distribuzione N (0, 1). Se µ 2 /σ 2 con distribuzione χ2 (n). Di conseguenza sarebbero fosse stato noto, il pivot per σ sarebbe stato nS∗∗ cambiati entrambi i procedimenti. Valori utili: n = 6, x = 60.1667, s2 = 5629.37, s = 75.03, t = 2.5706, c1 = 0.8312, c2 = 12.8325. Esercizio 3. (A) La variabile in oggetto è qualitativa sconnessa. Di conseguenza ha senso solo la moda: M areItalia. (B) Affinchè siano indipendenti è necessario che, in ogni casella, la congiunta sia pari al prodotto delle corrispondenti marginali. Si vede subito che questo non è vero: quindi non sono indipendenti. In caso di indipendenza le congiunte relative sarebbero esattamente il prodotto delle marginali relative corrispondenti: Soddisfazione Sı̀ No Mare Italia 0.308 0.042 0.35 Tipo vacanza Arte Italia Altro Italia 0.22 0.1056 0.03 0.0144 0.25 0.12 Europa 0.0616 0.0084 0.07 Altro 0.1848 0.0252 0.21 0.88 0.12 1 (C) Sia X =’cliente insoddisfatto’. Si nota immediatamente che X ∼ Be(p = 0.12) per cui il totale degli insoddisfatti su 176 estrazioni indipendenti ha distribuzione Bi(n = 176, p = 0.12). Utilizzando l’approssimazione N (µ = np = 21.12, σ 2 = npq = 18.5856) della binomiale si ottiene: P (X > 16) = P (X ≥ 17) w approssimazione normale con correzione per la continuità P (X ≥ 16.5) = P (Z > −1.0717) = 0.8581. 183 92 92.1 Compito del 29.01.2009 (solo studenti PT) Testo Premessa: The Spangler Company è una società estera attiva nel settore moda e sport che commercializza in punti vendita di media e grande dimensione. Ha in progetto di aprire punti vendita anche in Italia e la prima scelta è Bologna. Esercizio 1. Una delle questioni affrontate dalla società è la quella dei prezzi di vendita (che, in generale, è bene siano remunerativi ma non fuori mercato). Per studiare il legame del prezzo di un certo articolo con la dimensione del negozio, sono stati rilevati i seguenti dati presso un campione casuale semplice di punti vendita della concorrenza: Negozio Prezzo vendita (euro) Superficie negozio (migliaia di mq) Univ 300 0.67 Deca 295 0.81 Mart 216 1.14 Rebo 371 0.4 Cult 218 1.12 (A) Formulare un opportuno modello statistico che risponda alle esigenze illustrate nel testo. Stimarne tutti i parametri. (B) Il modello evidenzia la presenza di economie di scala? In altre parole, il prezzo di vendita tende a diminuire in modo significativo al crescere della dimensione? (α = 0.05) (C) Il punto vendita che si ha intenzione di aprire a Bologna è di 0.98 migliaia di mq. In corrispondenza di tale valore, fornire previsione puntuale e per intervallo (α = 0.1) per il prezzo di vendita dell’articolo in questione. Esercizio 2. Per studiare il tipo di clientela che frequenta il punto vendita aperto, Spangler ha considerato i dati degli scontrini emessi durante i primi 12 mesi di apertura ottenendo la seguente tabella. Importo (euro) n. scontrini [0, 40) 5370 [40, 100) 5770 [100, 150) 2920 [150, 350) 5940 [350, 630) 3250 [630, 1750) 3340 (A) Rappresentare graficamente la distribuzione dell’importo per scontrino. (B) Fornire un opportuno indice di posizione e di variabilità dell’importo per scontrino. Esercizio 3. La fascia tardo-pomeridiana dei giorni prefestivi è quella più critica per quanto riguarda la numerosità del personale presente nel punto vendita. La tabella che segue sintetizza i risultati di alcune ispezioni a campione per la variabile X = ”numero di persone in fila ad una cassa” in tale fascia. Osservazioni 199 Media 1.87 Mediana 2 Varianza Corretta 2.07 Assumendo che la variabile X abbia una distribuzione di Poisson: (A) È vero (come affermava il responsabile del punto vendita prima che venissero effettuate le ispezioni) che, mediamente, il numero di persone in fila è superiore a 1.68? Impostare il problema come test delle ipotesi (α = 0.1). (B) Calcolare la potenza del test effettuato al punto precedente in corrispondenza dell’ipotesi alternativa ”il numero di medio di persone in fila è 1.81”. (C) Si assuma che: 2 casse siano aperte nel punto vendita; per ciascuna cassa il numero di persona in fila abbia una distribuzione di Poisson con parametro pari a quello stimato dal campione; il numero di persone in fila a casse diverse siano indipendenti (tale assunzione non è realistica). Calcolare la probabilità che il numero totale di persone in fila alle casse sia superiore a 2. 92.2 Soluzioni Esercizio 1. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui Y =’prezzo vendita (euro)’, X =’superficie punto vendita (migliaia di mq)’. (A) βb1 = −205.71, βb0 = 450.33, σ b2 = 98.81. 184 (B) Test di H0 : β1 = 0 contro H1 : β1 < 0. Statistica test (sotto H0 ): (βb1 − 0)/b σ (βb1 ) che sotto H0 ha una distribuzione T (n − 2). Valore campionario statistica test −12.9416; regione di rifiuto per α = 0.05: (−∞, −2.3534). (C) Previsione e relativo intervallo per y in corrispondenza di x0 = 0.98. Previsione: b y 0 = 248.7317. Per l’intervallo: pivot: [b y 0 − y 0 ]/b σ (b y 0 ) con distribuzione campionaria T (n − 2); intervallo: [b y 0 − tb σ (b y 0 ), b y0 + y 0 )] = [236.8245, 260.6389], dove per α = 0.1 e n − 2 = 3 si ha t = 2.3534. tb σ (b Calcoli e valori utili: Negozio Univ Deca xi 0.67 0.81 yi 300 295 x2i 0.4489 0.6561 yi2 90000 87025 xi yi 201 238.95 Mart 1.14 216 1.2996 46656 246.24 Rebo Cult Somma 0.4 1.12 4.14 371 218 1400 0.16 1.2544 3.819 137641 47524 408846 148.4 244.16 1078.75 Pn Pn da cui: n = 5, x = 0.828, y = 280, dev(x) = i=1 x2i − nx2 = 0.3911, dev(y) = i=1 yi2 − ny 2 = 16846, 2 Pn c1 dev(x) = 296.44, σ codev(x, y) = i=1 xi yi −nxy = −80.45, dev(RES) = dev(y)− β b2 = dev(RES)/(n− 2 c1 ) = σ c1 ) = 15.9, b 2) = 98.81, σ b = 9.94, Vb (β b /dev(x) = 252.67, σ b(β y 0 = βb0 + βb1 x0 = 248.7317; 2 2 b b b b [1/n + (x − x0 ) /dev(x)] = 25.6002, σ b(y 0 ) = 5.0597. V (y 0 ) = σ Esercizio 2. (A) Istogramma da costruire in base alla tabella seguente. (B) Indice di tendenza centrale: M e = 136.9. Indice di variabilità: ∆Q = Q3 − Q1 = 294.78. Calcoli: M e = 100 + (13295 − 11140)/58.4 = 136.9. Q1 = 40 + (6647.5 − 5370)/96.17 = 53.28, Q3 = 150 + (19942.5 − 14060)/29.7 = 348.06. Importo (euro) frequenza ampiezza densità freq. % cumulata [0, 40) 5370 40 134.25 5370 [40, 100) 5770 60 96.17 11140 [100, 150) 2920 50 58.4 14060 [150, 350) 5940 200 29.7 20000 [350, 630) 3250 280 11.61 23250 [630, 1750] 3340 1120 2.98 26590 Esercizio 3. Notazione: X = ’numero di persone in fila ad una cassa’ ∼ P o(λ). (A) Ipotesi: p H0 : λ = 1.68 contro H1 : λ > 1.68. Indichiamo 1.68 con λ0 . Statistica test (sotto H0 ): (X − λ0 )/ λ0 /n), la cui distribuzione sotto H0 è approssimabile con una N (0, 1). Regione di rifiuto per α = 0.1: (1.282, ∞); valore campionario della statistica test sotto H0 : 2.0679. (B) Calcolo potenza per H1 : λ = 1.81, α di cui sopra. Indichiamo 1.81 con λ1 . La regione di rifiuto è p quella costruita sopra. Indichiamo il valore critico con z , lo standard error sotto H con s = λ /n, 0 0 0 0 p quello sotto H1 con s1 = λ1 /n. γ = P (campione ∈ R|H1 ) = P [(X − λ0 )/s0 > z0 |H1 ] = P [X > λ0 + z0 s0 |H1 ] = P [(X − λ1 )/s (Z > −0.1284|H 1 ) = 0.5511. p1 > (λ0 + √z0 s0 − λ1 )/s1 |H1 ] = Pp √ Valori utili: X = 1.87, s0 = λ0 /n = 0.0084 = 0.0919, s1 = λ1 /n = 0.0091 = 0.0954. (C) Xi =’numero di persone in fila alla cassa i’∼ P o(λi = 1.87), i = 1, . . . , 2. Quindi X =’totale Pk Pk persone in fila alle casse’= i=1 Xi ∼ P o(λ = i=1 λi = 3.74), dove k = 2. P (X > 2) = 1 − P (X ≤ P2 2) = 1 − x=0 P (X = x) = 1 − 0.27873 = 0.72127 (Probabilità della Poisson necessarie nel calcolo: P (X = 0) = 0.02375; P (X = 1) = 0.08884; P (X = 2) = 0.16613). 185 93 93.1 Compito del 12.02.2009 (solo studenti PT) Testo Premessa: Spar-X è una catena di supermercati. Da alcuni anni ha istituito una tessera punti al fine di fidelizzare la clientela; fra l’altro, l’uso della tessera permette di ’tracciare’ il comportamento della clientela. I dati di cui ai testi seguenti si riferiscono ad un punto vendita in provincia di Brescia. Esercizio 1. Dai dati a disposizione sono strati estratti due distinti campioni casuali: uno relativo a coloro che hanno usato la tessera punti, uno per coloro che non l’hanno usata. La seguente tabella riporta le statistiche principali relative alla variabile ’importo speso’ (in Euro). Hanno usato tessera Non hanno usato tessera dimensione 177 177 media 55.6 52.4 √ varianza corretta 15.99 15.88 Si assuma che la variabile d’interesse abbia distribuzione normale. (A) Gli importi spesi dalle due tipologie di clienti sono mediamente gli stessi? Effettuare il test mediante in p-value. Si assuma ora che: i valori dei parametri delle distribuzioni dell”importo speso’, nelle due popolazioni (coloro che usano e non usano la tessera) siano pari a quelli stimati dal campione; fra tutti i clienti solo il 35.6% faccia uso della tessera punti. (B) Preso a caso un cliente, calcolare la probabilità che egli spenda più di 48 euro. (C) Sapendo che un cliente ha speso meno di 48 euro, qual è la probabilità che egli abbia esibito la tessera punti? Esercizio 2. La tessera punti permette di monitorare la frequenza con cui i clienti si recano ad effettuare la spesa. I dati relativi alla scorsa settimana sono riassunti nella seguente tabella (ogni giorno viene contato una sola volta, anche se il cliente vi si è recato più volte; sono stati esclusi i clienti con tessera punti che nella settimana non hanno fatto la spesa). Giorni spesa nella settimana Numero clienti 1 89 2 152 3 113 4 65 5 21 6 9 (A) Rappresentare graficamente la distribuzione della variabile ’numero di giorni di spesa nella settimana’. (B) Calcolare media e deviazione standard della variabile di cui al punto (A). Esercizio 3. Uno dei comportamenti attesi a priori, a parità di altre condizioni, è che tanto più spesso un cliente va a fare la spesa, tanto minore è la quantità che egli compra ciascuna volta. È vero? E in che misura? A questo scopo sono stati valutati, con riferimento alla settimana, l’importo medio per ciascuna spesa (’spesa totale / numero di spese’ nella settimana) e la frequenza con cui il cliente fa la spesa nell’arco della settimana. La seguente tabella riporta le principali statistiche (im = importo speso medio, ns = numero spese) . n 202 media(ns) 2.436 dev.st(ns) 1.147 media(im) 64.41 dev.st(im) 17.73 correlazione(ns, im) −0.519 (A) Formulare un opportuno modello per studiare come l’importo della spesa dipende dal numero di volte in cui il cliente si reca a fare la spesa. Stimarne tutti i parametri. (B) Sottoporre a test se quanto atteso a priori, circa il diminuire edio della spesa all’aumentare della frequenza delle spese, è vero (α = 0.01). (C) Fornire l’intervallo di confidenza (α = 0.05) per la deviazione standard dei residui. 93.2 Soluzioni Esercizio 1. 186 2 (A) Assunzioni: X =’importo speso da chi usa tessera’∼ N (µX , σX ), Y =’importo speso da chi non usa 2 tessera’∼ N (µY , σY ). Test di H0 p : µX − µY = 0 contro H0 : µX − µY 6= 0 per campioni indipendenti. 2 /n + S 2 /n (i due campioni hanno numerosità sufficientemente Statistica test [X −Y −(µX −µY )]/ SX X Y Y p 2 /n + S 2 /n − Y − 0]/ SX elevata). Sotto H0 la statistica test è [X X Y con distribuzione approssimata Y p 2 2 N (0, 1). p − value = 2P [(X − Y − 0)/ SX /nX + SY /nY > |zcamp |] = 2P (Z > 1.8892) = 2 ∗ 0.0294 = 0.0589. Calcoli = 177, x = 55.6, y =√52.4 sX = 15.99, sY = 15.88 zcamp = p e valori utili: nX = nY p [x − y − 0]/ s2X /nX + s2Y /nY = 1.8892, s2X /nX + s2Y /nY = 2.8692 = 1.6939. (B) (C) Assunzioni: U =’usa tessera’, N = ’non usa tessera’, X =’spesa’, P (U ) = 0.356, P (N ) = 0.644, X|U ∼ N (µU = 55.6, σU = 15.99), X|N ∼ N (µN = 52.4, σN = 15.88). (B) P (X > 48) = P (X > 48|U )P (U ) + P (X > 48|N )P (N ) = 0.6353. (C) P (U |X ≤ 48) = P (X ≤ 48|U )P (U )/(X ≤ 48) = 0.3097. Calcoli e valori utili: P (X > 48|U ) = P (Z > −0.4753) = 0.6827, P (X > 48|N ) = P (Z > −0.2771) = 0.6091, P (X ≤ 48|U ) = 0.3173, P (X ≤ 48|N ) = 0.3909. Esercizio 2. (A) Diagramma a spaghetti: le ascisse sono modalità (giorni di spesa alla settimana), le ordinate sono le frequenze (numero di clienti corrispondenti a ciascuna delle modalità). (B) M (X) = 1151/449 = 2.5635, M (X 2 ) = 3603/449 = 8.0245, V (X) = M (X 2 ) − M (X)2 = 1.4531, σ(X) = 1.2054. xi ni xi ni x2i ni 1 89 89 89 2 152 304 608 3 113 339 1017 4 65 260 1040 5 21 105 525 6 9 54 324 Somma 449 1151 3603 Esercizio 3. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui Y =’importo spesa (media settimanale)’, X =’numero spese (settimanali)’. (A) βb1 = −8.0226, βb0 = 83.9529, σ b2 = 231.98. c1 − β1 ]/b c1 − 0]/b (B) Test di H0 : β1 = 0 contro H1 : β1 < 0. Variabile test [β σ (βb1 ). Sotto H0 : [β σ (βb1 ) distribuita come T (n − 2). Regione di rifiuto per α = 0.01: (−∞, −2.3451) valore campionario della variabile test −8.5868. (C) Pivot: σ b2 (n − 2)/σ 2 con distribuzione χ2 (n − 2). Intervallo (α = 0.05) per σ 2 : [192.4644, 285.108] e per σ: [13.8732, 16.8851] (valori utili: c1 = 162.728, c2 = 241.0579). Valori e calcoli utili: n = 202, dev(x) = nV ar(x) = 265.75, dev(y) = nV ar(y) = 63499.29, codev(x, y) = q corr(x, y) dev(x)dev(y) = −2132.02, βb1 = codev(x, y)/dev(x) = −8.0226, βb0 = y − βb1 x = 83.9529, p √ σ b2 = (dev(y) − βb2 dev(x))/(n − 2) = 231.98, σ b(βb1 ) = σ b2 /dev(x) = 0.8729 = 0.93429. 1 187 94 94.1 Compito del 21.04.2009 (solo studenti PT) Testo Premessa: CARS è una rete di concessionarie. Esercizio 1. CARS valuta periodicamente in che misura la richiesta di un preventivo si trasforma nell’ordine di una macchina nuova. La seguente tabella confronta la situazione rilevata nel 2007 con quella del 2008 su due diversi campioni di clienti (sono state considerate solo le auto per uso personale e familiare). Preventivi richiesti Di cui trasformati in ordini 2007 1069 260 2008 1111 227 Assumendo che ogni preventivo sia richiesto indipendentemente dagli altri, si risponda alle seguenti domande. (A) Con riferimento al 2008, fornire la stima di massima verosimiglianza della probabilità che un preventivo si trasformi in un ordine. Valutare il corrispondente standard error. (B) Sempre con riferimento al 2008, calcolare la probabilità che, su 200 preventivi, quelli convertiti in ordini siano almeno 38 (si assuma che la probabilità che un singolo preventivo venga convertito sia pari a quella stimata sul campione). (C) La probabilità che un preventivo si trasformi in un ordine è significativamente cambiata fra 2007 e 2008? Impostare il problema come test delle ipotesi ed effettuarlo mediante in p-value. Esercizio 2. Una delle maggiori lamentele dei clienti di CARS riguarda il valore residuo della macchina al momento in cui i clienti decidono di cambiarla. Anche se, ovviamente, questo dipende più dalla casa madre che dalla concessionaria, un dipendente di CARS (sta preparando l’esame di statistica!) ha ugualmente effettuato una piccola valutazione. La tabella seguente mostra i dati di un campione di macchine diesel dello stesso modello (valore residuo = valore al momento del cambio / prezzo di acquisto in %; età espressa in anni). Macchina Età Valore residuo 1 2.3 44 2 2.2 55 3 2.7 48 4 3.9 32 5 1.2 67 6 1.7 54 (A) Formulare un opportuno modello che colleghi il valore residuo all’età del veicolo e stimarne tutti i parametri. (B) Fornire l’intervallo di previsione al 0.05 relativamente al valore residuo di un’auto con un’età di 4.5 anni. (C) Stimare il valore dei residui corrispondenti alle prime due osservazioni del campione. Esercizio 3. La seguente tabella mostra la distribuzione della variabile casuale doppia (X, Y ). x = −1 x=1 y = −1 0.109 0.295 y=0 0.262 0.088 y=1 0.043 0.203 (A) X e Y sono indipendenti? Se sı̀, argomentare la risposta, altrimenti calcolare le probabilità congiunte in caso di indipendenza e in corrispondenza delle marginali ricavabili dalla tabella. (B) Tabulare la distribuzione condizionata di Y |X = −1. Calcolarne media e deviazione standard. 94.2 Soluzioni Esercizio 1. (A) Assunzioni: X =’preventivo 2008 convertito?’∼ Be(p). Lo stimatore di massima verosimiglianza di p è pe = X,√stimatore corretto di p con varianza pq/n. Quindi: pe = 227/1111 = 0.2043 è la stima di p e p peqe/n = 0.000146 = 0.0121 è lo standard error. 188 (B) Assunzioni di cui sopra. Y = ’numero preventivi convertiti su 200’∼ Bi(n = 200, p = 0.2043). Usando l’approssimazione Normale N (np = 40.86, npq = 32.51) abbiamo P (Y ≥ 38) ≈ P (Y ≥ 37.5) = P (Z ≥ −0.589) = 0.72216 (≈ indica la correzione per la continuità). (C) Assunzioni: X1 =’preventivo 2007 convertito?’∼ Be(p1 ), X2 =’preventivo 2008 convertito?’∼ Be(p2 ). p Test di H0 : p1 −p2 = 0 contro H1 : p1 −p2 6= 0. Statistica test sotto H0 : [X 1 −X 2 −0]/ pbqb(1/n1 + 1/n2 ) con distribuzione approssimata N (0, 1) (b p = stimatore pooled del p comune sotto H0 ). pValore campionario della statistica test sotto H0 : zcamp = 2.1797; p − value = 2P [(X 1 − X 2 − 0)/ pbqb(1/n1 + 1/n2 ) > |zcamp ||H0 ] = 2P [Z > 2.1797|H0 ] = 2 ∗ 0.014639 = 0.029277. Calcoli e valori utili: n1 = 1069, n2 = 1111 = 0.2432, x2 = 227/1111 = 0.2043, p x1 = 260/1069 √ pb = p (260 + 227)/(1069 + 1111) = 0.2234, pbqb(1/n1 + 1/n2 ) = 0.000318 = 0.01785. zcamp = (x1 − x2 )/ pbqb(1/n1 + 1/n2 ) = 2.1797. Esercizio 2. Modello di regressione lineare yi = β0 + β1 xi + ui , ui ∼ N (0, σ 2 ), in cui Y =’valore residuo’, X =’età’. (A) βb1 = −11.93, βb0 = 77.83, σ b2 = 20.85. y 0 − y 0 )/b σ (b y 0 ) con (B) Intervallo di previsione per y in corrispondenza di x0 = 4.5 per α = 0.05. Pivot (b distribuzione T (n − 2). L’intervallo richiesto è allora [9.9288, 38.3941]. (C) Residui sono stimati con u bi = yi − ybi , dove ybi = βb0 + βb1 xi . Calcoli e valori utili: Macchina 1 xi 2.3 yi 44 x2i 5.29 yi2 1936 xi yi 101.2 u bi -6.3975 2 2.2 55 4.84 3025 121 3.4099 3 2.7 48 7.29 2304 129.6 2.3727 4 5 6 Somma 3.9 1.2 1.7 14 32 67 54 300 15.21 1.44 2.89 36.96 1024 4489 2916 15694 124.8 80.4 91.8 648.8 0.6832 3.4845 -3.5528 0 Pn Pn da cui: n = 6, x = 2.3333, y = 50, dev(x) = i=1 x2i − nx2 = 4.293, dev(y) = i=1 yi2 − ny 2 = 694, 2 Pn c1 dev(x) = 83.42, σ codev(x, y) = i=1 xi yi − nxy = −51.2, dev(RES) = dev(y) − β b2 = dev(RES)/(n − 2 2 2 y = βb0 + βb1 x0 = 24.16, σ b (b y )=σ b (1/n+(x0 −x) /dev(x)) = 26.28. σ b(b y ) = 5.13. 2) = 20.85, σ b = 4.57, b 0 0 0 Esercizio 3. (A) Se fossero indipendenti, le frequenze congiunte sarebbero pari al prodotto delle marginali corrispondenti, come dalla seguente tabella. Evidentemente X e Y non sono indipendenti. x = −1 x=1 y = −1 0.1673 0.2367 0.404 y=0 0.1449 0.2051 0.35 y=1 0.1018 0.1442 0.246 0.414 0.586 1 (B) Distribuzione di Y |X = −1 e prospetto di calcolo dei momenti richiesti come da seguente tabella. y -1 0 1 f (y|X = −1) 0.2633 0.6329 0.1039 1 yf (y|X = −1) −0.2633 0 0.1039 −0.1594 y 2 f (y|X = −1) 0.2633 0 0.1039 0.3671 2 2 da cui E(Y |X = −1) = −0.1594, V p(Y |X = −1) = E(Y |X = −1) − E(Y |X = −1) = 0.3671 − −0.15942 = 0.3417, σ(Y |X = −1) = V (Y |X = −1) = 0.5846. 189 95 95.1 Compito del 10.06.2009 (solo studenti PT) Testo Premessa: Si parla della Serie A di calcio e di una parte del business che vi ruota intorno. Esercizio 1. La lega di serie A sta analizzando il business che ruota intorno ai gadgets (magliette, sciarpe ed altri oggetti) venduti con i marchi delle squadre di A: lo studio mira a capire in che misura i volumi venduti sono legati al numero di tifosi. La tabella seguente riporta alcune statistiche calcolate su dati 2007 (V indica i volumi venduti presi in logaritmo, T il numero di tifosi presi in logaritmo; per pura informazione, si nota che la valutazione di entrambe le poste citate sconta forti elementi di incertezza). n 16 media(T ) 13.39 media(V ) 16.38 dev.st(T ) 1.51 dev.st(V ) 1.44 correlazione(V, T ) 0.81 Si formuli un opportuno modello che risponda alle esigenze espresse nel testo e si risponda alle seguenti domande. (A) Stimare tutti i parametri mediante il metodo dei minimi quadrati. (B) Indicare quanta parte della variabilità della variabile dipendente è spiegata dal modello considerato. (C) Sulla base del modello stimato, valutare il residuo per il dato campionario relativo alla SAMPDORIA (T = 13.7, V = 15.9). La squadra indicata si è comportata meglio o peggio di come previsto dal modello? (D) Costruire l’intervallo di previsione (α = 0.01) in corrispondenza del valore della variabile indipendente rilevato per la SAMPDORIA (punto (C) precedente). Esercizio 2. Una rilevazione telefonica mira a valutare se vi siano differenze comportamento, relativamente all’acquisto di gadgets delle squadre di serie A, fra chi segue la propria squadra prevalentemente allo stadio e chi invece la vede soprattutto in pay-tv (i dati in tabella sono riferiti alla spesa in gadgets effettuata in un anno, valori in euro). tifosi da pay-tv tifosi da stadio intervistati 121 244 media 32.7 37.3 √ varianza corretta 19.7 21.4 (A) Sottoporre a test l’ipotesi che non vi sia differenza, circa la spesa in gadgets, fra quando mediamente spendono le due categorie di tifosi (usare il p-value commentando in breve il risultato). (B) Determinare l’intervallo di confidenza per α = 0.02 riguardo alla deviazione standard della spesa in gadgets fra i tifosi da pay-tv. Esercizio 3. I dati a disposizione hanno consentito di valutare che coloro che hanno visto almeno una partita di serie A nell’anno sono: il 63.2% fra i maschi, il 39.7% fra le femmine (la popolazione di riferimento è quella fra 18 e 65 anni). Considerando che in Italia, nella fascia di età indicata, i maschi sono il 47%: (A) Presa a caso una persona che nell’anno ha visto almeno una partita di serie A, trovare al probabilità che questa sia una femmina. (B) Tabulare le probabilità congiunte dei 4 eventi ottenuti combinando il sesso con il fatto di avere visto o no una partita di serie A nell’anno (seguire il seguente schema). Sesso Maschio Femmina 95.2 Almeno una partita vista nell’anno Sı̀ No ?? ?? ?? ?? Soluzioni Esercizio 1. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui y = V , X = T . (A) βb1 = 0.7725, βb0 = 6.0369, σ b2 = 0.815. 190 (B) R2 = 0.6561. (C) Residuo SAMPDORIA: u bSAM P = −0.7195. Essendo il residuo di segno negativo si è comportata peggio di come previsto dal modello. (D) Intervallo di previsione per y in corrispondenza di x0 = 13.7 con α = 0.01. Pivot (b y 0 − y 0 )/b σ (b y 0 ) con distribuzione T (n − 2). L’intervallo cercato è [15.9336, 17.3053]. Valori e calcoli utili: n = 16, dev(x) = nV ar(x) = 36.4816, dev(y) = nV ar(y) = 33.1776, codev(x, y) = q corr(x, y) dev(x)dev(y) = 28.1802, βb1 = codev(x, y)/dev(x) = 0.7725, βb0 = y − βb1 x = 6.0369, σ b2 = (dev(y) − βb12 dev(x))/(n − 2) = 0.815, dev(RES) = dev(y) − βb12 dev(x) = 11.4098, dev(REG) = dev(y) − dev(RES) = 11.4098, R2 = dev(REG)/dev(y) = 0.6561, (per brevità l’etichetta SAMP viene sostituita con 0) yb0 = b y 0 =q βb0 + βb1 x0 = 16.6195, u b0 = y0 − yb0 = −0.7195, Vb (b y0 ) = σ b2 (1/n + (x0 − x)2 /dev(x)) = y 0 ) = Vb (b y 0 ) = 0.2304, α = 0.01, gl = n − 2 = 14, t = 2.9768, intervallo di previsione 0.0531 σ b(b [b y 0 − tb σ (b y 0 ), b y 0 + tb σ (b y 0 )] = [15.9336, 17.3053] Esercizio 2. (A) Assunzioni: X1 =’Spesa dei tifosi da pay-tv’∼ N (µ1 , σ12 ); X2 =’Spesa dei tifosi da stadio’∼ N (µ2 , σ22 ). p Test di H0 : µ1 −µ2 = 0 contro H0 : µ1 −µ2 6= 0. Statistica test sotto H0 : (X 1 −X 2 −0)/ S12 /n1 + S22 /n2 con distribuzione approssimata N (0, 1) (n1 ed n2 sono infatti sufficientemente elevati). p Valore campionario della statistica test sotto H0 : zcamp = −2.0401; p − value = 2P [(X 1 − X 2 − 0)/ S12 /n1 + S22 /n2 > |zcamp ||H0 ] = 2P [Z > 2.0401|H0 ] = 2 ∗ 0.020672 = 0.041343. (B) Assunzioni: quelle di cui sopra per X1 (cui per comodità si toglie il pedice 1). Pivot per σ 2 : (n − 1)S 2 /σ 2 distribuito come χ2 (n − 1). Intervallo per σ 2 (con α = 0.02): [(n − 1)s2 /c2 , (n − 1)s2 /c1 ] = [292.989943, 535.769016]; intervallo per σ: [17.11695, 23.14668]. p 2 2 Calcoli e valori utili: n1 = 121, n2 = 244 px1 = 32.7, x2 = 37.3, s1 = 19.7, s2 = 21.4, s1 /n1 + s2 /n2 = √ 5.084241 = 2.25483 zcamp = (x1 −x2 )/ s21 /n1 + s22 /n2 = −2.0401; n−1 = 120, c1 = 86.92, c2 = 158.95. Esercizio 3. Assunzioni: M =’Maschio’, F =’Femmina’, A =’Almeno una partita vista in un anno’; P (A|M ) = 0.632, P (A|F ) = 0.397, P (M ) = 0.47. (A) P (F |A) = P (A|F )P (F )/P (A) = 0.4146, dove P (A) = P (A|F )P (F ) + P (A|M )P (M ) = 0.5074. (B) Calcolo delle probabilità congiunte secondo la regola delle probabilità composte. Sesso Maschio Femmina Almeno una partita vista nell’anno Sı̀ No 0.297 0.173 0.2104 0.3196 191 96 96.1 Compito del 24.06.2009 (solo studenti PT) Testo Premessa: Pan-One è una multinazionale del settore alimentare. Fra i diversi prodotti, ha anche una linea di merendine per bambini (target: età da scuola dell’obbligo). Esercizio 1. Le merendine della Pan-One sono pubblicizzate da più di un anno con gli stessi spot; attualmente è in fase di test la nuova campagna pubblicitaria. Un piccolo campione di bambini, che non ha mai visto né il vecchio né il nuovo spot, è stato selezionato per un giudizio comparato (la seguente tabella riporta le loro valutazioni convertite in punteggi). Vecchio spot Nuovo spot Anna 5.5 6.8 Bernardo 8 7 Carolina 6.6 7.9 Daniela 4.1 5.1 Enrico 6.5 8.9 Fabio 7.1 8.7 (A) Fornire una stima della differenza di gradimento fra nuovo e vecchio spot; calcolare anche lo standard error (stima della deviazione standard dello stimatore utilizzato). (B) Il gradimento medio è significativamente diverso fra i due spot? (α = 0.05) (C) Calcolare il coefficiente di correlazione fra i giudizi espressi dai bambini nei confronti dei due spot. Il valore ottenuto supporta la procedura inferenziale utilizzata ai punti A e B? Esercizio 2. Pan-One due anni fa ha lanciato in Australia una nuova merendina che ha riscosso un ottimo successo. Si sta pensando di commercializzarla anche in Italia ma non è detto che i gusti siano analoghi. Su un campione di merendine è stato aumentato (ogni volta di un ammontare diverso e prestabilito) il contenuto di zucchero (rispetto alle merendine ’australiane’) per valutare le reazioni rispetto al gusto dei bambini italiani. Ciascuna merendina è stata somministrata ad un diverso bambino che ha espresso un giudizio; questo è stato a sua volta convertito in un punteggio. Dal modello di regressione applicato sono stati ricavati i risultati riportati in tabella (n = 28; per il significato dello standard error si veda il precedente esercizio). stima standard error β0 13.904 1.132 β1 −0.2 0.033 σ2 0.71 0.197 (A) Il gradimento tende a diminuire in modo significativo all’aumentare della quantità di zucchero (α = 0.05)? (B) Determinare l’intervallo di confidenza per α = 0.02 per la deviazione standard del termine di errore della regressione. (C) Dalle statistiche riportate ricavare media e devianza di x. Esercizio 3. Uno studio ha documentato che i bambini della scuola elementare consumano in media 2.19 merendine al giorno mentre per quelli della scuola media la media è di 1.23 merendine al giorno. Assumendo che il numero di merendine consumate in un giorno segua una distribuzione di Poisson e che, nella fascia di età presa in esame, il 65.7% dei bambini frequenti le elementari: (A) Preso a caso un bambino, calcolare la probabilità che questo consumi più di 2 merendine al giorno. (B) Calcolare le probabilità a posteriori che un bambino consumi più di 2 merendine al giorno. 96.2 Soluzioni Esercizio 1. Assunzioni. Essendo il campione lo stesso per i due spot, i dati sono chiaramente appaiati, 2 per cui: D = Y − X ∼ N (µD , σD ), dove Y =’Punteggio nuovo’, X =’Punteggio vecchio’. √ (A) Stima: d = y − x = 1.1; corrispondente standard error: σ b(d) = sd / n = 0.4633. √ (B) Test di H0 : µD = 0 contro H0 : µD 6= 0; statistica test (sotto H0 ) (D − 0)/(SD / n) che la cui distribuzione sotto H0 è T (n−1). Valore campionario della statistica test: 2.3742; regione di accettazione per α = 0.05: [−2.5706, 2.5706]. 192 q (C) ρ(x, y) = cod(x, y)/ dev(x)dev(y) = 0.6642. Si tratta di un valore relativamente elevato che supporta la non indipendenza fra le osservazioni relative alle due merendine. Calcoli e valori utili: Anna Bernardo Carolina Daniela Enrico Fabio Somma xi 5.5 8 6.6 4.1 6.5 7.1 37.8 yi 6.8 7 7.9 5.1 8.9 8.7 44.4 x2i 30.25 64 43.56 16.81 42.25 50.41 247.28 yi2 46.24 49 62.41 26.01 79.21 75.69 338.56 xi yi 37.4 56 52.14 20.91 57.85 61.77 286.07 di 1.3 −1 1.3 1 2.4 1.6 6.6 d2i 1.69 1 1.69 1 5.76 2.56 13.7 Pn Pn d = i=1 di = 1.1, dev(d) = i=1 d2i −nd = 6.44 s2d = dev(d)/(n−1) = 1.288, sd = 1.1349; dev(x) = 9.14, dev(y) = 10, codev(x, y) = 6.35. Esercizio 2. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui y =’Giudizio’, x =’Quantità di zucchero’. (A) Test di H0 : β1 = 0 contro H0 : β1 < 0. Statistica test sotto H0 : (βb1 − 0)/se(βb1 ) che sotto H0 ha distribuzione T (n − 2). Valore campionario della statistica test −6.0606; regione di rifiuto per α = 0.05: (−∞, −1.7056). (B) Pivot σ 2 (n − 2)/σ 2 la cui distribuzione è χ2 (n − 2). Intervallo di previsione per σ 2 con α = 0.02: [0.4045, 1.5133]; corrispondente intervallo per σ: [0.636, 1.2302] (dalle tavole c1 = 12.1981, c2 = 45.6417) p p b b2 /se(βb1 )2 = 651.9743, se(βb0 ) = σ b 1/n + x2 /dev(x) implica (C) se( b/ dev(x) implica dev(x) = σ q β1 ) = σ x = dev(x)(se(βb0 )2 /b σ 2 − 1/n) = 33.9619. Esercizio 3. Assunzioni: E =’scuola elementare’, M =’scuola media’. (A) P (X > 2) = P (X > 2|E)P (E) + P (X > 2|M )P (M ) = 0.2897. (B) P (E|X > 2) = P (X > 2|E)P (E)/P (X > 2) = 0.8495, P (M |X > 2) = 1 − P (E|X > 2) = 0.1505. Calcoli e valori utili: P (E) = 0.657, P (M ) = 0.343, P (X = 0|E) = 0.1119, P (X = 1|E) = 0.2451, P (X = 2|E) = 0.2684, P (X > 2|E) = 0.3746, P (X = 0|M ) = 0.2923, P (X = 1|M ) = 0.3595, P (X = 2|M ) = 0.2211, P (X > 2|M ) = 0.1271. Le probabilità condizionate che precedono sono calcolate facendo uso della funzione di massa della Poisson. 193 97 97.1 Compito del 08.07.2009 (solo studenti PT) Testo Premessa: Si parla di turismo nella provincia di Ravenna. Esercizio 1. La provincia di Ravenna ha attivato un progetto di monitoraggio dei flussi turistici in ’tempo reale’ (di norma i dati giungono con un ritardo di mesi ed abbastanza alla rinfusa) in collaborazione con gli alberghi. Alcuni di questi collaborano attivamente al progetto, altri no o solo in modo parziale. La seguente tabella di frequenza riporta il quadro della situazione nel 2008 (RSA = Residenze Turistico alberghiere). Esercizio Alberghi 3-5 Stelle Alberghi 1-2 Stelle e RSA sı̀ 135 71 Collabora no o solo parzialmente 280 103 (A) Fornire una stima della probabilità che un qualsiasi esercizio collabori al progetto della provincia; fornire anche lo standard error (stima della deviazione standard) dello stimatore utilizzato. (B) La probabilità che un esercizio collabori al progetto è significativamente diversa fra i due tipi di esercizi? Rispondere mediante il p-value. Esercizio 2. Utilizzando i listini prezzi comunicati e i dati strutturali a disposizione, si cerca di capire se le variazioni di prezzo fra 2008 e 2009 sono in qualche misura correlate alla dimensione dell’esercizio in termini di posti letto. La seguente tabella riporta alcune statistiche (P = variazione percentuale dei prezzi; L = posti letto) per un piccolo campione di imprese. osservazioni 32 media(P ) 2.265 media(L) 112.913 dev.st(P ) 0.867 dev.st(L) 41.855 correlazione(P, L) −0.158 (A) Le variazioni di prezzo sono significativamente legate alla dimensione dell’esercizio (α = 0.02)? (B) Determinare l’intervallo di confidenza, per α = 0.01, relativamente alla deviazione standard del termine di errore della regressione. (C) Scomporre la devianza della variabile dipendente nelle due componenti residua e di regressione fornendo delle 3 i rispettivi valori. Esercizio 3. Sui dati pervenuti per il giugno 2009, è stato analizzato il numero di pernottamenti per cliente, ricavando la seguente tabella di frequenza (per brevità, pernottamenti più brevi di 2 giorni e più lunghi di 10 giorni sono stati rimossi). Pernottamenti per cliente Frequenze relative 2 0.17 3 0.12 4 0.09 5 0.42 6 0.09 7 0.04 8 0.03 9 0.02 10 0.02 (A) Rappresentare graficamente la distribuzione delle frequenze relative del numero di pernottamenti per cliente. (B) Calcolare media e varianza della variabile indicata. (C) Si assuma che ogni pernottamento costi esattamente 69 euro (assunzione ovviamente non realistica). È possibile calcolare media e varianza della variabile costo dei pernottamenti (durante l’intera vacanza) per cliente? Se sı̀ effettuare il calcolo, altrimenti spiegare il perché. 97.2 Soluzioni Esercizio 1. (A) Assunzioni: X =’Collabora?’∼ Be(p). Stima di p: pb = 0.3497; corrispondente standard error: 0.01965. (B) Assunzioni: X1 =’Esercizio a 3-5 stelle collabora?’∼ Be(p1 ); X2 =’Esercizio a 1-2 stelle o RSA collabora?’∼ p Be(p2 ). Test di H0 : p1 − p2 = 0 contro H0 : p1 − p2 6= 0; statistica test (sotto H0 ) b2 −0)/ pbqb(1/n1 + 1/n2 ) la cui distribuzione è, approssimativamente, N (0, 1). Valore campionario (b p1 − X 194 della statistica test: zcamp = −1.9212; p − value = 2P ((X 1 − X 2 − 0)/ 2P (Z > 1.9212) = 2 ∗ 0.02736 = 0.05471. p pbqb(1/n1 + 1/n2 ) > |zcamp |) = Calcoli p √ Pne valori utili: pb = i=1 xi /n = 206/589 = 0.3497; se(b p) = pbqb/n = 0.000386 = 0.01965. pb1 = 135/415 = 0.3253; p √ pb2 = 71/174 = 0.40805; pb = (b p1 n1 + pb2 n2 )/(n1 + n2 ) = 0.3497; pbqb(1/n1 + 1/n2 ) = 0.00186 = 0.04307. Esercizio 2. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui y = P , X = L. (A) Test di H0 : β1 = 0 contro H1 : β1 6= 0; Statistica test (sotto H0 ) (βb1 −0)/se(βb1 ) la cui distribuzione è T (n − 2). Valore campionario della statistica test: tcamp = −0.8764; regione di accettazione per α = 0.02: [−2.4573, 2.4573]. (B) Pivot σ 2 (n − 2)/σ 2 la cui distribuzione è χ2 (n − 2). Intervallo di previsione per σ 2 con α = 0.01: [0.437, 1.7012]; corrispondente intervallo per σ: [0.661, 1.3043] (dalle tavole c1 = 13.7867, c2 = 53.672) (C) dev(y) = 24.054, dev(Res) = 23.4536, dev(Reg) = 0.6005. Valori e calcoli utili: n = 32, dev(x) = nV ar(x) = 56058.9128, dev(y) = nV ar(y) = 24.054, codev(x, y) = q corr(x, y) dev(x)dev(y) = −183.4736, βb1 = codev(x, y)/dev(x) = −0.0033, βb0 = y − βb1 x = 2.6345, σ b2 = dev(Res)/(n − 2) = 0.7818, dev(Res) = dev(y) − βb12 dev(x) = 23.4536, dev(Reg) = dev(y) − dev(Res) = 0.6005. Esercizio 3. Assunzioni: X =’numero pernottamenti per cliente’. (A) Diagramma a spaghetti, con in ascisse le modalità e in ordinate le frequenze relative. (B) M (X) = 4.6, V (X) = 3.28. (C) Y = 69∗X. In base alle proprietà delle statistiche in oggetto si ricava che M (Y ) = 69∗M (X) = 317.4, V (Y ) = 692 ∗ V (X) = 15616.08. Calcoli e valori utili: xi 2 3 4 5 6 7 fi 0.17 0.12 0.09 0.42 0.09 0.04 xi fi 0.34 0.36 0.36 2.1 0.54 0.28 x2i 4 9 16 25 36 49 x2i fi 0.68 1.08 1.44 10.5 3.24 1.96 da cui P P8 8 M (X) = i=1 xi fi = 4.6, M (X 2 ) = i=1 x2i fi 8 0.03 0.24 64 1.92 9 0.02 0.18 81 1.62 10 0.02 0.2 100 2 Somma 1 4.6 24.44 = 24.44, V (X) = M (X 2 ) − M (X)2 = 3.28. 195 98 98.1 Compito del 09.09.2009 (solo studenti PT) Testo Premessa: Una piccola banca locale, la BDL, è stata oggetto di acquisizione da parte un gruppo nazionale il quale sta progressivamente procedendo alla sua integrazione. Esercizio 1. Agli analisti del gruppo non appare chiaro se la produttività delle filiali BDL (valutata come valore aggiunto / costo del personale espresso in %) sia in una qualche modo legata con la loro dimensione (misurata mediante il costo del personale stesso). La tabella seguente riporta i dati 2008. Filiale Produttività Costo personale 1 4.7 590 2 4.7 590 3 2.8 320 4 6 450 5 5.3 360 (A) Formulare un opportuno modello che risponda alle esigenze degli analisti. Stimarne i parametri. (B) La produttività varia in modo significativo con la dimensione? (α = 0.05). (C) Fornire l’intervallo di confidenza (α = 0.05) per la deviazione standard della componente residua. (D) Calcolare residui di regressione per le prime due osservazioni. Esercizio 2. L’organizzazione BDL è stata oggetto di revisione al fine di aumentarne la produttività. I dati della tabella (valori di produttività per addetto di cui si omette l’unità di misura) confrontano le performances delle diverse filiali prima e dopo tale revisione. Filiale Produttività ante riorganizzazione Produttività post riorganizzazione 1 6.1 5.5 2 5.8 6.2 3 5.6 4 4 5.3 5.6 5 8.1 7.2 (A) La revisione organizzativa ha risultati in termini di miglioramento della produttività? (α = 0.01). (B) Nella procedura di cui al punto (A), cosa sarebbe cambiato se tutti quei parametri che è stato necessario stimare per poter calcolare lo standard error utilizzato nella statistica test fossero stati noti? Effettuare i relativi calcoli assumendo che i valori dei parametri in oggetto siano pari alle stime. Esercizio 3. Di quando in quando, per i motivi più svariati qualche cliente intenta una causa contro la banca. Si assuma che, ogni anno, ciascuno dei clienti che ha un conto corrente di tipo professionale intenti una causa con probabilità 0.021, mentre per ciascuno clienti avente un conto corrente di tipo personale fa causa con probabilità 0.007. Su una popolazione di conti correnti fatta da 4600 professionali e 8000 personali e assumendo indipendenza di comportamento fra i correntisti: (A) In totale, in un anno, quante cause si attendono mediamente? Con quale deviazione standard? (B) Determinare l’intervallo, simmetrico rispetto alla media, per il totale di cause intentate in un anno, che include il 98% di probabilità. 98.2 Soluzioni Esercizio 1. Modello di regressione lineare yi = β0 + β1 xi + ui , ui ∼ N (0, σ 2 ), in cui Y =’produttività’, X =’costo personale’. (A) βb1 = 0.00304033, βb0 = 3.2954, σ b2 = 1.6911. (B) Test di H0 : β1 = 0 contro H0 : β1 6= 0. La statistica test, sotto H0 , è (βb1 − 0)/b σ (βb1 ) con distribuzione T (n − 2). Valore campionario della statistica test: 0.5891; regione di accettazione per α = 0.05: [−3.1824, 3.1824]. (C) Pivot per σ 2 : (n − 2)b σ 2 /σ 2 la cui distribuzione è χ2 (n − 2); intervallo per σ 2 con α = 0.05: [0.5427, 23.5094]; corrispondente intervallo per σ: [0.7367, 4.8486] (c1 = 0.2158, c2 = 9.3484). (D) I residui sono stimati con u bi = yi − ybi , dove ybi = βb0 + βb1 xi . Calcoli e valori utili: 196 Filiale xi yi x2i yi2 xi yi ybi u bi 1 590 4.7 348100 22.09 2773 5.09 −0.39 2 590 4.7 348100 22.09 2773 5.09 −0.39 3 320 2.8 102400 7.84 896 4.27 −1.47 4 5 Somma 450 360 2310 6 5.3 23.5 202500 129600 1130700 36 28.09 116 2700 1908 11050 4.66 4.39 23.5 1.34 0.91 0 Pn Pn da cui: n = 5, x = 462, y = 4.7, dev(x) = i=1 x2i − nx2 = 63480, dev(y) = i=1 yi2 − ny 2 = 5.66, Pn codev(x, y) = i=1 xi yi −nxy = 193, dev(RES) = dev(y)− βb12 dev(x) = 5.0732, σ b2 = dev(RES)/(n−2) = p √ 1.6911, σ b = 1.3004, σ b(βb1 ) = σ b2 /dev(x) = 2.66394e − 05 = 0.0052. Esercizio 2. Assunzioni. Essendo il campione lo stesso per i due spot, i dati sono appaiati, per 2 cui: D = X − Y ∼ N (µD , σD ), dove X =’produttività post riorganizzazione’, Y =’produttività ante riorganizzazione’. √ (A) Test di H0 : µD = 0 contro H0 : µD > 0. La statistica test, sotto H0 , è (D − 0)/(SD / n) con distribuzione T (n − 1). Valore campionario della statistica test: −1.2765; regione di rifiuto per α = 0.01: [3.7469, ∞). √ (B) La statistica D utilizzata al punto (A) ha come standard error sD / n, dove sD serve√a stimare σD . Se quest’ultimo fosse stato noto, la statistica test (sotto H0 ) sarebbe stata (D − 0)/(σD / n) che la cui distribuzione sotto H0 è N (0, 1). Valore campionario della statistica test: −1.2765; regione di rifiuto per α = 0.01: [2.3263, ∞). Calcoli e valori utili: Filiale 1 2 di −0.6 0.4 d2i 0.36 0.16 3 −1.6 2.56 4 5 Somma 0.3 −0.9 −2.4 0.09 0.81 3.98 √ Pn √ 2 da cui: n = 5, d = −0.48, dev(d) = i=1 d2i − nd = 2.828, sD = 0.707 = 0.8408, sD / n = 0.376. Esercizio 3. Assunzioni: A =’contro corrente di tipo professionale’, B =’contro corrente di tipo personale’; XA =’cliente tipo A fa causa?’∼ Be(pA = 0.021), XB =’cliente tipo B fa causa?’∼ Be(pB = 0.007); comportamenti dei correntisti indipendenti; nA = 4600, nB = 8000. (A) YA =’cause totali da clienti tipo A’∼ Bi(nA , pA ), YB =’cause totali da clienti tipo B’∼ Bi(nB , pB ), cause totali = YA +YB . E(YA +YB ) = E(YA )+E(YB ) = nA pA +nB pB = 96.6+56 = 152.6; V (YA +YB ) = V (YA ) + V (YB ) = nA pA qA + nB pB qB = 94.5714 + 55.608 = 150.1794 per l’indipendenza; σ(YA + YB ) = 12.2548. (C) Dati i valori elevati di nA ed nB possiamo approssimare le due Bi di cui sopra con altrettante N indipendenti e, quindi, la loro somma con una N (µ = 152.6, σ = 12.2548). L’intervallo è allora: [µ − σz, µ + σz] = [124.09, 181.11], dove z = 2.3263 (α = 0.02) 197 99 99.1 Compito del 16.12.2009 (solo studenti PT) Testo Premessa: Un’associazione di amministratori di condominio e una di consumatori hanno commissionato insieme una rilevazione campionaria al fine di conoscere e valutare aspetti non del tutto noti del rapporto fra amministratori e condòmini. Esercizio 1. Nella rilevazione sono stati raccolti elementi per poter calcolare la dimensione media dei condomini amministrati da ciascun amministratore (in pratica numero appartamenti / numero condomini ); inoltre è stato chiesto a ciascun amministratore di esprimere un punteggio sul grado di rissosità complessivamente percepito circa i condomini da essi amministrati (0 = situazione assolutamente tranquilla; 10 = situazione da ricovero). Il campione in esame (riferito a centri da 50-mila a 200-mila abitanti del centro-nord Italia) è composto da 82 unità; alcune statistiche sono riportate nella seguente tabella. Dimensione Rissosità medie 25.8 4.79 varianze-covarianze Dimensione Rissosità Dimensione 75.9 −10.587 Rissosità −10.587 3.34 Interessa valutare se il grado di rissosità percepito dagli amministratori è in qualche misura legato alla dimensione media dei condomini amministrati. (A) Formulare un modello statistico che risponda alle esigenze espresse. Stimarne i parametri. (B) La rissosità dipende in modo significativo dalla dimensione? (α = 0.01). (C) Scomporre la devianza della variabile dipendente nelle sue componenti (di regressione e residua) fornendone i valori. Quale indicazione utile fornisce tale scomposizione? (D) Fornire l’intervallo di previsione al 1 − α = 0.99 per la variabile dipendente in corrispondenza di un valore 29.81 della variabile indipendente. Esercizio 2. X e Y sono due variabili casuali. Si sa che: X ha media 5.4 e varianza 4.57; Y ha media 8.4 e varianza 4.99; sono indipendenti e ciascuna delle due ha distribuzione normale. (A) Si calcolino le probabilità congiunte degli eventi riportati a margine della seguente tabella: Y ≤ 11.2 Y > 11.2 X ≤ 5.2 X > 5.2 (B) Si estraggono da X e da Y due campioni casuali semplici indipendenti: quello di X ha dimensione 45; quello di Y ha dimensione 26. Indicare la distribuzione di X − Y , valore dei parametri compreso. Esercizio 3. Una rilevazione grossolanamente simile a quella dell’esercizio (1) è stata fatta anche sui condòmini. Ad un campione casuale semplice di intervistati è stato loro chiesto se si ritengono soddisfatti (molto o abbastanza) del loro amministratore. Fra i condòmini che abitano in piccoli condomini (≤ 15 appartamenti), gli intervistati sono stati 1062 di cui il 49.5% si è detto soddisfatto; fra i condòmini che abitano in medio grandi condomini (gli altri), gli intervistati sono stati 892 di cui il 45.7% si è detto soddisfatto. (A) La proporzione di condòmini soddisfatti è significativamente diversa nei due gruppi di intervistati? Rispondere mediante il p-value. (B) Se le dimensioni dei due campioni, invece di quelle riportate sopra, fossero state rispettivamente 9 e 12 sarebbe cambiato qualcosa nella procedura di test? Spiegare senza fare calcoli. 99.2 Soluzioni Esercizio 1. Modello di regressione lineare yi = β0 + β1 xi + ui , ui ∼ N (0, σ 2 ), in cui Y =’grado di rissosità’, X =’dimensione media’. (A) βb1 = −0.13949, βb0 = 8.3887, σ b2 = 1.9098. 198 (B) Test di H0 : β1 = 0 contro H0 : β1 6= 0. La statistica test, sotto H0 , è (βb1 − 0)/se(βb1 ) con distribuzione T (n − 2). Valore campionario della statistica test: −7.9627; regione di accettazione per α = 0.01: [2.6387, −2.6387]. (C) dev(y) = 273.88, dev(REGR) = 121.0927, dev(RES) = 152.7873. R2 = 0.4421, per cui il modello spiega il 44.21% della variabilità della variabile dipendente. (D) Intervallo di previsione al 1 − α = 0.99 per y in corrispondenza di x0 = 29.81: [3.7874, 4.674]. Calcoli e valori utili: n = 82, x = 25.8, y = 4.79, dev(x) = var(x)n = 6223.8, dev(y) = var(y)n = 273.88, codev(x, y) = cov(x, y)n = −868.13; dev(RES) = dev(y) − βb12 dev(x) = 152.7873; βb1 = codev(x, y)/dev(x) = −0.13949, p b b b2 = dev(RES)/(n − 2) = 1.9098, σ b = 1.382; se(βb1 ) = σ b2 /dev(x) = β √0 = y − β1 x = 8.3887, σ 2 0.000306861 = 0.0175, dev(REGR) = dev(y) − dev(RES) = 121.0927, R = dev(REGR)/dev(y) = p 0.4421; b y(x0) = βb0 + βb1 x0 = 4.2307, se(b y(x0)) = σ b 1/n + (x − x0 )2 /dev(x) = 0.168, t = 2.63869. 2 Esercizio 2. Assunzioni. X ∼ N (µX = 5.4, σX = 4.57), Y ∼ N (µY = 8.4, σY2 = 4.99) indipendenti. (A) Essendo indipendenti vale P (X ≤ 5.2, Y ≤ 11.2) = P (X ≤ 5.2)P (Y ≤ 11.2); allo stesso modo per le altre caselle. Per il fatto che la distribuzione è normale con i parametri specificati si ottiene P (X ≤ 5.2) = 0.46273, P (Y ≤ 11.2) = 0.89498, da cui X ≤ 5.2 X > 5.2 Y ≤ 11.2 0.41413 0.48084 Y > 11.2 0.0486 0.05642 2 2 (B) X ∼ N (µX , σX /nX ), Y ∼ N (µY , σY2 /nY ) indipendenti, per cui X − Y ∼ N (µX − µY = −3, σX /nX + 2 σY /nY = 0.29348) dove nX = 45, nY = 26. Esercizio 3. Assunzioni: X =’condòmino in piccolo condominio soddisfatto’∼ Be(pX ), Y =’condòmino in medio-grande condominio soddisfatto’∼ Be(pY ). (A)pTest di H0 : pX − pY = 0 contro H1 : pX − pY 6= 0; statistica test sotto H0 : [(X − Y ) − 0]/ pb(1/nX + 1/nY ) la cui distribuzione è, approssimativamente, N (0, 1) in base alle dimensioni campionarie sufficientementepelevate; valore campionario della statistica test sotto H0 : zcamp = 1.6751; p-value = 2P ([(X − Y ) − 0]/ pbqb(1/nX + 1/nY ) > |zcamp ||H0 ) = 2P (Z > 1.6751|H0 ) = 2 ∗ 0.04696 = 0.09392. (B) Se le dimensioni dei due campioni, invece di quelle riportate sopra, fossero state rispettivamente 9 e 12 la procedura di test utilizzata non sarebbe stata legittima, dato che l’approssimazione normale della distribuzione della statistica test risulta valida, per il teorema del limite centrale, solo caso di dimensioni campionarie sufficientemente elevate. Calcoli e valori utili: n pX = 1062, nY = 892,√x = 0.495, y = 0.457, pb = (xnX + ynY )/(nX + nY ) = 933.334/1954 = 0.4777, pbqb(1/nX + 1/nY ) = 0.000515 = 0.02269. 199 100 Compito del 27.01.2010 100.1 Testo Premessa: TechnoHouse è una società di intermediazione immobiliare attiva nel centro-nord Italia. Esercizio 1. TechnoHouse sta mettendo in piedi una procedura “oggettiva” per una prima valutazione “automatica” del valore degli appartamenti in funzione della loro dimensione. Le caratteristiche degli appartamenti valutati dalla società a Firenze (centro storico e zone collinari escluse) nel secondo semestre 2009 sono riassunte nella seguente tabella. Entrambe le variabili sono prese in logaritmo naturale (v = ln(valore in euro); d = ln(dimensione in m2 )). 1 X di 62 i=1 62 1 X vi 62 i=1 62 2 1 X di − d 62 i=1 62 1 X 2 (vi − v) 62 i=1 62 62 1 X di − d (vi − v) 62 i=1 4.51 5.98 0.05146 0.036 0.03485 Si formuli un opportuno modello statistico finalizzato a quanto sopra indicato. (A) Stimarne tutti i parametri col metodo dei minimi quadrati. (B) Fornire la stima per intervallo (α = 0.05) per la deviazione standard della componente di residua. (C) Scomporre la devianza della variabile dipendente nelle sue componenti, di regressione e residua, fornendone i valori. Derivarne una misura della bontà del modello. (D) Fornire l’intervallo di previsione (α = 0.02) per il valore in euro di un appartamento di 112m2 . Esercizio 2. Si ritiene che, fra primo e secondo semestre 2009, in media ci sia stato un leggero calo dei prezzi per gli appartamenti del centro storico. La tabella seguente riporta i prezzi, in migliaia di euro, di due distinti campioni di compravendite effettivamente realizzate nei due periodi (per omogeneità il confronto è su appartamenti fra 90 e 100 m2 ). Primo semestre Secondo semestre 410 520 440 470 420 500 450 500 440 500 Si assuma che i prezzi seguano una distribuzione Normale. (A) L’opinione formulata nel testo dell’esercizio è confermata dai dati campionari? (α = 0.05) (B) Se, nei due distinti periodi, i prezzi degli appartamenti avessero distribuzioni con parametri pari a quelli stimati sui due campioni, quale delle due distribuzioni sarebbe più bassa e larga? Perché? Esercizio 3. Due variabili casuali hanno la seguente distribuzione congiunta. Y X 1 2 3 0.11 0.26 4 0.52 0.11 (A) X e Y sono incorrelate? Perché? (B) Si ricavi la funzione di massa di probabilità della variabile casuale W = X + Y . 100.2 Soluzioni Esercizio 1. Modello di regressione lineare yi = β0 + β1 xi + ui , ui ∼ N (0, σ 2 ), in cui Y = v = ln(valore in euro), X = d = ln(dimensione in m2 ). (A) βb1 = 0.67723, βb0 = 2.9257, σ b2 = 0.0128. (B) Pivot per σ 2 : (n − 2)b σ 2 /σ 2 la cui distribuzione è χ2 (n − 2); intervallo all’1 − α = 0.95 per σ 2 : [0.0092, 0.019]; corrispondente intervallo per σ: [0.0961, 0.1378] (valori tavola χ2 : c1 = 40.4817, c2 = 83.2977). (C) dev(y) = 2.232, dev(REGR) = 1.4633, dev(RES) = 0.7687, da cui R2 = 0.6556. 200 (D) Intervallo di previsione al 1−α = 0.98 per y in corrispondenza di x0 = ln(112) = 4.7185: [6.0745, 6.1679]; per derivare il corrispondente intervallo per il valore (invece del suo logaritmo naturale) basta esponenziare i due estremi: [434.6471, 477.1672] (valore tavola T : t = 2.39012). Calcoli e valori utili: n = 62, x = 4.51, y = 5.98, dev(x) = var(x)n = 3.1905, dev(y) = var(y)n = 2.232, codev(x, y) = cov(x, y)n = 2.1607; dev(RES) = dev(y) − βb12 dev(x) = 0.7687; βb1 = codev(x, y)/dev(x) = 0.67723, βb0 = y − βb1 x = 2.9257, σ b2 = dev(RES)/(n − 2) = 0.0128, σ b = 0.1132; dev(REGR) = dev(y) − 2 b dev(RES) = 1.4633, R = dev(REGR)/dev(y) = 0.6556; y(x0) = βb0 + βb1 x0 = 6.1212, se(b y(x0)) = p σ b 1/n + (x − x0 )2 /dev(x) = 0.0195. Esercizio 2. Assunzioni: X =‘prezzo primo semestre’∼ N (µX , σ 2 ), Y =‘prezzo secondo semestre’∼ N (µY , σ 2 ) (varianze uguali) e campioni indipendenti. (A) Test di H q0 : µX − µY = 0 contro H0 : µX − µY < 0 per α = 0.05; la statistica test sotto H0 è (X − Y − 0)/ Sp2 (1/nX + 1/nY ) con distribuzione T (nX + nY − 2); la regione di rifiuto è (−∞, −1.8595); il valore campionario statistica test sotto H0 è −6.0758. (B) La forma della distribuzione Normale (assunta per X ed Y in base al testo dell’esercizio) dipende 2 esclusivamente dalla varianza. Poiché si assume che i valori di σX e σY2 sono pari alle rispettive stime 2 2 2 (sX = 270, sY = 320), si deduce che σY è maggiore per cui Y ha distribuzione più bassa e larga. Calcoli e valori utili: nX = nY = 5, x = 432, y = 498, s2X = 270, s2Y = 320, s2p = [s2X (nX −1)+s2Y (nY −1)]/(nX +nY −2) = 295, q √ Sp2 (1/nX + 1/nY ) = 118 = 10.8628. Esercizio 3. (A) X e Y sarebbero incorrelate se la loro covarianza fosse zero. Invece C(X, Y ) = E(XY )−E(X)E(Y ) = 4.85 − 1.37 ∗ 3.63 = −0.1231 (B) Dai valori in tabella si calcolano facilmente i possibili valori che W = X + Y può assumere con le rispettive probabilità: w f (w) 4 0.11 5 0.78 6 0.11 201