Matematica e statistica: dai dati ai modelli alle scelte – www.dima.unige/pls_statistica Responsabili scientifici M.P. Rogantin e E. Sasso (Dipartimento di Matematica Università di Genova) STATISTICA INFERENZIALE – SCHEDA N. 2 INTERVALLI DI CONFIDENZA PER IL VALORE ATTESO E LA FREQUENZA Nella scheda precedente abbiamo visto come si stima un parametro incognito di una variabile aleatoria definita su una popolazione; in particolare abbiamo considerato la cosiddetta stima puntuale della media e della frequenza relativa, dove “stima puntuale” significa fornire un valore per il parametro, usando dati campionari. In questa scheda costruiremo un intervallo nel quale ci aspettiamo stia il parametro da stimare con un elevato grado di fiducia. Questa “fiducia” è assegnata in termini probabilistici e viene detta confidenza (con una cattiva traduzione dall’inglese confidence). Un tale intervallo si dice intervallo di confidenza e la probabilità (che indicheremo con 1-α) assegnata viene detta livello di significatività (o livello di confidenza). Usualmente si sceglie come livello di significatività il 95% o il 99%. 1. Intervalli di confidenza per il valore atteso Se si vuole stimare la media μ di una variabile aleatoria X definita su una popolazione tramite un campione di numerosità fissata, allora si può scegliere come stimatore X n . Un esempio è la stima del prezzo medio di un litro di latte in Liguria. Qui la popolazione è formata dai prezzi di tutti i litri di latte venduti in un determinato periodo in Liguria. Per determinare il prezzo medio l’ISTAT (Istituto Nazionale di Statistica) effettua un campionamento su vari negozi della regione, tenendo conto della dislocazione geografica, del tipo di distribuzione (supermercato, negozio) e di altri fattori. Nella nostra indagine sui prezzi di alcuni prodotti delle nostre zone di residenza abbiamo effettuato un campionamento non molto rappresentativo: comunque utilizzeremo questi dati e poi li confronteremo con quelli ufficiali. Una stima puntuale del valore atteso μ è data dal valore x n assunto dalla variabile X n nel campione. Un intervallo di confidenza, a livello di significatività del 95%, è un intervallo aleatorio X n −δ,Xn + δ ( con δ scelto in modo tale che ) ( ) P X n − δ < μ < X n + δ = 0.95, ossia tale che la probabilità di sbagliare sia pari a α=0.05 e quindi bassa. La realizzazione campionaria dell’intervallo è: x n − δ,x n + δ ( ) Come si calcola δ ? Il calcolo dell’intervallo di confidenza si basa sulla probabilità che la variabile aleatoria X n sia compresa fra μ −δ e μ +δ : ( 0.95 = P μ − δ < X n < μ + δ ) È quindi necessario conoscere la distribuzione di probabilità dello stimatore. Questo è possibile se si conosce la distribuzione della variabile aleatoria X di partenza. In particolare, se X ha distribuzione normale, anche X n ha distribuzione normale con valore atteso μ e sappiamo calcolare δ in modo che: ( ) P μ − δ < X n < μ + δ = 0.95 Questo valore di δ ci permette di trovare l’intervallo di confidenza. Infatti: P μ −δ < X n < μ +δ = P X n −δ < μ < X n +δ ( e quindi: ( ) ( 0.95 = P X n − δ < μ < X n + δ ) ) che è proprio l’intervallo di confidenza per μ a livello di significatività del 95%. 1.1 Caso X distribuzione normale con varianza nota Vediamo come calcolare effettivamente δ . Consideriamo prima il caso in cui la distribuzione di X sia normale e la varianza sia nota. ESEMPIO: Si estrae un campione di numerosità 100 da una popolazione con distribuzione normale con varianza σ2 = 225 nota e valore atteso incognito μ. Vogliamo calcolare un intervallo di confidenza del valore atteso a livello di confidenza di 1-α=0.95 sapendo che la stima della media sul campione è x n = 1450. Abbiamo visto che lo stimatore X n ha valore atteso μ e varianza σ 2 225 = = 2.25 . Sappiamo, inoltre, che X n ha ancora distribuzione normale: X n ∼ N ( μ ,2.25). n 100 Vogliamo determinare δ tale che ( ) P μ − δ < X n < μ + δ = 0.95 Per poter utilizzare le tavole della funzione di distribuzione cumulata di una variabile aleatoria Z normale (0,1), standardizziamo X n : ⎛μ −δ − μ X n − μ μ +δ − μ ⎞ δ ⎞ ⎛ δ 0.95 = P μ − δ < X n < μ + δ = P ⎜ < < <Z < ⎟ = P ⎜− ⎟ σ σ σ 1.5 1.5 ⎝ ⎠ X X X ⎝ ⎠ Siccome il grafico della densità di probabilità di Z è simmetrico rispetto all’asse verticale, ( ) la probabilità che Z sia compresa fra i due valori − parti esterne (le cosiddette “code”): ⎛ δ ⎞ ⎛ δ <Z < = 1 − ⎜P P ⎜− ⎟ 1.5 ⎠ ⎝ 1.5 ⎝ δ 1.5 e δ 1.5 δ ⎞ ⎛ ⎜ Z < − 1.5 ⎟ + P ⎝ ⎠ è uguale a 1 meno la probabilità delle due δ ⎞⎞ ⎛ ⎜ Z > 1.5 ⎟ ⎟ = 1 − 2 P ⎝ ⎠⎠ δ ⎞ ⎛ ⎜ Z < − 1.5 ⎟ ⎝ ⎠ Quindi: δ ⎞ ⎛ ⇔ 0.05 = 2 P 0.95 = 1 − 0.05 = 1 − 2 P ⎜ Z < − 1.5 ⎟⎠ ⎝ Dalle tavole si ottiene che δ 1.5 δ ⎞ ⎛ ⎜ Z < − 1.5 ⎟ ⇔ 0.025 = P ⎝ ⎠ δ ⎞ ⎛ ⎜ Z < − 1.5 ⎟ ⎝ ⎠ = 1.96 , ossia δ=2.94, soddisfa le condizioni richieste. Infine, sostituendo il valore numerico ottenuto sul campione, si ha che (1450 - 2.94, 1450 + 2.94) = (1447.06, 1452.94) è la realizzazione dell’intervallo di confidenza del valore atteso a livello 0.95. Noi non sappiamo se il valore atteso di X nella popolazione apparenga o no effettivamente a questo intervallo. Se avessimo avuto un’altra stima puntuale per la media, proveniente da un altro campione, avremmo avuto anche un diverso intervallo di confidenza. Fra tutti i possibili intervalli di confidenza costruiti in questo modo sulla base di tutti i possibili campioni, il 95% contiene la media di X nella popolazione e il 5% non la contiene. Riassumiamo i conti fatti per determinare un intervallo di confidenza a livello 1-α per la media di una variabile aleatoria con distribuzione normale di media μ incognita e varianza σ2 nota: 1. Si utilizza come stimatore la media empirica X n di un campione di numerosità n e si ricava la stima xn . 2. Si cerca sulle tavole della normale standardizzata, il valore z α , tale che P(Z < -zα )=1- α 2 . σ σ ⎞ ⎛ 3. Si costruisce l’intervallo aleatorio ⎜ X n − z α , X n + zα ⎟; n n⎠ ⎝ questo intervallo, che ha come estremi due variabili aleatorie, ha probabilità 1-α di contenere μ. 4. Si sostituisce il valore campionario x e si ottiene la realizzazione numerica dell’intervallo per il campione ottenuto. In formule: σ σ ⎞ ⎛ , x n + zα I= ⎜ x n − z α ⎟ n n⎠ ⎝ Riportiamo nella seguente tabella i valori di z α per alcuni α: livello di conf. α zα 90% 0.10 1.65 95% 0.05 1.96 99% 0.01 2.58 1.2 Caso X distribuzione normale con varianza sconosciuta Quando la varianza della variabile aleatoria X è sconosciuta, si stima usando lo stimatore non distorto S 2 . La formula per calcolare l’intervallo di confidenza per il valore atteso è leggermente differente: non si usa z α ma un altro valore che però è molto vicino a z α se la numerosità campionaria è molto grande (maggiore di 100); in queste schede noi useremo l’approssimazione: s s ⎞ ⎛ I = ⎜ x − zα , x + zα ⎟ n n⎠ ⎝ dove s è la realizzazione campionaria della standard deviation: s = 1.3 1 n ∑ x −xn n − 1 i =1 i ( ) 2 Caso X con distribuzione qualsiasi e numerosità del campione grande Cosa si può fare nel caso in cui la variabile X non abbia densità normale? In alcuni casi è possibile calcolare in modo esplicito la distribuzione degli stimatori. Nella maggior parte dei casi, però, si utilizza l’approssimazione normale garantita dal Teorema del Limite Centrale. Abbiamo, infatti, visto che per n sufficientemente grande la media campionaria X n ha quasi una distribuzione normale di 2 media μ (pari a quella di X) e varianza σ /n. Quindi un intervallo di confidenza a livello 1-α per la media di 2 una variabile aleatoria con distribuzione NON normale di media μ incognita e varianza σ nota sarà ancora σ σ ⎞ ⎛ I = ⎜ x n − zα , x n + zα ⎟ n n⎠ ⎝ con n, numerosità del campione, grande. Resta da stabilire il significato di questa parola grande. Nella maggior parte dei casi una numerosità campionaria superiore a 30 è considerata accettabile per poter applicare il Teorema del Limite Centrale. Ricordiamo che i risultati sono approssimati e sono tanto più precisi quanto più alta è la numerosità campionaria. Anche in questo caso, se la varianza non è nota si stima utilizzando lo stimatore non distorto S 2 e l’intervallo di confidenza è circa: s s ⎞ ⎛ , x n + zα I = ⎜ x n − zα ⎟ n n⎠ ⎝ ESEMPIO: Nel caso dei dati raccolti sul prezzo del latte, abbiamo: • il prezzo medio campionario è x =1.34 euro • la standar deviation campionaria è: s = 0.25 euro • la numerosità campionaria è: 57 quindi s = 0.0333 n Tutti questi valori sono forniti direttamente da Minitab; il valore di (cioè standard error della variabile aleatoria Media campionaria). Variable BENE N N* PREZZO Latte 57 0 Mean SE Mean StDev 1.3398 0.0333 0.2512 Minimum s è indicato nella colonna SE MEAN n Q1 0.6900 1.3000 Median Q3 Maximum 1.3700 1.3900 2.5900 Non sappiamo se la variabile aleatoria che modella il prezzo di un litro di latte abbia distribuzione normale, ma essendo la numerosità campionaria maggiore di 30 possiamo usare il Teorema del limite centrale e trovare un intervallo di confidenza approssimato. Se scegliamo α = 0.05, la realizzazione campionaria dell’intervallo di confidenza per il prezzo medio di un litro di latte è: s s ⎞ ⎛ , x n + zα ⎜ x n − zα ⎟ = (1.3398 – 1.96 x 0.0333 , 1.3398 + 1.96 x 0.0333) = (1.28, 1.41) n n⎠ ⎝ Se scegliamo α = 0.01, la realizzazione campionaria dell’intervallo di confidenza per il prezzo medio di un litro di latte è: s s ⎞ ⎛ , x n + zα ⎜ x n − zα ⎟ = (1.3398 – 2.58 x 0.0333 , 1.3398 + 2.58 x 0.0333) = (1.25, 1.43) n n⎠ ⎝ È meglio un intervallo di confidenza a livello di significatività del 95% o del 99%? Sicuramente con un intervallo di confidenza a livello di significatività del 99% la probabilità di errore è più piccola rispetto a quella con un intervallo al 95%. Ma nel primo caso l’ampiezza dell’intervallo è più grande: quello che si guadagna in precisione si perde in ampiezza. Nell’esempio precedente: • al 95% si ha δ = 6 centesimi di euro • al 95% si ha δ = 9 centesimi di euro ESERCIZIO Calcolare la realizzazione campionaria di un intervallo di confidenza del prezzo medio degli altri beni raccolti Variable PREZZO BENE Benzina CD DVD Gasolio Olio N 64 35 45 54 46 N* 0 0 0 0 0 Mean 1.2450 1.069 3.257 1.1155 6.410 SE Mean 0.00382 0.108 0.125 0.00557 0.285 StDev 0.0305 0.637 0.837 0.0410 1.932 Minimum 1.1200 0.290 1.290 1.0120 3.650 Q1 1.2363 0.800 2.990 1.0980 4.938 Median Q3 1.2450 1.2560 0.950 1.000 3.000 4.000 1.1120 1.1308 5.990 7.360 Maximum 1.3000 3.900 5.000 1.2500 13.500 2. Intervalli di confidenza per la frequenza p Nella scheda precedente abbiamo visto che uno stimatore per la frequenza di una variabile aleatoria dicotomica è dato da X + + Xn Pˆ = 1 n dove ciascuna delle variabili aleatorie X1,…, Xn vale 1 (con probabilità p) oppure 0 (con probabilità 1-p) a seconda che si ottenga un successo o un insuccesso. p (1 - p ) Abbiamo già visto che E( Pˆ )=p e Var( Pˆ )= . n Se abbiamo un campione di numerosità elevato possiamo approssimare la distribuzione di Pˆ con quella ⎛ p (1 - p ) ⎞ normale: P ∼ N ⎜ p , ⎟ . Anche la varianza è incognita perché dipendente ancora dal parametro p, n ⎝ ⎠ ma si può stimare a partire dalla stima p̂ del parametro p. Uno stimatore non distorto per Var( Pˆ ) è S P2ˆ = Pˆ(1 − Pˆ) n −1 Un intervallo di confidenza per p a livello di significatività 1-α è quindi ⎛ pˆ(1 − pˆ) pˆ(1 − pˆ) ⎞ I= ⎜ pˆ − z α , pˆ + z α ⎟. ⎜ n −1 n − 1 ⎟⎠ ⎝ ESEMPIO: Una popolazione di animali è composta da una razza con il pelo uniforme e da una con il pelo striato. Si osservano 100 animali e si nota che 70 di questi hanno il pelo striato. Vogliamo calcolare un intervallo di confidenza a livello del 99% per la popolazione di animali dal pelo striato. Utilizziamo le formule precedenti scegliendo p̂ = 0.70 , n=100, α=0.01, zα =2.58. Sostituendo otteniamo che la realizzazione dell’intervallo di confidenza per p è: ⎛ 0.7 x 0.3 0.7 x 0.3 ⎞ I = ⎜⎜ 0.70 - 2.58 , 0.70 + 2.58 ⎟ = (0.58, 0.82). 99 99 ⎟⎠ ⎝ ESERCIZIO SU: Campionamento – Teorema del limite centrale – Intervalli di confidenza Si vuole stimare la media di una grandezza in una popolazione di 500 unità. Si modella il fenomeno con una variabile aleatoria X. 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 1 70.3 78.4 73.2 68.4 67.4 68.2 66.2 72.1 60.2 69.2 62.7 76.8 72.9 69.9 71.2 71.9 65.8 66.7 65.0 73.1 69.0 75.6 68.2 84.5 61.1 63.6 66.6 71.3 68.7 73.3 73.3 75.0 74.8 70.4 71.4 71.3 67.9 77.8 72.2 73.2 63.1 75.3 70.5 72.6 66.4 67.7 62.7 75.6 67.3 68.1 2 65.8 66.0 70.6 68.2 69.7 66.4 72.5 75.6 74.1 61.8 71.1 80.5 66.6 68.7 68.8 67.4 74.5 71.0 73.6 75.5 68.7 75.7 70.4 73.4 77.2 72.7 68.3 69.7 58.2 62.7 67.8 80.8 75.1 66.4 66.2 73.4 64.2 65.8 72.8 75.2 72.2 69.4 68.0 72.0 73.0 80.9 69.0 68.9 61.9 66.6 3 63.0 69.2 75.2 62.3 68.2 72.4 65.7 76.3 74.8 64.5 77.6 68.6 58.5 75.3 65.9 74.6 62.6 69.5 71.2 76.1 61.2 68.1 69.5 68.2 75.0 76.5 64.8 64.7 69.7 62.3 68.2 66.8 72.7 70.6 78.5 76.8 73.5 69.4 66.2 67.5 75.2 69.2 66.3 75.5 70.4 59.2 66.7 68.8 72.3 75.0 4 62.0 62.1 72.5 76.9 62.7 65.2 69.7 71.7 63.5 61.3 73.5 67.2 73.3 69.6 70.0 65.0 76.6 68.3 70.9 69.7 71.3 73.3 72.5 71.2 73.1 70.7 75.5 64.3 70.0 72.0 80.2 74.5 70.1 75.2 64.0 55.6 71.2 67.8 64.3 73.7 60.9 68.2 76.2 72.2 76.1 62.8 70.6 71.9 71.5 76.0 5 69.0 77.0 70.0 72.2 75.1 67.3 75.4 75.9 66.2 71.0 66.8 63.4 73.7 67.6 65.3 72.1 75.3 72.9 69.4 65.3 65.9 74.5 69.3 73.7 71.6 72.5 75.8 66.1 68.4 72.8 65.2 69.4 77.4 71.7 59.4 74.3 58.7 71.3 68.4 67.3 74.6 76.9 65.4 68.2 76.9 73.2 68.7 66.2 78.7 57.4 6 70.8 70.6 68.6 67.4 63.2 68.6 78.2 78.6 67.8 71.4 72.0 70.5 67.5 66.7 67.0 70.6 78.0 70.6 75.9 72.7 75.3 72.0 72.8 66.2 68.1 63.5 68.6 74.1 69.6 73.4 63.3 67.5 72.8 67.8 60.6 70.9 71.7 67.0 68.2 73.7 69.6 77.1 67.9 73.8 69.4 71.4 67.9 70.2 81.3 61.2 7 73.8 68.9 66.8 71.2 72.9 74.2 73.8 69.5 65.5 72.5 67.5 61.8 64.1 68.5 54.9 72.5 71.6 74.5 83.6 72.4 68.2 80.1 73.2 74.0 69.8 67.4 70.2 72.9 74.8 79.5 70.1 68.8 74.4 58.4 66.6 77.8 68.8 66.5 65.0 62.5 66.0 73.1 63.8 77.0 68.6 58.7 76.7 72.3 62.1 73.3 8 70.5 65.9 69.1 77.0 62.8 66.7 69.2 72.2 68.1 71.7 69.2 68.9 70.1 77.4 71.0 74.3 77.8 71.5 73.5 65.8 67.6 66.5 72.0 75.6 63.5 67.0 68.0 65.6 70.2 65.4 69.3 75.6 61.9 68.8 68.3 69.1 76.2 78.4 65.3 66.8 67.7 68.6 73.5 73.1 68.9 64.7 73.4 66.2 59.1 77.9 9 72.1 76.1 73.8 66.2 69.6 67.9 69.4 63.3 74.0 72.9 69.8 64.4 76.8 75.6 63.1 75.8 64.4 64.4 73.3 69.2 72.6 64.0 70.9 74.1 69.5 74.6 70.0 71.2 72.7 74.6 66.9 62.0 55.6 66.9 70.2 65.7 68.8 66.6 73.7 69.8 61.8 78.3 70.0 63.9 64.5 74.6 70.2 67.5 66.9 64.2 10 75.8 61.3 75.6 72.0 62.1 68.6 78.3 67.4 68.9 69.6 77.9 72.7 77.3 67.5 77.8 62.0 71.7 78.5 68.6 61.1 69.2 70.3 73.6 65.1 84.7 66.7 72.1 64.0 73.6 63.5 71.1 73.5 73.3 64.2 61.1 69.0 67.5 64.9 62.1 69.9 80.2 70.1 70.7 71.5 70.8 67.4 67.1 73.9 72.0 64.8 Si vuole stimare la media μX della variabile X nella popolazione, sapendo che la standard deviation di X è: std( X ) = 4.93202 Ciascuno studente estragga dalla popolazione 5 campioni casuali semplici di numerosità 20 utilizzando i numeri casuali riportati nella pagina seguente. (Campione casuale semplice: estratto con ripetizione da distribuzione uniforme) La variabile X nella popolazione ha una distribuzione “a campana”; quindi per campioni di 20 unità sperimentali la distribuzione della variabile aleatoria X 20 può essere approssimata con quella di una variabile aleatoria normale. Histogram of X Normal 70 60 50 Frequency 1) 40 30 20 10 0 58.5 63.0 67.5 72.0 76.5 81.0 (Nota: in genere si effettua tale approssimazione per numerosità maggiori di 30). Unità sperim. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Campione 1 Campione 2 Campione 3 Campione 4 Campione 5 2) Scrivere la formula per l’intervallo di confidenza per μX a livello di significatività del 95%, quando la varianza è nota. 3) Per ciascun campione estratto calcolare la media campionaria e l’intervallo di confidenza al 95% per μX . Usare 5 cifre dopo la virgola. x 20 semiampiezza intervallo limite sinistro limite destro 1 2 3 4 5 4) Quando tutti gli studenti hanno terminato verrà fornito il valore vero di μX e si verificherà quanti intervalli calcolati con la formula usuale contengono effettivamente μX . Quanti intervalli si prevede contengano μX ? Per campionare. Qui sotto, per ciascuno studente, sono fornite 5 colonne con 20 numeri casuali fra 1 e 500 (numerosità della popolazione) estratti con ripetizione. Come utilizzare questi numeri. Il primo numero casuale del primo studente 396. Quindi deve considerare il valore di X per la 396-esima unità sperimentale. Quale valore assume la variabile X per 396-esima unità campionaria? È scritto nella tabella dei dati della popolazione nella riga 39-esima e nella colonna 6: è 73.7 Se il numero è di una sola cifra, ad esempio 4, si cerca il valore presente alla riga 0 e alla colonna 4, cioè 62.0. Se il numero è di due cifre, del tipo 40, si cerca il valore alla riga 30 e alla colonna 10 1 2 3 4 5 396 52 493 24 214 377 390 170 468 4 425 483 261 469 111 250 308 241 324 441 342 213 282 331 213 329 354 256 136 150 388 485 87 14 463 266 389 313 21 360 433 351 498 424 425 282 367 115 197 418 1 191 107 118 395 480 38 370 497 455 247 193 278 493 479 26 378 120 488 313 350 269 443 162 132 192 203 282 174 379 301 54 164 474 251 330 51 405 169 239 467 386 204 265 186 445 396 82 255 100 6 154 241 362 365 259 183 335 212 474 221 368 9 40 62 352 307 457 304 24 207 133 494 66 254 441 71 240 151 355 19 476 253 383 257 28 133 355 411 90 2 206 200 417 417 217 379 234 225 271 232 50 170 396 164 250 474 147 396 322 402 63 218 468 299 231 94 60 298 214 78 100 202 335 27 112 400 38 145 417 287 145 473 332 435 237 303 427 288 331 60 246 59 341 373 209 286 388 244 354 457 330 307 57 452 453 482 335 67 251 82 403 27 181 82 20 470 240 186 27 391 7 42 345 283 415 180 232 57 198 74 171 329 315 115 67 34 54 38 139 406 74 267 118 68 136 384 347 197 252 186 304 126 439 426 34 335 151 101 46 474 342 93 37 158 438 54 202 239 467 41 15 318 75 493 440 450 132 161 65 406 498 307 255 376 350 483 93 261 388 499 243 20 467 167 69 227 469 480 353 111 213 20 376 257 264 313 134 23 480 471 116 130 183 9 72 30 315 212 104 380 362 57 230 92 210 474 499 490 393 250 80 494 407 385 263 63 112 272 288 393 111 348 395 455 432 286 142 120 176 91 444 166 383 106 119 258 260 239 289 98 315 226 451 385 317 377 214 440 483 131 80 273 339 310 472 383 287 365 171 491 222 315 72 154 119 100 461 482 392 91 458 461 260 221 369 300 28 58 302 399 475 411 337 241 197 315 192 103 59 159 214 390 434 474 360 72 316 258 120 54 295 8 244 319 363 64 248 348 52 376 483 493 434 269 358 324 14 494 96 319 164 451 387 185 81 314 247 168 147 73 454 93 149 10 383 301 305 182 289 338 96 123 12 389 349 478 126 490 77 469 413 91 69 297 434 92 332 219 374 371 65 211 385 242 465 64 84 188 167 36 473 210 344 253 169 49 401 333 135 242 56 100 154 198 406 421 192 82 436 478 328 333 5 94 216 296 126 247 427 260 440 47 195 23 272 304 243 187 88 205 22 487 243 481 234 330 194 388 475 243 79 329 385 365 490 493 359 14 463 301 160 68 225 25 286 279 456 213 98 187 393 432 233 237 456 485 278 397 24 101 292 227 465 220 89 261 21 94 472 397 168 441 29 291 371 233 116 60 114 250 8 158 451 332 457 331 353 53 246 211 5 141 406 117 27 6 282 465 430 237 40 3 479 38 187 290 217 483 320 391 120 403 9 205 320 234 186 105 272 52 284 26 421 333 473 453 199 293 4 294 287 30 493 325 432 454 374 357 226 45 213 316 109 48 296 59 121 48 123 112 350 326 395 489 139 183 97 357 381 478 187 171 491 185 407 120 414 207 221 48 468 116 61 328 210 426 275 463 228 62 307 221 500 461 134 478 486 409 361 476 129 264 330 352 390 308 372 232 134 184 234 470 478 12 109 211 250 289 171 219 8 9 129 110 492 245 234 250 451 402 247 137 103 234 228 6 472 350 105 149 291 409 193 106 377 95 185 235 414 378 150 212 270 173 127 303 355 194 143 402 417 177 489 340 459 410 467 120 102 268 315 106 137 302 405 400 165 62 166 243 138 136 419 50 392 230 237 256 153 81 229 139 107 335 368 223 98 286 187 431 336 494 10 111 59 172 58 315 34 279 46 150 81 291 219 182 252 23 276 369 97 128 24 269 245 217 263 46 215 66 339 448 432 90 236 371 233 260 421 457 112 156 195 447 25 101 184 30 40 142 298 151 118 67 247 24 83 20 262 246 32 273 363 169 190 351 229 247 164 277 488 320 73 253 334 220 235 261 479 6 92 136 76 49 149 176 450 29 273 454 346 365 106 244 11 266 170 286 32 239 85 269 15 10 80 397 149 33 183 47 91 476 465 408 470 300 483 307 376 333 256 58 318 44 131 420 169 327 60 183 90 439 459 209 490 411 158 427 118 29 32 275 469 83 149 188 465 27 27 211 70 116 297 264 499 426 91 357 296 138 334 489 60 325 488 390 239 245 374 410 316 47 436 473 183 374 189 445 477 406 413 442 291 494 84 169 480 62 354 181 451 164 1 58 240 478 134 91 105 267 458 396 32 440 11 453 143 230 278 97 153 244 467 92 102 436 202 7 438 346 59 139 309 14 143 12 477 145 399 138 293 331 377 231 321 500 1 186 386 376 378 421 116 409 132 393 484 152 495 443 301 203 218 66 272 32 175 449 106 421 307 93 145 82 368 296 85 441 230 419 26 424 448 164 127 496 314 146 253 443 225 41 163 388 38 445 191 472 436 42 171 398 318 113 466 399 14 326 279 430 44 193 231 450 218 337 16 396 327 152 197 131 401 454 409 461 36 402 273 72 323 64 269 142 214 215 75 448 421 472 111 56 160 445 313 321 151 401 188 78 436 410 97 496 353 203 163 13 376 333 40 173 80 435 70 330 221 455 428 195 72 261 324 193 277 188 7 187 214 310 379 126 378 279 219 281 475 128 224 281 253 128 226 460 478 369 290 25 332 368 408 448 190 106 344 171 367 394 28 427 160 476 171 33 466 127 83 120 392 329 142 347 209 104 166 322 473 349 415 466 180 346 158 263 177 18 430 164 17 403 384 242 301 258 394 282 416 147 266 34 181 192 85 135 47 461 113 108 251 170 40 153 94 25 334 311 98 456 133 458 336 394 435 116 390 40 103 429 409 344 451 6 376 482 197 155 129 152 162 456 349 380 227 43 173 227 376 466 86 387 124 280 187 298 334 274 448 393 455 275 423 469 493 339 284 236 19 414 409 207 327 495 129 496 269 27 148 142 81 418 27 117 429 63 179 354 134 444 455 330 339 8 64 373 381 242 353 480 389 263 112 87 450 358 333 238 394 273 383 14 213 55 403 362 416 221 425 432 158 369 334 211 414 15 7 37 77 312 411 66 441 404 453 214 54 134 447 483 414 212 253 320 287 76 416 49 96 246 296 93 236 116 132 287 1 62 111 409 211 201 226 399 78 265 186 225 369 458 77 362 489 233 467 202 258 110 486 297 74 39 330 247 481 57 171 464 396 276 44 426 18 484 161 344 101 206 423 168 113 302 169 209 374 317 10 374 358 329 370 488 262 395 489 257 319 235 337 162 393 52 149 194 348 272 181 117 405 412 415 335 369 412 12 185 452 256 313 255 394 395 159 500 420 334 354 428 497 149 384 255 459 179 398 72 395 41 329 95 242 433 195 264 56 67 54 432 186 88 333 57 123 417 99 49 400 24 119 346 29 87 178 354 9 226 443 53 256 414 7 1 66 296 220 419 429 70 127 135 251 456 222 358 163 12 52 444 356 447 47 313 314 15 416 235 295 53 142 492 88 55 295 131 347 313 321 13 383 335 497 119 351 106 3 78 242 304 262 31 283 306 324 216 453 91 26 118 458 58 156 334 362 133 194 11 365 406 246 265 261 240 286 470 357 65 25 396 369 11 128 67 307 229 329 285 490 104 113 276 487 125 177 481 81 447 113 209 300 483 50 162 296 474 19 172 99 133 184 80 203 425 111 498 240 62 386 398 168 451 367 479 76 161 478 185 434 274 130 115 351 339 282 470 27 199 242 486 342 282 16 99 107 423 47 289 189 302 490 187 210 27 166 393 290 149 314 377 437 221 232 82 130 251 444 177 128 18 343 493 245 149 209 150 493 53 246 211 11 469 430 307 322 341 476 50 477 387 59 337 335 449 464 398 334 142 72 299 444 165 374 163 482 277 422 491 264 171 133 330 55 169 222 401 35 326 276 308 96 419 392 177 481 410 244 318 295 351 122 283 148 364 407 340 377 335 182 142 341 363 146 258 131 137 18 80 253 254 94 174 392 428 163 2 344 115 335 55 392 103 384 129 378 399 451 285 120 361 477 344 262 387 202 242 325 114 328 317 342 74 115 84 344 332 446 309 415 383 36 233 2 105 357 453 23 433 5 167 433 107 229 221 415 443 47 139 417 269 366 383 271 470 80 453 350 493 261 134 478 226 409 446 405 429 476 330 172 399 116 412 342 153 492 142 62 435 29 397 40 338 184 137 150 116 12 198 252 16 215 46 151 149 150 91 135 44 132 8 201 126 103 241 272 286 459 329 455 39 352 312 340 429 382 381 112 380 180 186 154 256 490 123 227 172 323 20 179 372 63 150 339 76 1 336 29 428 341 235 376 145 391 255 1 115 341 444 197 352 453 319 437 495 77 1 334 307 85 420 435 268 134 433 375 31 123 477 498 197 396 153 164 373 216 59 471 342 449 481 372 406 271 468 213 182 312 450 80 88 410 393 195 307 2 240 89 495 226 255 418 52 35 41 492 301 304 222 56 159 107 294 498 317 177 307 256 247 34 91 292 315 96 494 312 388 68 143 21 109 41 298 322 311 280 363 209 455 500 173 388 102 97 464 463 232 359 137 464 22 445 407 66 110 334 45 479 459 413 95 398 439 497 121 269 325 316 392 153 26 199 295 474 131 367 124 55 149 116 8 315 208 413 141 335 473 281 424 314 384 110 225 65 129 24 381 223 104 87 373 411 483 368 390 190 70 349 209 227 365 306 460 192 36 438 494 56 462 402 222 397 318 130 409 187 99 327 340 380 399 22 482 19 375 46 325 126 306 475 140 287 243 397 72 358 208 336 480 240 64 23 415 79 400 55 401 51 208 364 358 347 187 225 268 64 432 334 329 244 207 160 244 39 380 311 35 262 388 303 79 52 89 334 85 376 54 377 135 307 314 105 16 161 11 341 70 477 124 454 368 311 469 90 254 303 149 329 237 98 84 57 409 331 337 36 463 32 169 373 301 25 364 49 409 112 439 461 265 143 400 199 309 364 237 416 341 330 87 439 363 114 106 418 260 262 20 66 170 428 336 97 24 285 165 365 366 43 424 457 175 313 379 54 289 252 80 416 9 151 277 170 494 252 413 16 479 254 157 242 106 396 279 486 404 489 122 24 468 347 256 479 451 468 390 181 249 267 149 461 205 479 180 38 460 249 41 390 23 223 258 159 241 345 152 306 118 64 177 489 131 489 128 158 337 12 411 406 269 138 319 390 281 259 109 240 160 228 267 165 174 340 366 278 152 169 494 376 332 156 323 58 68 25 44 452 371 295 388 62 406 261 136 180 220 174 5 184 360 448 345 250 104 67 344 466 212 46 356 343 381 139 238 153 434 377 491 296 455 10 74 487 18 213 126 425 19 463 305 393 51 369 94 457 178 420 461 409 109 115 137 108 302 16 353 7 260 359 176 350 275 380 168 411 40 124 432 254 425 490 450 269 346 223 91 473 415 295 143 97 439 242 115 118 199 184 173 375 403 110 390 42 414 197 344 266 338 185 396 282 118 298 347 44 353 404 109 438 67 39 406 30 479 201 167 477 341 405 322 128 317 236 106 300 14 29 34 130 386 411 229 39 25 352 282 311 303 241 382 472 417 382 60 350 79 277 42 246 355 96 238 399 245 473 403 390 392 249 92 461 150 365 162 127 292 259 155 190 484 77 491 272 29 75 ESERCIZI 1) Da a) b) c) 400 lanci di una moneta sono risultati 175 esiti “testa” e 225 esiti “croce”. Trovare un intervallo di confidenza al 90% per la probabilità di esito “testa”. Trovare un intervallo di confidenza al 99% per la probabilità di esito “testa”. Questa moneta sembra truccata? Giustificare la risposta. 2) Spiegare, eventualmente con un esempio, perché l’intervallo di confidenza di un parametro può non contenere il parametro che si vuole stimare. 3) Si vogliono effettuare stime per la quantità di sostanza attiva in una unità di un certo farmaco (espressa in mg). Si può ipotizzare che la variabile casuale X che rappresenta la quantità di sostanza attiva abbia distribuzione normale. A tal fine si effettua un campionamento casuale di 100 unità del farmaco. Per questo campione si ottiene: n ∑ x i = 222.91 e i =1 n xi ∑ i 2 = 1154.8 =1 Calcolare una stima puntuale e un intervallo di confidenza a livello di significatività del 99% per la media di sostanza attiva del farmaco. 4) Dai dati del censimento del 1991 risulta che il numero di abitazioni di una città è 300 000 e che la media dell’epoca di costruzione delle abitazioni è 1815 e lo scarto quadratico medio è 50 anni. Uno statistico calcola l’intervallo di confidenza per la media dell’epoca di costruzione al 95%. Commentare. 5) Si determina l’ampiezza 2δ di un intervallo di confidenza a livello fissato 1- α per la media di una variabile aleatoria normale di varianza nota, sulla base di un campione di numerosità n. Quanto numeroso deve essere il campione se si vuole che l’intervallo risultante, con lo allo stesso livello, abbia ampiezza pari ad un terzo di quello che si ottiene con un campione di numerosità n ? 6) Sia X una variabili aleatorie di Bernoulli di parametro p, siano X 1 ,… , X n le variabili aleatorie campionarie e sia P lo stimatore di p. a) Scrivere (in funzione di n , p ) la semiampiezza δ dell’intervallo di confidenza per p a livello di significatività del 95%. b) Per quale valore di p la semiampiezza δ è massima? c) Come deve essere scelto n affinché la semiampiezza δ sia minore o uguale a 0.05? 7) Sia X una variabile aleatoria con distribuzione normale di media μ e varianza σ 2 entrambe sconosciute. Per stimare il parametro μ si effettua un campionamento di numerosità 16. Si indichi con I 16α la realizzazione campionaria dell’intervallo di confidenza per μ a livello di significatività fissato 1 − α . Si amplia il campione percedente di altre 9 unità (ottenendo un campione totale di 25 elementi); si α la realizzazione campionaria dell’intervallo di confidenza per μ nel campione totale allo indichi con I 25 stesso livello di significatività. Dire se le seguenti relazioni sono vere, false o se non si può affermare né una cosa né l’altra: α α α α a) I 16α ⊂ I 25 b) I 16α ⊃ I 25 c) I 16α ∩ I 25 =∅ d) I 16α ∩ I 25 ≠∅ 8) Sia X una variabile aleatoria con distribuzione normale di media sconosciuta e varianza nota. Indichiamo con (A, B) l’intervallo di confidenza per la media calcolato su un campione di n elementi. È vero che A e B sono variabili aleatorie? 9) Sia X una variabile aleatoria con distribuzione normale di media μ e varianza σ 2 entrambe sconosciute. Sulla base di un campione di numerosità n si calcola un intervallo di confidenza per μ al livello del 95%. Esite un intervallo di confidenza per μ , allo stesso livello, su un campione di uguale numerosità con ampiezza minore del precedente? 10) Uno scienziato sostiene che il 9% delle stelle ammette un sistema planetario. a) Determinare la probabilità che su 1000 stelle almeno 100 abbiano un sistema planetario, secondo le ipotesi dello scienziato. b) Sulle 80 stelle più vicine alla terra se ne sono trovate 3 con un sistema planetario. Si calcoli un intervallo di confidenza a livello del 5% per la frequenza relativa delle stelle vicine alla terra con sistema planetario. 11) A parità di altre condizioni (numerosità campionaria, ....) è vero che l’ampiezza dell’intervallo di confidenza per il valore atteso è tanto maggiore quanto è minore il livello 1- α ? Giustificare la risposta. 12) Sia X una variabile aleatoria di legge normale. Si effettua un campionamento di numerosità 10 e si ottengono i seguenti valori campionari: 24.2 22.5 26.7 27.0 28.2 21.3 23.8 24.5 23.2 22.9 a) Calcolare un intervallo di confidenza per la media a livello di significatività 0.90 Supponendo che la varianza sia nota e pari a 2, indicare la minima numerosità campionaria b) affinché l’ampiezza dell’intervallo di confidenza sia minore o uguale a 1, mantenendo lo stesso livello di significatività.