30/03/2012 STATISTICA A – D (72 ore) Marco Riani [email protected] http://www.riani.it Elementi che fanno variare l’ampiezza dell’intervallo di confidenza (p. 70) • s.q.m. dell’universo σ • Più σ è elevato, maggiore è la variabilità della v.a. media campionaria stima meno precisa • Livello di confidenza 1-α • Aumentando 1- α, si riduce α si incrementa z(α), t(α) (l’intervallo aumenta) 1 30/03/2012 Elementi che fanno variare l’ampiezza dell’intervallo di confidenza • Numerosità del campione n • Per dimezzare l’ampiezza occorre quadruplicare n • Se n è “piccolo” non vale più il teorema centrale del limite t(α/2) sostituisce z(α/2) • σ ignoto fattore correttivo (n/(n-1))0,5 Significato della probabilità associata all’intervallo di confidenza • Formulazione deduttiva • Principio del campionamento ripetuto ⇒ distribuzione campionaria di 2 30/03/2012 • Formulazione induttiva µ è una costante (non una v.a.) ⇒ come si può attribuire una probabilità ad un’affermazione che riguarda µ? Principio del campionamento ripetuto ⇒ gli estremi dell’intervallo sono v.a. (v. esempio pp. 64-66) Stima della frequenza relativa (grandi campioni) • V.a. Frequenza relativa campionaria, P: E(P) = π • Teorema centrale del limite 3 30/03/2012 Intervallo di conf. della frequenza relativa • Intervallo di confidenza di livello 1 – α per la frequenza relativa dell’universo π, nel caso di grandi campioni: Esempio: stima della quota di mercato • n = 400 consumatori; 82 acquirenti • p = 82/400 = 0,205 ⇒ 20,5% (stima campionaria di π) • Calcolare l’intervallo di confidenza di π al livello di confidenza di 0,95 4 30/03/2012 • • • • Esempio: stima della quota di mercato n = 400 consumatori; 82 acquirenti p = 82/400 = 0,205 ⇒ 20,5% (stima campionaria di π ) errore standard della v.a. P: s(p) = = 0,020 1−α −α=0,95 ⇒ z(0,025) = 1,96 −α 0,205± ±1,96⋅⋅0,020 Esempio: stima della quota di mercato • n = 400 consumatori; 82 acquirenti • p = 82/400 = 0,205 ⇒ 20,5% (stima campionaria di π) • Calcolare l’intervallo di confidenza di π al livello di confidenza di 0,99 5 30/03/2012 • 1 − α = 0,99 ⇒ z(0,01) = 2,58 0,205 ± 2,58⋅⋅0,020 • Intervalli ampi (stima poco precisa) aumentare n ⇒ Cosa succede se n è piccolo? Piccoli campioni • Relazione inversa tra σ(P) e : • Il teorema centrale del limite non è applicabile ⇒ occorre fare riferimento alla distribuzione esatta della v.a. P: distribuzione binomiale 6 30/03/2012 Riassunto delle puntate precedenti sulla stima per intervallo X v.c. che denota la distribuzione del fenomeno nell’universo X~ distribuzione qualsiasi (µ, σ2) µ< ∞ σ<∞ per n elevato (>30) (sia nel caso in cui σ sia noto sia nel caso in cui σ sia stimato con scor) 7 30/03/2012 Se n<30 e Il fenomeno presenta distribuzione normale nell’universo X~N(µ, σ2) • Se σ2 è noto • per qualunque n (anche n=1) • Se σ2 ignota e viene stimato con scor allora distribuzione “t di Student” con n-1 gradi di libertà Stima della frequenza relativa (grandi campioni) • X~ fenomeno nell’universo distribuzione Bernoulliana con parametro π • P = frequenza relativa campionaria= numero di successi /n = stimatore di π 8 30/03/2012 Caratteristiche della v.a. P (e confronto con v.a. media campionaria) • Forma di distribuzione – Esatta ⇒ binomiale: P=S/n ∼ B(n, π)/n – Se n>100 si può applicare il Teorema centrale del limite: 17 Esercizio Il direttore di un centro commerciale vuole modificare l’orario di apertura del centro. In un campione casuale di 300 clienti, 246 si sono dichiarati favorevoli al nuovo orario proposto. • Si determini l’intervallo di confidenza della frequenza relativa dell’universo • con probabilità 0,95 • con probabilità 0,995 e si commentino in termini comparati i suddetti intervalli 9 30/03/2012 • n = 300 p = 246/300 = 0,82 • Z(P) ~ N(0,1) teorema centrale del limite • Intervallo di confidenza al 95% z(α/2) = ± 1,96 0,82 ±1,96 ·0,022 Pr{0,777 ≤ π ≤ 0,863} = 0,95 0,025 0,025 0,95 −z(α/2) z(α/2) -1,96 1,96 • n = 300 p = 246/300 = 0,82 • Z(P) ~ N(0,1) teorema centrale del limite • Intervallo di confidenza al 99,5% (0,995) 0,0025 0,0025 0,9950 −z(α/2) z(α/2) -2,81 2,81 F(2,81)=0,9975 Pr{0,758 ≤π≤ ≤ 0,882} = 0,995 10 30/03/2012 Confronto tra i due intervalli di confidenza Pr{0,777 ≤ π ≤ 0,863} = 0,95 Pr{0,758 ≤π≤ ≤ 0,882} = 0,995 Esercizio • La deviazione standard della statura degli studenti iscritti ad una università è 5,8 cm. Quanti studenti si devono estrarre a sorte dalla popolazione se si vuole con probabilità del 90% che l’errore di stima della media non superi i 2 cm. 11 30/03/2012 Soluzione: informazioni note X~(µ 5,82) • Se l’intervallo di confidenza è al 90% si ottiene Se vogliamo che l’errore di stima della media non superi i 2 cm Esercizi da svolgere 12 30/03/2012 Esercizio: stima della percorrenza media delle vetture diesel di un certo modello al primo guasto • n=400 =34.000 Km; scor=9000 Km • Calcolare l’intervallo di confidenza di µ al 95% e al 99% Esercizio • I dati che seguono si riferiscono alla durata (in migliaia di Km) di una cinghia da automobile in un campione di 15 osservazioni • 115,4 85,2 89,1 118,3 88,4 109,3 104,3 69,3 105,5 106,8 103,1 101,6 102,9 89,6 109,3 • Facendo le opportune ipotesi, si costruisca un intervallo di confidenza per la media al 99% 13 30/03/2012 Esercizio • Di seguito sono riportati i Km percorsi in un giorno da un campione di taxi operante in una grande città • 173 195 115 122 154 149 120 148 152 68 132 91 120 148 103 101 • Sulla base di questo campione assumendo che la popolazione generatrice sia normale è stato determinato il seguente intervallo di confidenza (116,55 144,7). Si calcoli il livello di confidenza su cui è stato calcolato Variante al precedente esercizio • Se i dati di base fossero stati i seguenti: • 172 195 115 122 154 149 120 148 152 68 132 91 120 148 103 101 • Quale sarebbe stato il livello di confidenza dell’intervallo (116,55 144,7)? 14 30/03/2012 Esercizio Nella seguente distribuzione di frequenze è riportato il numero di dipendenti di 50 aziende tessili operanti in una determinata provincia. Numero di dipendenti Frequenze assolute 5 8 12 14 15 545 12 11 11 8 7 1 Si calcoli l'intervallo di confidenza al 99% della media dell'universo del numero di dipendenti commentando i risultati ottenuti (con o senza il valore anomalo) Esercizio Un’azienda produce rotoli di stoffa della lunghezza di 70m. Tali rotoli possono presentare difetti di diversa natura. L’azienda è interessata a stimare il numero medio di difetti presenti nei rotoli prodotti. In un campione casuale di 85 rotoli si è trovata la seguente distribuzione n. difetti 0 1 2 3 4 5 6 Frequenza 16 26 22 13 5 2 1 Si determini l’intervallo di confidenza al 99% per la media dei difetti presenti nei rotoli di stoffa 15 30/03/2012 Esercizio Con riferimento all’esercizio precedente, si consideri che un rotolo risulta vendibile se presenta un massimo di 3 difetti. Sulla base dello stesso campione di cui all’esercizio precedente, si costruisca un intervallo di confidenza al 95% per la proporzione di rotoli considerati vendibili Esercizio • Nel processo di controllo del peso delle confezioni di un determinato prodotto l’azienda esamina un campione di 800 confezioni e trova che 15 di esse hanno un peso fuori norma. • Si determini l’intervallo di confidenza al 97% della proporzione di pezzi fuori norma. • Se la proporzione di pezzi fuori norma nell'universo fosse uguale a 1,5%, effettuando cinque estrazioni – si calcoli la probabilità di trovare esattamente due pezzi fuori norma; – si scriva e si calcoli l'espressione che consente di calcolare la probabilità di ottenere un numero di pezzi fuori norma compreso tra due e quattro (estremi compresi). – rappresentare graficamente la densità 16 30/03/2012 Esercizio • Data una scheda telefonica da 5 euro di cui non si sa se sia mai stata usata e nel caso sia stata usata non si conosce l’ammontare ancora disponibile, è ragionevole ipotizzare per tale ammontare X la seguente funzione di densità f(x)=1/5 per [0 ≤x≤5] • Verificare che f(x)=1/5 per [0 ≤x≤5] sia una densità e rappresentarla graficamente • Calcolare il credito residuo atteso (E(X)) • Calcolare la varianza del credito residuo (VAR(X)) • Devo fare una telefonata da 2 € calcolare la prob che la scheda sia sufficiente per fare la telefonata • Ho 60 schede tutte con un ammontare che si distribuisce come descritto sopra. Qual è la prob che l’ammontare complessivo sia superiore a 170 € 17 30/03/2012 Esercizio • La durata di un macchinario si distribuisce secondo una distribuzione normale di media 2 anni e scarto quadratico medio 0,5 anni. Si determini: 1. prob che il macchinario duri più di 28 mesi. 2. l’intervallo di ampiezza 2 anni al quale corrisponde la massima prob di contenere la durata effettiva del macchinario. Calcolare tale probabilità. 3. Se il costo di acquisto del macchinario è di 1000 euro e il costo del suo funzionamento è stimato in 150 euro all’anno, si calcolino la media e la varianza del costo complessivo del macchinario. Esercizio • Sia X1, … Xn un campione casuale estratto da un universo X con la seguente distribuzione di Cauchy (T di student con un solo grado di libertà) 18 30/03/2012 Richieste • • • • • • Verificare che f(x; θ, d) è una densità Rappresentare graficamente f(x; θ, d) Calcolare la funzione di ripartizione F(x) Calcolare la mediana di X Calcolare E(X) Illustrare se in presenza di un campione casuale estratto da questa densità è possibile applicare il teorema centrale del limite Continua • Verificare che 6,314 (ossia il numero all’incrocio della prima riga e della prima colonna della tabella di p. 150 del testo di inferenza) è quantile che lascia alla sua sinistra una probabilità pari a 0,95 • Trovare il quantile 0,995 (ossia il valore che lascia alla sua destra una probabilità pari a 0,005). Verificare che tale numero risulta uguale a 63,656 (v. tabella di p. 150 del libro di inferenza) 19 30/03/2012 Esercizio • Si consideri una popolazione distribuita secondo il seguente modello X Pi 2 0.3 5 0.6 7 0.1 • Si elenchino tutti i campioni di ampiezza 3 che si possono estrarre con ripetizione da tale popolazione assegnando a ciascun campione la relativa probabilità • Si determini la distribuzione campionaria della media e la si rappresenti graficamente • Si calcoli il valore atteso e la varianza della media campionaria • Si determini la distribuzione campionaria della mediana ed il suo valore atteso Esercizio • Il tempo impiegato da un meccanico in un negozio di biciclette per assemblare un certo tipo di bicicletta può essere considerato una v.c. normale con media 32 minuti e deviazione standard 3,5 minuti. Si calcoli la probabilità che il tempo medio per assemblare 10 biciclette – Non superi 33 minuti – Sia compreso tra 28,5 e 31,5 minuti 20 30/03/2012 Esercizio • • • • Sia f(x)=1/2 -1<x<1 Si calcoli E(X) E(X+2) E(X2) σ2 E(X/4+7) Esercizio • Una lotteria mette in palio uno scooter del valore di 3000 Euro. Vengono venduti 10000 biglietti al prezzo di 1€. Se si acquista un biglietto qual è il guadagno atteso? Qual è il guadagno atteso se si comperano 100 biglietti. SI confronti la varianza del guadagno nei due casi 21 30/03/2012 Esercizio: il gioco dell’intruso (odd man game) • 3 persone giocano all’«odd man game». Ciascuno lancia una moneta. Chi ottiene una faccia diversa da quella degli altri due è l’intruso («odd man») e perde. • Qual è la probabilità che via sia un intruso in un determinato turno di gioco assumendo che le monete non siano truccate? • Qual è la probabilità che siano necessari un numero di turni pari di gioco per determinare il perdente («l’odd man»)? Esercizio: il gioco dell’intruso (odd man game) • Si risponda ai quesiti dell’esercizio precedente assumendo stavolta che il numero dei giocatori sia uguale a 4 (in questo caso «l’odd man» è quello che ottiene una faccia diversa da quella degli altri 3). 22 30/03/2012 Esercizio: il gioco dell’intruso (odd man game) • Si risponda ai quesiti dell’esercizio precedente assumendo stavolta che il numero dei giocatori sia uguale a n (in questo caso «l’odd man» è quello che ottiene una faccia diversa da quella degli altri n-1). • Does this seem like a feasible game as n gets large? 23