Capitolo 8 Stima Thursday, 10 May 12 Contenuto del capitolo Proprietà degli stimatori Correttezza - efficienza relativa - consistenza Intervalli di confidenza Per la media - per una proporzione Come si determina l’ampiezza campionaria Thursday, 10 May 12 Proprietà - correttezza Esistono stimatori distorti? La varianza campionaria se è calcolata come P 2 N .X X/ i i n è uno stimatore distorto della varianza della popolazione Invece se è calcolata come 2 S D P i .Xi n 1 2 N X/ è uno stimatore corretto della varianza della popolazione Thursday, 10 May 12 Esempio Campione di n = 10 elementi da una normale con varianza 100 Stimatore con denominatore 10 0 Thursday, 10 May 12 50 Stimatore con denominatore 9 100 150 200 250 300 Efficienza Dovendo scegliere tra due stimatori corretti si preferisce quello che ha una varianza più piccola. Se la popolazione ha distribuzione normale con media=mediana μ sia la media campionaria che la mediana campionaria M sono stimatori corretti di μ. Ma la media campionaria ha varianza minore della mediana: N D var.X/ 2 =n var.M / ⇡ 1:57 2 =n La media è più efficiente della mediana: se con un campione di 100 otteniamo un certo errore standard con la media campionaria, con la mediana abbiamo bisogno di un campione di 157. Thursday, 10 May 12 Stimatore consistente Uno stimatore si dice consistente se la sua distribuzione campionaria tende a concentrarsi sul parametro da stimare all’aumentare della dimensione campionaria. E’ una proprietà asintotica vero parametro Thursday, 10 May 12 Stimatore consistente Due condizioni sono sufficienti. Al crescere di n 1) la media della distribuzione campionaria dello stimatore tende al parametro da stimare 2) la varianza della distribuzione campionaria dello stimatore tende a zero. vero parametro Thursday, 10 May 12 Stimatore consistente Due condizioni sono sufficienti. Al crescere di n 1) la media della distribuzione campionaria dello stimatore tende al parametro da stimare 2) la varianza della distribuzione campionaria dello stimatore tende a zero. La media campionaria e consistente La proporzione campionaria è consistente La varianza campionaria è consistente Thursday, 10 May 12 Stima per intervallo Thursday, 10 May 12 Quantificazione dell’incertezza Stima, La stima è un valore puntuale Intervallo di stima, Un intervallo di stima è una coppia di valori (a,b) che definiscono gli estremi Thursday, 10 May 12 Errore standard Lo stimatore è una variabile aleatoria, l’ES è la dev. st. Intervallo di confidenza Un intervallo di confidenza è una coppia di variabile aleatorie che con probabilità data contiene il parametro Esempio Il tempo trascorso dai clienti in un negozio è Normale N. D‹; D 6 min/ Si estrae un campione casuale di 16 clienti La media campionaria è 10 xN D 25 min 20 30 xN D 25 Thursday, 10 May 12 40 Esempio L’errore standard della stima è ES = p = 16 D 6=4 D 1:5 min Un intervallo di stima per la media è ŒxN 1:96ES; xN C 1:96ESç Estremi: 25 - 1.96 * 1.5 = 22.06; 25 + 1.96 * 1.5 = 27.94 Nel campionamento ripetuto questi intervalli comprendono la vera media nel 95% dei casi P .XN Thursday, 10 May 12 1:96ES < < XN C 1:96ES/ D 0:95 il mio intervallo Esempio coverage: 96% 50 40 il mio intervallo è generato da una procedura che nel 95% dei casi copre la vera media 30 20 10 il mio intervallo 18 20 22 24 26 Vera media Thursday, 10 May 12 28 30 il mio intervallo Perché? coverage: 96% 50 40 P 1:96 < XN ES ! < 1:96 D 0:95 30 è equivalente a 20 P .XN 10 18 20 22 24 26 Vera media Thursday, 10 May 12 28 30 1:96 ES < < XN C 1:96 ES/ D 0:95 il mio intervallo Interpretazione coverage: 96% 50 40 Nel lungo andare gli intervalli costruiti come la media più o meno 1.96 ES comprendono la media incognita nel 95% dei casi 30 20 P .XN 10 18 20 22 24 26 Vera media Thursday, 10 May 12 28 30 1:96 ES < < XN C 1:96 ES/ D 0:95 il mio intervallo Interpretazione sbagliata coverage: 96% 50 ATTENZIONE! NON È VERO che la media incognita ha probabilità 0.95 di cadere nel mio intervallo (22.06, 27.94) 40 30 P .22:06 < < 27:94/ D 0:95 20 La media della popolazione è una quantità fissa e non una variabile aleatoria 10 il mio intervallo 18 20 22 24 26 Vera media Thursday, 10 May 12 28 30 il mio intervallo Intervallo di confidenza coverage: 96% 50 Siccome la procedura di costruzione degli intervalli nel lungo andare comprende la media incognita nel 95% dei casi 40 ho fiducia che il mio intervallo che è stato ottenuto da questa procedura sia vincente 30 20 Per questo l’intervallo si chiama intervallo di confidenza e 0.95 si dice livello di confidenza 10 18 20 22 24 26 Vera media Thursday, 10 May 12 28 30 Livelli di confidenza Livello di confidenza 80% 90% 95% 99% 99.9% z˛=2 1.28 1.64 1.96 2.58 3.29 ˛ D 0:05 LC D 0:95 0.95 0.025 0.025 -1.96 Thursday, 10 May 12 1.96 Livelli di confidenza 1 ˛ z˛=2 80% 90% 95% 99% 99.9% 1.28 1.64 1.96 2.58 3.29 1 ˛=2 z˛=2 Thursday, 10 May 12 ˛ ˛=2 z˛=2 Margine di errore In un intervallo di confidenza la semiampiezza z˛=2 ES D z˛=2 p D ME n il libro la chiama margine di errore XN Thursday, 10 May 12 ME XN XN C ME IC per µ (X~Normale, 2 σ non nota) Quando si costruisce un IC per la media μ la deviazione std σ non è di diretto interesse, ma è comunque un ingrediente necessario perché entra nell’espressione dell’IC Nella maggior parte delle applicazioni la deviazione std σ non è nota e quindi per poter determinare l’IC per μ occorre rimpiazzare σ con una sua stima Thursday, 10 May 12 Stima della varianza Lo stimatore corretto della varianza della popolazione σ2 è la varianza campionaria, quella con il divisore n-1 gradi di libertà Sostituendo, lo stimatore dell’errore standard è S ES stimato D p n Thursday, 10 May 12 Cosa sono i gradi di libertà Gli scarti dalla media campionaria X1 N X2 X; N : : : ; Xn X; XN Non sono indipendenti fra loro perché la loro somma deve essere zero. Per esempio se ci sono tre osservazioni: 12, 1, ? con media = 5 Gli scarti dalla media sono 7, -4, ? L’ultimo scarto per forza è -3 ! Sono libero di scegliere solo n-1 scarti dalla media, l’ultimo no. Thursday, 10 May 12 IC per µ (X~Normale, 2 σ non nota) Alla base dell’intervallo di confidenza per la media di una normale cob varianza nota c’è la relazione P ! XN 1:96 < p < 1:96 D 0:95 = n Normale Standard Thursday, 10 May 12 IC per µ (X~Normale, 2 σ non nota) Non si può usare per l’intervallo di confidenza per la media di una normale con varianza ignota P ! XN 1:96 < p < 1:96 ¤ 0:95 S= n Non è Normale Standard ma t di Student Thursday, 10 May 12 La distribuzione t di Student p La t di Student è una famiglia parametrica di v.a. continue che hanno come supporto l’intero asse dei numeri reali p Il parametro della famiglia è un numero intero detto gradi di libertà (gdl) p Ogni membro della famiglia (cioè, qualunque sia il numero di gdl) è una distribuzione simmetrica con media 0, varianza appena maggiore di 1 e code più pesanti rispetto alla Normale standard (cioè i valori lontani dalla media hanno maggiore probabilità nella t che nella Normale standard) La t di Student è sostanzialmente diversa dalla Normale standard quando il numero di gdl è piccolo (meno di 20); al crescere del numero di gdl la t diviene sempre più simile alla Normale standard, tanto che per gdl>120 le due distribuzioni presentano differenze trascurabili Levine, Krehbiel, Berenson Statistica II ed.© 2006 Apogeo srl Unifi - Statistica Ec.Az. PZ 2010/2011 Thursday, 10 May 12 39 Tavole della t di Student Unifi - Statistica Ec.Az. PZ 2010/2011 Thursday, 10 May 12 40 Determinazione del valore critico della t con 20 gradi di libertà (à leggere alla riga 20) necessario per un livello di confidenza del 95% (à α/ 2=0.025 à leggere alla colonna 0.025) Unifi - Statistica Ec.Az. PZ 2010/2011 Thursday, 10 May 12 41 La distribuzione t di Student Esempio: valori critici che lasciano sulla coda destra α=0.025 p La t di Student ha code più pesanti della Normale standard à per ogni data probabilità α da lasciare sulla coda destra il valore critico sulla t è più grande (= spostato verso destra) rispetto alla Normale standard p La differenza nei valori critici è rilevante quando il numero di gdl è piccolo e tende a zero al crescere del numero di gdl p Nel caso dell’IC per µ si usa n quando σ è nota à valore critico z della Normale standard n quando σ non è nota à valore critico t della t di Student con gdl=n−1 L’IC per µ è più lungo quando σ non è nota (in quanto il valore critico è più grande: questo riflette l’incertezza addizionale causata dalla necessità di stimare σ); la differenza di lunghezza si riduce al crescere dell’ampiezza campionaria n (infatti quanto più grande è n tanto più stimatore S è2010/2011 preciso) Unifilo - Statistica Ec.Az. PZ 42 Thursday, 10 May 12 IC per µ (X~Normale, 2 σ non nota) Dunque, quando X~N(µ,σ2) con µ e σ2 entrambi ignoti e si dispone di un campione casuale di X di ampiezza n, l’intervallo aleatorio che include µ nel (1−α)100% dei campioni è p Una volta estratto il campione e calcolate media e deviazione standard, l’intervallo risulta determinato p Intervallo di confidenza al livello 1−α Il valore critico tn−1,α/2 è il valore che, nella distribuzione t di Student con n −1 gdl, lascia a destra α/2 (e a sinistra 1−α/2) p p Se la distribuzione del carattere è Normale il livello di confidenza nominale 1−α è esatto (= coincide con il livello effettivo) Anche se la distribuzione del carattere non è Normale, in molti casi con un campione di 30 unità il livello nominale 1−α è simile al livello effettivo Unifi - Statistica Ec.Az. PZ 2010/2011 Thursday, 10 May 12 43 Esempio Per controllare il processo produttivo di una falegnameria vengono esaminate 10 tavole, il cui spessore medio è di 10.05 mm con deviazione standard campionaria di 0.05 mm. p Si assume che lo spessore abbia distribuzione Normale e che le 10 tavole siano un campione casuale p p I gdl sono 10–1=9 à con un livello del 95% il valore critico della t9 è 2.2622 per cui p Con un elevato livello di fiducia (95%) si può dire che lo spessore medio delle tavole che escono dal processo produttivo è compreso tra 10.014 mm e 10.086 mm Unifi - Statistica Ec.Az. PZ 2010/2011 Thursday, 10 May 12 44