Lo stimatore Si definisce stimatore la v.c. descritta dai diversi valori che può assumere una stima al variare del campione estratto. T ( X ) T ( X 1 ,..... X n ) Mentre lo stimatore di un parametro è una v.c., la stima è il valore assunto dallo stimatore in seguito all’estrazione di un campione di n elementi ed il calcolo della statistica al suo interno. Per stimare il parametro incognito della popolazione è possibile poter scegliere tra differenti stimatori associati a differenti funzioni (v.c) dei dati campionari Sarà scelto quello stimatore che riesce a fornire una stima che abbia la massima probabilità di avvicinarsi al vero valore del parametro da stimare Le proprietà dello stimatore Uno stimatore deve avere le seguenti proprietà: Correttezza Il suo valore atteso coincide con il parametro della popolazione Consistenza E’ una proprietà asintotica. Uno stimatore è consistente se al crescere della numerosità campionaria, la sua distribuzione tende ad accentrarsi sempre più vicino al parametro della popolazione. Efficienza relativa Nel confronto tra due stimatori corretti uno stimatore è più efficiente dell’altro se presenta varianza più piccola. Esperimenti di simulazione Stima della media della popolazione con deviazione standard nota Come si ottiene un intervallo di confidenza dalla distribuzione campionaria? Per stimare m, viene estratto un campione di numerosità n e la media x deve essere calcolata Sotto certe condizioni, x si distribuisce in modo normale (o approssimativamente normale)così: x m Z n Noi sappiamo che P(m z 2 x m z 2 ) 1 n n Da qui la relazione: P( x z 2 m x z 2 ) 1 n n 1- dei valori x ottenuti estraendo tutti i possibili campioni di numerosità n, determinano un intervallo x z 2 n , x z 2 n che include il valore atteso della popolazione Livello di Confidenza 1- x z 2 Limite inferiore n x 2z 2 x z 2 n n Limite superiore x z 2 n , x z 2 n Guardiamo la simulazione Non tutti gli intervalli di confidenza sono corretti 150 UCL 100 LCL 50 0 Non tutti contengo all’interno il valore atteso pari a 100 0 Il livello di confidenza è 90%, e 10 dei 100 non contengono al loro interno m 100 4 sono i Livelli di confidenza comunemente utilizzati Livello di Confidenza 0,90 0,95 0,98 0,99 0,10 0,05 0,02 0,01 /2 0,05 0,025 0,01 0,005 z/2 1,645 1,96 2,33 2,575 Supponiamo di voler calcolare il valor medio di una distribuzione risultante dal lancio di due dadi ripetuto 100 volte La devianza standard è nota e pari a = 1.71. Al livello di confidenza del 90% l’intervallo di confidenza è: x z 2 n 1.71 x 1.645 x .28 100 Con 100 lanci l’intervallo di confidenza è: [media campionaria - .28, media campionaria + .28] Ricalcolare l’intervallo di confidenza al livello di confidenza di 95% Soluzione x z 2 1.71 x 1.96 x .34 n 100 • L’intervallo al 90% è = 2(.28) = .56 • L’intervallo al 95% è = 2(.34) = .68 • Perchè al 95% l’intervallo è maggiore, è più probabile che includa il valore di m. .95 .90 x .28 x .34 x .28 x .34 • Esempio – Si vuole stimare il numero medio di ore alla settimana passate dai bambini a guardare la televisione – Si intervistano 100 bambini – Calcolare l’intervallo di confidenza al 95%, sapendo che la devianza standard è = 8.0 Soluzione Il parametro da stimare è m (numero di ore settimanali passate davanti alla TV) x 27.191. 1 - =.95, = .05. 8.0 x z 2 27.191 z .025 /2 = .025. Z.025 = 1.96 n 100 8.0 27.191 1.96 27.191 1.57 25.621, 28.761 100 • Analisi con Excel Osserviamo l’istogramma. Esso mostra che la variabile Numero di ore passate davanti la Tv, si distribuisce in modo normale. L’uso della distribuzione normale per il calcolo dell’intervallo è allora appropriato. (Teorema del Limite Centrale) 10 20 30 40 50 60 More Interpretazione dell’intervallo di confidenza – E’ sbagliato dire che l’intervallo di confidenza è un intervallo per il quale ci sono 1 - possibilità che la media della popolazione cada tra il limite inferiore e quello superiore. – Questo perchè m è un parametro e non una variabile casuale. L’ampiezza dell’intervallo funzione di: di confidenza Deviazione standard della popolazione Livello di confidenza Numerosità del campione è La numerosità campionaria Possiamo controllare il variare dell’ampiezza dell’intervallo di confidenza al variare della numerosità campionaria Possiamo invece stabilire l’intervallo campionario e calcolare la numerosità campionaria necessaria x Accuratezza della stima La numerosità campionaria necessaria per stimare la media è: z 2 n 2 z 2 n • Esempio – Si vuole verificare il diametro dei bulloni prodotti dalla propria fabbrica con un’accuratezza di stima pari ad 1 mm. – Quale deve essere la numerosità campionaria con: Ipotesi di distribuzione normale del diametro dei bulloni Livello di confidenza 99% Deviazione Standard nota e pari a = 6 mm. =1 mm. Soluzione • L’accuratezza della stima è +/- 1 mm. • Con un livello di confidenza del 99% = .01, allora z/2 = z.005 = 2.575. 2 z 2 2 . 575 ( 6 ) n 239 1 2 • Se si conosce la numerosità della popolazione c’è la correzione per popolazioni finite n n*= 1 + n/N • Esempio – Si vuole verificare la percentuale di pezzi difettosi prodotti dalla propria fabbrica con un’accuratezza delle stima pari al 2%. – Quale deve essere la numerosità campionaria con: Ipotesi di approssimazione alla distribuzione normale standardizzata Livello di confidenza 99% Deviazione Standard nota e pari a =10 =2 Soluzione • L’accuratezza della stima è +/-2 • Con un livello di confidenza del 99% = .01, z/2 = z.005 = 2.575. z 2 2.575(10) n 166 2 2 2 Esperimenti di simulazione Non distorsione della media campionaria Vogliamo dimostrare che la media campianaria è uno stimatore corretto della media della popolazione m, estraendo campioni di numerosità 4 utilizzando: La Distribuzione binomiale con p = .3 e n = 10, per 100 campioni La Distribuzione normale con m = 3 e s = .75, per 300 campioni E’ calcolata la media delle medie campionarie ed è dimostrato per 10, 20, … campioni Risultati simulati per una distribuzione binomiale m = np = 3. 3.2 3.15 3.1 3.05 3 2.95 2.9 Numero di campioni 10 20 30 100 3.02 3 2.98 Risultati simulati per una distribuzione normale m = 3. 2.96 2.94 2.92 10 30 100 300 distorsione della varianza campionaria Vogliamo dimostrare che la varianza campianaria non è uno stimatore corretto della varianza della popolazione m, estraendo campioni di numerosità 4 utilizzando: Confronteremo l’errore associato a s2 (corretto) con l’errore associato alla variabile casuale campionaria v2 s 2 ( x x) , i n 1 v 2 ( x x) i n I campioni sono estratti da una Distribuzione binomiale con p = .3 e n = 10, per 100 campioni Lo stimatore s2 approssima il valore reale della varianza 2.1 2.5 2 1.5 1 0.5 0 La variabile v2 è sempre al di sotto del valore reale della varianza (l’andamento è però simile) TEST D’IPOTESI La verifica di ipotesi vaglia il grado di attendibilità che può essere attribuito a delle ipotesi, che riguardano il valore di un parametro incognito di una distribuzione Esempio Considerato che in un campione casuale di consumatore il p% ha preferito un nuovo prodotto come posso considerare valida tale ipotesi per la popolazione? Il concetto di test di ipotesi Ci sono due ipotesi circa il parametro o i parametri della popolazione. H0 L’ipotesi nulla [ ad esempio m = 5] H1 L’ipotesi alternativa [ ad esempio m <5] Le ipotesi possono essere: Semplici se si specifica in modo univoco la distribuzione della popolazione oggetto di rilevazione H 0 : 0 Composte se si specificano diversi valori del parametro A loro volta possono essere Unidirezionali H 0 : 0 H 0 : 0 Bidirezionali Esempio Supponiamo di voler verificare:. Quello che vogliamo provare – H0 L’ipotesi nulla [m = 5] – contro H1 L’ipotesi alternativa [m <5] 1) Costruiamo, attraverso i risultati campionari, la statistica relativa al parametro ipotizzato 2) Ci domandiamo quale è il grado di attendibilità delle osservazioni campionarie, in modo da stabilire se le differenze risultanti rispetto alla popolazione siano significative oppure dovute ad errore campionario m=5 x Abbiamo due possibilità:. – Rifiutare H0 (l’ipotesi nulla) in favore dell’ipotesi alternativa – Accettare H0 (l’ipotesi nulla) a sfavore dell’ipotesi alternativa Possiamo commettere due tipi di errore: – Errore di primo tipo - Rifiuto H0 (l’ipotesi nulla) quando essa è vera – Errore di secondo tipo - Accetto H0 (l’ipotesi nulla) quando essa è falsa Verifica di ipotesi sulla media di una popolazione con varianza nota Esempio 1 – Un nuovo sistema di gestione di carte di credito sarà implementato in un ipermercato solo se la spesa media mensili con carte di credito è maggiore di 170 Euro – Un campione di 400 estratti conto mensili viene esaminato – Si suppone che la spesa mensile con carta di credito abbia una distribuzione normale con = 65 Euro Il nuovo sistema sarà implementato? Soluzione – La popolazione di interesse è l’ammontare di spesa mensile effettuata con carta di credito – Si vuole dimostrare che la spesa media mensile con carta di credito è maggiore di 170 Euro H1 : m > 170 Ipotesi alternativa – L’ ipotesi nulla è relativa ad un solo valore del parametro m : H0 : m = 170 Ipotesi nulla Una media campionaria di 178 è sufficientemente più grande di 170 per affermare che la media della popolazione è maggiore di 170? m x 170 178 Se m è uguale a 170, allora m x 170 .La distribuzione della media campionaria mostrerà questo E’ lo stesso avere x 178 sotto l’ipotesi nulla (m = 170)? Il metodo della regione di rifiuto La regione di rifiuto è un range di valori: se il valor test cade in questo range, l’ipotesi nulla è rifiutata in favore dell’ipotesi alternativa Bisogna definire il valore di x che si ritiene sufficiente per rifiutare l’ipotesi nulla x.L La regione di rifiuto sarà, dunque: x xL La Regione di rifiuto è: x x L x xL Non rifiutiamo H0 xL x xL Rifiutiamo H0 La Regione di rifiuto è : x x L m x 170 xL z Rifiutiamo H0 qui x L 170 65 400 x = P(commettere errore I tipo) = P(rifiutare H0 quando H0 è vera) = P( x x L dato che H0 è vera) P(Z Z ) La Regione di rifiuto è : x xL = 0.05 m x 170 xL 65 . 400 se 0.05, z.05 1.645. xL 170 z allora xL 170 1.645 65 175.34. 400 z x L 170 65 400 La Regione di rifiuto è :x x L rifiutiamo l ' ipotesi nulla se x 175.34 = 0.05 m x 170 x L 175.34 178 Conclusione La media campionaria (178) è maggiore del valore critico 175.34, perciò c’è sufficiente evidenza statistica per rifiutare H0 a favore di H1, al livello di significatività del 5% Il test statistico standardizzato – Invece di utilizzare la statistica x , possiamo utilizzare il valore standardizzato z xm z n – Allora rifiuteremo la regione perchè z z Test ad una coda Esempio 1 - continua Svolgiamo l’esercizio utilizzando il test statistico standardizzato H0: m = 170 H1: m > 170 – Test statistico: z x m n 178 170 65 400 2.46 – Regione di rifiuto: z > z.05 1.645. – Conclusione: 2.46 > 1.645, così rifiutiamo l’ipotesi nulla in favore dell’ipotesi alternativa Metodo del P-value – Il p - value fornisce informazioni circa la significatività che supporta l’ipotesi alternativa Il p-value del test è la probabilità associata al test statistico Esempio 1 - continua La probabilità di avere un test statistico con un valore che delimita la regione di rifiuto pari a 178 è: P( x 178) 178 170 P( z ) 65 400 P( z 2.4615) .0069 m x 170 x 178 Il p-value Interpretazione del p-value Dato che la probabilità che la media campionaria possa assumere un valore maggiore di 178 quando m = 170 è così piccola (.0069), ci sono ottime ragioni per credere che m > 170. L’evento x 178 è raro sotto H0 con m x 170, ma… …diventa più probabile sotto H1, con m x 170 Possiamo concludere che più piccolo è il pvalue e più significatività è a supporto dell’ipotesi alternativa H0 : m x 170 H1 : m x 170 x 178 Descrizione del p-value – Se il p-value è minore di 1%, c’è una estrema evidenza statistica a supporto dell’ipotesi alternativa – Se il p-value è compreso tra 1% e 5%, c’è una forte evidenza statistica a supporto dell’ipotesi alternativa – Se il p-value è compreso tra 5% e 10%, c’è una debole evidenza statistica a supporto dell’ipotesi alternativa – Se il p-value è maggiore del 10%, non c’è evidenza statistica a supporto dell’ipotesi alternativa Esempio 2 – Con un campione di 25 bottiglie si vuole controllare che il contenuto medio delle bottiglie prodotte non sia inferiore a 16 ml come indicato sull’etichetta. – Viene misurato il contenuto delle 25 bottiglie – Da precedenti esperienze si sa che il contenuto si distribuisce in modo normale con deviazione standard pari a 0.4 ml – Quando possiamo considerare non veritiera l’indicazione sull’etichetta? Soluzione Vogliamo testare l’ipotesi nulla H0: m = 16 Contro l’ipotesi alternativa H1: m < 16 H0: m = 16 Allora H1: m < 16 Il test statistico è z x m n Si seleziona il livello di significatività = 0.05 Si definisce la regione di accettazione z < - z 1.645 Test ad una coda Si rifiuta l’ipotesi nulla m =16, a favore dell’ipotesi alternativa m < 16 quando x è troppo piccolo 0.05 x 16 Un campione con una media così lontana da 16, È veramente un evento raro se m = 16. 0.05 Regione di Rifiuto z x m n 15.90 16 0.4 25 -1.25 -z = -1.645 1.25 0 Il valore della statistica test non cade nell’area di rifiuto per cui accettiamo l’ipotesi nulla Non c’è sufficiente evidenze per dire che la media della popolazione è minore di 16ml. p-value = P(Z < - 1.25) = .1056 > .05 0.05 Regione di Rifiuto z x m n 15.90 16 0.4 25 -1.25 -z = -1.645 1.25 0 Esempio 3 • Il tempo richiesto per completare una parte di produzione critica in una catena di produzione si distribuisce in modo normale. Si pensa che la media sia 130 sec. – Testare se vera questa ipotesi con un campione di 100 osservazioni la cui media è di 126,8 sec. E conoscendo la deviazione standard che è pari a 15 sec. Soluzione Vogliamo testare l’ipotesi nulla H0: m = 130 Contro l’ipotesi alternativa H1: m = 130 Definiamo la regione di accettazione z < - z/2 o z > z/2 m 130 Dobbiamo stabilire i valori x /2 0.025 Per rifiutare l’ipotesi nulla a favore di quella alternativa x 130 x /2 0.025 /2 0.025 z x m n 126.8 130 15 100 -z/2 = -1.96 /2 0.025 0 z/2 = 1.96 2.13 Regione di accettazione Il valore del test statistico cade nell’area di rifiuto quindi rifiutiamo l’ipotesi nulla C’è sufficiente evidenza statistica per affermare che la media non è 130. p-value = P(Z < - 2.13)+P(Z > 2.13) = 2(.0166) = .0332 < .05 /2 0.025 z x m n 126.8 130 15 100 2.13 -2.13 -z/2 = -1.96 /2 0.025 0 2.13 z/2 = 1.96 Come si calcola l’errore di II tipo Il calcolo richiede che: – La regione di rifiuto sia espressa nel valore del parametro (non standardizzando) – Il valore alternativo (sotto H1) sia specificato m m0 xL m m1 H0: m m0 H1: m m1 (m0 non è uguale a m1) Riprendiamo l’ Esempio 1 La regione di rifiuto era x 175.34 con = .05. x 175.34 .05 m0 170 175.34 x L 175.34 P( x 175.34 con H 0 falso) P( x 175.34 con m 180) …ma H0 è falsa 175.34 m1 180 P( z 175.34 180 65 400 ) .0764 6.5.1 Gli effetti su al cambiamento di Diminuendo il livello di , cresce il valore di , e viceversa 1 2 1 2 Il valore di , può essere diminuito aumentando la numerosità del campione Aumentando la numerosità campionaria, la deviazione Standard della media campionaria diminuisce Così x diminuisce L z xxLxLxLxLxLxLL 1 2 xL m , allora n xL m z Come risultato diminuisce n x LxxLxLxLL Nell’esempio 6.1, aumentiamo il campione da 400 a 1000 xL m z P( Z 170 1.645 n 173.38 180 65 1000 65 1000 173.38 ) P( Z 3.22) 0 6 La potenza del test La potenza del test è definita come 1 - . Rappresenta la probabilità di rifiutare l’ipotesi nulla quando essa è falsa Verifica di ipotesi sulla media di una popolazione con varianza incognita Quando non si conosce s si utilizza lo stimatore campionario s e la statistica Z è sostituita dalla statistica T Z x m t n s xm s n Quando la popolazione campionata si distribuisce in modo normale ,la statistica t si distribuisce come una t di Student con n-1 gradi di libertà La distribuzione t è unimodale e simmetrica attorno allo zero I gradi di libertà sono funzione della numerosità del campione Con n>30 la distribuzione di t si approssima ad una normale d.f. = n2 d.f. = n1 n1 < n2 0 A = .05 tA t.100 t.05 t.025 t.01 t.005 3,078 1,886 . . 1,325 6,314 2,92 . . 1,725 12,706 4,303 . . 2,086 31,821 6,965 . . 2,528 . . . . . . . . . . 200 1,286 1,282 1,653 1,645 1,972 1,96 2,345 2,326 63,657 9,925 . . 2,845 . . 2,601 2,576 Gradi di libertà 1 2 . . 20 Verifica di ipotesi sulla varianza della popolazione In alcuni casi siamo interessati a fare inferenza sulla variabilità del fenomeno. In questo caso il parametro di interesse è 2 Ad esempio - si vuole misurare la variabilità di un processo produttivo per il controllo di qualità - si vuole misurare la variabilità dei rendimenti finanziari per prevederne il rischio • La varianza campionaria corretta s2 è uno stimatore corretto consistente ed efficiente di 2 (n 1)s 2 • La statistica ha una distribuzione 2 del Chi-quadrato con n-1 g.l., se la 2 popolazione si2distribuisce (n 1) s in modo normale g.l. n 1 2 d.f. = 1 d.f. = 5 d.f. = 10 La tavola del 2 A =.01 A =.01 1 - A =.99 21-A 2 A .010 .990 2.01,10 23.2093 Gradi di libertà 1 . . 10 . . 2.995 2.990 2.975 2.010 2.005 0,0000393 0,0001571 0,0009821 . . 6,6349 7,87944 2,15585 . . 2,55821 . . 3,24697 . . . . 23,2093 . . . 25,1882 . . . Verifica di ipotesi su frequenze Quando la popolazione è caratterizzata da variabili qualitative possiamo fare inferenza solo sulla frequenza di un attributo nella popolazione. Il parametro p è utilizzato per alcolare la probabilità con la distribuzione binomiale – La statistica è x pˆ dove n x il numero di successi n numerosità campione – Sotto certe condizione , [np > 5 e n(1-p) > 5], p̂ si approssima ad una normale, con m = p and 2 = p(1 - p)/n. • Statistica Test per p Z p p p (1 p ) / n dove np 5 e n(1 p ) 5 • Intervallo di confidenza per p (al livello di confidenza 1-) pˆ z / 2 pˆ (1 pˆ ) / n con npˆ 5 e n(1 pˆ ) 5