Num 01 - 1 / 32 Lezione 8 Numerosità del campione Num 01 - 2 / 32 parte 1 la numerosità minima del campione nelle stime per intervalli Num 01 - 3 / 32 gli strumenti di inferenza • Dato un campione con immagini { X1, X2, …, Xn } proveniente da una popolazione su cui è definita una variabile casuale X avente densità f (x) qualsiasi con media m e varianza s2 si possono usare la media campionaria e la varianza campionaria corretta per stimare i valori dei parametri della popolazione. 1 Xn n n Xj j 1 1 S n 1 2 n n X Xn 2 j j 1 • come tutti gli strumenti di misura, anche gli stimatori sono imperfetti e la loro stima del parametro presenta un’incertezza che viene quantificata attraverso l’intervallo di confidenza: m X n m Sn2 s vi2 s Sn2 Svn2 vs Num 01 - 4 / 32 la numerosità minima del campione nella stima della media Num 01 - 5 / 32 distribuzione della media campionaria • dato un campione con immagini { X1, X2, …, Xn } proveniente da una popolazione infinita su cui è definita una variabile casuale X con densità f (x) qualsiasi, media m e varianza s2, la media campionaria 1 n Xn X j n j 1 fornisce una variabile casuale che, per n sufficientemente grande, risulta distribuita in modo normale, con media m e con varianza s2 / n Num 01 - 6 / 32 dalla media campionaria alla media campionaria standardizzata • dato che la media campionaria segue una distribuzione normale con media m e varianza s2 / n Xn m è possibile costruire una variabile casuale Z s con distribuzione normale standard, cioè con media nulla e varianza unitaria n • tramite la variabile Z è agevole individuare l’intervallo di confidenza della media campionaria, che può essere visto come l’incertezza dello strumento inferenziale Num 01 - 7 / 32 intervallo di confidenza a “1 - a” per la media P X m za / 2 n z1 a / 2 1 a s n da cui, per la simmetria della f ( Z ) , si ottiene: Num 01 - 8 / 32 intervallo di confidenza a “1 - a” per la media P da cui: P X m z1 a / 2 n z1 a / 2 1 a s n s s z1 a / 2 m X n z1 a / 2 1 a Xn n n Num 01 - 9 / 32 intervallo di confidenza a “1 - a” per la media possiamo quindi sostenere che: estraendo a caso un campione con immagini { X1, X2, …, Xn }, con n sufficientemente grande, da una popolazione infinita su cui è definita una variabile casuale X con distribuzione qualsiasi, media m e varianza s2, c’è una probabilità pari a 1 - a che l’intervallo casuale I1 a s s X n z1 a / 2 , X n z1 a / 2 n n con Z variabile normale standard e con z1-a/2 il valore del suo quantile (1 - a/2) contenga il valore della media m della X per l’intera popolazione. I1-a è chiamato intervallo di confidenza allo 1 - a per la media Num 01 - 10 / 32 ampiezza dell’intervallo di confidenza e numerosità del campione I1 a s s X n z1 a / 2 , X n z1 a / 2 n n possiamo quindi affermare che: indicando con A1-a l’ampiezza di I1-a , intervallo di confidenza allo 1 - a per la media, si ha: A1 a da cui si ottiene: s 2 z1 a / 2 n z1 a / 2 n 4 s A1 a 2 2 Num 01 - 11 / 32 ampiezza dell’intervallo di confidenza e numerosità del campione z1 a / 2 n 4 s A1 a 2 2 Se si è prefissato un valore massimo accettabile per l’ampiezza dell’intervallo di confidenza, valore che indichiamo con A1-a ,max , allora è possibile esplicitare il corrispondente valore minimo per la numerosità del campione nmin : 2 z1 a / 2 nmin 4 s A1 a , max nmin 30 2 Num 01 - 12 / 32 ampiezza dell’intervallo di confidenza e numerosità del campione Qualora la varianza della X per l’intera popolazione non sia conosciuta si può condurre il calcolo della numerosità richiesta al campione mediante lo stimatore “varianza campionaria n corretta”: 1 S n 1 2 n X j Xn 2 j 1 Sappiamo che se n è sufficientemente grande la variabile casuale T Xn m S n2 n segue una distribuzione “ t di Student con n-1 g.d.l ”. Num 01 - 13 / 32 ampiezza dell’intervallo di confidenza e numerosità del campione Possiamo quindi affermare che, se n è sufficientemente grande: estraendo a caso un campione con immagini { X1, X2, …, Xn } da una popolazione infinita su cui è definita una variabile casuale X con distribuzione qualsiasi, media m e varianza campionaria Sn2, c’è una probabilità pari a 1 - a che l’intervallo casuale I1 a Sn Sn X n t1 a / 2 , X n t1 a / 2 n n con T variabile “t di Student con n-1 g.d.l “ e con t1-a/2 il valore del suo quantile (1 - a/2) contenga il valore della media m della popolazione. Num 01 - 14 / 32 ampiezza dell’intervallo di confidenza e numerosità del campione Sviluppando in modo analogo ai passaggi già visti nel caso di varianza della popolazione conosciuta, se si è prefissato un valore massimo accettabile per l’ampiezza dell’intervallo di confidenza, valore che indichiamo con A1-a , max , allora è possibile esplicitare il corrispondente valore minimo nmin per la numerosità del campione: nmin t1 a / 2 4 Sn A1 a , max 2 2 Un problema da considerare è rappresentato dal fatto che il valore critico t1- a/2 della t di Student dipende da n Num 01 - 15 / 32 ampiezza dell’intervallo di confidenza e numerosità del campione Un problema da considerare è rappresentato dal fatto che il valore critico t1- a/2 della t di Student dipende da n Num 01 - 16 / 32 ampiezza dell’intervallo di confidenza e numerosità del campione Se n’min > 30 sappiamo che la distribuzione t di Student non differisce in maniera evidente dalla distribuzione normale standard. Un primo calcolo approssimato può essere condotto sostituendo al quantile della T il corrispondente quantile di una variabile Z normale standard. n'min z1 a / 2 4 Sn A1 a , max 2 2 Individuato così un primo valore approssimato si può proseguire cercando il valore corretto di nmin mediante un procedimento iterativo: Num 01 - 17 / 32 ampiezza dell’intervallo di confidenza e numerosità del campione partendo da una prima valutazione del quantile della t di Student calcolato per un numero di g.d.l. pari a n’min - 1 si calcola: nmin t1 a / 2 4 Sn A1 a , max 2 2 Con un ragionevole numero di iterazioni si può quindi individuare la numerosità richiesta al campione. Num 01 - 18 / 32 ampiezza dell’intervallo di confidenza e numerosità del campione Se pensiamo di dover operare con un campione di numerosità ridotta n < 30 dobbiamo ricordare che la distribuzione della media campionaria può essere considerata normale solamente se anche la X segue la distribuzione normale!!! Se ciò si verifica possiamo individuare il valore della numerosità richiesta nmin con un procedimento uguale a quello già mostrato per n > 30. Num 01 - 19 / 32 ampiezza dell’intervallo di confidenza e numerosità del campione Partiamo da una prima valutazione condotta con la: n'min z1 a / 2 4 Sn A1 a , max 2 2 per poi ricalcolare iterativamente il valore di nmin partendo da una prima valutazione del quantile della t di Student calcolato per un numero di g.d.l. pari a n’min - 1 nmin t1 a / 2 4 Sn A1 a , max 2 2 Con un ragionevole numero di iterazioni si può quindi individuare la numerosità richesta al campione. Num 01 - 20 / 32 intervallo di confidenza per la media se n ≈ N Se il numero n degli elementi del campione non è molto minore della numerosità N (finita) della popolazione: la: P N n s s s N 1 z z m m X X n XP n Xn n 1 a1/ a2 / 2 n n deve essere sostituita dalla: N n sN 1 z1 a / 2z1a / 12 a1 a nn Num 01 - 21 / 32 intervallo di confidenza per la media se n ≈ N possiamo quindi sostenere che: estraendo a caso un campione da una popolazione finita composta da N elementi su cui è definita una variabile casuale X con distribuzione qualsiasi, media m e varianza s2, c’è una probabilità pari a 1 - a che l’intervallo casuale I1 a N n N n s s N 1 z N 1 z X n , X n 1 a / 2 1 a / 2 n n con Z variabile normale standard e con z1-a/2 il valore del suo quantile (1 - a/2) contenga il valore della media m della X per l’intera popolazione. Num 01 - 22 / 32 numerosità del campione ed ampiezza dell’intervallo di confidenza per la media di conseguenza possiamo affermare che: indicando con A1-a l’ampiezza di I1-a , intervallo di confidenza allo 1 - a per la media, si ha: A1 a N n s N n N 1 2 z1 a / 2 2 s z1 a / 2 n N 1 n da cui si ottiene: n N A1 a 1 N 1 2 s z1 a / 2 2 Num 01 - 23 / 32 numerosità del campione ed ampiezza dell’intervallo di confidenza per la media n N A1 a 1 N 1 2 s z1 a / 2 2 Se si è prefissato un valore massimo accettabile per l’ampiezza dell’intervallo di confidenza, valore che indichiamo con A1-a , max , allora è possibile esplicitare il corrispondente valore minimo per la numerosità del campione: nmin N A1 a , max 1 N 1 2s z1 a / 2 2 Num 01 - 24 / 32 la numerosità minima del campione nella stima della varianza Num 01 - 25 / 32 distribuzione della varianza campionaria corretta • dato un campione con immagini { X1, X2, …, Xn } proveniente da una popolazione infinita su cui è definita una variabile casuale X con distribuzione normale, media m e varianza s2, la varianza campionaria corretta divisa per s2 X j Xn S 1 s n 1 j 1 s 2 n 2 n 2 fornisce una variabile casuale che segue una distribuzione C 2 con n - 1 gradi di libertà n 1 Num 01 - 26 / 32 Intervalli di confidenza per la varianza campionaria corretta a/2 a/2 P 2 Sn2 2 c a / 2 2 c 1 a / 2 1 a s Num 01 - 27 / 32 numerosità del campione ed ampiezza dell’intervallo di confidenza per la varianza P 2 Sn2 2 c a / 2 2 c 1 a / 2 1 a s considerando l’evento si nota che : c2a / 2 2 2 Sn2 S S 2 c 21 a / 2 2 n s2 2 n s c 1 a / 2 c a/2 da cui: P 2 Sn2 S 2 n 2 s 2 1 a c a/2 c 1 a / 2 Num 01 - 28 / 32 numerosità del campione ed ampiezza dell’intervallo di confidenza per la varianza 2 Sn2 S 2 n 2 s 2 1 a c a/2 c 1 a / 2 P indicando con A1-a l’ampiezza di I1-a , intervallo di confidenza allo 1 - a per la varianza: I1 a Sn2 Sn2 2 , 2 c 1 a / 2 c a / 2 si ottiene: A1 a Sn2 c 2 a/2 Sn2 c 21 a / 2 1 1 S 2 2 c a / 2 c 1 a / 2 2 n Num 01 - 29 / 32 numerosità del campione ed ampiezza dell’intervallo di confidenza per la varianza A1 a Sn2 c 2 a/2 Sn2 c 21 a / 2 1 1 S 2 2 c a / 2 c 1 a / 2 2 n Sappiamo che Sn2 è uno stimatore corretto e consistente della varianza quindi, al crescere della numerosità n del campione, il suo valore si distribuisce in modo sempre più “concentrato in prossimità” di s2 Num 01 - 30 / 32 numerosità del campione ed ampiezza dell’intervallo di confidenza per la varianza A1 a Sn2 c 2 a/2 Sn2 c 21 a / 2 1 1 S 2 2 c a / 2 c 1 a / 2 2 n E’ pertanto possibile ipotizzare che, per valori di n sufficientemente elevati, la casualità con cui viene estratto il campione non faccia variare in modo significativo il valore della varianza campionaria Sn2. Con queste premesse, dopo aver fissato il valore massimo accettabile per la ampiezza dell’intervallo di confidenza, si può scrivere: A1 a 1 1 S 2 2 A1 a , max c a / 2 c 1 a / 2 2 n Num 01 - 31 / 32 numerosità del campione ed ampiezza dell’intervallo di confidenza per la varianza A1 a 1 1 S 2 2 A1 a , max c a / 2 c 1 a / 2 2 n 1 c 2 1 c a/2 2 1 a / 2 A1 a , max A1 a , max Sn2 da cui si ottiene la: 1 c 2 1 a / 2 1 c 2 a/2 Sn2 Num 01 - 32 / 32 numerosità del campione ed ampiezza dell’intervallo di confidenza per la varianza il valore di nmin non compare in modo esplicito, ma deve essere individuato attraverso i gradi di libertà della C 2 il più basso valore dei gradi di libertà per cui i valori critici della C 2 soddisfano la: 1 c 2 1 a / 2 è pari a nmin - 1 1 c 2 a/2 A1 a , max Sn2