Infe 02 - 1 / 34 Lezione 5 Inferenza statistica Infe 02 - 2 / 34 parte 2 Stime per punti e per intervalli della varianza Infe 02 - 3 / 34 la varianza Infe 02 - 4 / 34 la tolleranza 1 0 1 10 + 5% Infe 02 - 5 / 34 la varianza , la tolleranza e lo scarto … 95 100 105 Infe 02 - 6 / 34 Varianza campionaria corretta e stima puntuale di s 2 • estraendo da una popolazione per cui è definita la variabile casuale X avente densità f (x) qualsiasi con media m e varianza s2 un campione di n elementi a cui corrisponde l’insieme di variabili casuali { X1, X2, …, Xn } si può usare la varianza campionaria corretta per stimare il valore del parametro s 2 relativo all’intera popolazione. 1 s S n 1 2 2 n X n j Xn 2 j 1 • il valore ottenuto viene indicato come “stima puntuale di s 2 ” Infe 02 - 7 / 34 Varianza campionaria corretta e stima puntuale di s 2 • estraendo da una popolazione per cui è definita la variabile casuale X avente densità f (x) qualsiasi con media m e varianza s2 un campione di n elementi a cui corrisponde l’insieme di variabili casuali { X1, X2, …, Xn } si può usare la varianza campionaria corretta per stimare il valore del parametro s 2 relativo all’intera popolazione. • come tutti gli strumenti di misura, anche gli stimatori sono imperfetti e la loro stima del parametro presenta un’incertezza che deve essere quantificata. s 2 S n2 v Infe 02 - 8 / 34 Incertezza dello stimatore Sn2 Ricordiamo che: “ Estraendo da una popolazione infinita per cui è definita la variabile casuale X avente distribuzione normale con media m e varianza s2 un campione di n elementi a cui corrisponde l’insieme di variabili casuali { X1, X2, …, Xn }, la varianza campionaria corretta divisa per s2 X j Xn S 1 s n 1 j 1 s 2 n 2 n 2 n 1 fornisce una variabile casuale che segue una distribuzione “modificata di chi-quadro” con n - 1 gradi di libertà ” Infe 02 - 9 / 34 Incertezza dello stimatore Sn2 f ( C² ) C² Infe 02 - 10 / 34 Incertezza dello stimatore Sn2 Chiediamoci ora: “ Qual è la probabilità che, estraendo a caso un campione di n elementi da una popolazione su cui è stata definita una X con distribuzione normale, il rapporto fra la varianza campionaria corretta e la varianza relativa all’intera popolazione X j Xn S 1 s n 1 j 1 s 2 n 2 n sia compreso nell’intervallo P 2 1 v , 1 v 2 Sn 1 v 2 1 v s n 1 ?” Infe 02 - 11 / 34 Incertezza dello stimatore Sn2 P 2 Sn 1 v 2 1 v s C2 P 1 v C 2 1 v Sn 2 s2 Infe 02 - 12 / 34 Incertezza dello stimatore Sn2 P 2 Sn 1 v 2 1 v s C2 P C 2 Sn 2 s2 1 v P C 2 1 v Infe 02 - 13 / 34 Incertezza dello stimatore Sn2 2 Sn 1 v 2 1 v s P P 1 s v P C 2 2 Sn 1 v s 2 2 1 v P C 2 1 v Infe 02 - 14 / 34 Incertezza dello stimatore Sn2 • partendo dall’espressione della probabilità dell’evento: P 2 Sn 1 v 2 1 v s • si sono ottenute le due espressioni equivalenti: P 1 C 2 1 v v P 1 s v 2 S n 1 v s 2 2 • che giustificano la seguente affermazione: Infe 02 - 15 / 34 Incertezza dello stimatore Sn2 Estraendo a caso un campione di n elementi da una popolazione infinita per cui è definita una variabile casuale X con distribuzione normale, media m e varianza s 2, c’è una probabilità pari a: P C 2 1 v P C 2 1 v che il valore ottenuto della varianza campionaria corretta 1 S n 1 2 n X n j Xn 2 j 1 sia compreso nell’intervallo 1 s v 2 , 1 v s 2 Infe 02 - 16 / 34 Intervallo di confidenza per la varianza campionaria corretta Sn2 • Per il nostro scopo, cioè per individuare l’intervallo di confidenza della varianza, conviene sviluppare l’espressione dell’evento in modo diverso: P 2 Sn 1 v 2 1 v s si può scrivere la forma equivalente: P 1 v 1 1 v 2 2 2 S s S n n Infe 02 - 17 / 34 Intervallo di confidenza per la varianza campionaria corretta Sn2 P ricordando che: P 1 v 1 1 v 2 2 2 S s Sn n 1 1 ab a b 2 Sn 2 S 2 n s 1 1 v v Infe 02 - 18 / 34 Intervallo di confidenza per la varianza campionaria corretta Sn2 dalla: P 2 Sn 2 S 2 n s 1 1 v v si può scrivere la forma equivalente: P 2 Sn 2 S 2 n s 1 1 v v Infe 02 - 19 / 34 Intervallo di confidenza per la varianza campionaria corretta Sn2 • si è quindi ricavato che P • è uguale a P 2 Sn 2 Sn 2 s 1 1 v v 2 Sn 1 v 2 1 v s • o, in modo equivalente, è uguale a: P 1 v C 2 1 v • è quindi possibile fare la seguente affermazione: Infe 02 - 20 / 34 Intervallo di confidenza per la varianza campionaria corretta Sn2 Estraendo a caso un campione di n elementi da una popolazione infinita per cui è definita una variabile casuale X con distribuzione normale, media m e varianza s2, c’è una probabilità p pari a: p = 1-a = P (C 2 £1+ ev ) - P 2 C ( £1- ev ) che l’intervallo casuale: I1-a é Sn2 Sn2 ù =ê , ú ë1+ ev 1- ev û contenga il valore della varianza s2 per l’intera popolazione. Infe 02 - 21 / 34 Intervallo di confidenza per la varianza campionaria corretta Sn2 Gli estremi dell’intervallo I1-a é Sn2 Sn2 ù =ê , ú ë1+ ev 1- ev û possono essere scritti nella forma equivalente I1-a é Sn2 1- e v Sn2 1+ e v ù =ê , ú= ë1+ ev 1- e v 1- e v 1+ e v û é Sn2 ù Sn2 = ê (1- e v ) , (1+ e v )ú 2 2 1- ev ë1- e v û pertanto l’intervallo di confidenza non è centrato su Sn2 Infe 02 - 22 / 34 Intervallo di confidenza allo ... ? • per bassi valori di n la f (C 2 ) non è simmetrica pertanto non è agevole individuare il valore di v da cui si ottiene un intervallo simmetrico con una prestabilita confidenza – esempio: 0,05 0,10 gdl = 10 C2 0,05 = 0,394 da cui: v 0,6 da cui 1 - a = 0,85 e non 0,90 !!! Infe 02 - 23 / 34 Intervallo di confidenza allo 0,90 • per bassi valori di n la f (C 2 ) non è simmetrica: si preferisce pertanto definire un intervallo asimmetrico individuato dai due quantili C 2a / 2 e C 21- a / 2 – esempio: 0,05 0,05 gdl = 10 a = 0,10 Infe 02 - 24 / 34 Intervallo di confidenza • varianza campionaria corretta: n 1 2 2 X j X n Sn n 1 j 1 • Qual è l’intervallo di confidenza della varianza per la intera popolazione corrispondente ai due quantili corrispondenti alla confidenza scelta? P æ 2 ö Sn2 2 ç Ca /2 £ 2 £ C1-a /2 ÷ = s è ø corrisponde alla: =P 2 ö æ Sn2 S 2 ç 2 £ s £ 2n ÷ Ca /2 ø è C1-a /2 C 2a/2 e C 21 - a/2 Infe 02 - 25 / 34 Intervallo di confidenza • varianza campionaria corretta: n 1 2 2 X j X n Sn n 1 j 1 • Qual è l’intervallo di confidenza della varianza per la intera popolazione corrispondente ai due quantili corrispondenti alla confidenza scelta? C 2a/2 e C 21 - a/2 l’intervallo cercato è: I1-a é Sn2 Sn2 ù =ê 2 , 2 ú ë C1-a /2 Ca /2 û I1-a è chiamato intervallo di confidenza allo 1-a per la varianza Infe 02 - 26 / 34 Stima intervallo di confidenza con c2 • varianza campionaria: n 2 1 2 Sn = Xi - X n ) ( å n -1 i=1 • avendo introdotto la distribuzione “chi-quadro” è stato possibile affermare che la variabile aleatoria c2 segue tale distribuzione con n - 1 g.d.l.. Infe 02 - 27 / 34 Stima intervallo di confidenza con c2 n 2 1 2 Sn = Xi - X n ) ( å n -1 i=1 • varianza campionaria: • se dispongo dei valori della c2 χ S 2 n χ n1,Q sup 2 2 n 1 n 1 n 1 s 2 S s S 2 n 2 2 n χ n1,Q inf 2 n 1 Infe 02 - 28 / 34 Intervallo di confidenza per la varianza campionaria corretta Sn2 Estraendo a caso un campione di n elementi da una popolazione infinita per cui è definita una variabile casuale X con distribuzione normale, media m e varianza s2, c’è una probabilità p pari a: p = 1-a = P ( c che l’intervallo casuale: I1-a 2 ) 2 £ c n-1,Qsup -P ( c2 £ c2 n-1,Qinf ) é S2 ù 2 S = ê 2 n ( n -1) , 2 n ( n -1)ú c n-1,Qinf êë c n-1,Qsup úû contenga il valore della varianza s2 per l’intera popolazione. I1-a è chiamato intervallo di confidenza allo 1-a per la varianza Infe 02 - 29 / 34 Riassumendo: Stime per intervalli della media e della varianza Infe 02 - 30 / 34 Intervalli di confidenza a (1 – a ) : media campionaria standardizzata possiamo quindi sostenere che: estraendo a caso un campione di n elementi (con n sufficientemente elevato) da una popolazione per cui è definita una variabile casuale X con distribuzione qualsiasi, media m e varianza s2, c’è una probabilità pari a 1 - a che l’intervallo casuale I1a s s X n z1a / 2 , X n z1a / 2 n n con Z variabile normale standard e con z1-a/2 il valore del suo quantile (1 - a/2) contenga il valore della media m per l’intera popolazione. I1-a è l’intervallo di confidenza allo 1 - a per la media Infe 02 - 31 / 34 Intervalli di confidenza: media campionaria standardizzata con n finito possiamo quindi sostenere che: estraendo a caso un campione con n finito da una popolazione per cui è definita una variabile casuale X con distribuzione normale, media m e varianza s2, c’è una probabilità pari a 1 - a che l’intervallo casuale I1-a æ ö s = çXn ± × z1-a/2 ÷ è ø n in cui z1-a/2 è il valore del quantile (1 - a/2) di una variabile Z normale standardizzata contenga il valore della media m della popolazione. Infe 02 - 32 / 34 Intervalli di confidenza per media campionaria standardizzata con n finito e s 2 sconosciuta E’ possibile sostenere che: estraendo a caso un campione { X1, X2, …, Xn } con n finito da una popolazione su cui è definita una variabile casuale X con distribuzione normale, media m e varianza s2 incognite, c’è una probabilità pari a 1 - a che l’intervallo casuale I1 a Sn Xn t1 a / 2 n con T variabile distribuita secondo la t di Student con n -1 g.d.l. e con t1-a/2 il valore del suo quantile (1 - a/2) contenga il valore della media m della popolazione. I1-a è l’intervallo di confidenza allo 1 - a per la media m Infe 02 - 33 / 34 Intervallo di confidenza per la varianza campionaria corretta Sn2 Estraendo a caso un campione di n elementi da una popolazione infinita per cui è definita una variabile casuale X con distribuzione normale, media m e varianza s2, c’è una probabilità p pari a: p = 1-a = P (C 2 £1+ ev ) - P 2 C ( £1- ev ) che l’intervallo casuale: I1-a é Sn2 Sn2 ù =ê , ú ë1+ ev 1- ev û contenga il valore della varianza s2 per l’intera popolazione. Infe 02 - 34 / 34 Intervallo di confidenza per la varianza campionaria corretta Sn2 Estraendo a caso un campione di n elementi da una popolazione infinita per cui è definita una variabile casuale X con distribuzione normale, media m e varianza s2, c’è una probabilità p pari a: p = 1 -a = P ( C 2 £ C1-2 a /2 ) - P 2 2 C £ C ( a /2 ) che l’intervallo casuale: I1-a é Sn2 Sn2 ù =ê 2 , 2 ú ë C1-a /2 Ca /2 û contenga il valore della varianza s2 per l’intera popolazione. I1-a è chiamato intervallo di confidenza allo 1 - a per la varianza Infe 02 - 35 / 34 Intervallo di confidenza per la varianza campionaria corretta Sn2 Estraendo a caso un campione di n elementi da una popolazione infinita per cui è definita una variabile casuale X con distribuzione normale, media m e varianza s2, c’è una probabilità p pari a: p = 1 - a = P (c 2 ) 2 £ c n-1,Qsup -P ( c2 £ c2 n-1,Qinf che l’intervallo casuale: I1-a é S2 ù 2 S = ê 2 n ( n -1) , 2 n ( n -1)ú c n-1,Qinf êë c n-1,Qsup úû contenga il valore della varianza s2 per l’intera popolazione. I1-a è chiamato intervallo di confidenza allo 1-a per la varianza ) Infe 02 - 36 / 34 parte 3 scopo della inferenza: modellazione Infe 02 - 37 / 34 Strumenti di misura e strumenti di inferenza 1 m = Xn = n n åX j =1 j Infe 02 - 38 / 34 dalla caratteristica comune di una popolazione al suo modello probabilistico: la distribuzione di probabilità Infe 02 - 39 / 34 i modelli matematici della probabilità Waloddi Weibull (1887 – 1979) Infe 02 - 40 / 34 i modelli matematici della probabilità Carl Friedrich Gauss (1777 – 1855) é 1 1 f X ( x )= exp ê2p s êë 2 æ x -m ö ç ÷ è s ø 2 ù ú úû Infe 02 - 41 / 34 dalla caratteristica comune di una popolazione al suo modello probabilistico … Infe 02 - 42 / 34 Riassunto stimatori campionari 1 n Xn = å X j n j =1 • estraendo da una popolazione per cui è definita la variabile casuale X avente densità f (x) qualsiasi, media m e varianza s2, un campione di n elementi a cui corrisponde l’insieme di variabili casuali { X1, X2, …, Xn }, se n è sufficientemente grande la media campionaria 1 n Xn = å X j n j =1 fornisce una variabile casuale distribuita in modo normale, con media m e varianza s2 / n Infe 02 - 43 / 34 intervallo di confidenza allo ( 1 – a ) per la media con una confidenza pari a 1 – a possiamo affermare che μ I xn a 2 , xn 1 a 2 Infe 02 - 44 / 34 Riassunto stimatori campionari n 1 2 2 X j X n Sn n 1 j 1 • varianza campionaria corretta: • se si estrae da una popolazione su cui è definita la variabile casuale X avente distribuzione normale un campione di n elementi con immagini { X1, X2, …, Xn } (con n > 1) , • allora la variabile casuale C 2 : X j Xn 1 C s n 1 j 1 s 2 S 2 n 2 n 2 n 1 segue una distribuzione di tipo “modificata di chi-quadro” con n -1 gradi di libertà. Infe 02 - 45 / 34 Intervallo di confidenza • varianza campionaria corretta: n 1 2 2 X j X n Sn n 1 j 1 • Qual è l’intervallo di confidenza della varianza per la intera popolazione corrispondente ai due quantili corrispondenti alla confidenza scelta? C 2a/2 e C 21 - a/2 l’intervallo cercato è: é Sn2 Sn2 ù Ia = ê 2 , 2 ú ë C1-a /2 Ca /2 û Ia è chiamato intervallo di confidenza allo a per la varianza Infe 02 - 46 / 34 Riassunto stimatori campionari n 1 2 2 X j X n Sn n 1 j 1 • varianza campionaria corretta: • se si estrae da una popolazione su cui è definita la variabile casuale X avente distribuzione normale un campione di n elementi con immagini { X1, X2, …, Xn } (con n > 1) , • allora la variabile casuale c 2 : X j Xn c n 1 s s j 1 2 S 2 n 2 n 2 n 1 segue una distribuzione di tipo “chi-quadro” con n -1 gdl.