8) GLI INTERVALLI DI CONFIDENZA 8.1) Gli intervalli di confidenza Nelle precedenti pagine si è mostrato come uno stimatore per la ignota media di una generica v.c. X sia la v.c. Media campionaria 1 X X n n n i 1 i per la quale risulta E( X ) n e Var ( X ) n 2 (1) n dove 2 è la varianza della suddetta v.c. X. E il verificarsi delle (1) ha portato a dire che Xn è stimatore corretto e consistente per , essendo chiaro che tali proprietà si riflettono anche sulle singole determinazioni x di Xn . In altri termini, ottenuta con n prove indipendenti in X la n-upla (x1 ,…,xn ), la relativa media 1 x x è stima corretta e consistente di n n i 1 i A tali informazioni se ne può ora aggiungere un’altra di notevole interesse ricorrendo alla celebre disuguaglianza di BiènayméChebychev secondo cui, se Y è una generica v.c. con media Y e varianza 2Y, vale la seguente disuguaglianza: 1 P[ k Y k ] 1 k Y Y Y Y (2) 2 dove k è una conveniente costante positiva arbitraria Sostanzialmente la disuguaglianza informa che è non minore di 1-1/k2 la probabilità che effettuando una prova in Y si ottenga una determinazione y appartenente all’intervallo (Y - k Y , Y + k Y). Una semplice verifica della disuguaglianza in questione è fornita dal seguente esempio. Esempio Sia Y la v.c. così articolata: y Y 1 5 7 9 13 (y) 1/5 1/5 1/5 1/5 1/5 per la quale risulta: 1 E (Y ) (1 5 7 9 13) 7 5 [(1 7) (5 7) (7 7) (9 7) (13 7) 16 Y 2 2 2 2 2 Y 2 Scelto k = 1.5, l’intervallo (Y - k Y , Y + k Y) risulta [7-(1.5)(4) , 7+(1.5)(4)] ovvero (1 , 13) 1 0.555 e deve essere P(1 Y 13) 1 (1,5) 2 E in effetti la probabilità che la v.c. Y assuma un valore del suddetto intervallo è uguale alla somma delle probabilità: 3 P(Y 5) P(Y 7) P(Y 9) 0.6 5 e risulta 0,6 > 0.555, in accordo con quanto previsto dalla disuguaglianza più sopra proposta. Si supponga ora che X sia una v.c. con media ignota e in una prima fase con varianza 2 nota. Effettuate n prove indipendenti in X ed ottenuta la n-upla campionaria (x1 ,…,xn ), sia x la stima corretta e consistente di . Impiegando ora la disuguaglianza di Biènaymé-Chebychev, avendo fissato un conveniente k > 0, si può scrivere: 1 P[ k X k ] 1 n n k n 2 relazione che avverte che è non minore di 1-1/k2 la probabilità che la v.c. X. Media campionaria Xn assuma una determinazione appartenente all’intervallo ( k , k ) n n Effettuate n prove indipendenti nella v.c. X con media ignota, è non minore di 1-1/k2 la probabilità di ottenere una n-upla (x1 ,…,xn ) la cui media soddisfi alla doppia disuguaglianza: k n xk n Sottraendo membro a membro ( x ) si ottiene xk n xk (4) n La (4) rappresenta l’intervallo di confidenza La probabilità che la v.c. Xn relativa ad n prove in X fornisca un intervallo di confidenza che contiene è non minore di 1-1/k2 Esempio Sia X una v.c. con media ignota e varianza 2 =16. Si effettuano n=64 prove le cui determinazioni xi portano alla media: 1 8 1 1 64 x xi 8 64 i 1 x 8 rappresenta una determinazione della v.c. Media campionaria X per la quale si ha: 64 E( X ) 2 16 Var ( X ) 0.25 64 64 e 64 64 Fissato k=2, in base alla (3) si ottiene: 1 P 2 0.25 X 2 0.25 1 0.75 2 ossia: 64 2 P 1 X 1 0.75 64 Avendo ottenuto quale determinazione di X 64 il valore 8 si può costruire l’intervallo di confidenza, a livello non minore di 0.75, attraverso i passaggi seguenti: 1 8 1 8 1 8 1 9 7 7 9 Per semplicità, sino ad ora si è supposto di conoscere la varianza 2 di X, ma con opportuna procedura tale limitazione può farsi cadere impiegando in luogo della ignota 2 la sua stima corretta: 1 s (x x) n 1 2 n i 1 2 i Che con la (4) assume l’aspetto: s s x k xk n n (5) Se la costruzione di intervalli di confidenza per la media e la varianza riguarda il caso in cui la v.c. X è di tipo Normale, si ottengono intervalli di confidenza migliori di quanto non consenta l’impiego della disuguaglianza di BìenaymèChebychev. Migliori nel senso che a parità di ampiezza hanno associata una probabilità più alta. 8.2) Media campionaria Se la v.c. X è Normale lo è anche la v.c. Media campionaria X n 1 Nell’ipotesi che l’intervallo di confidenza riguardi l’ignota media di X - essendo nota invece la sua varianza 2 - l’intervallo medesimo a livello esattamente (1 - ) ha la forma x z 2 n x z 2 (6) n Si ha infatti: (1 ) P z X z n n dove z è la soluzione dell’equazione: n 2 2 2 P Z z 2 2 essendo Z la v.c. Normale standardizzata. Nel caso precedente, fissato (1 - ) = 0.75, si ottiene, dalla Tavola della v.c. Z, z0.125 = 1.15 e l’intervallo dato dalla (6) risulta: 7.425 8.575 (meno ampio del precedente) 2 Se anche la varianza 2 è ignota e viene pertanto stimata con s 2 l’intervallo dato dalla (6) assume la forma: x t 2 s s x t n n 2 dove t è la soluzione dell’equazione: 2 P T t 2 2 Essendo T la v.c. di Student. 8.3) Teorema del limite centrale e intervalli di confidenza Si è visto che la v.c. MEDIA CAMPIONARIA X n ha E X n VAR X n 2 n ed è stimatore corretto e consistente di generica v.c. X. di una ) Ma se l’ampiezza campionaria diverge ( n lim n 2 n 0 Perciò: X n diventa degenere (varianza zero) con funzione di ripartizione: 0 1 per X n per X n Comunque sia fatta la f.r. di X n per n punti Xn n Zn N( 0,1) n Per il teorema del limite centrale, cioè si approssima alla normale standardizzata, e: 2 σ Xn z N μ , n n Perciò, con n elevato, qualunque sia la v.c. X di partenza, la media campionaria è: e si può costruire l’intervallo di confidenza sulla distribuzione della normale. 8.4) Intervallo di confidenza asintotico per una percentuale o una frequenza relativa o una proporzione Sia X Ber (p) sappiamo che E(X) = p V(X) = p(1-p) Lo stimatore di p è X n X =. i i n Dalle proprietà degli operatori E e V, sappiamo che: E= X X p, V n n p(1 p) = n Xn p(1 p) Per il terorema del limite centrale N (p, ) n n X p n n Oppure N( 0, 1) p(1 p) n A questo punto è possibile costruire un Intervallo di confidenza asintotico (n grande) per p X P z 2 n p(1 p ) X p z n n 2 p (1 p ) 1 n Con - z e z tali che: 2 2 P(- z 2 < Z< z 2 ) = 1- Tuttavia in questo modo gli estremi dell’intervallo: X z 2 n p(1 p) X ; z n n 2 p (1 p ) n non sono calcolabili perché p è ignoto. Se lo conoscessimo non saremmo più in ambito di inferenza statistica: p è l’oggetto dell’inferenza da una variabile Xi Bernoulliana. Allora si sostituisce al posto di p la sua stima cioè X , n restituendo l’intervallo: X X X X 1 1 n n X n n X z ; z n n n n 2 2 a livello di confidenza 1-. Esempio: Su 200 ragazzi 48 di essi affermano di non leggere un libro da più di un anno. Si costruisca un Intervallo di confidenza per la proporzione di ragazzi italiani che non legge un libro da più di un anno. Soluzione. L’oggetto del problema è conoscere p cioè la proporzione di italiani che non legge un libro da più di un anno; a tal fine si estrae un campione di 150 ragazzi. E’ ragionevole che la stima della proporzione di ragazzi che non legge un libro da più di un anno (p) nella popolazione (Italia) venga stimata con la proporzione di ragazzi italiani che non legge un libro X da più di un anno nel campione . 48 n La stima di p è allora 200 0,24. Il campione è abbastanza grande (n=200) per costruire l’I.C. asintotico: L’unica incognita in X X 1 n n X X z ; z n n n 2 2 X X 1 n n n è z che troviamo sulle tavole. 2 L’intervallo di confidenza a livello 0,95 è: [0,24 – 1,96 0,24 * 0,76 ; 200 0,24 + 1,96 0,24 * 0,76 ] 200 = [0,1808 ; 0,299]. Si noti che stimo una percentuale per cui anche gli estremi lo sono, cioè sono numeri tra 0 e 1. Interpretazione. Il valore di p non lo conosco, non lo saprò mai, tuttavia possiamo dire che ho una confidenza elevata che p sia compreso nell’intervallo[0,1808 ; 0,299] perché X P z 2 n p(1 p) X p z n n 2 p (1 p ) 0,95 n significa che su infiniti intervalli di confidenza, immaginando di estrarre infiniti campioni, il 95% di essi contiene p, ma non sappiamo con certezza se il nostro intervallo contiene p, ne abbiamo solo una confidenza elevata.