Intervalli di confidenza
Stima per intervallo
Sia X una v.c. che rappresenta un carattere osservato su
una popolazione. Supponiamo che la v.c. sia definita da una
funzione di probabilità f x ;   dipendente dal parametro 
incognito.
Sia X1 , , X n un campione di dimensione n e x1 , , xn
il corrispondente campione osservato.
Obiettivo:
Determinare due statistiche campionarie:
L1  L1( X1 , , X n )
L2  L2 ( X1 , , X n )
tali che L1  L2 per ogni possibile campione e che
l’intervallo L1 , L2  contenga il parametro  con probabilità 1  
2
Stima per intervallo
L’intervallo casuale L1 X1 , , X n , L2  X1 , , X n 
si
definisce intervallo di confidenza di livello 1   per il
parametro  se contiene con probabilità 1   il parametro
ignoto  della popolazione, ossia:
Pr L1 X1 , , X n     L2  X1 , , X n   1  
In genere si fissano valori di 1   pari a 0,99; 0,95; 0,90 e
viene detto livello di confidenza. Una volta estratto il campione
si ottiene l’intervallo di confidenza stimato.
3
Nota:
Non è possibile sapere se l’intervallo stimato contenga o meno il valore
vero del parametro; d’altra parte se si estraesse dalla popolazione un
numero sufficientemente elevato di campioni e calcolassimo i
corrispondenti intervalli di confidenza, circa il
di questi conterrebbe il parametro ignoto.
100(1   )%
Stima per intervallo - esempio
Esempio (continua)
Nella seguente figura si mostrano, in corrispondenza di 6
campioni osservati, gl’intervalli di confidenza stimati per la
media della popolazione a un livello di confidenza 0,95.
Osserviamo che dal campione 5 si ottiene un intervallo
stimato che non contiene il vero parametro della popolazione.
4
Intervallo di confidenza per la media (varianza nota)
Sia X una v.c. che rappresenta un carattere osservato su
una popolazione. Supponiamo che la v.c. sia distribuita
come una Normale con varianza nota. Allora sappiamo che:

X ~ N  ,
2
n

X 
Z
~ N 0 , 1
 n
P  z 2  Z   z 2   1  
X 


P   z 2 
  z 2   1  
 n



 

P   z 2
 X     z 2
 1
n
n

5

 

P  X  z 2
   X  z 2
 1
n
n

Intervallo di confidenza per la media (varianza nota)
Dato un campione casuale estratto da una popolazione
Normale con media ignota e varianza nota, l’intervallo di
confidenza per la media della popolazione al livello di
confidenza 1   è:

 

X

z
,
X

z
 2
 2

n
n 
Esempio
2  9
1    0 ,99
Siano n  10
Dalle tavole della Normale standardizzata si ottiene
z 2  z0 ,005  2 ,576
Se
si ottiene:
x  4,924
6

9
4 ,924  2 ,576 10 


2 ,4802 , 7 ,3678
Stima per intervallo - esempio
Esempio:
2
Sia X ~ N ;   0,1


Si consideri un campione di dimensione n=10
La media campionaria è una v.c. che si distribuisce come
2


X ~ N ;  n  0,01
Z  X   
0,01 è una v.c. Normale standardizzata
Pr  1,96  Z  1,96  0 ,95
da cui possiamo ricavare che
Pr X  1,96  0 ,1    X  1,96  0 ,1  0 ,95
Se dal campione estratto si osserva un valore della media pari a
x  10 , l’intervallo stimato risulta: 9 ,804 ;10 ,196

7

Intervallo di confidenza per la media (varianza nota)
La lunghezza dell’intervallo di confidenza si ricava dalla
differenza tra estremo superiore e estremo inferiore:
Lunghezza= 2 z 2

n
Dipende da:
1. la dimensione del campione
2. il livello di confidenza
3. la varianza della popolazione
Intervenendo sulla dimensione del campione o sul livello di
confidenza si può aumentare o diminuire la lunghezza
dell’intervallo. Una volta fissati questi due elementi, al
variare dei campioni estratti, la lunghezza degli intervalli
corrispondenti rimane costante.
8
Intervallo di confidenza per la media (varianza nota)
La lunghezza dell’intervallo di confidenza si ricava dalla
differenza tra estremo superiore e estremo inferiore:

Lunghezza= 2 z 2 
n
Esempio:
9
Fissato 1  
Fissato n
n  100
n  70
n  50
n  10
1
1
1
1
 0 ,85
 0 ,90
 0 ,95
 0 ,99
Intervallo di confidenza per la media (varianza
ignota)
Sia X una v.c. che rappresenta un carattere osservato su
una popolazione. Supponiamo che la v.c. sia distribuita
come una Normale con media e varianza ignota.
Per stimare la varianza della popolazione si utilizza lo
stimatore varianza campionaria corretta:
1 n
2


S 
x

x
 i
n  1 i 1
2


Pertanto la v.c. T  X    S n si distribuisce come una
v.c. t-Student con n  1 gradi di libertà.
10
Intervallo di confidenza per la media (varianza
ignota)
Dato un campione casuale di dimensione n estratto da una
popolazione Normale con media e varianza entrambe ignote,
l’intervallo di confidenza per la media a livello 1 èdato da:
S
S

X

t
,
X

t
 2
 2

n
n 
La lunghezza dell’intervallo di confidenza è data in questo
caso da:

Lunghezza= 2t 2 S
n
Nota
Al variare dei campioni estratti, la lunghezza degli intervalli
corrispondenti non rimane costante poiché varia il valore di S.
11
Intervallo di confidenza per la media
(popolazioni non Normali)
Quando non è nota la popolazione ma il campione ha una
dimensione sufficientemente grande, possiamo considerare
un’approssimazione dell’intervallo di confidenza per la media
ottenuta attraverso il teorema del limite centrale.
Per n sufficientemente grande possiamo utilizzare il seguente
intervallo di confidenza a livello 1   :
S
S

X

z
,
X

z
 2
 2

n
n 
12
Intervallo di confidenza per una proporzione (campioni di
dimensione elevata)
Quando la popolazione è riferita a un carattere che può
assumere solo due modalità (popolazione Bernoulliana),
siamo interessati all’intervallo di confidenza per una
proporzione  , ad esempio, la proporzione di maschi nella
popolazione. Come sappiamo un buon stimatore per  è la
media campionaria X.
Si ha: E  X    V X    1    n
inoltre, dal teorema del limite centrale sappiamo che al
crescere della dimensione campionaria la distribuzione della
X tende alla Normale, pertanto
Z 
13
X 
~ N 0 , 1
 1    n
Intervallo di confidenza per una proporzione (campioni di
dimensione elevata)


X 
1    P   z 2 
  z 2  
 1    n



 1   
 1    
 P  X  z 2
   X  z 2

n
n 

Tuttavia gli estremi dell’intervallo dipendono ancora dal
parametro incognito e dunque devono essere sostituiti con
degli stimatori, ottenendo il seguente intervallo di
confidenza al livello 1   :

X 1  X 
X 1  X 
, X  z 2
 X  z 2

n
n


Una regola pratica:
14
nx  5
e
n1  x   5
Esempio
Si vuole ottenere una stima intervallare della
proporzione di fumatori presenti in una certa regione.
A tal fine viene osservato un campione casuale di 120
persone, di cui 78 sono fumatori.
Quindi la stima puntuale della proporzione è data da:
x  78 120  0 ,65
quindi l’intervallo di confidenza al livello 1    0 ,95
è:

0 ,650 ,35
0 ,650 ,35
0
,
65

z
,
0
,65

z
 0 ,56 , 0,74
0 ,025
0 ,025


120
120


In questo caso:
15
nx  120  0 ,65  78  5
n1  x   120  0 ,35  42  5
Se la varianza è incognita, si utilizza lo stimatore S2 e la
distribuzione di campionamento della media è la t di Student. Si ha
il seguente intervallo di confidenza
95%CI=
Dove tα/2 è tale che

S
S 
 x  tn 1 * n , x  tn 1 * n 


2
2
Prob
t  t 2   
Intervallo di confidenza per una frequenza

 f  z *

2
f (1  f )
, f  z *
n
2
f (1  f ) 

n

Intervallo di confidenza per la differenza tra due
medie
Varianze incognite ma uguali
Varianze note
X 1  X 2  z
 12
2
n1

 22
n2
Varianze incognite ma diverse:
campioni grandi
X 1  X 2  z
2
S12 S 22

n1 n2
X 1  X 2  t( n1  n2 2) 2 S p
1 1

n1 n2
Varianze incognite ma diverse: campioni
piccoli (Problema di Beherens Fisher)
Varianze incognite ma diverse: campioni
piccoli (Problema di Beherens Fisher)
X 1  X 2  t '
t '  t 
con
2

S12 S 22

n1 n2

 S12 S 22 


n n 
2 
 1
S12
 
2
S 22
2

n1
n2

n1  1
n2  1
2
Intervallo di confidenza per la differenza tra due
frequenze
f1  f 2  z
2
f1 1  f1  f 2 1  f 2 

n1
n2
Determinare la dimensione del campione per la stima della
Media


n deve essere calcolato in modo da ottenere un intervallo di
ampiezza piccola con alta attendibilità
Se desideriamo un’ampiezza dell’intervallo 2d (errore assoluto) e
un livello di attendibilità 1-α, si ha la seguente equazione:
d  z


2
n
 n  z 2
2
2
d2
Nel campionamento in blocco:
d  z

2
n
Nz2 2 2
N n
n 2
N 1
d  N  1  z2 2 2
Come si arriva a questa formula?
L’ampiezza dell’Intervallo di confidenza deve essere uguale a
2d. Quindi:


 
  2d
x  z 2
  x  z 2
n 
n


2 z 2




n

z 2
 z 2
n  
 d

n
2
 2d 
d

Esempio
Si vuole stimare la numerosità necessaria per
ottenere un intervallo di confidenza per 
(ad es. la proporzione di persone propense a dare
la preferenza a un certo candidato)
in modo tale che la semi-lunghezza dell’intervallo
di confidenza al livello 0,95 non sia superiore a
0,05.
n
2 0,50,5 
 1,96
2
0,05
23
 384,16  385
Esempio

Si vuole stimare il livello di pressione sistolica ottenuto con il
farmaco sperimentale. Qual è la numerosità campionaria necessaria
per ottenere un intervallo di confidenza al 95% di ampiezza inferiore
o uguale a 5 mmHg? (Ricorda che 5=2d)
n
(2 1.96 10 ) 2
(5)
2
 61 .5  62
Occorre un campione di almeno 62 pz.
Determinare la dimensione del campione per la stima della
proporzione


n deve essere calcolato in modo da ottenere un intervallo di
ampiezza piccola con alta attendibilità
Se desideriamo un’ampiezza dell’intervallo 2d (errore assoluto) e
un livello di attendibilità 1-α, si ha la seguente equazione:
d  z 2
p(1  p)
p(1  p)
 n  z 2 2
n
d2
Ipotesi prudenziale: p=1-p=0.5

 0.5 * z
n  
d

2


2
Nel campionamento in blocco:
d  z 2
Nz2 2 p(1  p)
p(1  p) N  n
n 2
n
N 1
d N  1  z2 2 p(1  p)
Scarica

Intervalli di confidenza