Num 01 - 1 / 32
Lezione 8
Numerosità del campione
Num 01 - 2 / 32
parte 1
la numerosità
minima
del campione nelle
stime per intervalli
Num 01 - 3 / 32
gli strumenti di inferenza
• Dato un campione con immagini { X1, X2, …, Xn } proveniente da
una popolazione su cui è definita una variabile casuale X avente
densità f (x) qualsiasi con media m e varianza s2 si possono
usare la media campionaria e la varianza campionaria corretta
per stimare i valori dei parametri della popolazione.
1
Xn 
n
n

Xj
j 1
1
S 
n 1
2
n
n
 X
 Xn 
2
j
j 1
• come tutti gli strumenti di misura, anche gli stimatori
sono imperfetti e la loro stima del parametro presenta
un’incertezza che viene quantificata attraverso l’intervallo di
confidenza:
m  X n  m
Sn2  s
vi2 
s
Sn2 
 Svn2  vs
Num 01 - 4 / 32
la numerosità
minima
del campione
nella stima
della media
Num 01 - 5 / 32
distribuzione della media campionaria
• dato un campione con immagini { X1, X2, …, Xn } proveniente
da una popolazione infinita su cui è definita una variabile
casuale X con densità f (x) qualsiasi, media m e varianza s2,
la media campionaria
1 n
Xn   X j
n j 1
fornisce una variabile casuale che, per n sufficientemente
grande, risulta distribuita in modo normale, con media m
e con varianza s2 / n
Num 01 - 6 / 32
dalla media campionaria alla
media campionaria standardizzata
• dato che la media campionaria segue una distribuzione normale
con media m e varianza s2 / n
Xn  m
è possibile costruire una variabile casuale
Z
s
con distribuzione normale standard, cioè
con media nulla e varianza unitaria
n
• tramite la variabile Z è agevole individuare
l’intervallo di confidenza della media campionaria, che può
essere visto come l’incertezza dello strumento inferenziale
Num 01 - 7 / 32
intervallo di confidenza a “1 - a” per la media
P




X

m
 za / 2  n
 z1 a / 2   1  a
s




n


da cui, per la simmetria della f ( Z ) , si ottiene:
Num 01 - 8 / 32
intervallo di confidenza a “1 - a” per la media
P
da cui:
P




X

m
  z1 a / 2  n
 z1 a / 2   1  a
s




n


s
s


 z1 a / 2  m  X n 
 z1 a / 2   1  a
Xn 
n
n


Num 01 - 9 / 32
intervallo di confidenza a “1 - a” per la media
possiamo quindi sostenere che:
estraendo a caso un campione con immagini { X1, X2, …, Xn },
con n sufficientemente grande, da una popolazione infinita su cui
è definita una variabile casuale X con distribuzione qualsiasi,
media m e varianza s2, c’è una probabilità pari a 1 - a
che l’intervallo casuale
I1 a
s
s


 X n 
 z1 a / 2 , X n 
 z1 a / 2 
n
n


con Z variabile normale standard e con z1-a/2 il valore del suo
quantile (1 - a/2) contenga il valore della media m della X per
l’intera popolazione.
I1-a è chiamato intervallo di confidenza allo 1 - a per la media
Num 01 - 10 / 32
ampiezza dell’intervallo di confidenza
e numerosità del campione
I1 a
s
s


 X n 
 z1 a / 2 , X n 
 z1 a / 2 
n
n


possiamo quindi affermare che:
indicando con A1-a l’ampiezza di I1-a , intervallo di confidenza
allo 1 - a per la media, si ha:
A1 a
da cui si ottiene:
s
 2
 z1 a / 2
n
 z1 a / 2 

n  4 s  
 A1 a 
2
2
Num 01 - 11 / 32
ampiezza dell’intervallo di confidenza
e numerosità del campione
 z1 a / 2 

n  4 s  
 A1 a 
2
2
Se si è prefissato un valore massimo accettabile per l’ampiezza
dell’intervallo di confidenza, valore che indichiamo con A1-a ,max ,
allora è possibile esplicitare il corrispondente valore minimo per la
numerosità del campione nmin :


2  z1 a / 2
nmin  4 s 
 A1 a , max



nmin  30




2
Num 01 - 12 / 32
ampiezza dell’intervallo di confidenza
e numerosità del campione
Qualora la varianza della X per l’intera popolazione non sia
conosciuta si può condurre il calcolo della numerosità richiesta
al campione mediante lo stimatore “varianza campionaria
n
corretta”:
1
S 
n 1
2
n
 X
j
 Xn

2
j 1
Sappiamo che se n è sufficientemente grande la variabile
casuale
T
Xn  m
S n2
n
segue una distribuzione “ t di Student con n-1 g.d.l ”.
Num 01 - 13 / 32
ampiezza dell’intervallo di confidenza
e numerosità del campione
Possiamo quindi affermare che, se n è sufficientemente grande:
estraendo a caso un campione con immagini { X1, X2, …, Xn }
da una popolazione infinita su cui è definita una variabile casuale
X con distribuzione qualsiasi, media m e varianza campionaria
Sn2, c’è una probabilità pari a 1 - a che l’intervallo casuale
I1 a
Sn
Sn


 X n 
 t1 a / 2 , X n 
 t1 a / 2 
n
n


con T variabile “t di Student con n-1 g.d.l “
e con t1-a/2 il valore del suo quantile (1 - a/2)
contenga il valore della media m della popolazione.
Num 01 - 14 / 32
ampiezza dell’intervallo di confidenza
e numerosità del campione
Sviluppando in modo analogo ai passaggi già visti nel caso di
varianza della popolazione conosciuta, se si è prefissato un
valore massimo accettabile per l’ampiezza dell’intervallo di
confidenza, valore che indichiamo con A1-a , max , allora è
possibile esplicitare il corrispondente valore minimo nmin per
la numerosità del campione:
nmin
 t1 a / 2
 4 Sn  
 A1 a , max

2




2
Un problema da considerare è rappresentato dal fatto che il
valore critico t1- a/2 della t di Student dipende da n
Num 01 - 15 / 32
ampiezza dell’intervallo di confidenza
e numerosità del campione
Un problema da considerare è rappresentato dal fatto che il
valore critico t1- a/2 della t di Student dipende da n
Num 01 - 16 / 32
ampiezza dell’intervallo di confidenza
e numerosità del campione
Se n’min > 30 sappiamo che la distribuzione t di Student non
differisce in maniera evidente dalla distribuzione normale
standard.
Un primo calcolo approssimato può essere condotto
sostituendo al quantile della T il corrispondente
quantile di una variabile Z normale standard.
n'min
 z1 a / 2
 4 Sn  
 A1 a , max

2




2
Individuato così un primo valore approssimato si può
proseguire cercando il valore corretto di nmin mediante un
procedimento iterativo:
Num 01 - 17 / 32
ampiezza dell’intervallo di confidenza
e numerosità del campione
partendo da una prima valutazione del quantile della
t di Student calcolato per un numero di g.d.l. pari a n’min - 1
si calcola:
nmin
 t1 a / 2
 4 Sn  
 A1 a , max

2




2
Con un ragionevole numero di iterazioni si può quindi
individuare la numerosità richiesta al campione.
Num 01 - 18 / 32
ampiezza dell’intervallo di confidenza
e numerosità del campione
Se pensiamo di dover operare con un campione di numerosità
ridotta n < 30 dobbiamo ricordare che la distribuzione della
media campionaria può essere considerata normale
solamente se anche la X segue la distribuzione normale!!!
Se ciò si verifica possiamo individuare il valore della
numerosità richiesta nmin con un procedimento uguale a
quello già mostrato per n > 30.
Num 01 - 19 / 32
ampiezza dell’intervallo di confidenza
e numerosità del campione
Partiamo da una prima valutazione condotta con la:
n'min
 z1 a / 2
 4 Sn  
 A1 a , max

2




2
per poi ricalcolare iterativamente il valore di nmin partendo da
una prima valutazione del quantile della t di Student calcolato
per un numero di g.d.l. pari a n’min - 1
nmin
 t1 a / 2
 4 Sn  
 A1 a , max

2




2
Con un ragionevole numero di iterazioni si può quindi
individuare la numerosità richesta al campione.
Num 01 - 20 / 32
intervallo di confidenza per la media se n ≈ N
Se il numero n degli elementi del campione non è molto minore della
numerosità N (finita) della popolazione:
la:

P
N n

s
s
s

N  1  z z  m m X X n 
XP
n  Xn 
n
1 a1/ a2 / 2

 n n

deve
 essere sostituita dalla:

N n

sN  1  
 z1 a / 2z1a / 12 a1  a
nn
 


Num 01 - 21 / 32
intervallo di confidenza per la media se n ≈ N
possiamo quindi sostenere che:
estraendo a caso un campione da una popolazione finita
composta da N elementi su cui è definita una variabile casuale X
con distribuzione qualsiasi, media m e varianza s2, c’è una
probabilità pari a 1 - a che l’intervallo casuale
I1 a


N n
N n
s
s


N 1  z
N 1  z

 X n 
,
X

n
1 a / 2
1 a / 2
n
n




con Z variabile normale standard e con z1-a/2 il valore del suo
quantile (1 - a/2) contenga il valore della media m della X per
l’intera popolazione.
Num 01 - 22 / 32
numerosità del campione ed ampiezza
dell’intervallo di confidenza per la media
di conseguenza possiamo affermare che:
indicando con A1-a l’ampiezza di I1-a , intervallo di confidenza
allo 1 - a per la media, si ha:
A1 a
N n
s
N n
N

1
 2
 z1 a / 2  2 s
 z1 a / 2
n N  1
n
da cui si ottiene:
n
N
 A1 a 

1  N  1 
 2 s  z1 a / 2 
2
Num 01 - 23 / 32
numerosità del campione ed ampiezza
dell’intervallo di confidenza per la media
n
N
 A1 a 

1  N  1 
 2 s  z1 a / 2 
2
Se si è prefissato un valore massimo accettabile per l’ampiezza
dell’intervallo di confidenza, valore che indichiamo con A1-a , max
, allora è possibile esplicitare il corrispondente valore minimo per
la numerosità del campione:
nmin 
N
 A1 a , max 

1  N  1 
 2s  z1 a / 2 
2
Num 01 - 24 / 32
la numerosità
minima
del campione
nella stima
della varianza
Num 01 - 25 / 32
distribuzione della
varianza campionaria corretta
• dato un campione con immagini { X1, X2, …, Xn } proveniente
da una popolazione infinita su cui è definita una variabile
casuale X con distribuzione normale, media m e varianza s2,
la varianza campionaria corretta divisa per s2
 X j  Xn 
S
1






s
n  1 j 1 
s

2
n
2
n
2
fornisce una variabile casuale che segue una
distribuzione C 2 con n - 1 gradi di libertà
n  1
Num 01 - 26 / 32
Intervalli di confidenza per la
varianza campionaria corretta
a/2
a/2
P
 2

Sn2
2
 c a / 2  2  c 1 a / 2   1  a
s


Num 01 - 27 / 32
numerosità del campione ed ampiezza
dell’intervallo di confidenza per la varianza
P
 2

Sn2
2
 c a / 2  2  c 1 a / 2   1  a
s


considerando l’evento si nota che :
c2a / 2
2
2
Sn2
S
S
 2  c 21 a / 2  2 n  s2  2 n
s
c 1 a / 2
c a/2
da cui:
P
2
 Sn2

S
2
n
 2
 s  2   1  a
c a/2 
 c 1 a / 2
Num 01 - 28 / 32
numerosità del campione ed ampiezza
dell’intervallo di confidenza per la varianza
2
 Sn2

S
2
n
 2
 s  2   1  a
c a/2 
 c 1 a / 2
P
indicando con A1-a l’ampiezza di I1-a , intervallo di confidenza
allo 1 - a per la varianza:
I1 a
 Sn2
Sn2 
 2
, 2 
 c 1 a / 2 c a / 2 
si ottiene:
A1 a 
Sn2
c
2
a/2

Sn2
c 21 a / 2
1 
 1
 S  2  2

 c a / 2 c 1 a / 2 
2
n
Num 01 - 29 / 32
numerosità del campione ed ampiezza
dell’intervallo di confidenza per la varianza
A1 a 
Sn2
c
2
a/2

Sn2
c 21 a / 2
1 
 1
 S  2  2

 c a / 2 c 1 a / 2 
2
n
Sappiamo che Sn2 è uno stimatore
corretto e consistente della varianza
quindi, al crescere della numerosità n
del campione, il suo valore si
distribuisce in modo sempre più
“concentrato in prossimità” di s2
Num 01 - 30 / 32
numerosità del campione ed ampiezza
dell’intervallo di confidenza per la varianza
A1 a 
Sn2
c
2

a/2
Sn2
c 21 a / 2
1 
 1
 S  2  2

 c a / 2 c 1 a / 2 
2
n
E’ pertanto possibile ipotizzare che, per valori di n
sufficientemente elevati, la casualità con cui viene
estratto il campione non faccia variare in modo
significativo il valore della varianza campionaria Sn2.
Con queste premesse, dopo aver fissato il valore
massimo accettabile per la ampiezza dell’intervallo di
confidenza, si può scrivere:
A1 a
1 
 1
 S  2  2
  A1 a , max
 c a / 2 c 1 a / 2 
2
n
Num 01 - 31 / 32
numerosità del campione ed ampiezza
dell’intervallo di confidenza per la varianza
A1 a
1 
 1
 S  2  2
  A1 a , max
 c a / 2 c 1 a / 2 
2
n
1
c
2
1

c
a/2
2
1 a / 2

A1 a , max

A1 a , max
Sn2
da cui si ottiene la:
1
c
2
1 a / 2

1
c
2
a/2
Sn2
Num 01 - 32 / 32
numerosità del campione ed ampiezza
dell’intervallo di confidenza per la varianza
il valore di nmin non compare in modo esplicito,
ma deve essere individuato attraverso i gradi di
libertà della C 2
il più basso valore dei gradi di libertà per cui i valori
critici della C 2 soddisfano la:
1
c
2
1 a / 2
è pari a nmin - 1

1
c
2
a/2

A1 a , max
Sn2
Scarica

Numerosità del campione nelle stime per intervalli