UNIVERSITÀ DEGLI STUDI DI MESSINA
FACOLTÀ DI SCIENZE STATISTICHE
Corso di Laurea
in
Statistica
CORSO
DI
STATISTICA II
Schemi riassuntivi di campionamento
Formule principali
a cura di
Massimo Mucciardi
Rev. 14/Gen/2008
Massimo Mucciardi - Schemi riassuntivi di campionamento
CAMPIONI CASUALI
STIMA DELLA MEDIA DELLA POPOLAZIONE
Media della popolazione µ
Stima corretta di µ ⇒ x infatti M ( xi ) = µ .
STIMA DELLA VARIANZA DELLA POPOLAZIONE
Varianza della popolazione σ 2
Stima corretta di σ 2 ⇒ s 2 infatti M ( s 2 i ) = σ 2
n −1 2
σ2
2
(ricordiamo che M ( s ) =
σ =σ −
è una stima affetta da errore sistematico).
n
n
'2
i
VARIANZA DELLE MEDIE CAMPIONARIE
Conoscendo la media xi di tutti i campioni estratti (metodo diretto):
ncamp
σ 2 ( xi ) =
∑ ( xi − µ )
i =1
ncamp
ncamp
2
=
∑(x
i =1
i
− M ( xi ))
2
,
ncamp
non conoscendo la media xi di tutti i campioni estratti (metodo indiretto);
σ 2 ( xi ) =
σ2
n
che presuppone il valore di σ 2 .
STIMA DELLA VARIANZA DELLE MEDIE CAMPIONARIE
Dato un singolo campione,
[
]
stima corretta di σ 2 ( xi ) ⇒ s 2 ( x ) infatti M s 2 ( xi ) ⇒ σ 2 ( xi )
con s 2 ( x ) =
s2
.
n
2
Massimo Mucciardi - Schemi riassuntivi di campionamento
ASPETTI
3
STATISTICI RELATIVI AI CAMPIONI CASUALI DA POPOLAZIONI
FINITE SENZA REINSERIMENTO (SR)
STIMA DELLA MEDIA DELLA POPOLAZIONE
Media della popolazione µ
Stima corretta di µ ⇒ x infatti M ( xi ) = µ .
STIMA DELLA VARIANZA DELLA POPOLAZIONE
Varianza della popolazione σ 2
Stima corretta di σ 2 ⇒
N −1 2
 N −1 2 
s infatti M 
s i = σ2
 N

N
(ricordiamo che M ( si2 ) =
N
σ 2 è una stima affetta da errore sistematico nel caso SR).
N −1
VARIANZA DELLE MEDIE CAMPIONARIE
Conoscendo la media xi di tutti i campioni estratti (metodo diretto):
ncamp
2
σ SR
( xi ) =
∑(x
i =1
i
− µ)
ncamp
2
,
non conoscendo la media xi di tutti i campioni estratti (metodo indiretto):
σ
2
SR
(x ) =
i
σ2 N −n
n N −1
2
= σ CR
( xi )
N −n
N −1
che presuppone il valore di σ 2 .
STIMA DELLA VARIANZA DELLE MEDIE CAMPIONARIE
Dato un singolo campione,
[
]
2
stima corretta di σ SR
( xi ) ⇒ sSR2 ( x ) infatti M sSR2 ( xi ) ⇒ σ SR2 ( xi )
con
s2 N − n
N −n
2
( x)
s ( x) =
= sCR
n N
N
2
SR
Massimo Mucciardi - Schemi riassuntivi di campionamento
4
CAMPIONI CASUALI DA POPOLAZIONI
DICOTOME
STIMA DELLA VARIANZA DELLA POPOLAZIONE
Varianza della popolazione σ P2 = PQ dove Q = 1 − P
( )
Stima corretta di σ P2 ⇒ s P2 infatti M s P2 i = σ 2
con
npq
n −1
(ricordiamo
che
utilizzando
la
varianza
campionaria
2
'2
M ( s Pi
) = n n− 1 σ P2 = σ P2 − σnP è una stima affetta da errore sistematico).
s P2 =
non
VARIANZA DELLE PROPORZIONI CAMPIONARIE
Conoscendo le proporzioni pi di tutti i campioni estratti (metodo diretto):
ncamp
σ 2 ( pi ) =
∑( p
i
i =1
− P)
ncamp
2
,
non conoscendo le proporzioni pi di tutti i campioni estratti (metodo indiretto):
σ 2 ( pi ) =
σ P2
n
=
PQ
n
che presuppone il valore di σ P2 .
STIMA DELLA VARIANZA DELLE PROPORZIONI CAMPIONARIE
Dato un singolo campione,
[
]
stima corretta di σ 2 ( pi ) ⇒ s 2 ( p) infatti M s 2 ( pi ) ⇒ σ 2 ( pi )
con
s 2 ( p) =
s P2
pq
=
.
n n −1
corretta
Massimo Mucciardi - Schemi riassuntivi di campionamento
5
STIMA DELLA PROPORZIONE DELLA POPOLAZIONE
Proporzione della popolazione P =
K
N
Stima corretta di P ⇒ p infatti M ( p) = P
con
k
n
(dove k e K , rispettivamente, il numero delle unità che hanno un determinato carattere
nel campione e nella popolazione).
p=
STIMA DELLA VARIANZA DELLA POPOLAZIONE
Varianza della popolazione σ P2 = PQ dove Q = 1 − P
Stima corretta di σ P2 ⇒
N − 1 2 N − 1 npq
 N −1 2 
sP =
infatti M 
s  = σ P2
 N Pi 
N
N n −1
con
s P2 =
npq
n −1
(ricordiamo che M (s Pi'2 ) =
N
σ P2 è una stima affetta da errore sistematico).
N −1
VARIANZA DELLE PROPORZIONI CAMPIONARIE
Conoscendo le proporzioni pi di tutti i campioni estratti (metodo diretto):
ncamp
2
σ SR
( pi ) =
∑( p
i =1
i
− P)
2
,
ncamp
non conoscendo le proporzioni pi di tutti i campioni estratti (metodo indiretto):
σ
2
SR
(p ) =
i
σ P2 N − n
n N −1
=
PQ N − n
n N −1
che presuppone il valore di σ P2 .
Massimo Mucciardi - Schemi riassuntivi di campionamento
STIMA DELLA VARIANZA DELLE PROPORZIONI CAMPIONARIE
Dato un singolo campione,
[
]
2
stima corretta di σ SR
( pi ) ⇒ sSR2 ( p) infatti M sSR2 ( pi ) ⇒ σ SR2 ( pi )
con
pq N − n s P2 N − n
N −n
2
=
= sCR
.
s ( p) =
pi )
(
n −1 N
n N
N
2
SR
6
Massimo Mucciardi - Schemi riassuntivi di campionamento
CAMPIONI STRATIFICATI
Popolazioni
Campioni
Strati
N
µ
σ2
n
x
s2
1
N1
µ1
σ 12
n1
x1
s12
2
N2
µ2
σ 22
n2
x2
s22
.
.
.
.
.
.
.
.
.
.
.
.
.
.
h
Nh
µh
σ h2
nh
xh
sh2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
k
Nk
µk
σ
nk
xk
sh2
2
k
Schema di stratificazione
Se consideriamo l'h-esimo strato come totale della popolazione e supponiamo che le unità
siano estratte casualmente senza reinserimento (SR), in accordo a quanto visto
precedentemente per i campioni casuali, è possibile scrivere le seguenti relazioni.
STIMA DELLA MEDIA NELLO STRATO h
Media della popolazione µh
Stima corretta di µh ⇒ x h
con
Nh
µh =
∑X
i =1
nh
ih
e xh =
Nh
∑x
i =1
ih
nh
.
STIMA DELLA VARIANZA DELLA POPOLAZIONE NELLO STRATO h
Varianza della popolazione σ h2
Stima corretta di σ h2 ⇒ sh2
con
Nh
σ =
2
h
∑( X
i =1
ih
− µh )
Nh
2
nh
e s =
2
h
∑ (x
i =1
ih
− xh )
nh − 1
2
.
Massimo Mucciardi - Schemi riassuntivi di campionamento
8
VARIANZA DELLE MEDIE NELLO STRATO h
Tenuto conto che l’estrazione è senza reinserimento (SR):
σ h2 ( x ) =
σ h2 N h − nh
.
nh N h − 1
STIMA DELLA VARIANZA DELLE MEDIE CAMPIONARIE NELLO STRATO h
Dato un singolo campione,
stima corretta di σ h2 ( x ) ⇒ sh2 ( x )
con
sh2 ( x ) =
sh2 N h − nh
.
nh N h
ASPETTI STATISTICI RELATIVI ALL’INSIEME DI TUTTI GLI STRATI
Passiamo adesso a considerare l'insieme di tutti k strati, ovvero l’intera popolazione.
STIMA DELLA MEDIA DELLA POPOLAZIONE
Media della popolazione µ
Nh
µ=
k
∑ ∑ X ih
i =1 h =1
N
k
=
∑N µ
h
h =1
h
N
k
=∑
h =1
k
Nh
µh = ∑ ωh µh
N
h =1
k
Stima corretta di µ ⇒ x = ∑ ωh xh infatti M ( xi ) = µ .
h =1
STIMA DELLA VARIANZA DELLA POPOLAZIONE
Varianza della popolazione σ 2
Nk
σ =
2
k
∑ ∑( X
i =1 h =1
ih
− µ)
2
N
nh
 N − nh 

Stima corretta di σ ⇒ s = ∑  h
N
h

h =1 
2
2
k
2
k
∑∑ (xih − xh )
i =1 h =1
nh − 1
Massimo Mucciardi - Schemi riassuntivi di campionamento
9
Nel caso di una popolazione suddivisa in strati si può dimostrare che:
k
Nh 2 k Nh
2
σ = ∑ σ h + ∑ ( µh − µ ) (principio di stratificazione).
h =1 N
h =1 N
2
La prima varianza detta varianza nei campioni è una media aritmetica ponderata delle
varianze all'interno degli strati, la seconda, detta varianza fra i campioni, è la varianza fra
gli strati.
VARIANZA DELLE MEDIE CAMPIONARIE
2
2
 N h  σ h N h − nh
σ (x) = ∑  
.
nh N h − 1
h =1  N 
k
2
STIMA DELLA VARIANZA DELLE MEDIE CAMPIONARIE
Stima corretta di σ 2 ( xi ) ⇒ s 2 ( x )
con
2
2
 N h  sh N h − nh
s (x) = ∑ 
.

Nh
h =1  N  n h
k
2
LA RIPARTIZIONE DEL CAMPIONE FRA GLI STRATI
RIPARTIZIONE UNIFORME
nh =
n
.
k
RIPARTIZIONE PROPORZIONALE
nh =
Nh
n.
N
RIPARTIZIONE OTTIMA
nh =
N hσ h
n.
k
∑N σ
h =1
h
h
k
Nh
2
µh − µ )
(
h =1 N
2
2
( x ) σ cas ( x ) −
σ prop
n
Deff = 2
=
2
σ cas ( x )
σ cas ( x )
∑
Massimo Mucciardi - Schemi riassuntivi di campionamento
10
CAMPIONI SISTEMATICI
Se indichiamo con N il numero delle unità della popolazione, e con n quelle del
campione sì ha:
N
,
n
con k multiplo intero di N . Scelto casualmente un numero d (unità iniziale) da 1...... k ,
le unità destinate a costituire il campione sono date rispettivamente da:
k=
d , d + k , d + 2k , d + 3k ,................
Generalmente la quantità f =
ncamp
∑(x
σ 2 ( xi ) =
i =1
i
− µ)
ncamp
2
=
ncamp
1
viene denominata con il termine di quantità sondata.
k
∑(x
i =1
i
− M ( xi ))
ncamp
2
,
non conoscendo la media xi di tutti i campioni estratti (metodo indiretto):
σ 2 ( xi ) =
σ2
n
[1 + ( n − 1) ρ ]
dove
∑∑ (X
n
2
ρ=
n −1
n
i =1 j <u
ij
− µ )( X iu − µ )
N
∑ (X
i =1
.
− µ)
2
i
La quantità sopra riportata prende il nome di coefficiente di correlazione interclasse e
rappresenta la media delle covarianze delle possibili coppie di successioni (campioni) che
si possono estrarre.
STIMA DELLA VARIANZA DELLE MEDIE CAMPIONARIE
σ2
σ2 N −n
[1 + (n − 1)ρ ] e σ ( xi ) = n N − 1
n
si può osservare che i due sistemi hanno eguale efficienza quando:
σ
2
sist
(x ) =
ρ=−
i
2
SR
1
= ρ0 (che si ottiene uguagliando le quantità sopra riportate).
N −1
2
Se la quantità ρ0 è molto piccola σ sist
(xi ) → σ SR2 (xi ) e quindi è possibile utilizzare la
relazione già vista per il campionamento casuale.
Massimo Mucciardi - Schemi riassuntivi di campionamento
11
In relazione a questo confronto bisogna tenere presente che in pratica il valore di ρ è
ignoto in quanto si tratta di un parametro della popolazione. In tal caso, se si vogliono
applicare le relazioni su esposte, occorre procedere ad una sua stima tramite campione
pilota.
CONFRONTO
FRA
SISTEMATICO
IL
CAMPIONE
PURAMENTE
CASUALE
E
CAMPIONE
2
( x ) 1 + (n − 1)ρ
σ sist
Deff = 2
=
N −n
σ cas ( x )
N −1
quando
1
N −1
otteniamo, in accordo a quanto visto precedentemente, un valore di Deff = 1.
ρ=−
In questo caso i campioni hanno uguale efficienza.
Quando invece,
1
N −1
si ha un guadagno di efficienza del campione sistematico rispetto a quello casuale infatti:
ρ<−
Deff < 1.
Infine quando
1
N −1
si ha una perdita di efficienza del campione sistematico rispetto a quello casuale, visto che
ρ>−
Deff > 1 .
Massimo Mucciardi - Schemi riassuntivi di campionamento
12
CAMPIONI A GRAPPOLI
Supponiamo di avere una popolazione finita dalla quale si estraggono grappoli completi, tutti
costituiti dallo stesso numero di osservazioni. Se indichiamo con N il numero delle unità della
popolazione e con M il numero totale dei grappoli, il rapporto,
N
M
rappresenta la numerosità di ogni grappolo. L’estrazione casuale di m grappoli da M porta alla
formazione del campione finale. Ciò comporta la non conoscenza, a priori, della dimensione del
campione in quanto si può definire inizialmente il numero dei grappoli che devono costituire il
campione senza conoscere l’effettiva numerosità di ciascun grappolo. In definitiva il campione è
costituito dall’unione di più grappoli ed avrà dimensione pari a:
C=
n = Cm .
VARIANZA DELLE MEDIE CAMPIONARIE
Conoscendo la media xi di tutti i campioni estratti, (metodo diretto):
ncamp
∑(x
σ 2 ( xi ) =
i =1
i
− µ)
ncamp
2
=
ncamp
∑(x
i =1
i
− M ( xi ) )
ncamp
2
,
non conoscendo la media xi di tutti i campioni estratti (1° metodo indiretto):
σ g2 M − m
σ ( xi ) =
2
m M −1
,
dove σ g2 è la varianza fra i grappoli che si calcola con la relazione:
M
σ g2 =
∑(µ
i
i =1
− µ)
2
.
M
L’altra via, che si ricollega al campionamento sistematico, introduce la relazione (2° metodo
indiretto):
σ 2 ( xi ) =
σ2 M −m
m M −1
[1 + (C − 1)ρ ]
dove
∑∑ (X
k
2
ρ=
C −1
k
i =1 j <u
ij
− µ )( X iu − µ )
N
∑ (X
i =1
− µ)
.
2
i
La quantità sopra riportata prende il nome di coefficiente di correlazione intra-grappoli.
Massimo Mucciardi - Schemi riassuntivi di campionamento
13
STIMA DELLA VARIANZA DELLE MEDIE CAMPIONARIE
Stima corretta di σ 2 ( xi ) ⇒ s 2 ( x ) .
Considerando il 1° metodo indiretto, una stima della varianza delle medie è data da :
s g2 M − m
s ( x) =
m M
2
dove
m
sg2 =
∑(x
i =1
i
− x)
2
m−1
con xi e x rispettivamente medie dei diversi grappoli e media totale dei grappoli che formano il
campione.
CONFRONTO
FRA
IL
CAMPIONE
GRAPPOLI
2
σ grap
( xi ) =
σ
(x ) =
σ2 M −m
n M −1
σ2 N −n
[1 + (C − 1)ρ ]
σ 2 CM − Cm
=
.
n N −1
n CM − 1
CM − 1
[1 + (C − 1)ρ ] .
Deff =
CM − C
2
cas
i
Considerando che,
CM = N
per N che tende all’infinito la quantità,
CM −1
CM − C
tende ad 1.
Pertanto l’espressione approssimata,
Deff ≅ [1 + ( C − 1) ρ ]
PURAMENTE
CASUALE
E
CAMPIONE
A
Massimo Mucciardi - Schemi riassuntivi di campionamento
DETERMINAZIONE DELLA NUMEROSITÀ DEL CAMPIONE CASUALE
Consideriamo :
1) e = x − µ l'errore in valore assoluto che si è disposti a tollerare in un’indagine statistica;
2) p la probabilità del verificarsi di questo errore.
Dalla relazione u =
x−µ
σ
=
e
σ
n
,
u ≈ N (0;1)
n
risolvendo rispetto ad n si ha,
 uσ 
n =   (dove il valore u dipende dalla probabilità p che si sceglie).
 e 
2
14
Scarica

Schemi riassuntivi di campionamento