Campionamento casuale a grappoli (1)
Campionamento casuale a grappoli (2)
Spesso le unità elementari di una popolazione sono raggruppate in
sub-popolazioni che abbiamo chiamato unità complesse.
Tali unità complesse possono essere utilizzate come strati in un
disegno di campionamento stratificato
In teoria le stesse unità complesse potrebbero essere utilizzate come
strati o come grappoli.
Tuttavia gli scopi che si perseguono con la stratificazione sono
diversi da quelli che si perseguono con il campionamento a grappoli.
Utilizzando uno schema di campionamento alternativo, le unità
complesse possono essere utilizzate come unità di selezione. In
questo caso sono denominate grappoli.
Poiché solo alcuni grappoli vengono selezionati, intuitivamente
sarebbe auspicabile che i grappoli fossero massimamente eterogenei
al loro interno e quindi omogenei tra di loro.
Se tutte le unità elementari appartenenti alle unità complesse estratte
sono incluse nel campione, lo schema di campionamento è detto a
grappoli.
Ipotizzando una situazione estrema, se fossero tutti uguali, ciascuno
sarebbe una perfetta “miniatura” della popolazione. Sarebbe quindi
sufficiente selezionarne uno per avere il massimo di informazione
sulla popolazione.
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
2
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE B – C. Trivisano
Campionamento casuale a grappoli (3)
Campionamento casuale a grappoli (4)
Nella pratica i grappoli sono aggregazioni “naturali” della
popolazione, le cui unità elementari tendono ad essere omogenee
rispetto alla variabile oggetto di studio.
Se il campionamento di grappoli comporta un significativo
risparmio dei costi di esecuzione dell’indagine, la perdita di
efficienza dovuta alla eventuale omogeneità dei grappoli può essere
compensata dalla possibilità di aumentare la numerosità
complessiva del campione.
In effetti lo schema di campionamento a grappoli risulta vantaggioso
per lo più per aspetti pratici:
- spesso non si dispone di una lista di unità elementari della
popolazione, mentre è facilmente disponibile una lista di
grappoli;
- nelle indagini svolte mediante intervistatori, il campionamento
di grappoli permette di contenere i costi dell’indagine in quanto
risulta facilitata l'esecuzione della rilevazione.
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
3
Si tengo inoltre conto che nelle indagini reali il campionamento di
grappoli rappresenta spesso un fase intermedia in un
campionamento a più stadi.
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
4
Campionamento casuale a grappoli (5)
Campionamento casuale a grappoli (6)
Il campionamento casuale a grappoli da una popolazione di
dimensione N divisa in M unità complesse può essere visto come il
campionamento di m < M unità da una popolazione di dimensione
M.
Carattere nel j-esimo grappolo campionato
M
N = ∑ Nk
I gruppi campionati vengono indicati come
j
j
Poiché tutte le unità che appartengono al grappolo sono incluse nel
campione, per stimare il totale o la media di popolazione è utile
considerare come elemento base la somma dei valori rilevati nelle
unità complesse:
k =1
{k
y jλ = Yk j 1 ≤ λ ≤ N k
: 1 ≤ j ≤ m}
( )
( )
N kj
N kj
λ =1
λ =1
t ( y j ) = t Yk j =N k j m Yk j = ∑ y j λ = ∑ Y j λ
Dimensione del campione di unità elementari
m
n = ∑ Nk j
j =1
si noti che mentre m è fissato a priori n è una quantità aleatoria.
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
5
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
6
Esempio - Campionamento casuale a grappoli
CCG – Stimatore lineare omogeneo (1)
Si considerino nella popolazione mu284 i 50 gruppi identificati dalla
variabile CL.
Sia bk una variabile casuale che associa ad ogni unità complessa k
della popolazione il numero di volte in cui essa compare nel
campione.
Per quanto detto in precedenza, lo stimatore lineare omogeneo può
essere scritto come
Il campionamento casuale a grappoli da questa popolazione può
essere visto come il campionamento casuale da una popolazione
costituita da 50 unità.
Il valore osservato per ogni variabile su ognuna delle 50 unità è
costituito dalla somma (quindi il totale) della variabile su tutte le
unità che appartengono al grappolo.
m
M
j =1
k =1
f ( y ) = ∑ w j t ( y j ) = ∑ bk w k t ( Yk )
Si ha inoltre che
M
E [ f ( y )] = ∑ w k E( bk )t ( Yk )
k =1
M
M
V [ f ( y )] = ∑V ( bk )w k2t ( Yk ) + 2∑∑ C ( bk ,bk ' )w k w k 't ( Yk ) t ( Yk ' )
k =1
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
7
2
k =1 k '<k
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
8
CCG – Stimatore lineare omogeneo (2)
CCG – Stimatore lineare omogeneo (2)
Quando i grappoli sono estratti senza reintroduzione, se si indica
con π k la probabilità di inclusione del primo ordine dell’unità
complessa k, e con π kk ' la probabilità di inclusione del secondo
ordine (ovvero della coppia di unità complesse k e k’) si ha che
Se l’obiettivo è la stima della media per grappolo
t (Y ) 1 M
m * (Y ) =
= ∑ t ( Yk ),
M
M k =1
uno stimatore corretto si ottiene ponendo l’uguaglianza
bk ~ Ber (π k )
M
∑ w E(b
k =1
k
k
M
)t ( Yk ) = M −1 ∑ t ( Yk )
k =1
1
.
che è verificata se w k =
Mπ k
Quindi lo stimatore corretto della media di grappolo è
quindi E( bk ) = π k , V ( bk ) = π k (1 − π k ).
m ∗HT ( y ) =
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
9
1 m t( yj)
∑
M j =1 π j
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
Campionamento casuale semplice SR di grappoli (1)
Campionamento casuale semplice SR di grappoli (2)
Se le unità complesse sono estratte con campionamento casuale
semplice senza reintroduzione si ha che:
probabilità di inclusione del secondo ordine:
p( s ) =
m !( M - m )!
M!
unità che appartengono allo stesso grappolo
1≤ k ≤ M
m
π λλ ' = π k =
1 ≤ λ ≠ λ ' ≤ Nk
M
∀s ∈ S m
probabilità di inclusione del primo ordine:
1≤ k ≤ M
m
πk = πλ =
1 ≤ λ ≤ Nk
M
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
10
unità che appartengono a grappoli diversi
1≤ k ≠ k' ≤ M
m m −1
π λλ ' = π kk ' =
1 ≤ λ ≠ λ ' ≤ Nk
M M −1
11
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
12
CCSSR di grappoli – Stima della media di grappolo (1)
CCSSR di grappoli – Stima della media di grappolo (2)
m
Poiché π k = , uno stimatore corretto della media di grappolo
M
quando il campionamento dei grappoli è casuale semplice SR è dato
da
1 m t yj
1 m Mt y j
1 m
m ∗HT ( y ) = ∑
= ∑
= ∑ t y j = m *g ( y )
M j =1 π j
M j =1 m
m j =1
( )
( )
Il campionamento a grappolo è equivalente al campionamento di
unità complesse ciascuna avente valore pari a t ( Yk ) . Ricordando che
m * ( Y ) è la media dei totali t ( Yk ) , per i risultati ottenuti per il
campionamento casuale semplice SR si ha che
( )
M
V [ m *g ( y )] =
[t (Y ) − m * (Y )]
M −m ∑
k =1
Mm
2
k
M −1
che può essere riscritto come
e ponendo
1 m
t( y )
m *g ( y ) = ∑ N j m( y j ) =
m j =1
m
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
2
v 2g ( Y ) =
13
CCSSR di grappoli – Stima della media di grappolo (3)
1 M M
M2  1 M 2


(
)
(
)
N
m
Y
m
Y
−
=
∑
∑ N k m(Yk )2 − m * (Y )2 
k
k

M k =1  N
N 2  M k =1
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
14
CCSSR di grappoli – Stima della media di grappolo (3)
Si può dimostrare che
2
N M − m v g (Y ) N 2 M − m 2
V [ m *g ( y )] = 2
s g (Y )
= 2
M M −1 m
M Mm
2
si ottiene
dove s 2g ( Y ) =
s 2g ( y ) =
2
1 M2 m
 N j m( y j ) − m *g ( y )
2 ∑
m − 1 N j =1
è uno stimatore corretto di s 2g ( Y ) .
M 2
v g (Y )
M −1
Per cui uno stimatore corretto di V [ m *g ( y )] è dato da
M −m N2 2
Vˆ [ m *g ( y )] =
sg( y)
Mm M 2
Allo stesso risultato si perviene introducendo le opportune quantità
nella formula della varianza dello stimatore lineare omogeneo.
n.b. v 2g ( y ) =
2
1 M2 m
 N j m( y j ) − m *g ( y ) non è stimatore corretto di
2 ∑
m N j =1
v 2g ( Y ).
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
15
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
16
CCSSR di grappoli – Stima della media di popolazione
M
Dalla relazione m( Y ) = m * ( Y ) segue che uno stimatore corretto
N
della media di popolazione è dato da
CCSSR di grappoli – Stima del totale di popolazione
Poiché t ( Y ) = Mm * ( Y ), uno stimatore corretto della media di
popolazione è dato da
t g ( y ) = Mm *g ( y ) = M
M
M t( y )
m g ( y ) = m *g ( y ) =
N
N m
Si ha inoltre che
Si ha inoltre che
M − m v g (Y )
M −m 2
V [ t g ( y )] = N
s g (Y )
= N2
M −1 m
Mm
2
V [ m g ( y )] =
2
M − m v (Y ) M − m 2
s g (Y )
=
M −1 m
Mm
2
g
Uno stimatore corretto di V [ t g ( y )] è dato da
Uno stimatore corretto di V [ m g ( y )] è dato da
M −m 2 2
Vˆ [ t g ( y )] =
N sg( y)
Mm
M −m 2
Vˆ [ m g ( y )] =
sg( y)
Mm
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
17
Esempio - CCSSR di grappoli (1)
CL 46 49 42 23 38 43 30 17 12 22 27 32 33 36 19 18
t ( y j ) 19 13 18 57 46 38 42 107 74 70 39 32 29 48 56 63
M = 50
∑t( y
j =1
j
) = 751
m
∑t( y
j =1
t g( y) = M
) = 44047
=
2
50 2  44047  751  
−


  = 17.04
284 2  16
 16  
m 2
v g ( y ) = 18.18
m −1
M −m 2 2
50 − 16
Vˆ [ t g ( y )] =
N sg( y) =
284 2 × 18.18 = 62312
Mm
50 × 16
t( y )
751
= 50
= 2347
m
16
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
18
 m

t ( y j )2

2 m
2 ∑
2
1 M
M j =1
*
*
2




v 2g ( y ) =
N
m
(
y
)
m
(
y
)
m
(
y
)
−
=
−
∑
j
j
g
g

m N 2 j =1 
N2 
m





s 2g ( y ) =
2
j
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
Esempio - CCSSR di grappoli (1)
Si vuole stimare il numero totale di seggi assegnati ai conservatori
(variabile CS82) nella popolazione mu284.
Si estraggono con CCSSR m=16 cluster identificati dalla variabile CL,
ottenendo i seguenti risultati:
m
t( y )
m
19
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
20
CCSSR di grappoli con la stessa dimensione (1)
CCSSR di grappoli con la stessa dim. – Stima della media (1)
Consideriamo ora il caso
Lo stimatore corretto della media di popolazione diventa:
dimensione, ovvero N k = N 0
in cui i grappoli hanno tutti la stessa
∀k . Quindi
M
∑N
k =1
k
= MN 0
mG ( y ) =
Si tratta di un’assunzione poco realistica che tutta via è utile a scopi
didattici. In particolare ci permette di indagare, seppure in un caso
semplificato, alcune peculiarità del campionamento a grappolo.
M t( y ) 1 m t( y j ) 1 m
= ∑
= ∑ m( y j )
MN 0 m
m j =1 N 0
m j =1
che consiste nella media aritmetica semplice, sugli m grappoli, delle
medie dei grappoli campionati. Si ha inoltre che
2
2
2
M − m v t (Y ) N − n s t (Y ) M − m s t (Y )
V  mG ( y )  =
=
=
M −1 m
N
n
N
m
In questo caso la dimensione del campione non è più aleatoria ed è
pari a n = mN 0 .
M
M
dove v t2 ( Y ) = N −1 ∑ N 0 [ m( Yk ) − m( Y )] =M −1 ∑  m( Yk )2 − Mm( Y )2 
2
k =1
k =1
N 2
v t (Y ).
e s (Y ) =
M −1
2
t
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
21
CCSSR di grappoli con la stessa dim. – Stima della media (2)
22
CCSSR di grappoli con la stessa dim. – Stima della media (3)
Uno stimatore corretto di V  mG ( y )  è dato da
L’effetto del disegno per la strategia campionaria costituita dal
CCSSR di grappoli e stimatore mG ( y ) è pari a
M −m 2
Vˆ [ mG ( y )] =
st ( y )
Nm
N −n 2
s t (Y )
s 2 (Y )
Deff = Nn
= t2
N −n 2
s (Y ) s (Y )
Nn
dove
s t2 ( y ) =
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
2
1 m
N 0  m( y j ) − m( y )
∑
m − 1 j =1
A partire dai risultati per la stima della media si ottengono
facilmente quelli relativi alla stima del totale e della media di
grappolo.
n.b.: s t2 ( Y ) non è sempre minore di s 2 ( Y )
Ricordando che ( MN 0 − 1)s 2 ( Y ) = M ( N 0 − 1)s e2 + ( M − 1)s t2 ,
si ha che Deff < 1 se s t2 ( Y ) < s e2 ( Y )
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
23
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
24
Coefficiente di correlazione intracluster (1)
Coefficiente di correlazione intracluster (2)
Quando si considerano unità complesse, importanti risultati possono
essere espressi in termini di una quantità descrittiva di popolazione
detta coefficiente di correlazione intracluster. Nel caso in cui i
grappoli hanno la stessa dimensione è definito come
Esso può essere riscritto come
δ0 =
1  v t2 ( Y )N 0 − v 2 ( Y ) 

N 0 − 1 
v 2 (Y )

ed assume valori compresi tra
M
1
2
∑ ∑ [Ykλ − m(Y )][Ykλ ' − m(Y )]
M N 0 ( N 0 − 1) k =1 λ <λ '
δ0 =
v 2 (Y )
−
1 se v t2 ( Y ) = v 2 ( Y ), massima eterogeneità tra i grappoli
e misura la correlazione lineare tra le MN 0 ( N 0 − 1) coppie di valori
distinti Ykλ e Ykλ ' , λ ≠ λ ' = 1,...N 0 .
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
Il coeff. di correlazione intracluster è spesso indicato con l’acronimo
ROH (Rate Of Homogeneity) e misura il grado di omogeneità interna
ai grappoli.
25
Coefficiente di correlazione intracluster (3)
Poiché s t2 ( Y ) = s 2 ( Y )
26
L’ufficio Controllo della Qualità di un’impresa nel settore della
meccanica di precisione è incaricato di controllare se i pezzi prodotti
siano conformi agli standard prefissati prima che questi siano
destinati alla vendita. Nell’arco di una settimana tipica vengono
prodotti 40 lotti da 20 pezzi ciascuno. Occorre stabilire un piano di
controllo settimanale tenendo conto che, per ragioni di costo, non è
possibile controllare più di 80 pezzi la settimana.
N −1
[1 + ( N 0 − 1)δ 0 ]
N 0 ( M − 1)
e se N è molto più grande di N 0
Deff ≃ 1 + ( N 0 − 1)δ 0
Se δ 0 > 0 , allora Deff > 1. E’ questo il caso più comune. Nella pratica,
infatti, i grappoli tendono a presentare un certo grado di
omogeneità.
Supponiamo che sulla base di una rilevazione esaustiva effettuata
recentemente siano noti i seguenti valori relativi alla varianza del
numero di pezzi imperfetti prodotti:
v 2 ( Y ) = 36.3
Se δ 0 < 0 , allora Deff < 1.
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
Esempio 1 - CCSSR di grappoli con la stessa dim. (1)
1 N −1
[1 + ( N 0 − 1)δ 0 ], si ha che
N0 M − 1
Deff =
1
se v t2 ( Y ) = 0 , massima eterogeneità interna ai grappoli, e
N0 − 1
27
v e2 ( Y ) = 34.3
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
28
Esempio 1 - CCSSR di grappoli con la stessa dim. (2)
Esempio 1 - CCSSR di grappoli con la stessa dim. (3)
Attualmente si procede al campionamento casuale semplice (senza
reintroduzione) di 4 lotti ogni settimana e al controllo di tutti i pezzi
contenuti nel lotto. Si tratta di un campionamento casuale semplice
SR di grappoli di uguale dimensione.
A parità di numerosità campionaria, se invece si adottasse un
campione casuale semplice (estratto SR) stratificato con AP,
occorrerebbe estrarre 2 pezzi da ogni lotto. Poiché
N0=20
N=800
M=40
Si vuole valutare l’efficienza
campionamento adottata:
δ0 =
n=m N0=80
m=4
relativa
della
strategia
di
1  v t2 ( Y )N 0 − v 2 ( Y ) 
1  2 × 20 − 36.3 
=


2

 = 0.005
N0 − 1 
v (Y )
36.3
 20 − 1 
20
× 36.3 = 38.21, l’effetto del disegno per questa strategia
20 − 1
risulterebbe pari a
36.11
Deff =
= 0.945
38.21
e s 2 (Y ) =
N −1
800 − 1
Deff =
[1 − 0.005 × (20 − 1)] = 1.13
[1 + ( N 0 − 1)δ 0 ] =
20 × (40 − 1)
N 0 ( M − 1)
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
29
Esempio 2 - CCSSR di grappoli con la stessa dim. (1)
C1
C2
C3
A
m( Y ) = B m( Y ) = 20
C1
C2
C3
m( Yk )
20
21
19
A
v 2 ( Yk )
66.67
74.00
82.67
B
30
m( Yk ) B v 2 ( Yk )
10
0.67
19
2.00
31
0.67
v ( Y ) = 0.67
A
A
v 2 ( Y ) = B v 2 ( Y ) = 75.1
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
A
2
A t
popolazione B
9
10
11
17
20
20
31
32
30
A
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
Esempio 2 - CCSSR di grappoli con la stessa dim. (2)
(S.L. Lohr (1999) Sampling: Design and Analysis, Duxbury Press, p.
141)
Si considerino le due seguenti popolazioni virtuali, ognuna
composta da tre cluster:
popolazione A
10 20 30
11 20 32
9
17 31
1 M
N M N0 2
N 0 s 2 ( Yk ) = 0 ∑
v ( Yk )
∑
N k =1
N k =1 N 0 − 1
N0 2
20
v e (Y ) =
=
× 34.3 = 36.11
N0 − 1
20 − 1
s 2 (Y ) =
δ 0 = −0.49
Deff = 0.04
v ( Y ) = 74
2
B t
B
B
δ 0 = 0.98
Deff = 3.94
Infatti, nella popolazione A la variabilità tra le medie dei cluster è
praticamente nulla. Gli elementi che appartengono allo stesso cluster
sono meno simili di elementi selezionati a caso dalla popolazione.
Nella popolazione B si osserva una situazione opposta.
31
Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano
32
Scarica

Unità 4