Campionamento a grappoli
Campionamento a grappoli
La stratificazione è uno strumento per aumentare la precisione,
col quale dividiamo una popolazione in sottopopolazioni (strati),
ciascuna delle quali viene poi campionata separatamente ed i
risultati, opportunamente combinati, danno le stime per l'intera
popolazione.
Poiché inoltre possiamo essere quasi sempre sicuri di guadagnare
qualcosa in precisione, siamo propensi a stratificare, e a
campionare con frazione di campionamento costante, ogni volta
che sia possibile.
Campionamento a grappoli
La modifica del campionamento casuale semplice che dobbiamo
ora discutere, sebbene abbia una superficiale somiglianza con la
stratificazione, possiede proprietà profondamente differenti.
Solitamente porta ad una sostanziale perdita di precisione e
occorre appena dire che utilizziamo questo metodo quando vi
siano vantaggi compensativi nel costo delle operazioni che
sovrastano la perdita accennata, in modo da raggiungere una
maggior precisione per unità di costo.
Campionamento a grappoli
L’unità di campionamento (sampling unit) è ora un gruppo o
grappolo (cluster ) di unità della popolazione.
Nel campionamento a grappolo si seleziona un campione casuale
di grappoli e, nel caso di ispezione completa, tutte le unità ad
esso appartenenti sono oggetto di rilevazione
Questo campionamento sfrutta l’esistenza di raggruppamenti
naturali della popolazione, essenzialmente legati alla contiguità
spaziale o istituzionale, con un diverso intento rispetto alla
stratificazione: ottenere una convenienza dal punto di vista della
raccolta delle informazioni.
Campionamento a due stadi
Nel campionamento più stadi l'estrazione di una unità avviene
mediante scelte successive. Al primo stadio, si scelgono
casualmente un certo numero di grappoli e poi, al secondo stadio,
cioè all'interno di ogni grappolo si scelgono casualmente un certo
numero di unità elementari. I grappoli sono detti unità primarie.
Le unità elementari sono dette unità secondarie.
Campionamento a grappoli
yij
Yij
i  1 m
j  1  Ni
j  1  Ni
N i  L i
N i  L i
m
i  1 M
cluster estratti
n  mL numerosità campionaria
mL
m
n


f 
ML M N
M
cluster in popolazione
N  ML
numerosità popola
L Y
M
1
ij
Yi  
Y   Yi
j 1 L
i 1 M
media nell-iesimo
cluster di ampiezza L
1 L Yij
Y  
i 1 M j i L
M
1

N
M
L
 Y
i 1
j i
ij
Campionamento a grappoli
1
ycl 
m
1
Y   Yi
i 1 M
Y
m

M
m
i
i 1
L
yij
 L
i 1
E[ ycl ]  Y
1
m
j i
 N i  L i
La correttezza deriva dal fatto che
abbiamo estratto casualmente m cluster
su M di uguale ampiezza ed
ispezionandoli sempre completamente.
In realtà, in queste particolari
circostanze, la nostra popolazione di
riferimento è quella delle medie di
grappolo!
L
1
2
Si2 
(
Y

Y
)

ij
i
L  1 j 1
M L
1
2
S2 
(
Y

Y
)
 ij
N  1 i 1 j 1
Campionamento a grappoli
Il nostro campione è
rappresentato dalle
medie di popolazione di
m=5 cluster estratti su
M=16 disponibili,
ispezionando
completamente tutti i
cluster estratti
Campionamento a grappoli
In raltà, in queste circostanze, la
nostra popolazione di riferimento è
quella delle medie di grappolo!
Y , Y
1
2
Y , Y
... Ym 
1
2
... YM 
M
1
Y   Yi
i 1 M
m
1
ycl   Yi
i 1 m
M
SY2  
2
(
Y

y
)
cl
sY2   i
m 1
i 1
m
i 1
1 f 2
V [ ycl ] 
SY
m
(Yi  Y ) 2
M 1
Campionamento a grappoli
Torniamo ora al CCSSR se cerchiamo di comparare la diversa
efficienza degli stimatori della media nei due casi, occorre
riscrivere la formula della varianza della media campionaria
considerando una popolazione con struttura a grappoli che
tuttavia non consideriamo, facendo un CCS
y Y
n  mL
V [ y] 
1 f 2
S
mL
M
( ML  1) S 2 



L

i 1
j 1
M
L

i 1
j 1
M
L

i 1
j 1
M
L

i 1
[(Yij  Yi )  (Yi  Y )]2
[(Yij  Yi ) 2  2(Yij  Yi )(Yi  Y )  (Yi  Y ) 2 ]
M
(Yij  Yi ) 2 
M
2(Yij  Yi )(Yi  Y ) 
j 1
ij
i 1
 Yi )
j 1
M
M
S i2 ( L  1)  L
i 1
( ML  1) S 2  MS 2 ( L  1)  L

(Yi  Y ) 2
i 1
M

i 1
(Yi  Y ) 2
M
S2 
L

L
i

L

i 1
 (Y  Y ) 2(Y
i 1

ML  N
j 1
M
0
(Yij  Y ) 2

i 1
S i2
M
j 1
(Yi  Y ) 2
1 f 2 1 f
S 
y ]  V [ ycl ] 
mL
m
(Yi  Y ) 2

M 1
i 1
M
1  f M  1 2 1  f L M (Yi  Y ) 2
S 


mL M  1
m L i 1 M  1
M
1 f

2
2

 ( M  1) S  L  (Yi  Y ) 
L( M  1)m 
i 1

1 f
( M  1) S 2  ( ML  1) S 2  ( L  1) MS 2

L( M  1)m
1 f
MS 2 (1  L)  ( L  1) MS 2

L( M  1)m
1 f
1  f ( L  1) M 2
2
2
(S 
 MS ( L  1)  ( L  1) MS 

L( M  1)m
mL ( M  1)






Questa strategia conviene quanto più la varianza entro i
grappoli è grande!
Ed è opposta a quanto visto per la stratificazione che
conviene quanto più la varianza entro gli strati è bassa!
V [ y ]  V [ ycl ]  ( S  S )
2
2
La scelta tra grappolo e stratificazione in realtà è spesso
obbligata in funzione dello strumento di rilevazione. Se
l’intervista è diretta, la grappolatura può ridurre i costi per
unità di informazione ottenuta o consentire un campione
maggiore a parità di costo
Possiamo inoltre guardare a questi risultati attraverso il
termine 
 2
(Yij  Y )(Yik  Y )
M
  ( L  1)(ML  1)S
i 1
j k
2
Che misura, in modo aggregato, la correlazione tra gli
appartenenti alla popolazione all’interno di ogni cluster.
Maggiore sarà  e minore sarà
S2
ML S 2
  1
ML  1 S 2
La condizione:
S 2  S2
esprime la preferibilità del CCGTSR
rispetto al CCSSR, e si traduce in:
ML  1
1
ML
ML
   1 
ML  1
1
1

0
ML  1
ML  1
   1

1
ML  1
Per preferire il CCGTSR
occorre che gli individui
entro i cluster abbiano il
carattere Y correlato
inversamente
Esempio di >0 N=6, M=3, L=2
cluster
quanto vale S 2  S 2 ?
01
23
45
Esempio di <0 N=6, M=3, L=2
cluster
05
23
41
quanto vale S 2  S 2 ?
Campionamento a grappoli
Se desideriamo selezionare un campione di 2 elementi dalla
nostra popolazione di numerosità 6, non v'è alcuna difficoltà nel
dividere dapprima la popolazione in 3 gruppi di 2 unità e poi
selezionare uno di questi gruppi con un procedimento di
selezione casuale.
Il gruppo prescelto costituirà il campione; ciascun gruppo è detto
grappolo (cluster) ed il metodo campionamento a grappolo.
Ad esempio:
Raggruppamento A
Grappolo I
2, 8
Grappolo II
6, 10
Grappolo III
10, 12
Campionamento a grappoli
Se selezioniamo uno di questi grappoli con un procedimento
casuale semplice abbiamo 3 possibili campioni, con medie
rispettivamente pari a 5, 8 e 11.
La media campionaria è il nostro stimatore della media della
popolazione ed è corretto in quanto la media di 5, 8 e 11 è 8,
cioè la media della popolazione.
La varianza di queste medie campionarie è 18/3 =6 ed è molto
più grande di 64/15=4,27 ottenuta con il campionamento
casuale semplice per n=2.
Campionamento a grappoli
Diversamente dal campione casuale, il campionamento a grappoli
è un campionamento casuale semplice applicato a gruppi di unità
della popolazione, ciascun gruppo essendo considerato una
singola unità nel procedimento di selezione.
Ne segue che può essere eseguito con o senza rimpiazzo, ma qui
considereremo solo la seconda forma come in realtà abbiamo già
fatto nel nostro esempio.
Il principio del grappolo
Un tipo di campionamento a grappolo particolarmente importante
- spesso non riconosciuto - è il campionamento per lista.
Se la popolazione da campionare è una lista, diciamo di N = 100
elementi, il metodo consiste nel dividere la lista in n sottoliste,
ove n è l'ampiezza campionaria desiderata, e numerare
successivamente ciascuna sottolista da 1 a N/n (il numero dei
casi nella sottolista si assume come un intero).
Viene scelto, con un procedimento casuale, un numero r
compreso fra 1 e N/n, estremi inclusi. Ciascun individuo nella
posizione r della sottolista viene incluso nel campione.
Questo è un campionamento a grappolo, essendo ciascun
grappolo composto di tutti gli individui con lo stesso numero
seriale.
Il principio del grappolo
Così come nel campionamento stratificato, nel campionamento a
grappolo la varianza campionaria dello stimatore dipende dal
modo in cui formiamo i grappoli prima di campionarli.
Per ottenere un'idea generale del campo di variazione
consideriamo altri due raggruppamenti alternativi:
Raggruppamento B
Grappolo I
2, 6
Grappolo II
8, 10
Grappolo III
10, 12
Raggruppamento C
Grappolo I
2, 12
Grappolo II
6, 10
Grappolo III
8, 10
Il principio del grappolo
Raggruppamento B
Grappolo I
2, 6
Grappolo II
8, 10
Grappolo III
10, 12
Raggruppamento C
Grappolo I
2, 12
Grappolo II
6, 10
Grappolo III
8, 10
Per il raggruppamento B, le tre medie campionarie possibili sono:
4, 9 e 11. Come stimatore la media campionaria è ancora
corretta, tuttavia la sua varianza è ora 26/3, molto più grande
del precedente raggruppamento A.
D'altra parte il raggruppamento C ha come possibili medie
campionarie: 7, 8 e 9, con varianza campionaria 2/3, molto
piccola rispetto al valore di 64/15 nel campionamento casuale
semplice.
Il principio del grappolo
La dipendenza della varianza campionaria dalla formazione dei
grappoli è molto più marcata del corrispondente fenomeno nel
campionamento stratificato con frazione di campionamento
uniforme: la varianza campionaria nel raggruppamento B è
tredici volte maggiore del raggruppamento C.
Se si confronta la composizione dei raggruppamenti B e C, ci si
accorge che il primo viene formato ponendo i due soggetti più
bassi nel Grappolo I, i due appena più alti nel Grappolo II e i due
più alti nel Grappolo III.
D'altra parte, nel raggruppamento C si pongono l'individuo più
alto e quello più basso nel Grappolo I, i due successivi nell'ordine
nel Grappolo II e i due rimanenti nel Grappolo III.
Campionamento a grappoli
1
Possiamo esporre ciò in poche parole affermando che il
raggruppamento B associa gli individui nei grappoli quanto più è
possibile, mentre quello C li dissocia
2
Un altro punto importante da osservare è che i grappoli del
raggruppamento C risultano tredici volte più efficienti: infatti le
varianze degli stimatori sono 2/3 contro 26/3! A conferma della
forte variabilità indotta dalla struttura dei grappoli
3
Questo risultato conferma chiaramente la regola generale per la
formazione dei grappoli: per ottenere il massimo di precisione nel
campionamento a grappolo, i grappoli dovrebbero esser formati
in modo tale da rendere massima la variabilità entro i grappoli.
Campionamento a grappoli
Questo principio di raggruppamento, in fin dei conti, è
ragionevole: se i grappoli sono tutti molto eterogenei al loro
interno, automaticamente avremo grappoli simili tra loro, e
questo è appunto quanto richiediamo per una precisione
massima: oltretutto basta un solo grappolo per avere un abuona
stima del totale
Ciò che non è ovvio, è la relazione tra precisione nel
campionamento a grappolo rispetto al campionamento casuale
semplice: è possibile un guadagno ma anche una forte perdita.
Campionamento a grappoli
Teoricamente, potremmo raggruppare con accuratezza gli
individui prima di campionare.
In pratica tuttavia ciò accade raramente, poiché la formazione dei
grappoli deriva da una continuità fisica, che usualmente assicura
ai membri di ogni grappolo una certa somiglianza,
contraddicendo il principio del campionamento a grappolo.
Campionamento a grappoli
Supponiamo che un esperto edile debba stimare il costo di
restauro delle abitazioni di un lotto e si supponga che tutte
queste abitazioni siano accoppiate e contigue.
Se l'esperto impiega un campione di 100 case come base del suo
rapporto, può selezionare con un campione casuale semplice
100 singole case, oppure un campionamento di 50 grappoli di
due case contigue.
Campionamento a grappoli
Il campionamento a grappolo risulterà più preciso del
campionamento casuale semplice della stessa ampiezza se gli
individui all'interno dei grappoli variano mediamente di più di
quanto non facciano gli individui nell’intera popolazione.
Maggiore la variazione, maggiore la precisione del
campionamento a grappolo.
Se gli individui nei grappoli non sono né più né meno variabili, in
media, degli individui dell'intera popolazione, il campionamento a
Grappolo avrà la stessa precisione di quello casuale semplice.
In particolare per il campionamento a liste: quando la lista è
ordinata in modo casuale, almeno per quanto riguarda gli scopi
del campionamento, allora il campionamento a liste può essere
trattato come un campionamento casuale semplice.
Campionamento a grappoli
in pratica si ottengono raramente guadagni nella precisione con il
campionamento a grappolo, perché solitamenti non sono
«buoni» grappoli.
Vale la pena di avere una varianza campionaria in aumento se i
costi vengono ridotti più che proporzionalmente rispetto al CCS.
Se la varianza campionaria della stima dei costi di restauro fosse
aumentata del 10% col campionamento a grappolo e il costo di
ispezione delle 100 case nel campione fosse stato ridotto di solo
il 5%, sarebbe stato più opportuno impiegare un campionamento
casuale semplice delle case.
Lo scopo della pratica campionaria deve consistere nel
raggiungere la massima precisione per una data spesa, ovvero
raggiungere una prefissata precisione al minimo costo.
Scarica

Campionamento a grappoli