Campionamento a grappoli Campionamento a grappoli La stratificazione è uno strumento per aumentare la precisione, col quale dividiamo una popolazione in sottopopolazioni (strati), ciascuna delle quali viene poi campionata separatamente ed i risultati, opportunamente combinati, danno le stime per l'intera popolazione. Poiché inoltre possiamo essere quasi sempre sicuri di guadagnare qualcosa in precisione, siamo propensi a stratificare, e a campionare con frazione di campionamento costante, ogni volta che sia possibile. Campionamento a grappoli La modifica del campionamento casuale semplice che dobbiamo ora discutere, sebbene abbia una superficiale somiglianza con la stratificazione, possiede proprietà profondamente differenti. Solitamente porta ad una sostanziale perdita di precisione e occorre appena dire che utilizziamo questo metodo quando vi siano vantaggi compensativi nel costo delle operazioni che sovrastano la perdita accennata, in modo da raggiungere una maggior precisione per unità di costo. Campionamento a grappoli L’unità di campionamento (sampling unit) è ora un gruppo o grappolo (cluster ) di unità della popolazione. Nel campionamento a grappolo si seleziona un campione casuale di grappoli e, nel caso di ispezione completa, tutte le unità ad esso appartenenti sono oggetto di rilevazione Questo campionamento sfrutta l’esistenza di raggruppamenti naturali della popolazione, essenzialmente legati alla contiguità spaziale o istituzionale, con un diverso intento rispetto alla stratificazione: ottenere una convenienza dal punto di vista della raccolta delle informazioni. Campionamento a due stadi Nel campionamento più stadi l'estrazione di una unità avviene mediante scelte successive. Al primo stadio, si scelgono casualmente un certo numero di grappoli e poi, al secondo stadio, cioè all'interno di ogni grappolo si scelgono casualmente un certo numero di unità elementari. I grappoli sono detti unità primarie. Le unità elementari sono dette unità secondarie. Campionamento a grappoli yij Yij i 1 m j 1 Ni j 1 Ni N i L i N i L i m i 1 M cluster estratti n mL numerosità campionaria mL m n f ML M N M cluster in popolazione N ML numerosità popola L Y M 1 ij Yi Y Yi j 1 L i 1 M media nell-iesimo cluster di ampiezza L 1 L Yij Y i 1 M j i L M 1 N M L Y i 1 j i ij Campionamento a grappoli 1 ycl m 1 Y Yi i 1 M Y m M m i i 1 L yij L i 1 E[ ycl ] Y 1 m j i N i L i La correttezza deriva dal fatto che abbiamo estratto casualmente m cluster su M di uguale ampiezza ed ispezionandoli sempre completamente. In realtà, in queste particolari circostanze, la nostra popolazione di riferimento è quella delle medie di grappolo! L 1 2 Si2 ( Y Y ) ij i L 1 j 1 M L 1 2 S2 ( Y Y ) ij N 1 i 1 j 1 Campionamento a grappoli Il nostro campione è rappresentato dalle medie di popolazione di m=5 cluster estratti su M=16 disponibili, ispezionando completamente tutti i cluster estratti Campionamento a grappoli In raltà, in queste circostanze, la nostra popolazione di riferimento è quella delle medie di grappolo! Y , Y 1 2 Y , Y ... Ym 1 2 ... YM M 1 Y Yi i 1 M m 1 ycl Yi i 1 m M SY2 2 ( Y y ) cl sY2 i m 1 i 1 m i 1 1 f 2 V [ ycl ] SY m (Yi Y ) 2 M 1 Campionamento a grappoli Torniamo ora al CCSSR se cerchiamo di comparare la diversa efficienza degli stimatori della media nei due casi, occorre riscrivere la formula della varianza della media campionaria considerando una popolazione con struttura a grappoli che tuttavia non consideriamo, facendo un CCS y Y n mL V [ y] 1 f 2 S mL M ( ML 1) S 2 L i 1 j 1 M L i 1 j 1 M L i 1 j 1 M L i 1 [(Yij Yi ) (Yi Y )]2 [(Yij Yi ) 2 2(Yij Yi )(Yi Y ) (Yi Y ) 2 ] M (Yij Yi ) 2 M 2(Yij Yi )(Yi Y ) j 1 ij i 1 Yi ) j 1 M M S i2 ( L 1) L i 1 ( ML 1) S 2 MS 2 ( L 1) L (Yi Y ) 2 i 1 M i 1 (Yi Y ) 2 M S2 L L i L i 1 (Y Y ) 2(Y i 1 ML N j 1 M 0 (Yij Y ) 2 i 1 S i2 M j 1 (Yi Y ) 2 1 f 2 1 f S y ] V [ ycl ] mL m (Yi Y ) 2 M 1 i 1 M 1 f M 1 2 1 f L M (Yi Y ) 2 S mL M 1 m L i 1 M 1 M 1 f 2 2 ( M 1) S L (Yi Y ) L( M 1)m i 1 1 f ( M 1) S 2 ( ML 1) S 2 ( L 1) MS 2 L( M 1)m 1 f MS 2 (1 L) ( L 1) MS 2 L( M 1)m 1 f 1 f ( L 1) M 2 2 2 (S MS ( L 1) ( L 1) MS L( M 1)m mL ( M 1) Questa strategia conviene quanto più la varianza entro i grappoli è grande! Ed è opposta a quanto visto per la stratificazione che conviene quanto più la varianza entro gli strati è bassa! V [ y ] V [ ycl ] ( S S ) 2 2 La scelta tra grappolo e stratificazione in realtà è spesso obbligata in funzione dello strumento di rilevazione. Se l’intervista è diretta, la grappolatura può ridurre i costi per unità di informazione ottenuta o consentire un campione maggiore a parità di costo Possiamo inoltre guardare a questi risultati attraverso il termine 2 (Yij Y )(Yik Y ) M ( L 1)(ML 1)S i 1 j k 2 Che misura, in modo aggregato, la correlazione tra gli appartenenti alla popolazione all’interno di ogni cluster. Maggiore sarà e minore sarà S2 ML S 2 1 ML 1 S 2 La condizione: S 2 S2 esprime la preferibilità del CCGTSR rispetto al CCSSR, e si traduce in: ML 1 1 ML ML 1 ML 1 1 1 0 ML 1 ML 1 1 1 ML 1 Per preferire il CCGTSR occorre che gli individui entro i cluster abbiano il carattere Y correlato inversamente Esempio di >0 N=6, M=3, L=2 cluster quanto vale S 2 S 2 ? 01 23 45 Esempio di <0 N=6, M=3, L=2 cluster 05 23 41 quanto vale S 2 S 2 ? Campionamento a grappoli Se desideriamo selezionare un campione di 2 elementi dalla nostra popolazione di numerosità 6, non v'è alcuna difficoltà nel dividere dapprima la popolazione in 3 gruppi di 2 unità e poi selezionare uno di questi gruppi con un procedimento di selezione casuale. Il gruppo prescelto costituirà il campione; ciascun gruppo è detto grappolo (cluster) ed il metodo campionamento a grappolo. Ad esempio: Raggruppamento A Grappolo I 2, 8 Grappolo II 6, 10 Grappolo III 10, 12 Campionamento a grappoli Se selezioniamo uno di questi grappoli con un procedimento casuale semplice abbiamo 3 possibili campioni, con medie rispettivamente pari a 5, 8 e 11. La media campionaria è il nostro stimatore della media della popolazione ed è corretto in quanto la media di 5, 8 e 11 è 8, cioè la media della popolazione. La varianza di queste medie campionarie è 18/3 =6 ed è molto più grande di 64/15=4,27 ottenuta con il campionamento casuale semplice per n=2. Campionamento a grappoli Diversamente dal campione casuale, il campionamento a grappoli è un campionamento casuale semplice applicato a gruppi di unità della popolazione, ciascun gruppo essendo considerato una singola unità nel procedimento di selezione. Ne segue che può essere eseguito con o senza rimpiazzo, ma qui considereremo solo la seconda forma come in realtà abbiamo già fatto nel nostro esempio. Il principio del grappolo Un tipo di campionamento a grappolo particolarmente importante - spesso non riconosciuto - è il campionamento per lista. Se la popolazione da campionare è una lista, diciamo di N = 100 elementi, il metodo consiste nel dividere la lista in n sottoliste, ove n è l'ampiezza campionaria desiderata, e numerare successivamente ciascuna sottolista da 1 a N/n (il numero dei casi nella sottolista si assume come un intero). Viene scelto, con un procedimento casuale, un numero r compreso fra 1 e N/n, estremi inclusi. Ciascun individuo nella posizione r della sottolista viene incluso nel campione. Questo è un campionamento a grappolo, essendo ciascun grappolo composto di tutti gli individui con lo stesso numero seriale. Il principio del grappolo Così come nel campionamento stratificato, nel campionamento a grappolo la varianza campionaria dello stimatore dipende dal modo in cui formiamo i grappoli prima di campionarli. Per ottenere un'idea generale del campo di variazione consideriamo altri due raggruppamenti alternativi: Raggruppamento B Grappolo I 2, 6 Grappolo II 8, 10 Grappolo III 10, 12 Raggruppamento C Grappolo I 2, 12 Grappolo II 6, 10 Grappolo III 8, 10 Il principio del grappolo Raggruppamento B Grappolo I 2, 6 Grappolo II 8, 10 Grappolo III 10, 12 Raggruppamento C Grappolo I 2, 12 Grappolo II 6, 10 Grappolo III 8, 10 Per il raggruppamento B, le tre medie campionarie possibili sono: 4, 9 e 11. Come stimatore la media campionaria è ancora corretta, tuttavia la sua varianza è ora 26/3, molto più grande del precedente raggruppamento A. D'altra parte il raggruppamento C ha come possibili medie campionarie: 7, 8 e 9, con varianza campionaria 2/3, molto piccola rispetto al valore di 64/15 nel campionamento casuale semplice. Il principio del grappolo La dipendenza della varianza campionaria dalla formazione dei grappoli è molto più marcata del corrispondente fenomeno nel campionamento stratificato con frazione di campionamento uniforme: la varianza campionaria nel raggruppamento B è tredici volte maggiore del raggruppamento C. Se si confronta la composizione dei raggruppamenti B e C, ci si accorge che il primo viene formato ponendo i due soggetti più bassi nel Grappolo I, i due appena più alti nel Grappolo II e i due più alti nel Grappolo III. D'altra parte, nel raggruppamento C si pongono l'individuo più alto e quello più basso nel Grappolo I, i due successivi nell'ordine nel Grappolo II e i due rimanenti nel Grappolo III. Campionamento a grappoli 1 Possiamo esporre ciò in poche parole affermando che il raggruppamento B associa gli individui nei grappoli quanto più è possibile, mentre quello C li dissocia 2 Un altro punto importante da osservare è che i grappoli del raggruppamento C risultano tredici volte più efficienti: infatti le varianze degli stimatori sono 2/3 contro 26/3! A conferma della forte variabilità indotta dalla struttura dei grappoli 3 Questo risultato conferma chiaramente la regola generale per la formazione dei grappoli: per ottenere il massimo di precisione nel campionamento a grappolo, i grappoli dovrebbero esser formati in modo tale da rendere massima la variabilità entro i grappoli. Campionamento a grappoli Questo principio di raggruppamento, in fin dei conti, è ragionevole: se i grappoli sono tutti molto eterogenei al loro interno, automaticamente avremo grappoli simili tra loro, e questo è appunto quanto richiediamo per una precisione massima: oltretutto basta un solo grappolo per avere un abuona stima del totale Ciò che non è ovvio, è la relazione tra precisione nel campionamento a grappolo rispetto al campionamento casuale semplice: è possibile un guadagno ma anche una forte perdita. Campionamento a grappoli Teoricamente, potremmo raggruppare con accuratezza gli individui prima di campionare. In pratica tuttavia ciò accade raramente, poiché la formazione dei grappoli deriva da una continuità fisica, che usualmente assicura ai membri di ogni grappolo una certa somiglianza, contraddicendo il principio del campionamento a grappolo. Campionamento a grappoli Supponiamo che un esperto edile debba stimare il costo di restauro delle abitazioni di un lotto e si supponga che tutte queste abitazioni siano accoppiate e contigue. Se l'esperto impiega un campione di 100 case come base del suo rapporto, può selezionare con un campione casuale semplice 100 singole case, oppure un campionamento di 50 grappoli di due case contigue. Campionamento a grappoli Il campionamento a grappolo risulterà più preciso del campionamento casuale semplice della stessa ampiezza se gli individui all'interno dei grappoli variano mediamente di più di quanto non facciano gli individui nell’intera popolazione. Maggiore la variazione, maggiore la precisione del campionamento a grappolo. Se gli individui nei grappoli non sono né più né meno variabili, in media, degli individui dell'intera popolazione, il campionamento a Grappolo avrà la stessa precisione di quello casuale semplice. In particolare per il campionamento a liste: quando la lista è ordinata in modo casuale, almeno per quanto riguarda gli scopi del campionamento, allora il campionamento a liste può essere trattato come un campionamento casuale semplice. Campionamento a grappoli in pratica si ottengono raramente guadagni nella precisione con il campionamento a grappolo, perché solitamenti non sono «buoni» grappoli. Vale la pena di avere una varianza campionaria in aumento se i costi vengono ridotti più che proporzionalmente rispetto al CCS. Se la varianza campionaria della stima dei costi di restauro fosse aumentata del 10% col campionamento a grappolo e il costo di ispezione delle 100 case nel campione fosse stato ridotto di solo il 5%, sarebbe stato più opportuno impiegare un campionamento casuale semplice delle case. Lo scopo della pratica campionaria deve consistere nel raggiungere la massima precisione per una data spesa, ovvero raggiungere una prefissata precisione al minimo costo.