Campionamento casuale a grappoli (1) Campionamento casuale a grappoli (2) Spesso le unità elementari di una popolazione sono raggruppate in sub-popolazioni che abbiamo chiamato unità complesse. Tali unità complesse possono essere utilizzate come strati in un disegno di campionamento stratificato In teoria le stesse unità complesse potrebbero essere utilizzate come strati o come grappoli. Tuttavia gli scopi che si perseguono con la stratificazione sono diversi da quelli che si perseguono con il campionamento a grappoli. Utilizzando uno schema di campionamento alternativo, le unità complesse possono essere utilizzate come unità di selezione. In questo caso sono denominate grappoli. Poiché solo alcuni grappoli vengono selezionati, intuitivamente sarebbe auspicabile che i grappoli fossero massimamente eterogenei al loro interno e quindi omogenei tra di loro. Se tutte le unità elementari appartenenti alle unità complesse estratte sono incluse nel campione, lo schema di campionamento è detto a grappoli. Ipotizzando una situazione estrema, se fossero tutti uguali, ciascuno sarebbe una perfetta “miniatura” della popolazione. Sarebbe quindi sufficiente selezionarne uno per avere il massimo di informazione sulla popolazione. Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano 2 Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE B – C. Trivisano Campionamento casuale a grappoli (3) Campionamento casuale a grappoli (4) Nella pratica i grappoli sono aggregazioni “naturali” della popolazione, le cui unità elementari tendono ad essere omogenee rispetto alla variabile oggetto di studio. Se il campionamento di grappoli comporta un significativo risparmio dei costi di esecuzione dell’indagine, la perdita di efficienza dovuta alla eventuale omogeneità dei grappoli può essere compensata dalla possibilità di aumentare la numerosità complessiva del campione. In effetti lo schema di campionamento a grappoli risulta vantaggioso per lo più per aspetti pratici: - spesso non si dispone di una lista di unità elementari della popolazione, mentre è facilmente disponibile una lista di grappoli; - nelle indagini svolte mediante intervistatori, il campionamento di grappoli permette di contenere i costi dell’indagine in quanto risulta facilitata l'esecuzione della rilevazione. Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano 3 Si tengo inoltre conto che nelle indagini reali il campionamento di grappoli rappresenta spesso un fase intermedia in un campionamento a più stadi. Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano 4 Campionamento casuale a grappoli (5) Campionamento casuale a grappoli (6) Il campionamento casuale a grappoli da una popolazione di dimensione N divisa in M unità complesse può essere visto come il campionamento di m < M unità da una popolazione di dimensione M. Carattere nel j-esimo grappolo campionato M N = ∑ Nk I gruppi campionati vengono indicati come j j Poiché tutte le unità che appartengono al grappolo sono incluse nel campione, per stimare il totale o la media di popolazione è utile considerare come elemento base la somma dei valori rilevati nelle unità complesse: k =1 {k y jλ = Yk j 1 ≤ λ ≤ N k : 1 ≤ j ≤ m} ( ) ( ) N kj N kj λ =1 λ =1 t ( y j ) = t Yk j =N k j m Yk j = ∑ y j λ = ∑ Y j λ Dimensione del campione di unità elementari m n = ∑ Nk j j =1 si noti che mentre m è fissato a priori n è una quantità aleatoria. Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano 5 Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano 6 Esempio - Campionamento casuale a grappoli CCG – Stimatore lineare omogeneo (1) Si considerino nella popolazione mu284 i 50 gruppi identificati dalla variabile CL. Sia bk una variabile casuale che associa ad ogni unità complessa k della popolazione il numero di volte in cui essa compare nel campione. Per quanto detto in precedenza, lo stimatore lineare omogeneo può essere scritto come Il campionamento casuale a grappoli da questa popolazione può essere visto come il campionamento casuale da una popolazione costituita da 50 unità. Il valore osservato per ogni variabile su ognuna delle 50 unità è costituito dalla somma (quindi il totale) della variabile su tutte le unità che appartengono al grappolo. m M j =1 k =1 f ( y ) = ∑ w j t ( y j ) = ∑ bk w k t ( Yk ) Si ha inoltre che M E [ f ( y )] = ∑ w k E( bk )t ( Yk ) k =1 M M V [ f ( y )] = ∑V ( bk )w k2t ( Yk ) + 2∑∑ C ( bk ,bk ' )w k w k 't ( Yk ) t ( Yk ' ) k =1 Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano 7 2 k =1 k '<k Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano 8 CCG – Stimatore lineare omogeneo (2) CCG – Stimatore lineare omogeneo (2) Quando i grappoli sono estratti senza reintroduzione, se si indica con π k la probabilità di inclusione del primo ordine dell’unità complessa k, e con π kk ' la probabilità di inclusione del secondo ordine (ovvero della coppia di unità complesse k e k’) si ha che Se l’obiettivo è la stima della media per grappolo t (Y ) 1 M m * (Y ) = = ∑ t ( Yk ), M M k =1 uno stimatore corretto si ottiene ponendo l’uguaglianza bk ~ Ber (π k ) M ∑ w E(b k =1 k k M )t ( Yk ) = M −1 ∑ t ( Yk ) k =1 1 . che è verificata se w k = Mπ k Quindi lo stimatore corretto della media di grappolo è quindi E( bk ) = π k , V ( bk ) = π k (1 − π k ). m ∗HT ( y ) = Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano 9 1 m t( yj) ∑ M j =1 π j Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano Campionamento casuale semplice SR di grappoli (1) Campionamento casuale semplice SR di grappoli (2) Se le unità complesse sono estratte con campionamento casuale semplice senza reintroduzione si ha che: probabilità di inclusione del secondo ordine: p( s ) = m !( M - m )! M! unità che appartengono allo stesso grappolo 1≤ k ≤ M m π λλ ' = π k = 1 ≤ λ ≠ λ ' ≤ Nk M ∀s ∈ S m probabilità di inclusione del primo ordine: 1≤ k ≤ M m πk = πλ = 1 ≤ λ ≤ Nk M Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano 10 unità che appartengono a grappoli diversi 1≤ k ≠ k' ≤ M m m −1 π λλ ' = π kk ' = 1 ≤ λ ≠ λ ' ≤ Nk M M −1 11 Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano 12 CCSSR di grappoli – Stima della media di grappolo (1) CCSSR di grappoli – Stima della media di grappolo (2) m Poiché π k = , uno stimatore corretto della media di grappolo M quando il campionamento dei grappoli è casuale semplice SR è dato da 1 m t yj 1 m Mt y j 1 m m ∗HT ( y ) = ∑ = ∑ = ∑ t y j = m *g ( y ) M j =1 π j M j =1 m m j =1 ( ) ( ) Il campionamento a grappolo è equivalente al campionamento di unità complesse ciascuna avente valore pari a t ( Yk ) . Ricordando che m * ( Y ) è la media dei totali t ( Yk ) , per i risultati ottenuti per il campionamento casuale semplice SR si ha che ( ) M V [ m *g ( y )] = [t (Y ) − m * (Y )] M −m ∑ k =1 Mm 2 k M −1 che può essere riscritto come e ponendo 1 m t( y ) m *g ( y ) = ∑ N j m( y j ) = m j =1 m Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano 2 v 2g ( Y ) = 13 CCSSR di grappoli – Stima della media di grappolo (3) 1 M M M2 1 M 2 ( ) ( ) N m Y m Y − = ∑ ∑ N k m(Yk )2 − m * (Y )2 k k M k =1 N N 2 M k =1 Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano 14 CCSSR di grappoli – Stima della media di grappolo (3) Si può dimostrare che 2 N M − m v g (Y ) N 2 M − m 2 V [ m *g ( y )] = 2 s g (Y ) = 2 M M −1 m M Mm 2 si ottiene dove s 2g ( Y ) = s 2g ( y ) = 2 1 M2 m N j m( y j ) − m *g ( y ) 2 ∑ m − 1 N j =1 è uno stimatore corretto di s 2g ( Y ) . M 2 v g (Y ) M −1 Per cui uno stimatore corretto di V [ m *g ( y )] è dato da M −m N2 2 Vˆ [ m *g ( y )] = sg( y) Mm M 2 Allo stesso risultato si perviene introducendo le opportune quantità nella formula della varianza dello stimatore lineare omogeneo. n.b. v 2g ( y ) = 2 1 M2 m N j m( y j ) − m *g ( y ) non è stimatore corretto di 2 ∑ m N j =1 v 2g ( Y ). Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano 15 Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano 16 CCSSR di grappoli – Stima della media di popolazione M Dalla relazione m( Y ) = m * ( Y ) segue che uno stimatore corretto N della media di popolazione è dato da CCSSR di grappoli – Stima del totale di popolazione Poiché t ( Y ) = Mm * ( Y ), uno stimatore corretto della media di popolazione è dato da t g ( y ) = Mm *g ( y ) = M M M t( y ) m g ( y ) = m *g ( y ) = N N m Si ha inoltre che Si ha inoltre che M − m v g (Y ) M −m 2 V [ t g ( y )] = N s g (Y ) = N2 M −1 m Mm 2 V [ m g ( y )] = 2 M − m v (Y ) M − m 2 s g (Y ) = M −1 m Mm 2 g Uno stimatore corretto di V [ t g ( y )] è dato da Uno stimatore corretto di V [ m g ( y )] è dato da M −m 2 2 Vˆ [ t g ( y )] = N sg( y) Mm M −m 2 Vˆ [ m g ( y )] = sg( y) Mm Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano 17 Esempio - CCSSR di grappoli (1) CL 46 49 42 23 38 43 30 17 12 22 27 32 33 36 19 18 t ( y j ) 19 13 18 57 46 38 42 107 74 70 39 32 29 48 56 63 M = 50 ∑t( y j =1 j ) = 751 m ∑t( y j =1 t g( y) = M ) = 44047 = 2 50 2 44047 751 − = 17.04 284 2 16 16 m 2 v g ( y ) = 18.18 m −1 M −m 2 2 50 − 16 Vˆ [ t g ( y )] = N sg( y) = 284 2 × 18.18 = 62312 Mm 50 × 16 t( y ) 751 = 50 = 2347 m 16 Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano 18 m t ( y j )2 2 m 2 ∑ 2 1 M M j =1 * * 2 v 2g ( y ) = N m ( y ) m ( y ) m ( y ) − = − ∑ j j g g m N 2 j =1 N2 m s 2g ( y ) = 2 j Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano Esempio - CCSSR di grappoli (1) Si vuole stimare il numero totale di seggi assegnati ai conservatori (variabile CS82) nella popolazione mu284. Si estraggono con CCSSR m=16 cluster identificati dalla variabile CL, ottenendo i seguenti risultati: m t( y ) m 19 Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano 20 CCSSR di grappoli con la stessa dimensione (1) CCSSR di grappoli con la stessa dim. – Stima della media (1) Consideriamo ora il caso Lo stimatore corretto della media di popolazione diventa: dimensione, ovvero N k = N 0 in cui i grappoli hanno tutti la stessa ∀k . Quindi M ∑N k =1 k = MN 0 mG ( y ) = Si tratta di un’assunzione poco realistica che tutta via è utile a scopi didattici. In particolare ci permette di indagare, seppure in un caso semplificato, alcune peculiarità del campionamento a grappolo. M t( y ) 1 m t( y j ) 1 m = ∑ = ∑ m( y j ) MN 0 m m j =1 N 0 m j =1 che consiste nella media aritmetica semplice, sugli m grappoli, delle medie dei grappoli campionati. Si ha inoltre che 2 2 2 M − m v t (Y ) N − n s t (Y ) M − m s t (Y ) V mG ( y ) = = = M −1 m N n N m In questo caso la dimensione del campione non è più aleatoria ed è pari a n = mN 0 . M M dove v t2 ( Y ) = N −1 ∑ N 0 [ m( Yk ) − m( Y )] =M −1 ∑ m( Yk )2 − Mm( Y )2 2 k =1 k =1 N 2 v t (Y ). e s (Y ) = M −1 2 t Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano 21 CCSSR di grappoli con la stessa dim. – Stima della media (2) 22 CCSSR di grappoli con la stessa dim. – Stima della media (3) Uno stimatore corretto di V mG ( y ) è dato da L’effetto del disegno per la strategia campionaria costituita dal CCSSR di grappoli e stimatore mG ( y ) è pari a M −m 2 Vˆ [ mG ( y )] = st ( y ) Nm N −n 2 s t (Y ) s 2 (Y ) Deff = Nn = t2 N −n 2 s (Y ) s (Y ) Nn dove s t2 ( y ) = Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano 2 1 m N 0 m( y j ) − m( y ) ∑ m − 1 j =1 A partire dai risultati per la stima della media si ottengono facilmente quelli relativi alla stima del totale e della media di grappolo. n.b.: s t2 ( Y ) non è sempre minore di s 2 ( Y ) Ricordando che ( MN 0 − 1)s 2 ( Y ) = M ( N 0 − 1)s e2 + ( M − 1)s t2 , si ha che Deff < 1 se s t2 ( Y ) < s e2 ( Y ) Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano 23 Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano 24 Coefficiente di correlazione intracluster (1) Coefficiente di correlazione intracluster (2) Quando si considerano unità complesse, importanti risultati possono essere espressi in termini di una quantità descrittiva di popolazione detta coefficiente di correlazione intracluster. Nel caso in cui i grappoli hanno la stessa dimensione è definito come Esso può essere riscritto come δ0 = 1 v t2 ( Y )N 0 − v 2 ( Y ) N 0 − 1 v 2 (Y ) ed assume valori compresi tra M 1 2 ∑ ∑ [Ykλ − m(Y )][Ykλ ' − m(Y )] M N 0 ( N 0 − 1) k =1 λ <λ ' δ0 = v 2 (Y ) − 1 se v t2 ( Y ) = v 2 ( Y ), massima eterogeneità tra i grappoli e misura la correlazione lineare tra le MN 0 ( N 0 − 1) coppie di valori distinti Ykλ e Ykλ ' , λ ≠ λ ' = 1,...N 0 . Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano Il coeff. di correlazione intracluster è spesso indicato con l’acronimo ROH (Rate Of Homogeneity) e misura il grado di omogeneità interna ai grappoli. 25 Coefficiente di correlazione intracluster (3) Poiché s t2 ( Y ) = s 2 ( Y ) 26 L’ufficio Controllo della Qualità di un’impresa nel settore della meccanica di precisione è incaricato di controllare se i pezzi prodotti siano conformi agli standard prefissati prima che questi siano destinati alla vendita. Nell’arco di una settimana tipica vengono prodotti 40 lotti da 20 pezzi ciascuno. Occorre stabilire un piano di controllo settimanale tenendo conto che, per ragioni di costo, non è possibile controllare più di 80 pezzi la settimana. N −1 [1 + ( N 0 − 1)δ 0 ] N 0 ( M − 1) e se N è molto più grande di N 0 Deff ≃ 1 + ( N 0 − 1)δ 0 Se δ 0 > 0 , allora Deff > 1. E’ questo il caso più comune. Nella pratica, infatti, i grappoli tendono a presentare un certo grado di omogeneità. Supponiamo che sulla base di una rilevazione esaustiva effettuata recentemente siano noti i seguenti valori relativi alla varianza del numero di pezzi imperfetti prodotti: v 2 ( Y ) = 36.3 Se δ 0 < 0 , allora Deff < 1. Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano Esempio 1 - CCSSR di grappoli con la stessa dim. (1) 1 N −1 [1 + ( N 0 − 1)δ 0 ], si ha che N0 M − 1 Deff = 1 se v t2 ( Y ) = 0 , massima eterogeneità interna ai grappoli, e N0 − 1 27 v e2 ( Y ) = 34.3 Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano 28 Esempio 1 - CCSSR di grappoli con la stessa dim. (2) Esempio 1 - CCSSR di grappoli con la stessa dim. (3) Attualmente si procede al campionamento casuale semplice (senza reintroduzione) di 4 lotti ogni settimana e al controllo di tutti i pezzi contenuti nel lotto. Si tratta di un campionamento casuale semplice SR di grappoli di uguale dimensione. A parità di numerosità campionaria, se invece si adottasse un campione casuale semplice (estratto SR) stratificato con AP, occorrerebbe estrarre 2 pezzi da ogni lotto. Poiché N0=20 N=800 M=40 Si vuole valutare l’efficienza campionamento adottata: δ0 = n=m N0=80 m=4 relativa della strategia di 1 v t2 ( Y )N 0 − v 2 ( Y ) 1 2 × 20 − 36.3 = 2 = 0.005 N0 − 1 v (Y ) 36.3 20 − 1 20 × 36.3 = 38.21, l’effetto del disegno per questa strategia 20 − 1 risulterebbe pari a 36.11 Deff = = 0.945 38.21 e s 2 (Y ) = N −1 800 − 1 Deff = [1 − 0.005 × (20 − 1)] = 1.13 [1 + ( N 0 − 1)δ 0 ] = 20 × (40 − 1) N 0 ( M − 1) Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano 29 Esempio 2 - CCSSR di grappoli con la stessa dim. (1) C1 C2 C3 A m( Y ) = B m( Y ) = 20 C1 C2 C3 m( Yk ) 20 21 19 A v 2 ( Yk ) 66.67 74.00 82.67 B 30 m( Yk ) B v 2 ( Yk ) 10 0.67 19 2.00 31 0.67 v ( Y ) = 0.67 A A v 2 ( Y ) = B v 2 ( Y ) = 75.1 Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano A 2 A t popolazione B 9 10 11 17 20 20 31 32 30 A Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano Esempio 2 - CCSSR di grappoli con la stessa dim. (2) (S.L. Lohr (1999) Sampling: Design and Analysis, Duxbury Press, p. 141) Si considerino le due seguenti popolazioni virtuali, ognuna composta da tre cluster: popolazione A 10 20 30 11 20 32 9 17 31 1 M N M N0 2 N 0 s 2 ( Yk ) = 0 ∑ v ( Yk ) ∑ N k =1 N k =1 N 0 − 1 N0 2 20 v e (Y ) = = × 34.3 = 36.11 N0 − 1 20 − 1 s 2 (Y ) = δ 0 = −0.49 Deff = 0.04 v ( Y ) = 74 2 B t B B δ 0 = 0.98 Deff = 3.94 Infatti, nella popolazione A la variabilità tra le medie dei cluster è praticamente nulla. Gli elementi che appartengono allo stesso cluster sono meno simili di elementi selezionati a caso dalla popolazione. Nella popolazione B si osserva una situazione opposta. 31 Unità 4 - Corso di Metodi Statistici per l’Analisi Aziendale (FAI), PARTE A – C. Trivisano 32