UNIVERSITÀ DEGLI STUDI DI MESSINA FACOLTÀ DI SCIENZE STATISTICHE Corso di Laurea in Statistica CORSO DI STATISTICA II Schemi riassuntivi di campionamento Formule principali a cura di Massimo Mucciardi Rev. 14/Gen/2008 Massimo Mucciardi - Schemi riassuntivi di campionamento CAMPIONI CASUALI STIMA DELLA MEDIA DELLA POPOLAZIONE Media della popolazione µ Stima corretta di µ ⇒ x infatti M ( xi ) = µ . STIMA DELLA VARIANZA DELLA POPOLAZIONE Varianza della popolazione σ 2 Stima corretta di σ 2 ⇒ s 2 infatti M ( s 2 i ) = σ 2 n −1 2 σ2 2 (ricordiamo che M ( s ) = σ =σ − è una stima affetta da errore sistematico). n n '2 i VARIANZA DELLE MEDIE CAMPIONARIE Conoscendo la media xi di tutti i campioni estratti (metodo diretto): ncamp σ 2 ( xi ) = ∑ ( xi − µ ) i =1 ncamp ncamp 2 = ∑(x i =1 i − M ( xi )) 2 , ncamp non conoscendo la media xi di tutti i campioni estratti (metodo indiretto); σ 2 ( xi ) = σ2 n che presuppone il valore di σ 2 . STIMA DELLA VARIANZA DELLE MEDIE CAMPIONARIE Dato un singolo campione, [ ] stima corretta di σ 2 ( xi ) ⇒ s 2 ( x ) infatti M s 2 ( xi ) ⇒ σ 2 ( xi ) con s 2 ( x ) = s2 . n 2 Massimo Mucciardi - Schemi riassuntivi di campionamento ASPETTI 3 STATISTICI RELATIVI AI CAMPIONI CASUALI DA POPOLAZIONI FINITE SENZA REINSERIMENTO (SR) STIMA DELLA MEDIA DELLA POPOLAZIONE Media della popolazione µ Stima corretta di µ ⇒ x infatti M ( xi ) = µ . STIMA DELLA VARIANZA DELLA POPOLAZIONE Varianza della popolazione σ 2 Stima corretta di σ 2 ⇒ N −1 2 N −1 2 s infatti M s i = σ2 N N (ricordiamo che M ( si2 ) = N σ 2 è una stima affetta da errore sistematico nel caso SR). N −1 VARIANZA DELLE MEDIE CAMPIONARIE Conoscendo la media xi di tutti i campioni estratti (metodo diretto): ncamp 2 σ SR ( xi ) = ∑(x i =1 i − µ) ncamp 2 , non conoscendo la media xi di tutti i campioni estratti (metodo indiretto): σ 2 SR (x ) = i σ2 N −n n N −1 2 = σ CR ( xi ) N −n N −1 che presuppone il valore di σ 2 . STIMA DELLA VARIANZA DELLE MEDIE CAMPIONARIE Dato un singolo campione, [ ] 2 stima corretta di σ SR ( xi ) ⇒ sSR2 ( x ) infatti M sSR2 ( xi ) ⇒ σ SR2 ( xi ) con s2 N − n N −n 2 ( x) s ( x) = = sCR n N N 2 SR Massimo Mucciardi - Schemi riassuntivi di campionamento 4 CAMPIONI CASUALI DA POPOLAZIONI DICOTOME STIMA DELLA VARIANZA DELLA POPOLAZIONE Varianza della popolazione σ P2 = PQ dove Q = 1 − P ( ) Stima corretta di σ P2 ⇒ s P2 infatti M s P2 i = σ 2 con npq n −1 (ricordiamo che utilizzando la varianza campionaria 2 '2 M ( s Pi ) = n n− 1 σ P2 = σ P2 − σnP è una stima affetta da errore sistematico). s P2 = non VARIANZA DELLE PROPORZIONI CAMPIONARIE Conoscendo le proporzioni pi di tutti i campioni estratti (metodo diretto): ncamp σ 2 ( pi ) = ∑( p i i =1 − P) ncamp 2 , non conoscendo le proporzioni pi di tutti i campioni estratti (metodo indiretto): σ 2 ( pi ) = σ P2 n = PQ n che presuppone il valore di σ P2 . STIMA DELLA VARIANZA DELLE PROPORZIONI CAMPIONARIE Dato un singolo campione, [ ] stima corretta di σ 2 ( pi ) ⇒ s 2 ( p) infatti M s 2 ( pi ) ⇒ σ 2 ( pi ) con s 2 ( p) = s P2 pq = . n n −1 corretta Massimo Mucciardi - Schemi riassuntivi di campionamento 5 STIMA DELLA PROPORZIONE DELLA POPOLAZIONE Proporzione della popolazione P = K N Stima corretta di P ⇒ p infatti M ( p) = P con k n (dove k e K , rispettivamente, il numero delle unità che hanno un determinato carattere nel campione e nella popolazione). p= STIMA DELLA VARIANZA DELLA POPOLAZIONE Varianza della popolazione σ P2 = PQ dove Q = 1 − P Stima corretta di σ P2 ⇒ N − 1 2 N − 1 npq N −1 2 sP = infatti M s = σ P2 N Pi N N n −1 con s P2 = npq n −1 (ricordiamo che M (s Pi'2 ) = N σ P2 è una stima affetta da errore sistematico). N −1 VARIANZA DELLE PROPORZIONI CAMPIONARIE Conoscendo le proporzioni pi di tutti i campioni estratti (metodo diretto): ncamp 2 σ SR ( pi ) = ∑( p i =1 i − P) 2 , ncamp non conoscendo le proporzioni pi di tutti i campioni estratti (metodo indiretto): σ 2 SR (p ) = i σ P2 N − n n N −1 = PQ N − n n N −1 che presuppone il valore di σ P2 . Massimo Mucciardi - Schemi riassuntivi di campionamento STIMA DELLA VARIANZA DELLE PROPORZIONI CAMPIONARIE Dato un singolo campione, [ ] 2 stima corretta di σ SR ( pi ) ⇒ sSR2 ( p) infatti M sSR2 ( pi ) ⇒ σ SR2 ( pi ) con pq N − n s P2 N − n N −n 2 = = sCR . s ( p) = pi ) ( n −1 N n N N 2 SR 6 Massimo Mucciardi - Schemi riassuntivi di campionamento CAMPIONI STRATIFICATI Popolazioni Campioni Strati N µ σ2 n x s2 1 N1 µ1 σ 12 n1 x1 s12 2 N2 µ2 σ 22 n2 x2 s22 . . . . . . . . . . . . . . h Nh µh σ h2 nh xh sh2 . . . . . . . . . . . . . . k Nk µk σ nk xk sh2 2 k Schema di stratificazione Se consideriamo l'h-esimo strato come totale della popolazione e supponiamo che le unità siano estratte casualmente senza reinserimento (SR), in accordo a quanto visto precedentemente per i campioni casuali, è possibile scrivere le seguenti relazioni. STIMA DELLA MEDIA NELLO STRATO h Media della popolazione µh Stima corretta di µh ⇒ x h con Nh µh = ∑X i =1 nh ih e xh = Nh ∑x i =1 ih nh . STIMA DELLA VARIANZA DELLA POPOLAZIONE NELLO STRATO h Varianza della popolazione σ h2 Stima corretta di σ h2 ⇒ sh2 con Nh σ = 2 h ∑( X i =1 ih − µh ) Nh 2 nh e s = 2 h ∑ (x i =1 ih − xh ) nh − 1 2 . Massimo Mucciardi - Schemi riassuntivi di campionamento 8 VARIANZA DELLE MEDIE NELLO STRATO h Tenuto conto che l’estrazione è senza reinserimento (SR): σ h2 ( x ) = σ h2 N h − nh . nh N h − 1 STIMA DELLA VARIANZA DELLE MEDIE CAMPIONARIE NELLO STRATO h Dato un singolo campione, stima corretta di σ h2 ( x ) ⇒ sh2 ( x ) con sh2 ( x ) = sh2 N h − nh . nh N h ASPETTI STATISTICI RELATIVI ALL’INSIEME DI TUTTI GLI STRATI Passiamo adesso a considerare l'insieme di tutti k strati, ovvero l’intera popolazione. STIMA DELLA MEDIA DELLA POPOLAZIONE Media della popolazione µ Nh µ= k ∑ ∑ X ih i =1 h =1 N k = ∑N µ h h =1 h N k =∑ h =1 k Nh µh = ∑ ωh µh N h =1 k Stima corretta di µ ⇒ x = ∑ ωh xh infatti M ( xi ) = µ . h =1 STIMA DELLA VARIANZA DELLA POPOLAZIONE Varianza della popolazione σ 2 Nk σ = 2 k ∑ ∑( X i =1 h =1 ih − µ) 2 N nh N − nh Stima corretta di σ ⇒ s = ∑ h N h h =1 2 2 k 2 k ∑∑ (xih − xh ) i =1 h =1 nh − 1 Massimo Mucciardi - Schemi riassuntivi di campionamento 9 Nel caso di una popolazione suddivisa in strati si può dimostrare che: k Nh 2 k Nh 2 σ = ∑ σ h + ∑ ( µh − µ ) (principio di stratificazione). h =1 N h =1 N 2 La prima varianza detta varianza nei campioni è una media aritmetica ponderata delle varianze all'interno degli strati, la seconda, detta varianza fra i campioni, è la varianza fra gli strati. VARIANZA DELLE MEDIE CAMPIONARIE 2 2 N h σ h N h − nh σ (x) = ∑ . nh N h − 1 h =1 N k 2 STIMA DELLA VARIANZA DELLE MEDIE CAMPIONARIE Stima corretta di σ 2 ( xi ) ⇒ s 2 ( x ) con 2 2 N h sh N h − nh s (x) = ∑ . Nh h =1 N n h k 2 LA RIPARTIZIONE DEL CAMPIONE FRA GLI STRATI RIPARTIZIONE UNIFORME nh = n . k RIPARTIZIONE PROPORZIONALE nh = Nh n. N RIPARTIZIONE OTTIMA nh = N hσ h n. k ∑N σ h =1 h h k Nh 2 µh − µ ) ( h =1 N 2 2 ( x ) σ cas ( x ) − σ prop n Deff = 2 = 2 σ cas ( x ) σ cas ( x ) ∑ Massimo Mucciardi - Schemi riassuntivi di campionamento 10 CAMPIONI SISTEMATICI Se indichiamo con N il numero delle unità della popolazione, e con n quelle del campione sì ha: N , n con k multiplo intero di N . Scelto casualmente un numero d (unità iniziale) da 1...... k , le unità destinate a costituire il campione sono date rispettivamente da: k= d , d + k , d + 2k , d + 3k ,................ Generalmente la quantità f = ncamp ∑(x σ 2 ( xi ) = i =1 i − µ) ncamp 2 = ncamp 1 viene denominata con il termine di quantità sondata. k ∑(x i =1 i − M ( xi )) ncamp 2 , non conoscendo la media xi di tutti i campioni estratti (metodo indiretto): σ 2 ( xi ) = σ2 n [1 + ( n − 1) ρ ] dove ∑∑ (X n 2 ρ= n −1 n i =1 j <u ij − µ )( X iu − µ ) N ∑ (X i =1 . − µ) 2 i La quantità sopra riportata prende il nome di coefficiente di correlazione interclasse e rappresenta la media delle covarianze delle possibili coppie di successioni (campioni) che si possono estrarre. STIMA DELLA VARIANZA DELLE MEDIE CAMPIONARIE σ2 σ2 N −n [1 + (n − 1)ρ ] e σ ( xi ) = n N − 1 n si può osservare che i due sistemi hanno eguale efficienza quando: σ 2 sist (x ) = ρ=− i 2 SR 1 = ρ0 (che si ottiene uguagliando le quantità sopra riportate). N −1 2 Se la quantità ρ0 è molto piccola σ sist (xi ) → σ SR2 (xi ) e quindi è possibile utilizzare la relazione già vista per il campionamento casuale. Massimo Mucciardi - Schemi riassuntivi di campionamento 11 In relazione a questo confronto bisogna tenere presente che in pratica il valore di ρ è ignoto in quanto si tratta di un parametro della popolazione. In tal caso, se si vogliono applicare le relazioni su esposte, occorre procedere ad una sua stima tramite campione pilota. CONFRONTO FRA SISTEMATICO IL CAMPIONE PURAMENTE CASUALE E CAMPIONE 2 ( x ) 1 + (n − 1)ρ σ sist Deff = 2 = N −n σ cas ( x ) N −1 quando 1 N −1 otteniamo, in accordo a quanto visto precedentemente, un valore di Deff = 1. ρ=− In questo caso i campioni hanno uguale efficienza. Quando invece, 1 N −1 si ha un guadagno di efficienza del campione sistematico rispetto a quello casuale infatti: ρ<− Deff < 1. Infine quando 1 N −1 si ha una perdita di efficienza del campione sistematico rispetto a quello casuale, visto che ρ>− Deff > 1 . Massimo Mucciardi - Schemi riassuntivi di campionamento 12 CAMPIONI A GRAPPOLI Supponiamo di avere una popolazione finita dalla quale si estraggono grappoli completi, tutti costituiti dallo stesso numero di osservazioni. Se indichiamo con N il numero delle unità della popolazione e con M il numero totale dei grappoli, il rapporto, N M rappresenta la numerosità di ogni grappolo. L’estrazione casuale di m grappoli da M porta alla formazione del campione finale. Ciò comporta la non conoscenza, a priori, della dimensione del campione in quanto si può definire inizialmente il numero dei grappoli che devono costituire il campione senza conoscere l’effettiva numerosità di ciascun grappolo. In definitiva il campione è costituito dall’unione di più grappoli ed avrà dimensione pari a: C= n = Cm . VARIANZA DELLE MEDIE CAMPIONARIE Conoscendo la media xi di tutti i campioni estratti, (metodo diretto): ncamp ∑(x σ 2 ( xi ) = i =1 i − µ) ncamp 2 = ncamp ∑(x i =1 i − M ( xi ) ) ncamp 2 , non conoscendo la media xi di tutti i campioni estratti (1° metodo indiretto): σ g2 M − m σ ( xi ) = 2 m M −1 , dove σ g2 è la varianza fra i grappoli che si calcola con la relazione: M σ g2 = ∑(µ i i =1 − µ) 2 . M L’altra via, che si ricollega al campionamento sistematico, introduce la relazione (2° metodo indiretto): σ 2 ( xi ) = σ2 M −m m M −1 [1 + (C − 1)ρ ] dove ∑∑ (X k 2 ρ= C −1 k i =1 j <u ij − µ )( X iu − µ ) N ∑ (X i =1 − µ) . 2 i La quantità sopra riportata prende il nome di coefficiente di correlazione intra-grappoli. Massimo Mucciardi - Schemi riassuntivi di campionamento 13 STIMA DELLA VARIANZA DELLE MEDIE CAMPIONARIE Stima corretta di σ 2 ( xi ) ⇒ s 2 ( x ) . Considerando il 1° metodo indiretto, una stima della varianza delle medie è data da : s g2 M − m s ( x) = m M 2 dove m sg2 = ∑(x i =1 i − x) 2 m−1 con xi e x rispettivamente medie dei diversi grappoli e media totale dei grappoli che formano il campione. CONFRONTO FRA IL CAMPIONE GRAPPOLI 2 σ grap ( xi ) = σ (x ) = σ2 M −m n M −1 σ2 N −n [1 + (C − 1)ρ ] σ 2 CM − Cm = . n N −1 n CM − 1 CM − 1 [1 + (C − 1)ρ ] . Deff = CM − C 2 cas i Considerando che, CM = N per N che tende all’infinito la quantità, CM −1 CM − C tende ad 1. Pertanto l’espressione approssimata, Deff ≅ [1 + ( C − 1) ρ ] PURAMENTE CASUALE E CAMPIONE A Massimo Mucciardi - Schemi riassuntivi di campionamento DETERMINAZIONE DELLA NUMEROSITÀ DEL CAMPIONE CASUALE Consideriamo : 1) e = x − µ l'errore in valore assoluto che si è disposti a tollerare in un’indagine statistica; 2) p la probabilità del verificarsi di questo errore. Dalla relazione u = x−µ σ = e σ n , u ≈ N (0;1) n risolvendo rispetto ad n si ha, uσ n = (dove il valore u dipende dalla probabilità p che si sceglie). e 2 14