IL CAMPIONE
Due tecniche principali per
estrarre n unità da una
popolazione U= {1,2,3,....,N}:
1. con ripetizione
2. senza ripetizione
→ In ambo i casi le unità successivamente
selezionate costituiscono un campione
In base all'ordine di estrazione
un campione può essere:
ordinato
 non ordinato

In entrambi i casi si utilizza la
notazione: c={i1,i2,i3,....,in}
Il campione delle osservazioni è
indicato con il vettore di v.c.
(Y1,Y2,....,Yn). In particolare nel caso di
estrazione con ripetizione gli n risultati
che ne derivano costituiscono un
campione casuale e le v.c. sono i.i.d.
I dati campionari sono costituiti dalle
coppie (ij,Yij) indicate da:
d=((i1,Yi1);(i2,Yi2);...;(in,Yin))
LO SPAZIO
CAMPIONARIO
È indicato con Ω ed è l'insieme di tutti i
possibili campioni che si possono
formare da una popolazione finita di N
unità in base a una tecnica predefinita,
basata sull'ordinamento e sulla
ripetizione delle unità.
1. Campioni ordinati con ripetizione
Lo spazio campionario è dato da Nn e
corrisponde alle disposizioni con ripetizione, cioè
al numero dei raggruppamenti ordinati di n
elementi tra N dati, raggruppamenti che si
intendono differenti per almeno un elemento o
per l'ordine degli elementi o per il numero di
volte in cui compare lo stesso elemento.
ESEMPIO:
Se in una popolazione di N=5 unità si estraggono
campioni di ampiezza n=2, lo spazio campionario è:
Ω=52=25 punti campione
2. Campioni ordinati senza
ripetizione
Lo spazio campionario è dato da (N)n=N(N1)...(N-n+1) che corrisponde alle disposizioni
semplici, cioè ai raggruppamenti ordinati di n
elementi scelti tra N dati, raggruppamenti che si
intendono differenti per almeno un elemento o
per l'ordine degli elementi.
ESEMPIO:
Se in una popolazione di N=6 unità si estraggono
campioni di ampiezza n=3, lo spazio campionario è:
Ω=6(6-1)(6-2)=120
3. Campioni non ordinati con
ripetizione
In questo caso il numero dei possibili campioni è
pari a
e corrisponde alle combinazioni con
ripetizione, cioè a quei raggruppamenti non ordinati
di n elementi scelti tra N dati, raggruppamenti che si
intendono differenti per almeno un elemento o per il
numero di volte in cui compare lo stesso elemento.
ESEMPIO:
Se in una popolazione di N=8 unità si estraggono
campioni di ampiezza n=4, lo spazio campionario è:
Ω=
= =
=330
4. Campioni non ordinati senza
ripetizione
Il numero dei possibili campioni è pari alle
combinazioni semplici, cioè ai raggruppamenti
non ordinati di n elementi scelti tra N dati in
modo tale che ogni raggruppamento si intende
differente per almeno un elemento.
ESEMPIO:
Se in una popolazione di N=5 unità si estraggono
campioni di ampiezza n=2, lo spazio campionario è:
Ω= =
= =10
Infine si possono considerare anche
spazi campionari che contengono
campioni con ampiezza variabile,
indicata con il simbolo n(c).
Ad esempio Ω* riferito ai campioni non
ordinati senza ripetizione che derivano
da una popolazione di N=5 sarà pari alla
somma dei possibili campioni con
ampiezza 1,2,3,4.
Analisi del campione
Indici più usati per descrivere le caratteristiche
del campione sono:
Media campionaria:

Varianza campionaria:

Covarianza campionaria:

Coefficiente di regressione campionario:

Coefficiente di correlazione campionario:

Piano di campionamento
Si definisce piano di campionamento l’associazione tra i
campioni c∈Ω e la corrispondente misura di probabilità p(c)
quando valgono le condizioni:
;
Per gli spazi campionari precedentemente descritti si hanno i
seguenti piani di campionamento:
1.
2.
3.
4.
Piano di campionamento  Schema di campionamento
Probabilità di inclusione
La probabilità che l’unità i-esima della popolazione
appartenga al campione estratto è detta probabilità di
inclusione del primo ordine ed è indicata con πi.
Quindi essendo Ωi un sottospazio di Ω:
Nel caso di campioni con ripetizione indicando con
γi(c) il numero di volte che l’unità i-esima è presente
nel campione c (0≤γi≤n) si considera la frequenza
attesa di inclusione:
Si possono definire anche le probabilità di inclusione
del secondo ordine.
è la probabilità che il campione comprenda le unità
i e j della popolazione e si ricava:
Stimatori
Nel campionamento da popolazioni infinite gli stimatori
sono v.c. generate dalle stime campionarie, cioè da
determinate funzioni dei dati campionari.
Nel campionamento da popolazioni finite lo stimatore può
dipendere dalle sole manifestazioni del carattere ϒ.
La struttura dello stimatore della media o del totale della
popolazione è lineare omogenea del tipo:
In generale quando si considera un campionamento con
probabilità variabili gli stimatori sono funzioni lineari con
coefficienti che dipendono dalle etichette.
θ è il parametro della popolazione e lo stimatore
la funzione dei dati campionari
è
Proprietà stimatori
Per valutare le qualità di uno stimatore è necessario
considerare la sua distribuzione di probabilità in quanto
esso è considerato tanto più valido quanto più tale
distribuzione è addensata attorno al valore vero del
parametro.
Proprietà:
• Correttezza
• Consistenza
• Efficienza
Correttezza
Uno stimatore
di θ si definisce corretto o non
distorto se il suo valore atteso è uguale a θ
Se questo non vale, la sua distorsione (B) è definita da:
 lo stimatore media campionaria gode della proprietà della
correttezza per un fissato piano p(c)
 per ottenere uno stimatore corretto della varianza S2 si
utilizza lo stimatore varianza campionaria corretta
Consistenza
Uno stimatore
di θ si definisce consistente se:
Stimatore consistente se per n→∞ la sua efficienza
cresce cioè che
converge in θ.
Inoltre si può definire asintoticamente corretto se vale:
Quindi la condizione sufficiente perché
consistente è che:
sia
Efficienza
Per valutare l’efficienza si introduce l’errore quadratico
medio (MSE) cioè la media dei quadrati delle distanze
tra lo stimatore e il parametro oggetto di stima.
Quindi se lo stimatore è corretto l’MSE coincide con la
varianza.
!Nella pratica si possono usare anche stimatori
distorti purché asintoticamente corretti e quindi, in
questi casi, la varianza è la misura più usata
rispetto all’MSE
Intervalli di confidenza
P
𝜃 − 𝑧𝛼 𝑉 𝜃 < 𝜃 < 𝜃 + 𝑧𝛼/2 𝑉 𝜃
2
=1−𝛼
Definiremo 1-α livello di confidenza dell’intervallo ed
indica il livello di affidabilità della stima effettuata.
Alcuni campioni conterranno θ e altri non lo conterranno.
Strategie campionarie
𝐷𝑒𝑓𝑓 =
𝑉 𝜃
𝑉0 𝜃
Inferenza su popolazioni finite
Esistono forti differenze tra il campionamento di popolazioni
finite e la teoria generale dell’inferenza statistica.
La contrapposizione nasce dal fatto che una popolazione finita
contiene unità definite, identificate ed etichettabili. Per questo
motivo si sono formate due correnti di pensiero contrapposte:
 Approccio classico o a popolazione fissa
 Approccio di superpopolazione o predittivo
Impostazione classica
Considera la popolazione come fissa perciò i valori assunti da un
carattere, costituiscono un parametro identificabile con un
vettore di quantità fisse. In questo approccio risulta
fondamentale il piano di campionamento, poiché da esso
dipende il campione estratto e quindi lo stimatore con cui sin
farà inferenza.
Impostazione di superpopolazione
Considera il campione come ottenuto da una popolazione
più grande detta superpopolazione che è costituita da
infinite popolazioni, che sono i campioni stessi.
In questa impostazione il parametro non è più fisso, ma è
una variabile casuale ignota.
I legami esistenti tra il campione e la superpopolazione
costituiscono un modello detto di superpopolazione che
permette di fare inferenza sul modello stesso.
Le stime e le variabili casuali, che si generano al variare
della popolazione estratta dalla superpopolazione sono
dette predittori.
Scarica

slides sul campionamento in genere