Analisi Statistica del Reddito e delle
Condizioni di Vita
Capitolo 7
La qualità degli indicatori:
stima della varianza
Contenuto della lezione:
- Introduzione
- Metodi di stima della varianza in indagini
complesse
- Linearizzazione di Taylor
- Metodi di ricampionamento:
- Jack-knife Repeated replication (JRR)
- Balanced Repeated Replication (BRR)
- Bootstrap
2
Introduzione - 1
Qualsiasi dato statistico, indipendentemente dal
modo in cui è collezionato e dal fenomeno al
quale è relativo, è soggetto ad errori di vario
tipo. Il fatto stesso di effettuare una indagine
campionaria introduce fattori di incertezza che
devono essere sempre tenuti presente per una
corretta interpretazione dei risultati ottenuti. Per
un corretto uso di un qualunque insieme di dati
derivanti da un’indagine è necessario perciò
fornire misure il più possibile accurate degli
errori e, di conseguenza, della qualità dei
risultati stessi.
3
Introduzione - 2
•
In letteratura, principalmente quella
anglosassone, gli errori si possono
suddividere in:
•
- errori nella fase di misura
•
- errori nella fase di stima
•
Nella letteratura italiana, viene più
comunemente utilizzata la distinzione tra:
•
- errori non campionari
•
- errori campionari
In questo capitolo ci limiteremo a studiare gli errori
campionari.
4
A description of errors in survey data
•
•
(a)
Errors in measurement
These arise from the fact that what is measured on the
units included in the survey can depart from the actual
(true) values for those units. Errors in measurement
centre on substantive content of the survey: definition of
the survey objectives and questions; ability and
willingness of the respondent to provide the information
sought; the quality of data collection, recording and
processing.
•
•
(b)
Errors in estimation
These are errors in the process of extrapolation from the
particular units enumerated in the survey to the entire
study population for which estimates or inferences are
required. These centre on the process of sample design
and implementation, and include errors of coverage,
sample selection, sample implementation and nonresponse, as well as sampling errors and estimation bias.5
Errors in measurement
• 1
Conceptual errors
• errors in basic concepts, definitions, and classifications
• errors in putting them into practice (questionnaire design, survey
manuals, training and supervision of interviewers and other survey
workers)
• 2
Response (or ‘data collection’) errors
• response bias
• simple response variance
• correlated response variance
• 3
Processing errors
• recording, data entry and coding errors
• editing errors
• errors in constructing target variables
• other programming errors
6
Mixed category
• 4 Item non-response
• errors because only approximate or partial
information is sought in the survey
• respondents unable to provide the
information sought (“don’t knows”)
• respondents not willing to provide the
information (“refusals”)
• information suppressed (for
confidentiality or whatever reason)
7
Errors in estimation
•
•
•
•
•
•
•
•
•
•
•
•
•
5
Coverage and related errors
under-coverage
over-coverage
sample selection errors
6
Unit non-response
unit not found or inaccessible
not-at-home
unable to respond
refusal (potentially ‘convertible’)
‘hard core’ refusal
7
Sampling error
sampling variance (scopo del presente capitolo)
estimation bias
8
Introduzione - 3
•
Parte dell’informazione circa i vari tipi di errori
è costituita dalla variabilità delle stime prodotte
nelle elaborazioni ed è ottenibile tramite il
computo degli standard error degli stimatori
utilizzati insieme con quello dell’eventuale loro
distorsione: queste due misure, considerate
simultaneamente, costituiscono il cosiddetto
mean-squared-error e, nonostante questo non
rappresenti sempre la componente più
importante dell’errore statistico, è certamente
l’informazione di base e più facilmente
reperibile riguardante l’errore totale.
9
Introduzione - 4
• La stima della varianza totale degli stimatori
risulta infatti di importanza cruciale per tutta
l’inferenza statistica e permette la costruzione di
intervalli di confidenza per i parametri della
popolazione indagata: sebbene valutazioni più
utili dell’errore campionario siano ottenibili
tramite la scomposizione della varianza stessa
nelle varie componenti relative ai differenti
aspetti e fasi delle procedure di indagine, tale
operazione risulta spesso molto complessa.
10
Introduzione - 5
•
L’informazione sull’errore risulta
essenziale anche per la valutazione e la
costruzione stessa del disegno e
dell’indagine in generale. Per un
qualunque problema di stima, infatti,
l’entità dell’errore campionario dipende,
tra gli altri fattori, dalla numerosità e dal
disegno campionari adottati, i quali, a
loro volta, incidono sui costi e sui tempi
di indagine.
11
Metodi di stima della varianza in
indagini complesse - 1
•
Una parte fondamentale della teoria delle
indagini campionarie tratta la derivazione di
stimatori per la stima della varianza di
statistiche utilizzati in indagini complesse.
L'importanza del problema è cruciale in quanto
la varianza di uno stimatore, insieme alla sua
distorsione, è misura dell'incertezza e
dell'accuratezza delle stime ed è quindi
necessaria per una corretta interpretazione dei
risultati di una qualunque ricerca oltre che
essere indicativa dell'efficienza del disegno
campionario utilizzato.
12
Metodi di stima della varianza in
indagini complesse - 2
•
Il proposito di questo capitolo è quello di
presentare alcuni metodi di stima della
varianza nell'ambito di indagini
complesse per le quali il classico
approccio per la stima degli standard
error risulta poco efficace, poco preciso
o alle volte addirittura inapplicabile.
13
Metodi di stima della varianza in
indagini complesse - 3
•
Generalmente con disegni complessi si
intendono tutti quei campionamenti che,
combinando varie tecniche di selezione
delle unità quali campionamento senza
ripetizione o con probabilità di selezione
non uniforme, stratificazione e
campionamenti multistadio, introducono
una struttura non IID dei dati.
14
Metodi di stima della varianza in
indagini complesse - 4
•
Inoltre, sebbene la parola complesso sia
solitamente riferita allo schema
campionario -ovvero alle regole secondo
le quali le varie unità entrano a far parte
del campione- questo non è in realtà
l'unico elemento di complessità al quale
il termine va riferito.
15
Metodi di stima della varianza in
indagini complesse - 5
•
Spesso infatti, i parametri stessi indagati
nella popolazione e gli stimatori a ciò
designati sono complicati nella forma e
nella derivazione, come anche le
variabili coinvolte nell'ambito di una
stessa ricerca possono essere di varia
natura e da riferirsi a diverse e
numerose sub-popolazioni, delle quali si
intende studiare la consistenza,le
differenze e le relazioni reciproche.
16
Stima per misure lineari - 1
• Nella teoria classica di stima della varianza applicata ai
problemi di stima riguardanti statistiche lineari in disegni
complessi, è possibile eludere parte della
scomposizione della varianza degli stimatori nelle sue
varie componenti e considerare semplicemente le
osservazioni aggregate a livello di estrazione cluster o
PSU. Semplicemente assumendo che:
• La selezione campionaria dei cluster sia indipendente tra
gli strati,
• Due o più estrazioni siano effettuate in ciascuno strato e
• consistano in estrazioni casuali di individui, indipendenti
e con ripetizione,
• La quantità di interesse è lineare.
17
Stima per misure lineari - 2
• La varianza delle singole stime di primary selection è
stimata allora da:
Var[yhi ] =
yh 2
1
(y

)

hi
ah  1
ah
• e quella del loro totale da:
Var[yh ] = ( 1  f h )
ah
yh 2
(y

)

hi
ah  1
ah
• dove ( 1  fh ) rappresenta il fattore di correzione per
popolazioni finite.
• Essendo poi il campionamento indipendente tra gli strati
si ha che:

ah
yh 2 
Var[y] = Var[  y h ] = Var[yh ] =  ( 1  f h )
(y hi  ) 

ah  1
ah 18

Linearizzazione di Taylor - 1
Il metodo qui presentato prevede l'utilizzo della
serie di Taylor per ottenere un'approssimazione
lineare di funzioni non-lineari e una successiva
stima della varianza su tale approssimazione in
serie. Questa idea di stima della varianza è
ricordata con molti nomi in letteratura, incluso
metodo di linearizzazione, delta method
(Kalton,1983) e propagation of variance (Kish,
1965).
19
Linearizzazione di Taylor - 2
Supponendo che la quantità della quale si vuole
stimare la varianza sia una funzione non-lineare
stimata sul campione tramite una statistica z
definita nella forma:
z = f(y1 , y2 ,...., ys )
Applicando l’espansione di Taylor alla nostra
statistica di interesse, almeno fino al primo
termine, si ha che, in un intorno di Z:
z  Z  s ( y s  Ys )(Z / Ys )
20
Linearizzazione di Taylor - 3
Un inconveniente del metodo di linearizzazione è
infatti che la valutazione delle derivate parziali
potrebbe essere molto difficoltosa per
determinati parametri, quali coefficienti di
correlazione parziale o multipla; con l'aggiuntiva
assunzione che tali costanti ignote siano
sostituibili con una loro stima ds sul campione è
possibile però ottenere una stima della varianza
tramite un'approssimazione di z non-lineare con
una funzione lineare delle ys.
21
Linearizzazione di Taylor - 4
Con alcuni passaggi riportati in dispensa è
possibile giungere alla formulazione seguente:

ah
zh 2 
Var[z] = Var[zL ] = Var[zh ] =  ( 1  f h )
(z hi  ) 

ah  1
ah 

Si è giunti così ad una espressione della varianza
di una statistica Z non-lineare analoga a quella
ottenuta per le statistiche lineari e applicabile a
qualsiasi caso non appena è possibile
specificare la quantità z hi al livello delle PSU.
22
Linearizzazione di Taylor - 5
E' importante però sottolineare come tale
procedimento necessiti di un'assunzione
aggiuntiva sul campionamento rispetto a quelle
necessarie per la stima della varianza di
statistiche lineari: affinché i restanti termini
dell'espansione di Taylor possano essere
trascurati è necessario, infatti, che si lavori su
campioni di dimensione sufficientemente ampia
da consentire l'approssimazione lineare
coinvolta in tale espressione della varianza.
23
Linearizzazione di Taylor - 6
Un problema che rimane inoltre irrisolto con
l'utilizzo di questo metodo è quello di dover
comunque approntare, per ogni differente
statistica, una formula di derivazione dello
standard error almeno al livello delle z hi ; questo
lo rende quindi non applicabile per gli stimatori
dei quali non è possibile derivare un'espressione
analitica della varianza, quali ad esempio
statistiche non-funzionali come i quantili e la
mediana.
24
Metodi di Ricampionamento - 1
• Ai procedimenti appena presentati si affianca una
seconda classe di metodi utilizzati in indagini complesse
nella stima della varianza di stimatori, basati sul
confronto tra misure ripetute di variabilità ottenute su
repliche del campione, ovvero su aggregati di
osservazioni ognuno dei quali riflette la struttura
dell'intero campione padre, incluse eventuali
stratificazioni e clusterizzazioni presenti nei vari stadi
del campionamento: utilizzano procedure per la
formazione di sub-campioni tali che una replica
differisce dal campione originario solo nella dimensione
ovvero per la numerosità di unità considerate.
25
Metodi di Ricampionamento - 2
• Vari metodi di ricampionamento sono stati
proposti negli anni più recenti, tra i quali il
Jackknife,il Balanced Repeated Replication e il
Bootstrap hanno ricevuto maggiore attenzione,
e sono in generale tenuti in alta considerazione
in quanto prescindono dalle teoriche e
solitamente ignote distribuzioni degli stimatori
coinvolti, ed anzi sono spesso utilizzati proprio
nella stima di tali distribuzioni.
26
Metodi di Ricampionamento - 3
• Tali metodi si basano tutti sull'utilizzazione
ripetuta delle informazioni provenienti da un
unico campione estratto, al fine di migliorare la
precisione delle stime grazie all'aggiunta di
variabilità artificiale ai dati presenti nell'unico
campione osservato; differiscono tra loro
unicamente per la procedura di estrazione dei
sub-campioni replicati dall'unico campione
padre originario.
27
Jackknife Repeated Replication (JRR) - 1
• Il metodo Jackknife è stato introdotto inizialmente da
Quenouille (1949), come procedimento non parametrico
capace di ottenere una stima della distorsione di
statistiche generiche, e successivamente Tukey (1958)
suggerì come la stessa procedura potesse essere
utilizzata nella stima della varianza[1].
•
[1] Il termine jackknife indica in inglese il coltello serramanico e, per estensione, il
coltello degli esploratori che contiene varie lame e numerosi altri strumenti. Secondo
Garhwaite et al. (1995), questo 'coltellino svizzero' è funzionale in situazioni di
emergenza mentre risulta inutile quando si dispone degli strumenti specifici, più
solidi e funzionali. Il termine è stato scelto opportunamente poiché il metodo ha
un'applicazione appropriata quando non è possibile utilizzare i metodi classici.
28
Jackknife Repeated Replication (JRR) - 2
• L'idea generale sottesa dal Jackknife repeated
replication, per la quale tale procedura è conosciuta
anche come tecnica leave-one-out, è quella di formare
diversi sub-campioni di un generico campione estratto
eliminando di volta in volta una singola osservazione o nel caso di disegni complessi e che prevedono
un'elevata numerosità- una piccola parte del campione
originario, quale ad esempio una singola PSU di uno
strato di un campione multi-stadio. Ciascun subcampione misurerà così il contributo alla variabilità
totale fornita da tale piccola parte eliminata dalla stima:
la procedura JRR calcola infatti le stime dei parametri di
interesse su ciascuna replica ed utilizza la variabilità tra
tali valori per ottenere una stima della variabilità
campionaria totale.
29
Jackknife Repeated Replication (JRR) - 3
• E' evidente come il vantaggio del ricampionamento sia
quello di evitare la difficile e spesso impossibile
derivazione di una formula analitica esplicita della
varianza delle statistiche considerate: pur fornendo
solitamente risultati molto simili a quelli ottenibili con
l'approccio tradizionale, gli stimatori Jackknife
sostituiscono tale derivazione teorica con un maggiore
sforzo computazionale e, sebbene non sia teoricamente
applicabile a statiche funzioni di statistiche ordinali quali ad esempio i quantili - studi empirici dimostrano
come esso rimanga metodo efficace, in caso di
campionamenti complessi in cui si considerano PSU
formate da gruppi consistenti di osservazioni, anche per
stimatori di questo tipo.
30
Balanced Repeated Replication (BRR) - 1
• Il BRR è stato proposto per la prima volta da
McCarthy nel 1969 come tecnica di
ricampionamento da applicare a campioni
stratificati che prevedessero esattamente ak=2
cluster per strato estratti con ripetizione e solo
successivamente è stato adattato al caso di un
generico numero ak di cluster presenti in
ciascuno strato.
31
Balanced Repeated Replication (BRR) - 2
• Poiché infatti il metodo prevede l'utilizzazione di
esattamente metà campione nella formazione di
ciascuna replica mediante l'esclusione di uno
dei due gruppi presenti in ciascun strato, se
alcuni strati sono formati da più di due cluster è
necessario o raggruppare quest'ultimi in due
super-PSU o dividere gli strati stessi in più
piccoli strati artificiali così da riportare la
situazione a quella originariamente proposta.
32
Scarica

Lezione Capitolo 7