Il record linkage probabilistico e
l’uso dei dati abbinati
Brunero Liseo
Bologna, 17 aprile 2012
Sommario
•
•
•
•
Due esempi introduttivi
Cosa è il record linkage (RL) probabilistico
Metodi di stima per RL
Inferenza per dati “abbinati” mediante linkage
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 2
1. Stima della numerosità N di una popolazione
Metodo cattura-ricattura
• Quanti pesci vivono in un lago? Si effettua una pesca in
un dato giorno, e se ne osservano n1 che vengono
“marcati" in qualche modo.
• Il giorno dopo si effettua un'altra pesca; se ne
osservano n2 di cui M gia osservati il giorno precedente.
• Qual è una buona stima per N?
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 3
Sotto alcune ipotesi (i pesci non apprendono...), la
frazione osservata il primo giorno n1/N dovrebbe
essere più o meno simile a quella dei “ripescati” nel
secondo giorno, ovvero M/n2:
Da questo deriva che
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 4
•
Se invece dei pesci dobbiamo contare quanti sono i
clandestini in Italia?
• Cosa si intende ora per "catture"?
• Quali nuovi problemi sorgono?
Probabilmente l’operazione di “marcatura”
comporta alcuni problemi.
La stessa persona potrebbe essere stata
registrata sotto diversi nomi in diverse
situazioni
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 5
2. Regressione lineare per dati abbinati
Si vuole effettuare una semplice regressione
lineare tra la Y e la X, ma le variabili sono state
rilevate sulle stesse unità statistiche in due
occasioni differenti.
Potrebbe accadere che alcuni valori della Y siano abbinati
alla X sbagliata, ovvero è possibile creare dei falsi link …
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 6
2. Regressione lineare per dati abbinati
Esempio simulato: generiamo 15 coppie di
valori da
> x= 1:15
> y = 2*x + rnorm(15, sd=6)
> y1= c(y[10,11], y[1:9], y[12:15])
plot(x,y)
> abline(lm(y~x)$coeff, col="red")
> abline(lm(y1~x)$coeff, col=“blue")
… e poi invertiamo due soli dati …
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 7
Regressione corretta, ottenuta con i dati correttamente abbinati
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 8
Regressione ottenuta con due dati abbinati in modo scorretto
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 9
Il problema generale
La crescente richiesta di informazione statistica a
livello disaggregato impone la ricerca di nuove
fonti
Il vincolo sui tempi e sui costi sconsiglia in generale
il ricorso a nuove indagini, campionarie e/o
complete.
E’ allora pratica sempre più consolidata quella di
“incrociare” informazioni preesistenti per creare
nuova informazione statistica.
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 10
Il problema generale
Il più delle volte i records nei due files
non hanno una chiave di identificazione
sicura
L’operazione di linkage è quindi incerta
Tale incertezza deve essere “modellata”
in termini statistici
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 11
Alcuni esempi
• Dati amministrativi e dati campionari (es. anagrafe
delle aziende)
• Scopi giudiziari: coerenza tra dichiarazioni dei
redditi e transazioni bancarie
• Ambito economico/sanitario: incrocio delle spese
regionali, stime di prevalenza di alcune malattie in
base a varie fonti informative (SDO, SERT, farmaci
etc..)
• Indagine sulla “copertura” dei censimenti
. Problemi di riservatezza …
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 12
Record Linkage
• Identificare record riferiti allo stesso
individuo, ma collocati in file diversi,
attraverso chiavi comuni non perfettamente
corrispondenti Newcombe (1959)
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 13
Il problema del RL
Files
A
B
Variabili
chiave
Variabili chiave
X1
…X
Y
X1
… Xk
Xb1
Xbk
Z
k
Record a
Xa1
…X
Ya
a
k
Il record linkage probabilistico
Bologna 17 aprile 2012
Zb
Record b
Pagina 14
Record linkage
Input: due data
set che
presentano
alcune unità in
comune
Problema:
Manca un codice identificativo univoco
e privo di errori
•
•
•
Soluzione: uso di un set di variabili in grado (congiuntamente) di
individuare i record
Attenzione: le variabili possono avere “problemi”!
Obiettivo: maggior numero di agganci giusti, minor numero di
agganci sbagliati
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 15
Esempio 1 - analisi mortalità
• Problema: analizzare congiuntamente i “fattori di
rischio” con l’evento “morte”.
A) I fattori di rischio sono contenuti in indagini ad hoc (quelle
sulla nutrizione, sulle condizioni di lavoro, etc.)
B) L’evento “morte” (ad alcuni mesi dalla rilevazione
precedente) si desume da un registro amministrativo
• Le due fonti vanno “integrate” in modo che a ogni
unità dell’indagine sui fattori di rischio si possa
associare una nuova variabile dicotomica che vale
1 se l’individuo è deceduto e 0 se è ancora in vita.
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 16
Esempio 2 - contare una popolazione
Problema: qual è il numero di residenti in Italia?
 metodo cattura - ricattura
Le occasioni:
A) Censimento della Popolazione
B) Indagine di copertura (eseguita alcuni mesi dopo il censimento) per
valutare la qualità del Censimento e fornire una stima accurata della
numerosità della popolazione
USA: Post Enumeration Survey - 1990
Accuracy and Coverage Evaluation - 2000
Italia - 2001 - Indagine di Copertura del Censimento
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 17
Esempio 2 - contare una popolazione
Il risultato del confronto del Censimento con l’indagine
post-censuaria è una tabella 2x2
Oss. Post
Non oss
Post
Oss.
Cens.
noo
non
Non oss
Cens
nno
??
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 18
Esempio 2 - contare una popolazione
In pratica, per ogni unità osservata si deve ricavare se
1) è stata rilevata sia nel Censimento che nell’indagine post
censuaria
2) è stata rilevata solo nel Censimento
3) è stata rilevata solo nell’indagine post-censuaria
I tre valori precedenti consentono di stimare - con un
opportuno modello statistico - il quarto.
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 19
Esempio 3 - Creazione lista
• Problema: qual è l’insieme delle imprese
attive?
• In Istat, ASIA (Archivio Statistico delle Imprese Attive)
è una lista di unità (le imprese attive in un particolare
istante di tempo) ottenuta “fondendo” diversi archivi.
Le difficoltà
• imprese presenti contemporaneamente in più archivi
(eliminazione dei duplicati)
• imprese morte e nuove nate
• trasformazioni (possono produrre una nuova impresa o
continuare a essere la stessa)
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 20
Record Linkage - caso semplice
A
Nome
Cognome
CAP
Data di
nascita
Luogo di
nascita
Codice
fiscale
Titolo di
studio
Mario
Rossi
00125
18/05/70
Roma
RSSMRA70E
18H501T
Diploma
Nome
Cognome
CAP
Data di
nascita
Luogo di
nascita
Codice
fiscale
Reddito
Mario
Rossi
00125
18/05/70
Roma
RSSMRA70E
18H501T
1000 €
B
Il record linkage probabilistico
Bologna 17 aprile 2012
Record Linkage - caso meno semplice
•
Il codice identificativo non c’è, o è inutilizzabile.
•
Le restanti variabili - congiuntamente - sono in grado di
identificare l’unità: svolgono la funzione di codice identificativo.
•
Inoltre sono prive di errori o mancate risposte.
Il record linkage probabilistico
Bologna 17 aprile 2012
Record Linkage - caso meno semplice
A
Nome
Cognome
CAP
Data di
nascita
Luogo di
nascita
Codice
fiscale
Titolo di
studio
Mario
Rossi
00125
18/05/70
Roma
RSSMRA70E
18H501T
Diploma
Nome
Cognome
CAP
Data di
nascita
Luogo di
nascita
Codice
fiscale
Reddito
Mario
Rossi
00125
18/05/70
Roma
---
1000 €
B
Il record linkage probabilistico
Bologna 17 aprile 2012
Record Linkage - caso più complicato
• Non esiste un codice identificativo univoco.
• Le restanti variabili congiuntamente sono in grado
di identificare l’unità. Tuttavia si possono
osservare differenze nelle risposte per:
• errori di trascrizione / comprensione
• mancate risposte
• risposte esatte ma formulate in modo diverso
• cambiamenti nel tempo, o comunque le risposte
non sono identiche.
Il record linkage probabilistico
Bologna 17 aprile 2012
Record Linkage - caso più complicato
A
Nome
Cognome
CAP
Data di
nascita
Luogo di
nascita
Codice
fiscale
Titolo di
studio
Mario
Rossi
00125
18/05/70
Roma
RSSMRA70E
18H501T
Diploma
Nome
Cognome
CAP
Data di
nascita
Luogo di
nascita
Codice
fiscale
Reddito
Mario
Rosi
00125
18 maggio
1970
Roma
---
1000 €
B
Il record linkage probabilistico
Bologna 17 aprile 2012
L’abbinamento deterministico
Si basa sulla concordanza di un numero sufficiente di
variabili comuni:
– Es. Si abbinano due record se almeno due delle tre variabili
NOME, COGNOME e ANNO DI NASCITA sono concordanti
FILE A
FILE B
Id
Nome
Cogn.
Anno
Id
Nome
Cogn.
Anno
1
Mario
Rossi
1935
5
Luigi
Neri
1970
2
Remo
Rossi
1671
3
Luca
Monti
1955
3
Luca
Monti
1955
2
Remo
Rossi
1971
4
Caio
Bianchi
1965
6
R
Verdi
1955
6
Rosa
Verdi
1955
1
Mario
Rossi
1953
Il record linkage probabilistico
Bologna 17 aprile 2012
Abbinamento deterministico: la tabella dei confronti
Confronti
FILE A
Il record linkage probabilistico
FILE B
Id. 5
3
2
6
1
1 0
0
1
0
2
2 0
0
3
0
1
3 0
3
0
1
0
4 0
0
0
0
0
5 0
1
0
2
0
Bologna 17 aprile 2012
Abbinamento deterministico: osservazioni
Può tenere conto di valori mancanti e errori nelle variabili di
abbinamento
Permette di graduare il potere informativo delle variabili
mediante punteggi:
–
–
–
–
Stesso nome = 2 punti
Stesso cognome = 7 punti
Stesso anno di nascita = 3 punti
[0 < Diff(anno) <3] = 1 punto
I punteggi possono essere stabiliti mediante analisi statistica
su dati esterni
Il record linkage probabilistico
Bologna 17 aprile 2012
L’abbinamento probabilistico
Come nell’abbinamento deterministico:
– Si lavora sul confronto di tutte le coppie possibili;
– Si usano punteggi basati su criteri flessibili per stabilire
gli abbinamenti
Ma:
– I punteggi e le soglie usati per scegliere gli abbinamenti
dipendono dal problema in esame
– Si tiene conto anche dei livelli di disaccordo nei dati
Il record linkage probabilistico
Bologna 17 aprile 2012
Le fasi del record linkage
- Preparazione dei files di input (pre-processing);
- Selezione delle variabili identificativi comuni (variabili di
bloccaggio e abbinamento);
- Scelta della/e funzione/i di confronto;
- Riduzione dello spazio di ricerca delle coppie candidate;
- Scelta del modello di decisione;
Stima delle probabilità di abbinamento
Valutazione dell’adattamento del modello ai dati
Assegnazione delle coppie (a,b) allo stato di “abbinato” o “non
abbinato”
- Valutazione dei risultati del Record linkage;
- Selezione degli abbinamenti univoci.
Il record linkage probabilistico
Bologna 17 aprile 2012
Gill et al. (2001)
Il record linkage probabilistico
Bologna 17 aprile 2012
Fase preliminare: armonizzazione
La fase di armonizzazione deve considerare diversi passi
1) armonizzazione della definizione di unità;
2) armonizzazione dei periodi di riferimento;
3) completamento delle popolazioni;
4) armonizzazione delle definizioni di variabile;
5) armonizzazione delle classificazioni;
6) aggiustamento degli errori di misura (accuratezza);
7) aggiustamento per le mancate risposte;
8) costruzione di variabili derivate.
Il record linkage probabilistico
Bologna 17 aprile 2012
Esempi di problemi di armonizzazione
• la definizione di famiglia
• i diversi tempi di riferimento delle fonti
• le diverse popolazioni di riferimento delle fonti
(infortuni sul lavoro e archivio Inail)
• variabili relative al “capofamiglia”
• classificazioni delle ripartizioni geografiche
Il record linkage probabilistico
Bologna 17 aprile 2012
Selezione delle variabili di matching
• Le variabili che congiuntamente svolgono la funzione di un codice
identificativo vengono chiamate “variabili chiave”.
• Es. individuo: nome, cognome, data di nascita, sesso, titolo di
studio, indirizzo, stato civile …
• Bisogna scegliere fra tutte le variabili in comune fra i due data
set.
Il record linkage probabilistico
Bologna 17 aprile 2012
Selezione delle variabili di matching
•
•
•
•
•
Caratteristiche desiderabili
universali
permanenti
accurate
non sensibili
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 35
Selezione delle variabili di matching
Gill et al (2001) si occupa del caso in cui la popolazione di interesse è costituita da
individui. Suggerisce di dividere le variabili in comune in 6 gruppi:
1)
Nomi propri che cambiano raramente: nome di battesimo, cognome attuale,
prima iniziale del secondo nome,
2)
Caratteristiche non relative al nome che rimangono fisse alla nascita: sesso,
data di nascita, luogo di nascita,…
3)
Caratteristiche socio-demografiche che cambiano durante l’arco di vita:
indirizzo, codice postale, stato civile
4)
Variabili usate in registri speciali: data di morte, occupazione
5)
Variabili per l’aggancio delle famiglie: cognome della madre alla nascita,
cognome del padre, numero di nati
6)
Codici che aiutano a identificare il record: edizione o versione dei codici usati
nel record
… e le imprese??
Il record linkage probabilistico
Bologna 17 aprile 2012
Editing e parsing
Per indirizzi e nomi esistono diversi metodi di parsing,
metodi che trasformano le risposte per tenere conto
di errori di digitazione o di problemi nella pronuncia
di nomi stranieri ( Es: Smith vs. Smithe).
Ricodifiche utili anche quando le variabili non
contengono errori ma sono descritte in modo diverso
Es: via Luigi Zamboni, 16 - 40121 Bologna
•
v. Zamboni L., n.16 – Bo (40121)
Il record linkage probabilistico
Bologna 17 aprile 2012
Sorting and blocking
Sono operazioni eseguite per
- Facilitare al computer il compito del riconoscimento dei
record
- Consentire l’utilizzo di operazioni statistiche sui dati
- Il bloccaggio ha un impatto sulla bontà dei metodi di RL in
quanto limita il numero dei confronti fra records
Il record linkage probabilistico
Bologna 17 aprile 2012
RL deterministico o probabilistico?
Deterministico: si stabiliscono a priori delle regole che, se
rispettate, definiscono i match. Il controllo dei possibili errori
può essere svolto solo manualmente (clerical review).
Probabilistico: si definisce un modello probabilistico che ha
generato i dati osservati (e i potenziali errori …)
Si stabilisce una regola di decisione “ottimale”, in un senso da
specificare.
Si stimano gli elementi utili all’applicazione della regola di decisione.
Vengono determinate delle probabilità di errore.
Il record linkage probabilistico
Bologna 17 aprile 2012
Record linkage probabilistico
Il record linkage probabilistico
Bologna 17 aprile 2012
Quale output?
Le regole di decisione si scelgono in base al tipo di output
di interesse.
Si può ammette che un record di A si agganci a più di un
record di B? e viceversa?
Se la risposta è NO, è necessario inserire il vincolo di
matching 1:1 (ogni record di A può essere agganciato al
più a un record di B e viceversa).
Il record linkage probabilistico
Bologna 17 aprile 2012
Decisioni sui match incerti
•
Le procedure di decisione lasciano dei margini di
incertezza: per alcune coppie di record di A e B, le
informazioni disponibili non sono in grado di discriminare
fra il fatto che la coppia è un match oppure no.
In questi casi è necessario ricorrere a
1. applicazione di tecniche di linkage che usano variabili di
matching diverse
2. analisi manuale dei record (clerical review)
Il record linkage probabilistico
Bologna 17 aprile 2012
Formalizzazione
Per ogni coppia di records (a,b) si crea un vettore di confronti (Fellegi e
Sunter, 1969) sulle k variabili chiave
Nella formulazione più semplice i confronti sono dicotomici
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 43
Altrimenti, se ne possono pensare di più
sofisticate
1.
2.
3.
X

X
a
k
b
k
Y

1


a
,
b

k


max
max(
X
)

min(
X
)
,
max(
X
)

min(
X
)
a
k
b
k
b
k
a
k
Altre metriche similari
Basare i confronti sulle X e non sui confronti
(Tancredi et al. 2011).
Punto essenziale: l’occorrenza di Mario Rossi in entrambi i database
non ha lo stesso potere discriminante dell’occorrenza di Brunero
Liseo
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 44
Formalizzazione
M={vere coppie}
U ={vere NON coppie}
La cardinalità di M è molto molto più piccola di
quella di U. (es.: card(A)=card(B)= 100 con 10
unità in comune  card(M)=10 card(U)=9990
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 45
La distribuzione di Y
Se p(Y) è la probabilità di un dato esito
del vettore dei confronti
PY   PY (a, b)  M P(a, b)  M  
PY (a, b)  U P(a, b)  U 
 PY M PM   PY U PU 
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 46
P(Y) si manifesta come mistura di due distribuzioni
 struttura latente
Y1 Y2
0 0
... ...
1 1
1 1
a, b   M
1
...
1
1
Y1 Y2
0 0
... ...
1 1
1 1
... Yk
... 0
... ...
... 0
... 1
... Yk
... 0
... ...
... 0
... 1
n
Py1 N
...
P y 2 k 1 N
P y 2k N
a, b   M
n
P y1 M PM N
0
...
...
P y 2 k 1 M PM N
0
P y 2 k M PM N
0
Il record linkage probabilistico
Y1 Y2
0 0
... ...
1 1
1 1
Bologna 17 aprile 2012
... Yk
... 0
... ...
... 0
... 1
n
P y1 U PU N
...
P y 2 k 1 U PU N
P y 2 k U P U N
Pagina 47
Fellegi e Sunter (1969)
Cosa bisogna stimare?
P(M), P(U)
informazioni a priori
p(γ|M) p(γ|U) le verosimiglianze
Λ = p(γ|M)/p(γ|U) il rapporto di verosimiglianza
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 48
Fellegi e Sunter (1969)
Procedura:
1) Si sceglie una forma parametrica per p(y|M) e
p(y|U); in genere
con mk e uk vettori di parametri da stimare (modelli
mistura, algoritmo EM, metodi bayesiani)
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 49
Fellegi e Sunter (1969)
Procedura:
1) Determina due punti di cut-off (low e
upp) nella distribuzione campionaria di Λ
2) Dichiara (a,b) una coppia se Λ> upp
3) Dichiara (a,b) una NON coppia se Λ< inf
4) Analisi manuale in caso contrario
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 50
Logica del metodo FS
1. Si passa da un vettore di confronti y ad un numero.
2. Il numero è associato alla probabilità che la data
coppia sia un match.
3. E’ possibile ordinare le coppie, o i profili di confronto,
secondo il valore del peso.
4. Scelta in termini di analisi discriminante. Strumento:
test statistico
5. Il peso r(y) corrisponderebbe al test rapporto di
verosimiglianze
Il record linkage probabilistico
Bologna 17 aprile 2012
Problemi con FS69
1) Non tiene conto delle molteplicità
2) Risultati potenzialmente incoerenti: una stessa unità
abbinata a due diversi record
3) Il modello per p(γ|M) p(γ|U) è spesso troppo semplice
per essere credibile
4) L’informazione campionaria relativa alle variabili chiave
X non è utilizzata
5) I vettori dei confronti yab non sono indipendenti
6) E’ un modello concepito per variabili categoriche
7) La diversa cardinalità di M e U rende le stime di p(γ|M)
e p(γ|U) di diversa affidabilità
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 52
(a,b)U
(a,b)M
errore
l
U*
Il record linkage probabilistico
r(y)
u
Q
Bologna 17 aprile 2012
M*
Pagina 53
Miglioramenti
• Jaro (1989) – formalizzazione del modello statistico: stima mediante
EM
• Belin e Rubin (1995) – modello logistico
• Larsen e Rubin (2001) – modello mistura
• Fortini et al. (2001) – approccio bayesiano
• Tancredi e Liseo (2011) – approccio bayesiano gerarchico
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 54
• Fortini et al. (2001) introducono la matrice
dove Cab vale 0 o 1 a seconda che (a,b) sia una coppia o meno
La matrice C ha dei vincoli di riga e colonna
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 55
Obiettivo inferenziale
Ottenere delle stime di
mediante stime dei parametri oppure
attraverso procedure di tipo bayesiano di natura
algoritmica (Markov Chain MonteCarlo)
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 56
Inferenza mediante dati abbinati
L’integrazione di file mediante record linkage spesso non è un
obiettivo primario, ma solo uno strumento per una varietà di
applicazioni successive
Un’analisi statistica basata su dati linkati deve tener conto che i
risultati possono essere affetti da errori di linkage
Occorre tener conto del trade-off tra i due tipi di errore (falsi
match e falsi nonmatch) e misurare l’effetto che questi possono
potenzialmente avere sulle conclusioni statistiche (sensibilità
delle stime dei parametri)
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 57
Inferenza mediante dati abbinati
Il linkage e le analisi successive vanno viste come parti
di un unico sistema statistico: le strategie più
opportune devono essere progettate di comune
accordo
Analogia tra gli effetti della mancata risposta e gli
errori di linkage: entrambi possono invalidare le
procedure statistiche standard
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 58
Inferenza mediante dati abbinati
Se l’applicazione di linkage è pianificata in
anticipo (es. nelle indagini di copertura) è
anche possibile richiedere informazioni
ulteriori e/o migliori.
Questo è più difficile quando il linkage è
eseguito a posteriori o in modo retrospettivo
(es. negli studi epidemiologici).
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 59
Un semplice esempio sull’indagine di copertura
Data set A (nA=34) contiene tutti i residenti stranieri registrati
in una piccolas sezione di censimento 2001.
Data set A (nB=45) contiene tutti i residenti stranieri osservati
durante la “post enumeration survey” - POS.
- Variabili di matching: prime due lettere del cognome,
sesso e livello di educazione (categorizzato).
Parametro di interesse: N, il numero di stranieri residenti nella
sezione di censimento.
T è il numero di unità osservate in entrambe le occasioni
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 60
Distribuzione a posteriori di N al variare di T
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 61
Regressione per dati linkati
Consideriamo il seguente modello standard
dove
è un vettore di covariate
Le variabili X sono in A e la Y è nel file B
Il processo di linkage è imperfetto e la vera coppia
(x,y) non è osservabile
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 62
Regressione per dati linkati
Noi osserviamo
con
è distorto …
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 63
Regressione per dati linkati
Scheuren e Winkler (1993, Surv. Meth.) propongono uno
stimatore migliore, cercando di stimare il bias
Gli stessi autori, nel 1997 (Surv. Meth) propongono
un approccio di stima iterativo
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 64
Regressione per dati linkati
Commenti generali:
Le procedure di stima dei coefficienti
alla sottostima
Il record linkage probabilistico
tendono
Bologna 17 aprile 2012
Pagina 65
Regressione per dati linkati: Bayes
Le distorsioni del modello possono essere corrette mediante
un’impostazione bayesiana
Per semplicità assumiamo che
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 66
Regressione per dati linkati: Bayes
Idea: i metodi di SW e di LL non tengono conto di “tutta
l’incertezza” insita nella fase di linkage
I metodi bayesiani basati su MCMC si basano sulla
generazione di un campione di T valori dalla
distribuzione finale (a posteriori) del parametro di
interesse – C nel nostro caso.
Nel caso specifico del RL, un valore particolare di C
determina QUALI sono le coppie da abbinare
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 67
Regressione per dati linkati: Bayes
Ad ogni iterazione t=1, … T dell’algoritmo MCMC, si effettua
una regressione lineare limitata alle coppie indicate in Ct e si
produce una stima
Questo produce una distribuzione delle stime dei
parametri che, in qualche modo, riproduce
l’incertezza di linkage , fornendo comunque uno
stimatore non distorto per
ma producendo una
stima della variabilità più ragionevole
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 68
Regressione per dati linkati: Piccola simulazione
Popolazione: N=100, dimensione campionaria:
na = 80; nb = 80.
3 variabili chiave indipendenti + un po’ di errore ….
Abbiamo poi aggiunto al file B una nuova v.a Wb N(0; 1)
per b = 1; … ; 80. Nel file A,
-per ogni a in A “linkato”, abbiamo generato una v.a.
- per ogni a in A “non linkato” si è generata una v.a.
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 69
200 repliche
Si confrontano tre strategie
1. distribuzione campionaria dello MLE per i tre
parametri usando i veri link (benchmark) (prima riga)
2. distribuzione campionaria dello MLE per i tre
parametri usando la stima puntuale di C (stima
bayesiana in due passi - 2nda riga)
3. istogramma delle stime MLE calcolate ad ogni
iterazione dell’algoritmo MCMC (Naive Bayesian
solution) (3za riga)
Veri valori:
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 70
Il record linkage probabilistico
Bologna 17 aprile 2012
Pagina 71
Scarica

Il record linkage probabilistico