Il record linkage probabilistico e l’uso dei dati abbinati Brunero Liseo Bologna, 17 aprile 2012 Sommario • • • • Due esempi introduttivi Cosa è il record linkage (RL) probabilistico Metodi di stima per RL Inferenza per dati “abbinati” mediante linkage Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 2 1. Stima della numerosità N di una popolazione Metodo cattura-ricattura • Quanti pesci vivono in un lago? Si effettua una pesca in un dato giorno, e se ne osservano n1 che vengono “marcati" in qualche modo. • Il giorno dopo si effettua un'altra pesca; se ne osservano n2 di cui M gia osservati il giorno precedente. • Qual è una buona stima per N? Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 3 Sotto alcune ipotesi (i pesci non apprendono...), la frazione osservata il primo giorno n1/N dovrebbe essere più o meno simile a quella dei “ripescati” nel secondo giorno, ovvero M/n2: Da questo deriva che Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 4 • Se invece dei pesci dobbiamo contare quanti sono i clandestini in Italia? • Cosa si intende ora per "catture"? • Quali nuovi problemi sorgono? Probabilmente l’operazione di “marcatura” comporta alcuni problemi. La stessa persona potrebbe essere stata registrata sotto diversi nomi in diverse situazioni Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 5 2. Regressione lineare per dati abbinati Si vuole effettuare una semplice regressione lineare tra la Y e la X, ma le variabili sono state rilevate sulle stesse unità statistiche in due occasioni differenti. Potrebbe accadere che alcuni valori della Y siano abbinati alla X sbagliata, ovvero è possibile creare dei falsi link … Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 6 2. Regressione lineare per dati abbinati Esempio simulato: generiamo 15 coppie di valori da > x= 1:15 > y = 2*x + rnorm(15, sd=6) > y1= c(y[10,11], y[1:9], y[12:15]) plot(x,y) > abline(lm(y~x)$coeff, col="red") > abline(lm(y1~x)$coeff, col=“blue") … e poi invertiamo due soli dati … Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 7 Regressione corretta, ottenuta con i dati correttamente abbinati Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 8 Regressione ottenuta con due dati abbinati in modo scorretto Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 9 Il problema generale La crescente richiesta di informazione statistica a livello disaggregato impone la ricerca di nuove fonti Il vincolo sui tempi e sui costi sconsiglia in generale il ricorso a nuove indagini, campionarie e/o complete. E’ allora pratica sempre più consolidata quella di “incrociare” informazioni preesistenti per creare nuova informazione statistica. Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 10 Il problema generale Il più delle volte i records nei due files non hanno una chiave di identificazione sicura L’operazione di linkage è quindi incerta Tale incertezza deve essere “modellata” in termini statistici Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 11 Alcuni esempi • Dati amministrativi e dati campionari (es. anagrafe delle aziende) • Scopi giudiziari: coerenza tra dichiarazioni dei redditi e transazioni bancarie • Ambito economico/sanitario: incrocio delle spese regionali, stime di prevalenza di alcune malattie in base a varie fonti informative (SDO, SERT, farmaci etc..) • Indagine sulla “copertura” dei censimenti . Problemi di riservatezza … Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 12 Record Linkage • Identificare record riferiti allo stesso individuo, ma collocati in file diversi, attraverso chiavi comuni non perfettamente corrispondenti Newcombe (1959) Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 13 Il problema del RL Files A B Variabili chiave Variabili chiave X1 …X Y X1 … Xk Xb1 Xbk Z k Record a Xa1 …X Ya a k Il record linkage probabilistico Bologna 17 aprile 2012 Zb Record b Pagina 14 Record linkage Input: due data set che presentano alcune unità in comune Problema: Manca un codice identificativo univoco e privo di errori • • • Soluzione: uso di un set di variabili in grado (congiuntamente) di individuare i record Attenzione: le variabili possono avere “problemi”! Obiettivo: maggior numero di agganci giusti, minor numero di agganci sbagliati Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 15 Esempio 1 - analisi mortalità • Problema: analizzare congiuntamente i “fattori di rischio” con l’evento “morte”. A) I fattori di rischio sono contenuti in indagini ad hoc (quelle sulla nutrizione, sulle condizioni di lavoro, etc.) B) L’evento “morte” (ad alcuni mesi dalla rilevazione precedente) si desume da un registro amministrativo • Le due fonti vanno “integrate” in modo che a ogni unità dell’indagine sui fattori di rischio si possa associare una nuova variabile dicotomica che vale 1 se l’individuo è deceduto e 0 se è ancora in vita. Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 16 Esempio 2 - contare una popolazione Problema: qual è il numero di residenti in Italia? metodo cattura - ricattura Le occasioni: A) Censimento della Popolazione B) Indagine di copertura (eseguita alcuni mesi dopo il censimento) per valutare la qualità del Censimento e fornire una stima accurata della numerosità della popolazione USA: Post Enumeration Survey - 1990 Accuracy and Coverage Evaluation - 2000 Italia - 2001 - Indagine di Copertura del Censimento Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 17 Esempio 2 - contare una popolazione Il risultato del confronto del Censimento con l’indagine post-censuaria è una tabella 2x2 Oss. Post Non oss Post Oss. Cens. noo non Non oss Cens nno ?? Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 18 Esempio 2 - contare una popolazione In pratica, per ogni unità osservata si deve ricavare se 1) è stata rilevata sia nel Censimento che nell’indagine post censuaria 2) è stata rilevata solo nel Censimento 3) è stata rilevata solo nell’indagine post-censuaria I tre valori precedenti consentono di stimare - con un opportuno modello statistico - il quarto. Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 19 Esempio 3 - Creazione lista • Problema: qual è l’insieme delle imprese attive? • In Istat, ASIA (Archivio Statistico delle Imprese Attive) è una lista di unità (le imprese attive in un particolare istante di tempo) ottenuta “fondendo” diversi archivi. Le difficoltà • imprese presenti contemporaneamente in più archivi (eliminazione dei duplicati) • imprese morte e nuove nate • trasformazioni (possono produrre una nuova impresa o continuare a essere la stessa) Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 20 Record Linkage - caso semplice A Nome Cognome CAP Data di nascita Luogo di nascita Codice fiscale Titolo di studio Mario Rossi 00125 18/05/70 Roma RSSMRA70E 18H501T Diploma Nome Cognome CAP Data di nascita Luogo di nascita Codice fiscale Reddito Mario Rossi 00125 18/05/70 Roma RSSMRA70E 18H501T 1000 € B Il record linkage probabilistico Bologna 17 aprile 2012 Record Linkage - caso meno semplice • Il codice identificativo non c’è, o è inutilizzabile. • Le restanti variabili - congiuntamente - sono in grado di identificare l’unità: svolgono la funzione di codice identificativo. • Inoltre sono prive di errori o mancate risposte. Il record linkage probabilistico Bologna 17 aprile 2012 Record Linkage - caso meno semplice A Nome Cognome CAP Data di nascita Luogo di nascita Codice fiscale Titolo di studio Mario Rossi 00125 18/05/70 Roma RSSMRA70E 18H501T Diploma Nome Cognome CAP Data di nascita Luogo di nascita Codice fiscale Reddito Mario Rossi 00125 18/05/70 Roma --- 1000 € B Il record linkage probabilistico Bologna 17 aprile 2012 Record Linkage - caso più complicato • Non esiste un codice identificativo univoco. • Le restanti variabili congiuntamente sono in grado di identificare l’unità. Tuttavia si possono osservare differenze nelle risposte per: • errori di trascrizione / comprensione • mancate risposte • risposte esatte ma formulate in modo diverso • cambiamenti nel tempo, o comunque le risposte non sono identiche. Il record linkage probabilistico Bologna 17 aprile 2012 Record Linkage - caso più complicato A Nome Cognome CAP Data di nascita Luogo di nascita Codice fiscale Titolo di studio Mario Rossi 00125 18/05/70 Roma RSSMRA70E 18H501T Diploma Nome Cognome CAP Data di nascita Luogo di nascita Codice fiscale Reddito Mario Rosi 00125 18 maggio 1970 Roma --- 1000 € B Il record linkage probabilistico Bologna 17 aprile 2012 L’abbinamento deterministico Si basa sulla concordanza di un numero sufficiente di variabili comuni: – Es. Si abbinano due record se almeno due delle tre variabili NOME, COGNOME e ANNO DI NASCITA sono concordanti FILE A FILE B Id Nome Cogn. Anno Id Nome Cogn. Anno 1 Mario Rossi 1935 5 Luigi Neri 1970 2 Remo Rossi 1671 3 Luca Monti 1955 3 Luca Monti 1955 2 Remo Rossi 1971 4 Caio Bianchi 1965 6 R Verdi 1955 6 Rosa Verdi 1955 1 Mario Rossi 1953 Il record linkage probabilistico Bologna 17 aprile 2012 Abbinamento deterministico: la tabella dei confronti Confronti FILE A Il record linkage probabilistico FILE B Id. 5 3 2 6 1 1 0 0 1 0 2 2 0 0 3 0 1 3 0 3 0 1 0 4 0 0 0 0 0 5 0 1 0 2 0 Bologna 17 aprile 2012 Abbinamento deterministico: osservazioni Può tenere conto di valori mancanti e errori nelle variabili di abbinamento Permette di graduare il potere informativo delle variabili mediante punteggi: – – – – Stesso nome = 2 punti Stesso cognome = 7 punti Stesso anno di nascita = 3 punti [0 < Diff(anno) <3] = 1 punto I punteggi possono essere stabiliti mediante analisi statistica su dati esterni Il record linkage probabilistico Bologna 17 aprile 2012 L’abbinamento probabilistico Come nell’abbinamento deterministico: – Si lavora sul confronto di tutte le coppie possibili; – Si usano punteggi basati su criteri flessibili per stabilire gli abbinamenti Ma: – I punteggi e le soglie usati per scegliere gli abbinamenti dipendono dal problema in esame – Si tiene conto anche dei livelli di disaccordo nei dati Il record linkage probabilistico Bologna 17 aprile 2012 Le fasi del record linkage - Preparazione dei files di input (pre-processing); - Selezione delle variabili identificativi comuni (variabili di bloccaggio e abbinamento); - Scelta della/e funzione/i di confronto; - Riduzione dello spazio di ricerca delle coppie candidate; - Scelta del modello di decisione; Stima delle probabilità di abbinamento Valutazione dell’adattamento del modello ai dati Assegnazione delle coppie (a,b) allo stato di “abbinato” o “non abbinato” - Valutazione dei risultati del Record linkage; - Selezione degli abbinamenti univoci. Il record linkage probabilistico Bologna 17 aprile 2012 Gill et al. (2001) Il record linkage probabilistico Bologna 17 aprile 2012 Fase preliminare: armonizzazione La fase di armonizzazione deve considerare diversi passi 1) armonizzazione della definizione di unità; 2) armonizzazione dei periodi di riferimento; 3) completamento delle popolazioni; 4) armonizzazione delle definizioni di variabile; 5) armonizzazione delle classificazioni; 6) aggiustamento degli errori di misura (accuratezza); 7) aggiustamento per le mancate risposte; 8) costruzione di variabili derivate. Il record linkage probabilistico Bologna 17 aprile 2012 Esempi di problemi di armonizzazione • la definizione di famiglia • i diversi tempi di riferimento delle fonti • le diverse popolazioni di riferimento delle fonti (infortuni sul lavoro e archivio Inail) • variabili relative al “capofamiglia” • classificazioni delle ripartizioni geografiche Il record linkage probabilistico Bologna 17 aprile 2012 Selezione delle variabili di matching • Le variabili che congiuntamente svolgono la funzione di un codice identificativo vengono chiamate “variabili chiave”. • Es. individuo: nome, cognome, data di nascita, sesso, titolo di studio, indirizzo, stato civile … • Bisogna scegliere fra tutte le variabili in comune fra i due data set. Il record linkage probabilistico Bologna 17 aprile 2012 Selezione delle variabili di matching • • • • • Caratteristiche desiderabili universali permanenti accurate non sensibili Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 35 Selezione delle variabili di matching Gill et al (2001) si occupa del caso in cui la popolazione di interesse è costituita da individui. Suggerisce di dividere le variabili in comune in 6 gruppi: 1) Nomi propri che cambiano raramente: nome di battesimo, cognome attuale, prima iniziale del secondo nome, 2) Caratteristiche non relative al nome che rimangono fisse alla nascita: sesso, data di nascita, luogo di nascita,… 3) Caratteristiche socio-demografiche che cambiano durante l’arco di vita: indirizzo, codice postale, stato civile 4) Variabili usate in registri speciali: data di morte, occupazione 5) Variabili per l’aggancio delle famiglie: cognome della madre alla nascita, cognome del padre, numero di nati 6) Codici che aiutano a identificare il record: edizione o versione dei codici usati nel record … e le imprese?? Il record linkage probabilistico Bologna 17 aprile 2012 Editing e parsing Per indirizzi e nomi esistono diversi metodi di parsing, metodi che trasformano le risposte per tenere conto di errori di digitazione o di problemi nella pronuncia di nomi stranieri ( Es: Smith vs. Smithe). Ricodifiche utili anche quando le variabili non contengono errori ma sono descritte in modo diverso Es: via Luigi Zamboni, 16 - 40121 Bologna • v. Zamboni L., n.16 – Bo (40121) Il record linkage probabilistico Bologna 17 aprile 2012 Sorting and blocking Sono operazioni eseguite per - Facilitare al computer il compito del riconoscimento dei record - Consentire l’utilizzo di operazioni statistiche sui dati - Il bloccaggio ha un impatto sulla bontà dei metodi di RL in quanto limita il numero dei confronti fra records Il record linkage probabilistico Bologna 17 aprile 2012 RL deterministico o probabilistico? Deterministico: si stabiliscono a priori delle regole che, se rispettate, definiscono i match. Il controllo dei possibili errori può essere svolto solo manualmente (clerical review). Probabilistico: si definisce un modello probabilistico che ha generato i dati osservati (e i potenziali errori …) Si stabilisce una regola di decisione “ottimale”, in un senso da specificare. Si stimano gli elementi utili all’applicazione della regola di decisione. Vengono determinate delle probabilità di errore. Il record linkage probabilistico Bologna 17 aprile 2012 Record linkage probabilistico Il record linkage probabilistico Bologna 17 aprile 2012 Quale output? Le regole di decisione si scelgono in base al tipo di output di interesse. Si può ammette che un record di A si agganci a più di un record di B? e viceversa? Se la risposta è NO, è necessario inserire il vincolo di matching 1:1 (ogni record di A può essere agganciato al più a un record di B e viceversa). Il record linkage probabilistico Bologna 17 aprile 2012 Decisioni sui match incerti • Le procedure di decisione lasciano dei margini di incertezza: per alcune coppie di record di A e B, le informazioni disponibili non sono in grado di discriminare fra il fatto che la coppia è un match oppure no. In questi casi è necessario ricorrere a 1. applicazione di tecniche di linkage che usano variabili di matching diverse 2. analisi manuale dei record (clerical review) Il record linkage probabilistico Bologna 17 aprile 2012 Formalizzazione Per ogni coppia di records (a,b) si crea un vettore di confronti (Fellegi e Sunter, 1969) sulle k variabili chiave Nella formulazione più semplice i confronti sono dicotomici Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 43 Altrimenti, se ne possono pensare di più sofisticate 1. 2. 3. X X a k b k Y 1 a , b k max max( X ) min( X ) , max( X ) min( X ) a k b k b k a k Altre metriche similari Basare i confronti sulle X e non sui confronti (Tancredi et al. 2011). Punto essenziale: l’occorrenza di Mario Rossi in entrambi i database non ha lo stesso potere discriminante dell’occorrenza di Brunero Liseo Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 44 Formalizzazione M={vere coppie} U ={vere NON coppie} La cardinalità di M è molto molto più piccola di quella di U. (es.: card(A)=card(B)= 100 con 10 unità in comune card(M)=10 card(U)=9990 Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 45 La distribuzione di Y Se p(Y) è la probabilità di un dato esito del vettore dei confronti PY PY (a, b) M P(a, b) M PY (a, b) U P(a, b) U PY M PM PY U PU Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 46 P(Y) si manifesta come mistura di due distribuzioni struttura latente Y1 Y2 0 0 ... ... 1 1 1 1 a, b M 1 ... 1 1 Y1 Y2 0 0 ... ... 1 1 1 1 ... Yk ... 0 ... ... ... 0 ... 1 ... Yk ... 0 ... ... ... 0 ... 1 n Py1 N ... P y 2 k 1 N P y 2k N a, b M n P y1 M PM N 0 ... ... P y 2 k 1 M PM N 0 P y 2 k M PM N 0 Il record linkage probabilistico Y1 Y2 0 0 ... ... 1 1 1 1 Bologna 17 aprile 2012 ... Yk ... 0 ... ... ... 0 ... 1 n P y1 U PU N ... P y 2 k 1 U PU N P y 2 k U P U N Pagina 47 Fellegi e Sunter (1969) Cosa bisogna stimare? P(M), P(U) informazioni a priori p(γ|M) p(γ|U) le verosimiglianze Λ = p(γ|M)/p(γ|U) il rapporto di verosimiglianza Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 48 Fellegi e Sunter (1969) Procedura: 1) Si sceglie una forma parametrica per p(y|M) e p(y|U); in genere con mk e uk vettori di parametri da stimare (modelli mistura, algoritmo EM, metodi bayesiani) Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 49 Fellegi e Sunter (1969) Procedura: 1) Determina due punti di cut-off (low e upp) nella distribuzione campionaria di Λ 2) Dichiara (a,b) una coppia se Λ> upp 3) Dichiara (a,b) una NON coppia se Λ< inf 4) Analisi manuale in caso contrario Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 50 Logica del metodo FS 1. Si passa da un vettore di confronti y ad un numero. 2. Il numero è associato alla probabilità che la data coppia sia un match. 3. E’ possibile ordinare le coppie, o i profili di confronto, secondo il valore del peso. 4. Scelta in termini di analisi discriminante. Strumento: test statistico 5. Il peso r(y) corrisponderebbe al test rapporto di verosimiglianze Il record linkage probabilistico Bologna 17 aprile 2012 Problemi con FS69 1) Non tiene conto delle molteplicità 2) Risultati potenzialmente incoerenti: una stessa unità abbinata a due diversi record 3) Il modello per p(γ|M) p(γ|U) è spesso troppo semplice per essere credibile 4) L’informazione campionaria relativa alle variabili chiave X non è utilizzata 5) I vettori dei confronti yab non sono indipendenti 6) E’ un modello concepito per variabili categoriche 7) La diversa cardinalità di M e U rende le stime di p(γ|M) e p(γ|U) di diversa affidabilità Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 52 (a,b)U (a,b)M errore l U* Il record linkage probabilistico r(y) u Q Bologna 17 aprile 2012 M* Pagina 53 Miglioramenti • Jaro (1989) – formalizzazione del modello statistico: stima mediante EM • Belin e Rubin (1995) – modello logistico • Larsen e Rubin (2001) – modello mistura • Fortini et al. (2001) – approccio bayesiano • Tancredi e Liseo (2011) – approccio bayesiano gerarchico Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 54 • Fortini et al. (2001) introducono la matrice dove Cab vale 0 o 1 a seconda che (a,b) sia una coppia o meno La matrice C ha dei vincoli di riga e colonna Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 55 Obiettivo inferenziale Ottenere delle stime di mediante stime dei parametri oppure attraverso procedure di tipo bayesiano di natura algoritmica (Markov Chain MonteCarlo) Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 56 Inferenza mediante dati abbinati L’integrazione di file mediante record linkage spesso non è un obiettivo primario, ma solo uno strumento per una varietà di applicazioni successive Un’analisi statistica basata su dati linkati deve tener conto che i risultati possono essere affetti da errori di linkage Occorre tener conto del trade-off tra i due tipi di errore (falsi match e falsi nonmatch) e misurare l’effetto che questi possono potenzialmente avere sulle conclusioni statistiche (sensibilità delle stime dei parametri) Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 57 Inferenza mediante dati abbinati Il linkage e le analisi successive vanno viste come parti di un unico sistema statistico: le strategie più opportune devono essere progettate di comune accordo Analogia tra gli effetti della mancata risposta e gli errori di linkage: entrambi possono invalidare le procedure statistiche standard Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 58 Inferenza mediante dati abbinati Se l’applicazione di linkage è pianificata in anticipo (es. nelle indagini di copertura) è anche possibile richiedere informazioni ulteriori e/o migliori. Questo è più difficile quando il linkage è eseguito a posteriori o in modo retrospettivo (es. negli studi epidemiologici). Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 59 Un semplice esempio sull’indagine di copertura Data set A (nA=34) contiene tutti i residenti stranieri registrati in una piccolas sezione di censimento 2001. Data set A (nB=45) contiene tutti i residenti stranieri osservati durante la “post enumeration survey” - POS. - Variabili di matching: prime due lettere del cognome, sesso e livello di educazione (categorizzato). Parametro di interesse: N, il numero di stranieri residenti nella sezione di censimento. T è il numero di unità osservate in entrambe le occasioni Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 60 Distribuzione a posteriori di N al variare di T Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 61 Regressione per dati linkati Consideriamo il seguente modello standard dove è un vettore di covariate Le variabili X sono in A e la Y è nel file B Il processo di linkage è imperfetto e la vera coppia (x,y) non è osservabile Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 62 Regressione per dati linkati Noi osserviamo con è distorto … Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 63 Regressione per dati linkati Scheuren e Winkler (1993, Surv. Meth.) propongono uno stimatore migliore, cercando di stimare il bias Gli stessi autori, nel 1997 (Surv. Meth) propongono un approccio di stima iterativo Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 64 Regressione per dati linkati Commenti generali: Le procedure di stima dei coefficienti alla sottostima Il record linkage probabilistico tendono Bologna 17 aprile 2012 Pagina 65 Regressione per dati linkati: Bayes Le distorsioni del modello possono essere corrette mediante un’impostazione bayesiana Per semplicità assumiamo che Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 66 Regressione per dati linkati: Bayes Idea: i metodi di SW e di LL non tengono conto di “tutta l’incertezza” insita nella fase di linkage I metodi bayesiani basati su MCMC si basano sulla generazione di un campione di T valori dalla distribuzione finale (a posteriori) del parametro di interesse – C nel nostro caso. Nel caso specifico del RL, un valore particolare di C determina QUALI sono le coppie da abbinare Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 67 Regressione per dati linkati: Bayes Ad ogni iterazione t=1, … T dell’algoritmo MCMC, si effettua una regressione lineare limitata alle coppie indicate in Ct e si produce una stima Questo produce una distribuzione delle stime dei parametri che, in qualche modo, riproduce l’incertezza di linkage , fornendo comunque uno stimatore non distorto per ma producendo una stima della variabilità più ragionevole Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 68 Regressione per dati linkati: Piccola simulazione Popolazione: N=100, dimensione campionaria: na = 80; nb = 80. 3 variabili chiave indipendenti + un po’ di errore …. Abbiamo poi aggiunto al file B una nuova v.a Wb N(0; 1) per b = 1; … ; 80. Nel file A, -per ogni a in A “linkato”, abbiamo generato una v.a. - per ogni a in A “non linkato” si è generata una v.a. Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 69 200 repliche Si confrontano tre strategie 1. distribuzione campionaria dello MLE per i tre parametri usando i veri link (benchmark) (prima riga) 2. distribuzione campionaria dello MLE per i tre parametri usando la stima puntuale di C (stima bayesiana in due passi - 2nda riga) 3. istogramma delle stime MLE calcolate ad ogni iterazione dell’algoritmo MCMC (Naive Bayesian solution) (3za riga) Veri valori: Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 70 Il record linkage probabilistico Bologna 17 aprile 2012 Pagina 71