Nicoletta Cibella, Mauro Scanu, Tiziana Tuoto Metodi statistici per l’integrazione di dati provenienti da fonti diverse Sommario 1) 2) 3) 4) Cosa vuol dire integrazione Record linkage: perché Il metodo di Fellegi e Sunter Come risolvere il problema con RELAIS Cosa vuol dire integrazione Integrare i dati: non è solo un problema informatico: ma sono necessarie analisi e procedure statistiche! La procedura di integrazione può essere soggetta a errore: bisogna misurarlo Diversi tipi di integrazione a seconda delle caratteristiche dei data set Primo problema di integrazione Nome Questo problema prende il nome di record linkage (abbinamento esatto) età reddito Aldo Bianchi 30 25000 Giulia Rossi 20 14500 Nome Carlo Verdi 45 38000 Aldo Bianchi 30 30000 … … … Pino Bianchi 30 27000 Carlo Rossi 45 20000 … … … Bisogna cercare i record che appartengono allo stesso individuo età spese Secondo problema di integrazione Nome età reddito Le tecniche da usare vanno sotto il nome di statistical matching, o abbinamento statistico Aldo Bianchi 30 25000 Giulia Rossi 20 14500 Nome età spese Carlo Verdi 45 38000 Anna Gialli 30 32000 … … … Pino Bianchi 30 27000 Carlo Rossi 45 20000 … … … Questi data set non hanno unità in comune, ma hanno variabili che è interessante studiare insieme Abbinamento statistico L’abbinamento statistico può essere svolto anche su dati aggregati. Esempio: elezioni 1990, Ohio Dem. Rep. Asten. ? ? ? 55 054 Bianchi ? ? ? 25 760 Neri 19896 10936 49928 80760 Possibile ottenere informazioni sul legame fra gruppo etnico e voto? Disponibile al termine delle elezioni Disponibile dalle liste elettorali Abbinamento statistico: esempi Abbinamento fra indagine sui consumi e quella sui redditi Abbinamento fra indagine sui redditi e campione anonimo di record fiscali Data set per microsimulazione Abbinamento statistico Abbinamento statistico = “spremere” i dati! Riprendiamo l’esempio delle elezioni in Ohio Dem. Neri Rep. Asten. 0-25% 0-14% 30-61% 69% Bianchi 0-25% 0-14% 0-31% 25% 14% 61% Questa è una informazione in più rispetto alle marginali! 31% 100% Bibliografia Kadane, J.B. (1978), Some statistical problems in merging data files. In Compendium of tax research, Department of Treasury, U.S. Gov- ernement Printing Office, Washington D.C., 159-179 (Reprinted in 2001, Journal of Official Statistics,17,423-433). King, G. (1997), A Solution to the Ecological Inference Problem, Princeton University Press, Princeton. D’Orazio, M., Di Zio, M., Scanu, M. (2006b), Statistical Matching: Theory and Practice, Wiley Conti, P.L., Marella, D., Scanu M. (2012) Uncertainty Analysis in Statistical Matching, Journal of Official Statistics, pp. 69–88 Abbinamento esatto “Il libro della vita” Dunn (1946)* descrive il record linkage in questi termini …each person in the world creates a book of life. The book starts with the birth and ends with the death. Its pages are made up of all the principal events of life. Record linkage is the name given to the process of assembling the pages of this book into one volume. The person retains the same identity throughout the book. Except for advancing age, he is the same person… *Dunn (1946) "Record Linkage". American Journal of Public Health 36 (12): 1412–1416. Le motivazioni 1. informazione congiunta su due o più variabili osservate su fonti diverse 2. “contare” una popolazione 3. sostituire parti di indagini con archivi 4. creazione di una “lista” di una popolazione 5. altri obiettivi di statistica ufficiale (imputazione ed editing/migliorare la qualità del micro dato; studio del rischio di identificazione dei microdati rilasciati) Record Linkage - caso semplice A Nome Cognome CAP Data di nascita Luogo di nascita Codice fiscale Mario Rossi 00125 18/05/70 Roma RSSMRA70E18 H501T Cognome CAP Data di nascita Luogo di nascita Codice fiscale B Nome RSSMRA70E18 H501T I due record si agganciano tramite il codice fiscale! Record Linkage - caso meno semplice A Nome Cognome CAP Data di nascita Luogo di nascita Codice fiscale Mario Rossi 00125 18/05/70 Roma RSSMRA70E18 H501T Nome Cognome CAP Data di nascita Luogo di nascita Codice fiscale Mario Rossi 00125 18/05/70 Roma --- B I due record si agganciano tramite un insieme di variabili comuni che identificano i record Record Linkage - caso più complicato A Nome Cognome CAP Data di nascita Luogo di nascita Codice fiscale Mario Rossi 00125 18/05/70 Roma RSSMRA70E18 H501T Nome Cognome CAP Data di nascita Luogo di nascita Codice fiscale M. Russi 00152 18 maggio 1970 Ostia B I due record si agganciano tramite un insieme di variabili comuni che identificano i record e sono affetti da errori o “problemi” Record Linkage - caratteristiche • Se esiste un codice identificativo o un insieme di variabili che può svolgere il compito di un codice identificativo, il problema del ricongiungimento dei record di due data set è banale. • I metodi per il record linkage si occupano del caso in cui un unico codice identificativo non c’è, e le restanti variabili sono in grado di identificare le unità ma sono riportate con errore. Schema delle operazioni Preelaborazioni Selezione delle variabili di matching e blocking Editing delle variabili Metodo probabilistico Metodo deterministico Record linkage blocking Modello/stima valutazione Definizione regole Soglie per le decisioni Analisi Output: 1:1 o molti a molti Revisione manuale Valutazione errori negli abbinamenti Formalizzazione del problema Dati due file A e B di numerosità NA e NB , si consideri l’insieme di cardinalità N=NANB Ω = {(a,b), a∈A e b∈B}. Si vogliono classificare le coppie in Ω nei due insiemi M e U tali che: M = insieme delle coppie U = insieme delle non coppie con MU=Ω, MU=. Le variabili di confronto Si selezionano le k variabili di matching (tra quelle comuni ai due data sets e identificative dell’unità) X1A X 2A ... X KA X1B X 2B ... X BK Per ogni coppia (a,b) Ω , si definisce un vettore 1 , 2 ,..., K i cui K elementi sono il risultato del confronto tra le variabili di matching. Ad esempio 1 se X kA X kB a ,b k 0 altrimenti La Tabella di Contingenza X1 X 2 ... X k ... X K . 0 . 1 0 . 1 . 0 ... . ... . ... 0 . 0 . 1 ... . ... . ... 0 . 1 . 1 . 1 . 1 . ... . 1 . ... . 1 0 Frequenze Il modello mistura (a,b)U (a,b)M Il “peso” di abbinamento Fellegi e Sunter (1969) introducono una funzione costituita dal rapporto di verosimiglianza r P M P U sulla base del quale le coppie (a,b) possono essere ordinate e sottoposte ad un processo di classificazione negli insiemi M e U La regola di decisione Il criterio di classificazione è basato su due livelli di soglia scelti in modo opportuno che assegnano le coppie a tre possibili sottoinsiemi M*, Q , U* ra ,b Tm Tm ra ,b Tu ra ,b Tu a, b M a, b Q a, b U La regola di decisione f Tu Tm (a,b)U (a,b)M U* Q M* r Le Fasi di un progetto di Record Linkage come proposte in RELAIS Preparazione dei files di input (pre-processing); Riduzione dello spazio di ricerca delle coppie candidate; Selezione degli attributi identificativi comuni (variabili di matching); Scelta della funzione di confronto; Scelta del modello di decisione; Stima delle probabilità di abbinamento (1) Valutazione dell’adattamento del modello ai dati (1) Assegnazione delle coppie (a,b) allo stato di “abbinato” o “non abbinato” Selezione degli abbinamenti univoci Valutazione dei risultati del Record linkage. (1) fase caratteristica dei metodi probabilistici Bibliografia Scanu M. (2003) Metodi Statistici per il record linkage, Metodi e Norme n.16, Istat Batini C., Scannapieco M. (2006) Data Quality: Concepts, Methods, and Techniques, Springer. Herzog T.N., Scheuren F.J., Winler E.W. (2007) Data quality and record linkage techniques, Springer. RELAIS: http://www.istat.it/it/strumenti/metodi-e-software/software/relais https://joinup.ec.europa.eu/software/relais/description