Nicoletta Cibella, Mauro Scanu, Tiziana Tuoto
Metodi statistici per
l’integrazione di dati provenienti
da fonti diverse
Sommario
1)
2)
3)
4)
Cosa vuol dire integrazione
Record linkage: perché
Il metodo di Fellegi e Sunter
Come risolvere il problema con RELAIS
Cosa vuol dire integrazione
Integrare i dati: non è solo un problema
informatico: ma sono necessarie analisi
e procedure statistiche!
 La procedura di integrazione può essere
soggetta a errore: bisogna misurarlo
 Diversi tipi di integrazione a seconda
delle caratteristiche dei data set
Primo problema di integrazione
Nome
Questo problema prende
il nome di record linkage
(abbinamento esatto)
età reddito
Aldo Bianchi 30
25000
Giulia Rossi
20
14500
Nome
Carlo Verdi
45
38000
Aldo Bianchi 30
30000
…
…
…
Pino Bianchi 30
27000
Carlo Rossi
45
20000
…
…
…
Bisogna cercare i record
che appartengono allo
stesso individuo
età spese
Secondo problema di integrazione
Nome
età reddito
Le tecniche da usare vanno sotto il
nome di statistical matching, o
abbinamento statistico
Aldo Bianchi 30
25000
Giulia Rossi
20
14500
Nome
età spese
Carlo Verdi
45
38000
Anna Gialli
30
32000
…
…
…
Pino Bianchi 30
27000
Carlo Rossi
45
20000
…
…
…
Questi data set non hanno
unità in comune, ma hanno
variabili che è interessante
studiare insieme
Abbinamento statistico
L’abbinamento statistico può essere svolto anche su dati
aggregati. Esempio: elezioni 1990, Ohio
Dem.
Rep.
Asten.
?
?
?
55 054
Bianchi ?
?
?
25 760
Neri
19896 10936 49928 80760
Possibile ottenere informazioni sul legame fra gruppo
etnico e voto?
Disponibile al termine
delle elezioni
Disponibile
dalle liste
elettorali
Abbinamento statistico: esempi
Abbinamento fra indagine sui consumi e quella sui redditi
Abbinamento fra indagine sui redditi e campione anonimo
di record fiscali
Data set per microsimulazione
Abbinamento statistico
Abbinamento statistico = “spremere” i dati!
Riprendiamo l’esempio delle elezioni in Ohio
Dem.
Neri
Rep.
Asten.
0-25% 0-14% 30-61% 69%
Bianchi 0-25% 0-14% 0-31%
25%
14%
61%
Questa è una informazione
in più rispetto alle marginali!
31%
100%
Bibliografia
Kadane, J.B. (1978), Some statistical problems in merging data files. In
Compendium of tax research, Department of Treasury, U.S. Gov- ernement
Printing Office, Washington D.C., 159-179 (Reprinted in 2001, Journal of
Official Statistics,17,423-433).
King, G. (1997), A Solution to the Ecological Inference Problem, Princeton
University Press, Princeton.
D’Orazio, M., Di Zio, M., Scanu, M. (2006b), Statistical Matching: Theory and
Practice, Wiley
Conti, P.L., Marella, D., Scanu M. (2012) Uncertainty Analysis in Statistical
Matching, Journal of Official Statistics, pp. 69–88
Abbinamento esatto
“Il libro della vita”
Dunn (1946)* descrive il record linkage in questi
termini
…each person in the world creates a book of life. The book starts
with the birth and ends with the death. Its pages are made up
of all the principal events of life. Record linkage is the name
given to the process of assembling the pages of this book into
one volume. The person retains the same identity throughout
the book. Except for advancing age, he is the same person…
*Dunn (1946) "Record Linkage". American Journal of Public
Health 36 (12): 1412–1416.
Le motivazioni
1. informazione congiunta su due o più variabili
osservate su fonti diverse
2. “contare” una popolazione
3. sostituire parti di indagini con archivi
4. creazione di una “lista” di una popolazione
5. altri obiettivi di statistica ufficiale
(imputazione ed editing/migliorare la qualità
del micro dato; studio del rischio di
identificazione dei microdati rilasciati)
Record Linkage - caso semplice
A
Nome
Cognome
CAP
Data di
nascita
Luogo di
nascita
Codice fiscale
Mario
Rossi
00125
18/05/70
Roma
RSSMRA70E18
H501T
Cognome
CAP
Data di
nascita
Luogo di
nascita
Codice fiscale
B
Nome
RSSMRA70E18
H501T
I due record si agganciano tramite il codice fiscale!
Record Linkage - caso meno semplice
A
Nome
Cognome
CAP
Data di
nascita
Luogo di
nascita
Codice fiscale
Mario
Rossi
00125
18/05/70
Roma
RSSMRA70E18
H501T
Nome
Cognome
CAP
Data di
nascita
Luogo di
nascita
Codice fiscale
Mario
Rossi
00125
18/05/70
Roma
---
B
I due record si agganciano tramite un insieme di variabili
comuni che identificano i record
Record Linkage - caso più complicato
A
Nome
Cognome
CAP
Data di
nascita
Luogo di
nascita
Codice fiscale
Mario
Rossi
00125
18/05/70
Roma
RSSMRA70E18
H501T
Nome
Cognome
CAP
Data di
nascita
Luogo di
nascita
Codice fiscale
M.
Russi
00152
18 maggio
1970
Ostia
B
I due record si agganciano tramite un insieme di variabili
comuni che identificano i record e sono affetti da errori o “problemi”
Record Linkage - caratteristiche
• Se esiste un codice identificativo o un insieme
di variabili che può svolgere il compito di un
codice identificativo, il problema del
ricongiungimento dei record di due data set è
banale.
• I metodi per il record linkage si occupano del
caso in cui un unico codice identificativo non
c’è, e le restanti variabili sono in grado di
identificare le unità ma sono riportate con
errore.
Schema delle operazioni
Preelaborazioni
Selezione delle
variabili di matching
e blocking
Editing delle
variabili
Metodo
probabilistico
Metodo
deterministico
Record
linkage
blocking
Modello/stima
valutazione
Definizione
regole
Soglie per
le decisioni
Analisi
Output: 1:1 o
molti a molti
Revisione
manuale
Valutazione errori
negli
abbinamenti
Formalizzazione del problema
Dati due file A e B di numerosità NA e NB , si consideri l’insieme
di cardinalità N=NANB
Ω = {(a,b), a∈A e b∈B}.
Si vogliono classificare le coppie in Ω nei due insiemi M e U tali
che:
M = insieme delle coppie
U = insieme delle non coppie
con
MU=Ω,
MU=.
Le variabili di confronto
Si selezionano le k variabili di matching (tra quelle comuni ai
due data sets e identificative dell’unità)
X1A
X 2A
... X KA
X1B
X 2B
... X BK
Per ogni coppia (a,b) Ω , si definisce un vettore
   1 ,  2 ,..., K  i cui K elementi sono il risultato
del confronto tra le variabili di matching.
Ad esempio
1 se X kA  X kB
 a ,b   k  
0 altrimenti
La Tabella di Contingenza
X1
X 2 ... X k
... X K
.
 0
.
1
0
.
1
.
0
...
.
...
.
...
0
.
0
.
1
...
.
...
.
...
0
.
1
.
1
.
1
.
1
.
...
.
1
.
...
.
1
 0
Frequenze
Il modello mistura
(a,b)U
(a,b)M
Il “peso” di abbinamento
Fellegi e Sunter (1969) introducono una funzione costituita
dal rapporto di verosimiglianza
r
P M 
P U 
sulla base del quale le coppie (a,b) possono essere
ordinate e sottoposte ad un processo di classificazione
negli insiemi M e U
La regola di decisione
Il criterio di classificazione è basato su due livelli di soglia scelti in
modo opportuno che assegnano le coppie a tre possibili
sottoinsiemi M*, Q , U*
ra ,b   Tm
Tm  ra ,b   Tu
ra ,b   Tu



a, b  M 
a, b  Q
a, b U 
La regola di decisione
f
Tu
Tm
(a,b)U
(a,b)M
U*
Q
M*
r
Le Fasi di un progetto di Record
Linkage come proposte in RELAIS
Preparazione dei files di input (pre-processing);
Riduzione dello spazio di ricerca delle coppie candidate;
Selezione degli attributi identificativi comuni (variabili di
matching);
Scelta della funzione di confronto;
Scelta del modello di decisione;
Stima delle probabilità di abbinamento (1)
Valutazione dell’adattamento del modello ai dati (1)
Assegnazione delle coppie (a,b) allo stato di “abbinato” o
“non abbinato”
Selezione degli abbinamenti univoci
Valutazione dei risultati del Record linkage.
(1) fase caratteristica dei metodi probabilistici
Bibliografia
Scanu M. (2003) Metodi Statistici per il record linkage, Metodi e Norme n.16, Istat
Batini C., Scannapieco M. (2006) Data Quality: Concepts, Methods, and
Techniques, Springer.
Herzog T.N., Scheuren F.J., Winler E.W. (2007) Data quality and record linkage
techniques, Springer.
RELAIS: http://www.istat.it/it/strumenti/metodi-e-software/software/relais
https://joinup.ec.europa.eu/software/relais/description