Integrazione di fonti amministrative e di indagine per l'analisi dei fenomeni socio-demografici: una prospettiva longitudinale Un po’ di storia Fausta Ongaro | Dipartimento di Scienze Statistiche, Università degli Studi di Padova Silvana Salvini | Dipartimento di Statistica, Informatica, Applicazioni «Giuseppe Parenti» Introduzione • Integrazione tra fonti: definizione • Utilità per gli studi socio-demografici • Indagini e corso di vita: una lunga storia • Siamo a un punto di svolta? • Integrazione tra fonti: le ragioni • Tipologie di fonti integrabili Scopo dell’integrazione fra fonti Scopo dell’integrazione dei dati è quello di combinare dati contenuti in più fonti ma che fanno riferimento a: (1) Una stessa unità statistica (record linkage) (2) Unità statistiche con profili simili (matching statistico) Utilità: a) Cumulare conoscenze su ambiti diversi della vita di un individuo (salute, abitazione, lavoro, famiglia,…) in un tempo definito b) Seguire nel tempo le biografie individuali Utilità in ambito socio-demografico 1. Studio delle biografie individuali (cambiamento sociale): - Coppia - Riproduttive - Living arrangement - Salute - Lavorative - Migrazioni - … 2. Studio delle determinanti delle biografie (fattori “causali”): - Carriere parallele (es. Fecondità-lavoro; Fecondità-carriera coppia; Salute anziani- living arrangement ) - Effetto contesto (micro, meso, macro) Studio delle biografie: ingresso in unione Partnership formation, Italy - females 80,0 71-75 66-70 60,0 61-65 40,0 56-60 51-55 20,0 46-50 age at entry 39 36 33 30 27 24 21 18 0,0 15 cumulative percentage 100,0 Determinanti biografie: nascita dopo separazione Effetto età a separazione e numero/età figli a separazione su propensione ad avere un altro figlio dopo separazione (donne < 40 anni a separazione). […] Age at separation (ref: 35-39) Under 30 30-34 years Number and age of children at separation (ref: 0) 1 child under 6 1 child over 6 2 or more children, with at least one under 6 2 or more children, over 6 0.91† 0.52 -0.73** -0.58† -1.35** -0.81† Indagini e corso di vita: un po’ di storia (1) La prima esperienza di indagine con approccio retrospettivo longitudinale mirato allo studio delle relazioni tra “carriere parallele” è stata la II Indagine sulla fecondità in Italia (1995-96), il cui questionario prevedeva quesiti tesi alla raccolta di dati per l’analisi delle relazioni fra storie di vita: storie di unioni, storie riproduttive, storie lavorative. Negli anni 1999/2000 si è attivato un gruppo di lavoro per acquisire un aggiornato e documentato quadro di valutazione in tema di indagini sulle famiglie, anche nella prospettiva di formulare eventuali suggerimenti in merito all’approntamento di una Household Panel Survey nazionale, dalla quale è scaturita un’articolata proposta in merito alla possibile realizzazione di una indagine panel sulle famiglie che tenesse conto dell’esigenza di avere informazioni longitudinali su alcuni aspetti demo-sociali ritenuti più importanti con una certa periodicità (Schizzerotto et al., 2001). Partendo da questa proposta un altro gruppo di indagine ha inteso verificare quali sono state le iniziative poste in essere dall’ISTAT in tale ambito e se poteva esistere la possibilità di ampliare il contenuto informativo delle indagini demo-sociali dell’Istituto attraverso la costruzione di un nuovo panel ad hoc o, alternativamente, attraverso l’introduzione di specifici quesiti “rivisitando” le attuali indagini sulle famiglie (IMF-FSS, Indagine campionaria sulle nascite, EU-SILC) in un’ottica prospettiva (Corsini et al., 2008). Indagini e corso di vita: un po’ di storia (2) I pilastri su cui era fondata questa proposta sono essenzialmente tre: le carenze riscontrate dalla panoramica sulle indagini esistenti sulle famiglie ed in particolare un quadro integrato di informazioni sugli stessi individui/famiglie di tipo demografico, economico, ecc.; la visione ideale di Schizzerotto et al. (2001) che riassumeva peraltro riflessioni di tipo sia metodologico che contenutistico, ma che in qualche modo risultano “censurate a destra” nei confronti delle iniziative più recenti (EU-SILC che nasce nel 2004, da un lato, e follow-up del 2007 “Criticità dei percorsi lavorativi in un’ottica di genere” di IMF-FSS 2003, dall’altro); la scarsità di risorse che impone di rivedere sotto un’attenta valutazione di costi/benefici la possibilità di impiantare una autonoma indagine panel sulle famiglie, integrata nei diversi temi ricordati (fecondità, lavoro, istruzione, redditi e qualità della vita, aspettative e intenzioni familiari e lavorative, sistema ideazionale, solo per fare alcuni esempi). Indagini e corso di vita: un po’ di storia (3) Il limite principale dell’IMF-FSS è nella sua impostazione di fondo, anche se ripetuta. In base alla indagine FSS non è possibile infatti ricostruire lo sviluppo delle traiettorie individuali in alcuni ambiti principali della vita come quello reddituale o sanitario, né il reciproco intrecciarsi di queste traiettorie con i cicli dei componenti delle famiglie. Tuttavia, un importante ampliamento dell’osservazione demograficosociale è stato realizzato con l’indagine FSS del 1998 e 2009, e poi del 2003 con il relativo follow-up del 2007. Ma un follow-up occasionale può difficilmente rendere conto del contesto, della permanenza (o della modifica) delle cause e dei vincoli, delle scelte contingenti in funzione di aspettative specifiche. Indagini e corso di vita: un po’ di storia (4) Il difetto dell’indagine EU-SILC è la mancanza di una vera assimilazione dell’intreccio tra benessere-malessere economico e strutture e biografie demografico-familiari (dato che si ignora il contesto inter-generazionale, non esaurito certo dalla struttura familiare co-residenziale campionata); analogamente non sono focalizzate in modo penetrante e coerente con la nostra realtà le componenti non economiche della deprivazione (sanitarie e, soprattutto, sociali). Ma, certamente, la carenza più sensibile riguarda il fatto che non vengono posti ai soggetti intervistati quesiti retrospettivi che indaghino sugli eventi del corso di vita precedenti alla prima occasione di indagine. La proposta del gruppo di indagine si basava sull’impianto attuale di EUSILC, integrata su due versanti: un potenziamento dei quesiti esistenti che permetta di aggiungere tematiche specifiche che ad oggi l’indagine tocca solo marginalmente; l’aggiunta di opportuni moduli retrospettivi che vadano a coprire le mancanze informative attuali. Indagini e corso di vita: un po’ di storia (5) Per quanto riguarda l’Indagine campionaria sulle nascite (2000, 2005, l’ultima del 2011), è interessante studiare la possibilità di introdurre quesiti di natura retrospettiva che permettano di indagare più approfonditamente non solo la carriera riproduttiva ma anche quella lavorativa, di uscita dalla famiglia di origine e le interazioni fra i diversi percorsi. Le aggiunte recenti vanno in questa direzione. In questo senso può essere opportuno sia considerare la possibilità di “seguire” le intervistate (o un campione più ristretto) attraverso la programmazione di follow-up (come in effetti è stato fatto) sia, per risparmiare risorse, procedere all’integrazione dei dati d’indagine con quelli di fonte amministrativa, attraverso opportune tecniche di record linkage. In sintesi, finora: indagini con approccio longitudinale 1. Retrospettive: •FFS/INF-2 (1995-96) •FSS (1998, 2003, 2009) 2. Prospettive: •ECHP (1994-2002) •EU-SILC (2004-2010) •IMF 2003 con ritorno nel 2007 su sottoinsieme campionario •(Indagine su nascite 2005 con ritorno 2011) Siamo a un punto di svolta? Questi studi hanno favorito importanti avanzamenti della ricerca socio-demografica: - Transizione allo Stato Adulto - Intreccio Fecondità – lavoro donna - … - Nuova indagine panel: nell’edizione 2011 del sistema di indagini campionarie sulle nascite e le madri è stata realizzata per la prima volta, oltre all’indagine trasversale sulle madri del 2009-2010 (Cati e Papi per la componente straniera), una indagine di ritorno intervistando le madri del campione 2005 e sottoponendo loro un questionario retrospettivo che mira a rilevare la storia le interazioni tra progetti familiari e lavorativi mediante la ricostruzione della storia delle unioni, delle carriere riproduttive e dei percorsi lavorativi. Criticità Riesce tuttavia difficile continuare a mantenere in un’architettura di questo tipo: Limiti all’incremento informazioni da raccogliere con indagini campionarie Aumento costi rilevazione Difficoltà studio fenomeni emergenti (campioni poco numerosi soprattutto nel caso dei panel) Vantaggi dell’integrazione fra fonti Rispetto alla conduzione di una nuova indagine l’integrazione dei dati consente: La riduzione dei costi; La riduzione dei tempi; La riduzione del “respondent burden”. Maggiore controllo effetti selezione individui (panel) Più in generale: Possibilità di studiare nuove relazioni altrimenti non indagabili con i dati a disposizione. Quali integrazioni? 1. Link tra indagini universali: Censimenti e stato civile (decessi) Anagrafe e stato civile (nascite, decessi, matrimoni) …. 2. Link tra indagini universali e indagini campionarie Anagrafe e indagine sulle nascite Censimento e Indagine salute … Integrazione di fonti amministrative e di indagine per l'analisi dei fenomeni socio-demografici: una prospettiva longitudinale Gli sviluppi più recenti Romina Fraboni| ISTAT –DISA - DISA/A Sabrina Prati | ISTAT – DISA-DCSA - DEM/C I principali temi 1. La reingegnerizzazione su base individuale delle statistiche demografiche: Micro-demographic accounting (MI.DE.A) 2. L’Anagrafe virtuale centralizzata (AN.VIS.) 3. Alcuni esempi di integrazione tra fonti amministrative e di indagine anche in un’ottica longitudinale. 4. Integrazione delle indagini sulle famiglie secondo l’approccio del corso di vita: Alcune riflessioni Micro-demographic accounting (MI.DE.A.) Tenuto conto delle innovazioni introdotte con il 15° Censimento della popolazione e dell’avanzamento tecnologico dei sistemi di acquisizione telematica dei dati demografici anagrafici (gli attuali Sistemi Istatel-Modem-Indata utilizzati dall’Istat e in prospettiva l’aggancio al sistema SAIA e successivamente all’ANPR) è possibile realizzare un modello basato sull’alimentazione continua del sistema di contabilizzazione demografica mediante i flussi a livello di microdato (Micro Demographic Accounting, MIDEA). In estrema sintesi, MIDEA può essere efficacemente descritto come l’alimentazione del frame dello “schema di Lexis” vale a dire lo schema descrittivo contabile teorico che rappresenta l’evoluzione cronologica di una popolazione, modificata con continuità nel tempo dai flussi, in entrata e in uscita, della dinamica demografica, sia naturale (nascite e decessi), sia migratoria (trasferimenti di residenza da/per Comuni italiani e da/per l’Estero). Il vettore demografico di partenza è il set di microdati corrispondenti alla Popolazione Legale del censimento 2011. Questo vettore sarà aggiornato in un’ottica prospettica con i flussi della dinamica demografica. Il sistema prevede che le variazioni individuali siano “sedimentate” in modo da ricostruire la “storia” individuale in termini di occorrenze e durate. Un’uletriore prodotto di MIDEA è l’ANagrafe VIrtuale Statistica (ANVIS). Sistema integrato MIDEA-ANVIS INPUT LAC t+1 LAC t POPOLAZIONE LEGALE PROCESSO REVISIONE LAC t POPOLAZIONE LEGALE FLUSSI CONTINUI DI AGGIORNAMENTO NASCITETRASFERIMENTI-MORTI ANAGRAFE VIRTUALIZZATA ANAGRAFE VIRTUALIZZATA REVISIONE LAC t+1 ANAGRAFE VIRTUALIZZATA ANAGRAFE VIRTUALIZZATA OUTPUT INTEGRAZIONE DELL'ANAGRAFE VIRTUALE CON ALTRI FLUSSI (STATO CIVILE, VARIAZIONI CITTADINANZA, SEPARAZIONI E DIVORZI, MATRIMONI POPOLAZIONI UFFICIALI AGGIORNATE CONTINUAMENTE DAI FLUSSSI (MIDEA) STATISTICHE DEMOGRAFICHE AGGIORNAMENTO CONTINUO DELLE BASI CAMPIONARIE POSSIBILITA' DI CAMPIONI SPECIFICI SU SOTTOINSIEMI DI POPOLAZIONI INDAGINI SULLE FAMIGLIE VIGILANZA E AGGIORNAMENTO INDICATORI STATISTICI SULLE ANAGRAFI (ANPR) VIGILANZA ANAGRAFICA BENCHMARK PER OPERAZIONI TERRITORIALI DI CENSIMENTO CONTINUO CONTRIBUTO ALL'AGGIORNAMENTO DELL'ARCHIVIO STATISTICO DELLE PERSONE FISICHE CENSIMENTO CONTINUO E ARCHIVI Ulteriori prodotti/sviluppi del sistema Midea-ANVIS • A.S.FAM. (Anagrafe statistica delle famiglie anagrafiche): l’universo delle popolazioni e sub-popolazioni per le statistiche sociali. • Utilizzo del db [ANVIS–ASFAM] per l’integrazione trasversale e longitudinale dell’informazione demo-sociale (multistate demography e life-cycle demography) • Sfruttamento del db [ANVIS–ASFAM] per la progettazione delle indagini campionarie C-sample e D-sample previste per la realizzazione del censimento continuo • Contributo all’aggiornamento del Sistema Integrato di Microdati (SIM) per quanto concerne individui e famiglie • Contributo alla valutazione della completezza e della qualità del popolamento dell’Anagrafe centralizzata (ANPR) la cui realizzazione è prevista nell’ambito dell’Agenda Digitale Alcuni esempi di analisi integrata in ottica longitudinale • Analisi della formazione e degli scioglimenti delle unioni matrimoniali e dei comportamenti riproduttivi (mediante integrazione dei dati sui matrimoni, le nascite, le separazioni e i divorzi); • Analisi delle storie riproduttive mediante integrazione a livello micro delle rilevazioni che compongono il sistema informativo sugli esiti dei concepimenti (Nascite per ordine e vitalità, IVG, aborti spontanei); • Analisi della mobilità anche in relazione alle fasi del ciclo di vita (matrimonio, nascita dei figli, separazioni, divorzi); • Analisi del gap tra intenzioni di fecondità e fecondità realizzata mediante la ricostruzione delle storie riproduttive delle madri intervistate nell’indagine sulle nascite e sulle famiglie. •… Dalla teoria alla pratica. Cenni dei principali problemi da affrontare • Trattamento dei dati di input (assorbe circa il 70% delle attività). Preliminare analisi della qualità nel dominio dei metadati e dei dati di input. Produzione di nuove variabili, creazione e validazione delle chiavi di aggancio. • Qualità dell’output. Trattamento della componente non campionaria dell'errore, errori di linkage; benchmark con altre fonti per valutare la bontà degli abbinamenti; ecc.. • Controllo del rischio di violazione della riservatezza al fine di produrre archivi di microdati integrati da rendere disponibili all’utenza. Approccio micro-longitudinale per la ricostruzione dei corsi di vita. Di cosa abbiamo bisogno • Al fine di ricostruire alcune “carriere” (eventi sequenziali entro una specifica dimensione di vita) occorre conoscere lungo tutto il corso di vita dell’individuo: • • • • Quanti individui sperimentano un certo evento di interesse La numerosità totale degli eventi ripetibili La sequenza e la collocazione temporale degli eventi Le caratteristiche principali di ciascun evento • risultante da flusso amministrativo (es. nascite, unioni formali) • ricostruibile retrospettivamente da indagini ad hoc Ricostruzioni retrospettive degli eventi socio-demografici Limiti nelle indagini campionarie • occorre facilitare il processo di ricostruzione mnemonica delle informazioni secondo la loro sequenza cronologica • centralità del ruolo del rilevatore che deve sollecitare la memoria del rispondente conducendo quest’ultimo a seguire un filo logico coerente con la ricostruzione temporale degli eventi successivi. • Importanza di disporre di un modello di rilevazione efficace e facilmente gestibile per la registrazione delle informazioni fornite dall’intervistato: attraverso schemi e griglie di raccolta delle date e delle altre informazioni relative agli eventi. • modello cartaceo nel PAPI • controlli nel questionario elettronico Vantaggi delle fonti amministrative: • accuratezza • completezza Integrazione tra archivi amministrativi secondo un approccio micro-longitudinale: vantaggi e svantaggi • Metodologico-organizzativo: facilita l’inseguimento delle unità del collettivo e solleva la rete territoriale (comuni) del compito di investigazione sulle unità • Esigenze informative/costi: amplia i contenuti informativi con costi contenuti • Riduce il fastidio statistico sulle unità rispondenti (individui e famiglie) per la parte desumibile da archivio • Innovazione di prodotti: Valore aggiunto per sé in quanto gli archivi integrati consentono analisi più fini delle transizioni (ad esempio tavole di eliminazione multistato) – Sul territorio: mobilità territoriale interna – Per la formazione di nuove unioni formali – Per la dissoluzioni delle unioni formali: separazioni, divorzi e vedovanze – Innovazioni di processo (es. estrazione di campioni, creazione di db longitudinali da integrare con altre fonti socio-economiche, supporto al censimento continuo, ecc..) – Longitudinalità: non immediata (manca la storia pregressa) ma in prospettiva, una volta a regime la costruzione degli archivi integrati Es 1. Analisi della transizione allo stato adulto. Di cosa abbiamo bisogno: E’ un processo di eventi (fine studi, primo lavoro, uscita dalla famiglia, prima unione, primo figlio, ecc.) che si sviluppa in senso longitudinale • Approccio da fonti integrate: 1. indagine campionaria di partenza con ricostruzione retrospettiva a sinistra e con informazioni prospettive (es. intenzioni) 2. successivamente osservare mutamenti dal lato fonti amministrative per il periodo interwaves (unioni formali, figli, migratorietà, ecc.): – per mantenere in vita il panel (inseguimento) – per catturare le informazioni su eventi avvenuti tra 2 occasioni successive di indagine su alcuni temi (es. matrimoni, figli, migratorietà) es. ricostruire i calendari e le occorrenze, analizzare gli esiti del processo decisionale 3. ondata di indagine successiva per colmare le lacune di fonte amministrativa (es. unioni libere e uscita dalla famiglia di origine) o per studiare sottogruppi identificati dall’aver (o meno) vissuto eventi demografici -> abbattimento costi di gestione del panel e del fastidio statistico Es. 2: integrazione micro-macro Integrazione tra indagine campionaria e fonti amministrative • Le fonti esaustive contengono informazioni sulle variazioni del “contesto”, nel tempo e nei diversi ambiti territoriali, che si ritiene abbiano un impatto sui comportamenti umani e sulle relazioni: indicatori statistici demografici, economici e culturali in generale, indicatori aggregati di norme e regolamenti di legge (es. agiscono sui calendari: istruzione, orario di lavoro, maternità, pensionamento), misure di politiche di welfare e istituzioni. • Variabili analitiche e strutturali, anche se aggregate da dati micro, influiscono sui comportamenti a livello micro dal momento che costituiscono norme statistiche (es. l’età media al matrimonio in una certa regione può avere impatto sulla decisione individuale di sposarsi, il tasso di disoccupazione può avere un impatto su varie decisioni del corso di vita; l’occupazione di madri per età del figlio più piccolo, sistema di tutele dei lavoratori …). In alcuni casi va definito criterio di eleggibilità per il link • per la valutazione di effetti del contesto • per la valutazione di politiche Es. Generations and Gender Programme, analisi multi-level Conclusioni Con il sistema MIDEA-ANVIS-ANFAM si vuole contribuire a rendere disponibile un sistema informativo demo-sociale multifonte, integrato (e ulteriormente integrabile) a livello micro, longitudinale. Questo renderà possibile Sul versante dell’analisi demografica: • il calcolo di indicatori più raffinati per i principali comportamenti demografici sia in un’ottica trasversale (es.tavole multistato) che longitudinale; • L’utilizzo di modelli per l’analisi delle storie di vita; • L’ampliamento della informazione demo-sociale a costi contenuti sia in termini economici che di carico statistico sui rispondenti Sul versante delle innovazioni di processo: • La riprogettazione delle indagini campionarie su famiglie e individui anche in un’ottica longitudinale; • Il supporto alla vigilanza anagrafica e più in generale un contributo di rilievo al processo di innovazione del sistema dei registri di popolazione finalizzato al miglioramento della qualità delle fonti in tutte le sue dimensioni • Il supporto alle attività finalizzate alla realizzazione del censimento continuo