ISTITUTO NAZIONALE DI STATISTICA La qualità dell’informazione statistica nell’era digitale Luigi Fabbris Università di Padova Comstat 1 Schema della presentazione 1. 2. 3. 4. 5. Premesse: big data; censimenti continui e anagrafi Qualità dei dati statistici e qualità dei processi di formazione dei dati Le competenze necessarie e la competenza da riconoscere agli statistici Big data vs. big brother: riservatezza vs. democrazia nell’uso dei dati Alcune conclusioni 2 Big data Tanti dati, grazie all’informatizzazione dei servizi sociali e degli scambi economici: dati amministrativi utilizzati a fini statistici (es: comunicazioni obbligatorie del Ministero del Lavoro) Collegamento tra archivi per relazionare informazioni (es: censimento istituzioni non-profit: unite quasi 30 fonti amministrative o statistiche) o per fare archivi più grandi (es: anagrafe nazionale della popolazione) Sistemi informativi invece di indagini statistiche (es: censimento continuo della popolazione) Cambio epocale nella gestione dei dati statistici Nuovi rapporti tra cittadino/impresa/istituzione e informazione pubblica sistemi informativi e SISTAN 3 Qualità dei dati statistici Dimensioni: Validità del processo produttivo delle statistiche: ◦ ◦ Tempestività Economicità Affidabilità del processo: fornire informazioni attendibili Utilità: i dati prodotti devono essere coerenti con le attese degli stakeholder (es: CNUIS) Oppure, semplificando, Efficienza tecnico-economica del processo produttivo (tempestività, economicità, affidabilità) Efficacia dei dati prodotti (utilità) 4 Attendibilità dei dati Copertura dell’insieme atteso ◦ ◦ ◦ Completezza unitaria: tutti i record devono essere presenti Copertura informativa: tutte le variabili inerenti ad un record devono essere presenti Copertura del fenomeno atteso: i dati registrati corrispondono agli obiettivi conoscitivi Corrispondenza al vero delle informazioni riportate: ◦ ◦ ◦ Precisione campionaria: il campione deve essere selezionato secondo metodologia e sufficientemente ampio (si applica alle indagini statistiche) Accuratezza del microdato: i singoli dati registrati devono corrispondere al vero Accuratezza del macrodato: le statistiche pubblicate devono corrispondere al valore atteso (verosimili) 5 Completezza Affermazione: se i dati sono contenuti in una base di dati informatica, sono perfetti. Niente di più sbagliato. Esempio: nel 1981 si confrontarono i risultati del censimento della popolazione con i dati anagrafici: circa 1.500.000 italiani erano sfuggiti al censimento e all’anagrafe ne mancavano circa 930.000; dopo gli aggiustamenti, 2,7% mancava al censimento e un altro 2,7% mancava all’anagrafe. Da 1991, l’Istat non ha più pubblicato i dati sul confronto anagrafe-censimento Ogni statistica è affetta da errore, si può solo cercare di padroneggiare l’errore. 6 Il Sistan: sistema glocal Tanti produttori di dati: se i dati derivano dall’ambito locale, devono transitare dall’Ufficio di statistica per una “certificazione” (validation) Rete di utilizzatori, ad ogni livello, locale e nazionale, inserita in reti internazionali (UE, OECD, ….) Ruolo fondamentale dell’Istat: ◦ ◦ ◦ Codifica dei processi di produzione: passare da record di eventi a record di unità statistiche (es: occupati nelle CO) Metadati, definizioni per analizzare e confrontare Formazione dei certificatori di dati che passano attraverso il Sistan Ruolo nuovo anche per l’accademia ◦ Rimodellare le competenze degli statistici per i nuovi processi di produzione dei dati, cultura della qualità del dato 7 Progetto PLUG_IN PLUG_IN: Professional Life of University Graduates INformation system OBIETTIVO Creare un prototipo di sistema informativo-statistico che descrive carriera universitaria, storia lavorativa (CO) ed economica (UNIEMENS-INPS) dei laureati Sistema informativo = sistema di indicatori statistici OBIETTIVI Informare, ogni anno, sull’efficacia della formazione acquisita dai laureati (valutazione corsi di studio) Misurare il valore sociale restituito dai laureati al mondo del lavoro e della produzione (”quanto vale una laurea?”: orientamento “strategico”) 8 Come è stato creato Plug_In 1. 2. 3. Convenzioni tra Università di Padova e Veneto Lavoro, tra UdP e Ministero del Lavoro, tra MinLavoro e INPS (problema di privacy nell’abbinamento dei record: record anonimizzati) Estrazione dagli archivi universitari dell’annata 2008 di laureati dell’Università di Padova (N=11.770). Collegamento di archivi mediante il Codice Fiscale. È possibile che i laureati siano solo nell’archivio universitario, in questo archivio e in UNIEMENS-INPS, in questi due archivi e tra le CO. Collegamento tra il campione di laureati dell’indagine Agorà dell’Università di Padova (n=4.500) e gli archivi delle CO e dell’INPS, al fine di stimare (per campione) l’attendibilità degli archivi amministrativi (CO e INPS) 9 Plug_In è formato da archivi amministrativi Dati universitari, 2008 CO – MinLavoro, 2008 Versamenti INPS, 2008 CO – MinLavoro, 2009 10 anni di linkage tra archivi per ogni laureato Versamenti INPS, 2009 Versamenti INPS, 2010 CO – MinLavoro, 2010 Versamenti INPS, 2011 CO – MinLavoro, 2010 : : CO – MinLavoro, 2017 Versamenti INPS, 2017 Alcune verifiche di copertura Gli 11.770 laureati sono stati identificati negli archivi delle CO, di UNIEMENS-INPS e Università: CO+INPS: 6.823 (58,0%) Lavoratori dipendenti Solo CO 555 Tirocinanti /stagiaires Solo INPS 1.539 Né CO né INPS 2.853 (4,7%) Lavorava prima della laurea Nessun archivio 832 (17,1%) Re-iscritti Università di Padova Cercano lavoro (7,1%) Studenti iscritti a altra università Lavorano in nero, all’estero per l’estero Morti, usciti dal mercato, suore, ecc. Errori di sistema, rifiuto a collaborare (13,1%) Dipendenti INPS e altro Lavoratori autonomi Collaboratori agricoli Collab. parasubordinati 11 Commenti all’esperimento 1. Nella migliore delle ipotesi, utilizzando tutte le basi informative elementari, anche private, manca 7-9% dei laureati. È un angolo buio degli archivi da spiegare. 2. I database nascono come archivi amministrativi: ogni archivio ha proprie terminologie e classificazioni. L’unità statistica non è la persona, ma un atto amministrativo (es.: Come si definisce un occupato? Notevole differenza tra rilevazioni delle forze di lavoro e CO). È necessario trovare nuove definizioni. 3. All’università interessa sapere se i lavori sono “da laureati”. Non ce lo dicono le CO (a meno che….), si può saperlo dallo stipendio INPS (tuttavia……). Non è ancora possibile sostituire del tutto i dati statistici con quelli amministrativi. 12 Le statistiche private La produzione di statistiche private si sta orientando in modo simile a quello pubblico. Princìpi: Utilizzare in modo efficiente le informazioni interne (sistemi informativi); Procurarsi le informazioni sul mercato attraverso la rete di vendita e della distribuzione (osservazione indiretta); Va svolto solo un numero limitato di interventi mirati per acquisire conoscenza diretta. Imperano, quindi, i princìpi che: le informazioni devono costare tra poco e niente; Bisogna bilanciare osservazione diretta ed indiretta della realtà che interessa. 13 Quindi…. Professionalità dello statistico Il Sistan ha bisogno di disporre di produttori qualificati di dati (statistici) i quali devono essere in grado di garantire il sistema delle statistiche pubbliche: Devono saper riconoscere la qualità dei dati (abitudine ad elaborare dati anche a livello periferico) Devono aver interiorizzato la razionalità dei metadati. Una statistica è di qualità se è stata prodotta da un sistema “in qualità” La formazione dei componenti gli Uffici di statistica può essere la forma di certificazione della qualità del processo di produzione a livello locale Per le statistiche “private” e per quelle “terze”, necessità di certificare i produttori: statistici certificati? 15 Il rischio dell’autoreferenzialità L’Istat ha saldamente in mano l’informazione statistica italiana e, giustamente, reclama l’indipendenza dell’informazione dall’uso. Per questo, è necessario il contatto continuo con gli utenti (CNUIS) e con l’ente di vigilanza (COGIS) La formazione universitaria degli statistici non si è riformata tenendo in conto il cambiamento epocale. Nelle università non s’insegna il metodo dell’indagine e quello dell’utilizzazione statistica di grandi basi di dati. Non si insegna ad utilizzare sia l’informazione diretta che quella indiretta. Bisogno di riflettere, dialogando, con la società che utilizza i dati statistici. 16 Grazie per l’attenzione