Tavola rotonda - Big Data Seconda giornata italiana della statistica 23 ottobre 2012 Domenico Donvito Direttore – Direzione Centrale per le tecnologie dell’informazione e della comunicazione Dato Statistico vs. BIG Data Caratteristiche del Dato Statistico 1. 2. 3. Dimensioni trattabili Acquisizione dei dati in istanti predefiniti Qualità controllata da un processo di elaborazione/produzione definito BIG Data 1. Dimensioni non trattabili con tecnologie tradizionali (tra Peta (10^15) e Exa (10^18)) 2. Acquisizione continua dei dati (stream) 3. Qualità non controllata e processi di elaborazione/produzione (in generale) non definiti 1 BIG Data: Dimensioni • Le tecnologie attuali consentono la risoluzione del problema BIG – Implementazione di metodologie tradizionali attraverso tecnologie Big Data – Ad esempio, record linkage con fase di bloccaggio fatta su architettura hadoop/MapReduce (programmazione per elaborazione distribuita) • BIG è anche un’ opportunità: – Nuove variabili (online sales) non misurate finora – Variabili ausiliarie per stimare meglio i fenomeni o stimarli prima (nowcasting) – Permettere di costruire informazioni che possano servire insieme ai dati per capire i fenomeni (social data mining), correggere e validare le informazioni, aumentare efficienza campionaria, etc.. – Possibilità di scoprire nuova conoscenza, ad esempio relazioni nascoste, nuovi cluster/patterns, ecc. – Controlli di consistenza che sfruttano l’estrema ridondanza delle sorgenti Web 2 BIG Data: Acquisizione Continua • Nuovi indicatori «near-time» basati su dati continuamente aggiornati – Esempio 1: calcolo e monitoraggio continuo di indicatori standard a partire da sorgenti di big data non-standard, ad esempio l'indice di disoccupazione inferito dai profili di attività ottenuti per data mining dei record di telefonia mobile – Esempio 2: calcolo e monitoraggio di nuovi indicatori di benessere/performance sociale a partire da sorgenti di big data non standard (social media, telefonia e navigazione satellitare, social networks, acquisti grande distribuzione) 3 BIG Data: Qualità • Problemi di qualità dei dati a vari livelli: – Qualità del dato, in termini di correttezza, aggiornamento, completezza, etc. – Affidabilità o reputazione della sorgente – Metadati che descrivono come il dato è memorizzato, da dove proviene (provenance), ecc. • Opportunità di migliorare la qualità: – Possibilità di risolvere problemi di missing data attingendo dall’elevato numero di fonti – Possibilità di risolvere problemi di inconsistenza sfruttando la ridondanza delle fonti 4 Ruolo degli INS (1/3) La Statistica «Ufficiale» può attingere ai BIG data? • Si, ma modalità da definire • Esempio: Tecniche di sentiment analysis e opinion mining non direttamente utilizzabili in contesti di statistica «ufficiale» • Il dato di statistica ufficiale è «certificato» dal processo di produzione 5 Ruolo degli INS (2/3) • Necessità di rivedere il ruolo… Documento di vision HLG-BAS (High-level group for strategic developments in business architecture in statistics) ‘We are in a changeover from a society with little or no data available to one that has an abundance of data. In this light we have to rethink our traditional business values and the reasons of our existence. We see other parties making statistics that are akin to ours but much, much quicker (e.g. Google) and on an almost global scale. We also see other very interesting uses of statistics, prompted by the availability of so much data. Another important point is that nowadays it is much easier to get data that cover more than the traditional national statistics users would need. We do not, however, have the mechanisms in place to make full use of these data. The above is a strong indication that we have to rethink our products at the risk of becoming obsolete.’ (Strategic vision of the High-level group for strategic developments in business architecture in statistics, June 2011) • 6 …senza omologarsi ad altri provider di informazione statistica non-ufficiali Ruolo degli INS (3/3) High-Level Group for Strategic Developments in Business Architecture in Statistics (HLG-BAS) Meeting (San Pietroburgo, Ottobre 3-5 2012) Harnessing New Data Sources Key messages • • • Big data is the next big thing….è fondamentale esserci Dont go alone. È una attività su cui gli INS devono sperimentare, scegliere la scala piccola e farlo con gli esperti del mondo IT e di altri mondi dove questi dati sono stati già utilizzati Big data, require filtering. Nel processo di produzione è pensabile che fonti come i big data non entrino direttamente ma trasformate in input più simili a quelli tradizionali (ad esempio archivi amministrativi) attraverso motori che li estraggano e li ricodifichino per “estrarre segnale dal rumore” 7 Stat2015 e Big Data • Stat2015 – Programma pluriennale dell’ISTAT, – Assicurare una regia complessiva dell’intero processo di innovazione, – Sviluppare i progetti in maniera coerente con la visione di lungo termine, – Rendere disponibili infrastrutture comuni o servizi generalizzati e riutilizzabili. • Macro fasi basate su Generic Statistical Business Process Model (GSBPM), condiviso a livello europeo e internazionale • Fase di acquisizione – Dati da rilevazione – Dati da archivi amministrativi – Big Data strategia e investigazioni 8 Big Data - iniziative 9 • Partecipazione a call for proposals Future & Emerging Technologies - FET - Flagships, managed by the European Commission within the 7th Framework Programme • Ruolo - associated partner nel progetto di ricerca "FuturICT‘ • WP1.3 Social data mining and knowledge discovery, coordinated by Dr. Fosca Giannotti, ISTICNR, Pisa, with a the focus on the use of novel sources of "big data" for the construction and monitoring of novel indicators of social well-being • WP2.3 Open world of modelling platform, coordinated by Prof. Dino Pedreschi, University of Pisa, with a focus on the development of novel simulation models for what-if scenarios of social phenomena, such as human mobility, and associated ICT platforms for the construction of analytical and simulation processes Grazie