Tavola rotonda - Big Data
Seconda giornata italiana della statistica
23 ottobre 2012
Domenico Donvito
Direttore – Direzione Centrale per le tecnologie dell’informazione e della
comunicazione
Dato Statistico vs. BIG Data
Caratteristiche del Dato Statistico
1.
2.
3.
Dimensioni trattabili
Acquisizione dei dati in istanti predefiniti
Qualità controllata da un processo di
elaborazione/produzione definito
BIG Data
1. Dimensioni non trattabili con tecnologie tradizionali
(tra Peta (10^15) e Exa (10^18))
2. Acquisizione continua dei dati (stream)
3. Qualità non controllata e processi di
elaborazione/produzione (in generale) non definiti
1
BIG Data: Dimensioni
• Le tecnologie attuali consentono la risoluzione del
problema BIG
– Implementazione di metodologie tradizionali attraverso
tecnologie Big Data
– Ad esempio, record linkage con fase di bloccaggio fatta su
architettura hadoop/MapReduce (programmazione per
elaborazione distribuita)
• BIG è anche un’ opportunità:
– Nuove variabili (online sales) non misurate finora
– Variabili ausiliarie per stimare meglio i fenomeni o stimarli prima
(nowcasting)
– Permettere di costruire informazioni che possano servire insieme ai dati
per capire i fenomeni (social data mining), correggere e validare le
informazioni, aumentare efficienza campionaria, etc..
– Possibilità di scoprire nuova conoscenza, ad esempio relazioni
nascoste, nuovi cluster/patterns, ecc.
– Controlli di consistenza che sfruttano l’estrema ridondanza delle
sorgenti Web
2
BIG Data: Acquisizione Continua
• Nuovi indicatori «near-time» basati su
dati continuamente aggiornati
– Esempio 1: calcolo e monitoraggio continuo di indicatori
standard a partire da sorgenti di big data non-standard, ad
esempio l'indice di disoccupazione inferito dai profili di
attività ottenuti per data mining dei record di telefonia mobile
– Esempio 2: calcolo e monitoraggio di nuovi indicatori di
benessere/performance sociale a partire da sorgenti di big
data non standard (social media, telefonia e navigazione
satellitare, social networks, acquisti grande distribuzione)
3
BIG Data: Qualità
• Problemi di qualità dei dati a vari livelli:
– Qualità del dato, in termini di correttezza,
aggiornamento, completezza, etc.
– Affidabilità o reputazione della sorgente
– Metadati che descrivono come il dato è
memorizzato, da dove proviene (provenance),
ecc.
• Opportunità di migliorare la qualità:
– Possibilità di risolvere problemi di missing data
attingendo dall’elevato numero di fonti
– Possibilità di risolvere problemi di inconsistenza
sfruttando la ridondanza delle fonti
4
Ruolo degli INS (1/3)
La Statistica «Ufficiale» può attingere ai
BIG data?
• Si, ma modalità da definire
• Esempio: Tecniche di sentiment analysis
e opinion mining non direttamente
utilizzabili in contesti di statistica
«ufficiale»
• Il dato di statistica ufficiale è «certificato»
dal processo di produzione
5
Ruolo degli INS (2/3)
• Necessità di rivedere il ruolo…
Documento di vision HLG-BAS (High-level group for strategic
developments in business architecture in statistics)
‘We are in a changeover from a society with little or no data available to one that
has an abundance of data. In this light we have to rethink our traditional business
values and the reasons of our existence. We see other parties making statistics that
are akin to ours but much, much quicker (e.g. Google) and on an almost global
scale. We also see other very interesting uses of statistics, prompted by the
availability of so much data. Another important point is that nowadays it is much
easier to get data that cover more than the traditional national statistics users
would need. We do not, however, have the mechanisms in place to make full use of
these data. The above is a strong indication that we have to rethink our products
at the risk of becoming obsolete.’
(Strategic vision of the High-level group for strategic developments in business architecture in
statistics, June 2011)
•
6
…senza omologarsi ad altri provider di
informazione statistica non-ufficiali
Ruolo degli INS (3/3)
High-Level Group for Strategic Developments
in Business Architecture in Statistics (HLG-BAS) Meeting (San
Pietroburgo, Ottobre 3-5 2012)
Harnessing New Data Sources
Key messages
•
•
•
Big data is the next big thing….è fondamentale esserci
Dont go alone. È una attività su cui gli INS devono sperimentare,
scegliere la scala piccola e farlo con gli esperti del mondo IT e di altri
mondi dove questi dati sono stati già utilizzati
Big data, require filtering. Nel processo di produzione è pensabile che
fonti come i big data non entrino direttamente ma trasformate in input più
simili a quelli tradizionali (ad esempio archivi amministrativi) attraverso
motori che li estraggano e li ricodifichino per “estrarre segnale dal rumore”
7
Stat2015 e Big Data
• Stat2015
– Programma pluriennale dell’ISTAT,
– Assicurare una regia complessiva dell’intero processo di
innovazione,
– Sviluppare i progetti in maniera coerente con la visione di lungo
termine,
– Rendere disponibili infrastrutture comuni o servizi generalizzati e
riutilizzabili.
• Macro fasi basate su Generic Statistical Business
Process Model (GSBPM), condiviso a livello europeo e
internazionale
• Fase di acquisizione
– Dati da rilevazione
– Dati da archivi amministrativi
– Big Data  strategia e investigazioni
8
Big Data - iniziative
9
•
Partecipazione a call for proposals Future & Emerging
Technologies - FET - Flagships, managed by the European
Commission within the 7th Framework Programme
•
Ruolo - associated partner nel progetto di ricerca "FuturICT‘
•
WP1.3 Social data mining and knowledge discovery, coordinated
by Dr. Fosca Giannotti, ISTICNR, Pisa, with a the focus on the use
of novel sources of "big data" for the construction and monitoring of
novel indicators of social well-being
•
WP2.3 Open world of modelling platform, coordinated by Prof. Dino
Pedreschi, University of Pisa, with a focus on the development of
novel simulation models for what-if scenarios of social
phenomena, such as human mobility, and associated ICT
platforms for the construction of analytical and simulation
processes
Grazie
Scarica

Big Data