Big Data - Sfide e Opportunità. La Prospettiva dell'Intelligenza Computazionale Mauro Castelli Assistant Professor di Intelligenza Artificiale e Apprendimento Automatico - NOVA IMS, Universidade Nova de Lisboa, Portugal Indice • PARTE 1: Introduzione ai Big Data • PARTE 2: Presentazione del Sistema proposto dal mio gruppo di ricerca: un sistema basato sull’intelligenza artificiale per la gestione di Big Data. Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa 2 Parte 1: Big Data: Introduzione Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa 3 Definizione (una delle possibili) Big Data è un termine usato per indicare insiemi di dati così grandi e complessi che non possono essere processati con le tecniche tradizionali di data processing. (Wikipedia) Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa 4 Le “quattro V” dei Big Data Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa 5 Volume Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa 6 Volume Tipico approccio usato in intelligenza artificiale Training Set Learning Algorithm Data Model Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa 7 Volume – Ambiente Dinamico The “Big Data” perspective Training Set 1 Training Training Set 2 Training Set 3 Training Set 4 Set 5 Training Set 7 … Learning Algorithm Training Set 6 Training Set N Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa 8 Volume – Ambiente Dinamico The “Big Data” perspective Training Set 1 Training Training Set 2 Training Set 3 Training Set 4 Set 5 Training Set 7 … Learning Algorithm Training Set 6 Training Set N Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa 9 Volume – Ambiente Dinamico The “Big Data” perspective Training Set 1 Training Training Set 2 Training Set 3 Training Set 4 Set 5 Training Set 7 … Learning Algorithm Training Set 6 Training Set N Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa 11 Volume – Ambiente Dinamico The “Big Data” perspective Training Set 1 Training Training Set 2 Training Set 3 Training Set 4 Set 5 Training Set 7 … Learning Algorithm Training Set 6 Training Set N Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa 12 Volume – Ambiente Dinamico The “Big Data” perspective Training Set 1 Training Training Set 2 Training Set 3 Training Set 4 Set 5 Training Set 7 … Learning Algorithm Training Set 6 Training Set N Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa 12 Volume – Ambiente Dinamico The “Big Data” perspective Training Set 1 Training Training Set 2 Training Set 3 Training Set 4 Set 5 Training Set 7 … Learning Algorithm Training Set 6 Training Set N Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa 14 Volume – Ambiente Dinamico The “Big Data” perspective Training Set 1 Training Training Set 2 Training Set 3 Training Set 4 Set 5 Training Set 7 … Learning Algorithm Training Set 6 Training Set N Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa 15 Volume – Ambiente Dinamico The “Big Data” perspective Training Set 1 Training Training Set 2 Training Set 3 Training Set 4 Set 5 Training Set 7 … Training Set 6 Learning Algorithm Data Model Training Set N Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa 15 Velocity Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa 16 Velocity Vogliamo una risposta adesso! Due obiettivi simultanei: • Accuratezza • Velocità Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa 17 Variety Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa 18 Variety Dati con diversa provenienza e formato differente: grande eterogeneità Le tecniche esistenti non sono in grado di gestire questa eterogeneità! Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa 19 Variety Idea: estrarre solo i dati “rilevanti”! Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa 20 Veracity Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa 21 Veracity I dati possono essere imprecisi, completamente errati, provenire da fonti non sicure. Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa 22 Part 2: Big Data GP Un Sistema di Programmazione Genetica per Big Data Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa 23 Programmazione Genetica Evolutionary Computation Genetic Programming Machine Learning Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa Computational Intelligence 24 Programmazione Genetica Popolazione Iniziale Soluzione ammissibile/modello dei dati Popolazione Intermedia Selezione Operatori genetici ... Miglior modello... Nuova popolazione Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa 25 Perchè la GP? Una-May O'Reilly (head of the the AnyScale Learning For All (ALFA) groupMIT Computer Science and Artificial Intelligence Laboratory) Evolutionary approaches to big-data problems Interview performed by Eric Brown, MIT News, January 14, 2015. Available at: http://newsoffice.mit.edu/2015/una-may-oreilly-evolutionary-approaches-big-data-problems-0114 “L’intelligenza artificiale è particolarmente efficace nell’analizzare i dati storici al fine di prevedere i trend futuri” “Oggi disponiamo di una grande mole di dati, so we […] quindi è necessario migliorare le tecniche computazionali esistenti” “La programmazione Genetica […] è particolarmente adatta nell’affrontare problemi caratterizzati dalla presenza di numerose variabili e da una grande mole di dati” Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa 26 Big Data GP Big Data GP è un Sistema altamente parallelo, organizzato in tre livelli architetturali. Tre livelli di parallelismo: • Inter-Layer (cloud computing) • Intra-Layer (cloud computing) • Population (graphic processing units) Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa 27 Big Data GP Architettura a tre livelli. Ogni livello caratterizzato da centinaia di popolazioni che: • Cooperano (Preprocessing e Learning Layers) • Competono (Configuration Layer). Il modello dei dati è il risultato dell’interazione tra i differenti livelli e/o popolazioni. In quest’ottica, Big Data GP è il primo sistema complesso, basato sull’intelligenza artificiale, pensato per i Big Data. Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa 28 Conclusioni I problemi relativi ai Big Data possono essere mitigati, ma non risolti: • Difficile (impossibile?) ottenere con I Big Data la stessa accuratezza ottenibile con dataset “tradizionali” Nonostante ciò l’uso dei Big Data ha un vantaggio importante: • Permette di estrarre informazioni non presenti in dataset tradizionali, riducendo la possibilità di prendere decisioni errate. Big Data GP è un Sistema promettente in quest’ambito Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa 29 Messaggio Finale Big Data rappresenta Una grande opportunità per le aziende in grado di catturare e analizzare efficacemente la grande mole di dati prodotta quotidianamente al fine di prendere decisioni nell’ambito del loro business, accrescere la competitività e aumentare i profitti. Un grande pericolo per le aziende che non sanno adeguare i loro processi decisionali: i concorrenti avranno un vantaggio competitivo!! Instituto Superior de Estatística e Gestão de Informação Universidade Nova de Lisboa 30 Grazie per l’attenzione! [email protected]