Big Data - Sfide e Opportunità. La Prospettiva dell'Intelligenza
Computazionale
Mauro Castelli
Assistant Professor di Intelligenza Artificiale e Apprendimento
Automatico - NOVA IMS, Universidade Nova de Lisboa, Portugal
Indice
• PARTE 1:
Introduzione ai Big Data
• PARTE 2:
Presentazione del Sistema proposto dal mio
gruppo di ricerca:
un sistema basato sull’intelligenza artificiale
per la gestione di Big Data.
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
2
Parte 1:
Big Data: Introduzione
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
3
Definizione (una delle possibili)
Big Data è un termine usato per indicare insiemi di
dati così grandi e complessi che non possono essere
processati con le tecniche tradizionali di data
processing.
(Wikipedia)
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
4
Le “quattro V” dei Big Data
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
5
Volume
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
6
Volume
Tipico approccio usato in intelligenza artificiale
Training
Set
Learning
Algorithm
Data Model
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
7
Volume – Ambiente Dinamico
The “Big Data” perspective
Training
Set 1 Training
Training Set 2
Training
Set 3
Training Set 4
Set 5
Training
Set 7 …
Learning
Algorithm
Training
Set 6
Training
Set N
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
8
Volume – Ambiente Dinamico
The “Big Data” perspective
Training
Set 1 Training
Training Set 2
Training
Set 3
Training Set 4
Set 5
Training
Set 7 …
Learning
Algorithm
Training
Set 6
Training
Set N
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
9
Volume – Ambiente Dinamico
The “Big Data” perspective
Training
Set 1 Training
Training Set 2
Training
Set 3
Training Set 4
Set 5
Training
Set 7 …
Learning
Algorithm
Training
Set 6
Training
Set N
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
11
Volume – Ambiente Dinamico
The “Big Data” perspective
Training
Set 1 Training
Training Set 2
Training
Set 3
Training Set 4
Set 5
Training
Set 7 …
Learning
Algorithm
Training
Set 6
Training
Set N
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
12
Volume – Ambiente Dinamico
The “Big Data” perspective
Training
Set 1 Training
Training Set 2
Training
Set 3
Training Set 4
Set 5
Training
Set 7 …
Learning
Algorithm
Training
Set 6
Training
Set N
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
12
Volume – Ambiente Dinamico
The “Big Data” perspective
Training
Set 1 Training
Training Set 2
Training
Set 3
Training Set 4
Set 5
Training
Set 7 …
Learning
Algorithm
Training
Set 6
Training
Set N
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
14
Volume – Ambiente Dinamico
The “Big Data” perspective
Training
Set 1 Training
Training Set 2
Training
Set 3
Training Set 4
Set 5
Training
Set 7 …
Learning
Algorithm
Training
Set 6
Training
Set N
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
15
Volume – Ambiente Dinamico
The “Big Data” perspective
Training
Set 1 Training
Training Set 2
Training
Set 3
Training Set 4
Set 5
Training
Set 7 …
Training
Set 6
Learning
Algorithm
Data Model
Training
Set N
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
15
Velocity
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
16
Velocity
Vogliamo una risposta adesso!
Due obiettivi simultanei:
• Accuratezza
• Velocità
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
17
Variety
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
18
Variety
Dati con diversa provenienza e formato differente:
grande eterogeneità
Le tecniche esistenti
non sono in grado
di gestire questa
eterogeneità!
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
19
Variety
Idea: estrarre solo i dati “rilevanti”!
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
20
Veracity
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
21
Veracity
I dati possono essere imprecisi, completamente errati,
provenire da fonti non sicure.
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
22
Part 2:
Big Data GP
Un Sistema di Programmazione
Genetica per Big Data
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
23
Programmazione Genetica
Evolutionary
Computation
Genetic
Programming
Machine Learning
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
Computational
Intelligence
24
Programmazione Genetica
Popolazione Iniziale
Soluzione
ammissibile/modello
dei dati
Popolazione Intermedia
Selezione
Operatori genetici
... Miglior modello...
Nuova popolazione
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
25
Perchè la GP?
Una-May O'Reilly
(head of the the AnyScale Learning For All (ALFA) groupMIT Computer
Science and Artificial Intelligence Laboratory)
Evolutionary approaches to big-data problems
Interview performed by Eric Brown, MIT News, January 14, 2015.
Available at:
http://newsoffice.mit.edu/2015/una-may-oreilly-evolutionary-approaches-big-data-problems-0114
“L’intelligenza artificiale è particolarmente efficace nell’analizzare i
dati storici al fine di prevedere i trend futuri”
“Oggi disponiamo di una grande mole di dati, so we […] quindi è
necessario migliorare le tecniche computazionali esistenti”
“La programmazione Genetica […] è particolarmente adatta
nell’affrontare problemi caratterizzati dalla presenza di numerose
variabili e da una grande mole di dati”
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
26
Big Data GP
Big Data GP è un Sistema altamente
parallelo, organizzato in tre livelli
architetturali.
Tre livelli di parallelismo:
• Inter-Layer (cloud computing)
• Intra-Layer (cloud computing)
• Population (graphic processing units)
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
27
Big Data GP
Architettura a tre livelli.
Ogni livello caratterizzato da centinaia di popolazioni che:
• Cooperano (Preprocessing e Learning Layers)
• Competono (Configuration Layer).
Il modello dei dati è il risultato dell’interazione tra i differenti
livelli e/o popolazioni.
In quest’ottica, Big Data GP è il primo sistema complesso, basato
sull’intelligenza artificiale, pensato per i Big Data.
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
28
Conclusioni
I problemi relativi ai Big Data possono essere mitigati,
ma non risolti:
• Difficile (impossibile?) ottenere con I Big Data la stessa
accuratezza ottenibile con dataset “tradizionali”
Nonostante ciò l’uso dei Big Data ha un vantaggio
importante:
• Permette di estrarre informazioni non presenti in dataset
tradizionali, riducendo la possibilità di prendere decisioni
errate.
Big Data GP è un Sistema promettente in quest’ambito
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
29
Messaggio Finale
Big Data rappresenta
Una grande opportunità per le aziende in grado di catturare e
analizzare efficacemente la grande mole di dati prodotta
quotidianamente al fine di prendere decisioni nell’ambito del loro
business, accrescere la competitività e aumentare i profitti.
Un grande pericolo per le aziende che non sanno adeguare i loro
processi decisionali: i concorrenti avranno un vantaggio
competitivo!!
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
30
Grazie per l’attenzione!
[email protected]
Scarica

Scarica file PDF