Tecnologia semantica
made in Italy
NLP per i problemi di business
del mondo reale
Nico Lavarini
Pisa, 12/10/2013
NLP e Tecnologia Semantica
Baseline
•
Keyword-based / bag-of-words
•
Primitivo, generale, veloce
Avanzato
•
Shallow linguistic / LSI / statistica avanzata
•
Approccio sintetico con analisi su grandi volumi
•
Machine Learning per apprendimento conoscenza
2
NLP e Tecnologia Semantica
Perché la tecnologia semantica per NLP?
•
Analisi approfondita testi
•
Approccio analitico a fenomeni linguistici
3
Siri (Apple 2011)
 Combinazione STT / NLP
 Virtual assistant, capisce e gestisce
•
Elementi locali (telefono, rubrica, appuntamenti, messaggi)
•
Conoscenza generica esterna (ricerca, meteo)
•
Numerosi tipi di query: “meteo”, “invia sms a”, informazioni varie,
ricerca
 Risultato mainstream: cosa mai vista
4
Genio (Virgilio 1999)
Genio rispondeva alle domande via web
•
flusso: analisi linguistica, identificazione elementi,
ricerca template e restituzione risposta
•
Uso generico NLP su web in italiano 13 anni fa
5
Genio (Virgilio 1999)
Esempi di query:
“che tempo fa a Roma”
“voglio info sul circuito di Hockenheim”
•
no mobile/locale ma web su tanti domini
•
comprensione NL qualunque
Creazione base di conoscenza strutturata usata come
repository per le richieste.
•
Aree coperte: sport, mappe, treni,voli, traffico, meteo, hotel, turismo,
nozioni enciclopediche, celebrità, eventi, lavoro, tv, musica, ecc.
6
Chi può farlo
Non basta (non serve) forza bruta e risorse
•
Il problema globale è troppo complesso e ampio
Cosa serve?
•
Altra strategia
•
Capacità, Competenze
•
Scelta del compromesso valore aggiunto  fattibilità
Perché in Italia?
•
Intelligenza,
visione di insieme,
capacità di sintesi
7
Machine Learning
Machine Learning oggi molto comune
•
Risorse + $ + hardware + tanti dati  danno risultati
•
TTM veloce, buona qualità in poco tempo ma risultati
difficilmente affinabili, molte tecniche sono black-box
8
L’approccio analitico





Controllo e sfruttamento fenomeni linguistici porta a comprensione
Più faticoso e richiede molte competenze specifiche
Compromesso fra analisi puntuale di tutto e fattibilità
Migliore nonostante la complessità
Permette precisione e qualità più alte (a piacere in certi casi)
9
NLP e qualità
La perfezione non è raggiungibile
•
Anche gli umani interpretano male i testi (e i comandi a voce)
•
Mutual agreement fra esperti medio ~80% su analisi
sintattica/semantica
•
Grande varietà fenomeni linguistici del mondo reale  Long Tail
•
Coreferenze lunghe, negazioni (multiple), ironia/sarcasmo,
conoscenza implicita (world knowledge), pragmatica, ecc.
10
NLP e qualità
C'è ancora tanta strada da fare
•
Mantenere qualità analisi con
scarsa qualità dei documenti
(social web)
•
Approcci formali al linguaggio
(Generative/Transformational
grammars) non funzionano in
assoluto
•
Gestione Long Tail dei
fenomeni linguistici
11
Il futuro
Sfida:
•
combinare gli approcci esistenti prendendo il meglio
•
analisi approfondita usando come base la conoscenza proveniente da
sintesi di grandi volumi di testi
•
Tecnologie Big Data possono aiutare a gestire in maniera efficiente i
volumi
Fondamentale il passaggio da
informazione a conoscenza
•
Strumenti black box danno
informazione difficilmente
usabile, serve significato
12
Il futuro
Scenari futuri con qualità migliore:
•
Efficiente integrazione NLP nel ciclo TTS/STT per assistenti vocali
•
NLP open-domain efficiente (QA, sentiment analysis) su informazioni
non strutturate
•
Semantic network automatiche da dati web (conoscenza, non
informazione)
•
Analisi social media (linguaggi non-standard, scarsa qualità, diverse
lingue, conoscenza e cultura implicite)
13
Contacts
Grazie
Nico Lavarini
Chief Scientist
[email protected]
+39 059 894069
Expert System
www.expertsystem.net
Scarica

Expert System