Tecnologia semantica made in Italy NLP per i problemi di business del mondo reale Nico Lavarini Pisa, 12/10/2013 NLP e Tecnologia Semantica Baseline • Keyword-based / bag-of-words • Primitivo, generale, veloce Avanzato • Shallow linguistic / LSI / statistica avanzata • Approccio sintetico con analisi su grandi volumi • Machine Learning per apprendimento conoscenza 2 NLP e Tecnologia Semantica Perché la tecnologia semantica per NLP? • Analisi approfondita testi • Approccio analitico a fenomeni linguistici 3 Siri (Apple 2011) Combinazione STT / NLP Virtual assistant, capisce e gestisce • Elementi locali (telefono, rubrica, appuntamenti, messaggi) • Conoscenza generica esterna (ricerca, meteo) • Numerosi tipi di query: “meteo”, “invia sms a”, informazioni varie, ricerca Risultato mainstream: cosa mai vista 4 Genio (Virgilio 1999) Genio rispondeva alle domande via web • flusso: analisi linguistica, identificazione elementi, ricerca template e restituzione risposta • Uso generico NLP su web in italiano 13 anni fa 5 Genio (Virgilio 1999) Esempi di query: “che tempo fa a Roma” “voglio info sul circuito di Hockenheim” • no mobile/locale ma web su tanti domini • comprensione NL qualunque Creazione base di conoscenza strutturata usata come repository per le richieste. • Aree coperte: sport, mappe, treni,voli, traffico, meteo, hotel, turismo, nozioni enciclopediche, celebrità, eventi, lavoro, tv, musica, ecc. 6 Chi può farlo Non basta (non serve) forza bruta e risorse • Il problema globale è troppo complesso e ampio Cosa serve? • Altra strategia • Capacità, Competenze • Scelta del compromesso valore aggiunto fattibilità Perché in Italia? • Intelligenza, visione di insieme, capacità di sintesi 7 Machine Learning Machine Learning oggi molto comune • Risorse + $ + hardware + tanti dati danno risultati • TTM veloce, buona qualità in poco tempo ma risultati difficilmente affinabili, molte tecniche sono black-box 8 L’approccio analitico Controllo e sfruttamento fenomeni linguistici porta a comprensione Più faticoso e richiede molte competenze specifiche Compromesso fra analisi puntuale di tutto e fattibilità Migliore nonostante la complessità Permette precisione e qualità più alte (a piacere in certi casi) 9 NLP e qualità La perfezione non è raggiungibile • Anche gli umani interpretano male i testi (e i comandi a voce) • Mutual agreement fra esperti medio ~80% su analisi sintattica/semantica • Grande varietà fenomeni linguistici del mondo reale Long Tail • Coreferenze lunghe, negazioni (multiple), ironia/sarcasmo, conoscenza implicita (world knowledge), pragmatica, ecc. 10 NLP e qualità C'è ancora tanta strada da fare • Mantenere qualità analisi con scarsa qualità dei documenti (social web) • Approcci formali al linguaggio (Generative/Transformational grammars) non funzionano in assoluto • Gestione Long Tail dei fenomeni linguistici 11 Il futuro Sfida: • combinare gli approcci esistenti prendendo il meglio • analisi approfondita usando come base la conoscenza proveniente da sintesi di grandi volumi di testi • Tecnologie Big Data possono aiutare a gestire in maniera efficiente i volumi Fondamentale il passaggio da informazione a conoscenza • Strumenti black box danno informazione difficilmente usabile, serve significato 12 Il futuro Scenari futuri con qualità migliore: • Efficiente integrazione NLP nel ciclo TTS/STT per assistenti vocali • NLP open-domain efficiente (QA, sentiment analysis) su informazioni non strutturate • Semantic network automatiche da dati web (conoscenza, non informazione) • Analisi social media (linguaggi non-standard, scarsa qualità, diverse lingue, conoscenza e cultura implicite) 13 Contacts Grazie Nico Lavarini Chief Scientist [email protected] +39 059 894069 Expert System www.expertsystem.net