Intelligenza Artificiale Question Answering Prof. M.T. PAZIENZA a.a. 2001-2002 Question Answering Q/A E’ il processo di estrazione automatica di risposte per domande poste in linguaggio naturale su una collezione di documenti (precedentemente selezionati o meno) ed utilizzando una base di conoscenza Q/A Architettura Un qualunque sistema di Q/A consta dei seguenti moduli: • query processing - elaborazione della domanda • document retrieval - ricerca dei documenti • answer extraction and formulation identificazione della risposta e sua generazione Tipi di sistemi di Q/A Capaci di elaborare domandi “fattuali” (le risposte sono esattamente corrispondenti alla domanda nella loro espressione linguistica nomi propri, parole chiave, …) Capaci di effettuare semplici meccanismi di ragionamento (inferenza per collegare risposte a domande. Es: Come morì Socrate? Socrate bevve succo di cicuta) Capaci di generare risposte da più documenti (Es: Quali avvicendamenti ci sono stati negli ultimi anni tra i dirigenti FIAT) Tipi di sistemi di Q/A Capaci di rispondere in un contesto di successive interazioni (risoluzione di anafore tra contesti diversi) Capaci di rispondere a domande di natura speculativa (Es: L’Italia è fuori dalla recessione economica?) Q/A in TREC-9 Corpus di grandi dimensioni di notizie giornalistiche Domande in classi ristrette Certezza di documenti con risposta nel corpus Risposte lunghe meno di 50 caratteri 5 risposte ordinate per score Processo totalmente automatico Esempi di tipi di domande • What – Basic what • Q: What was the monetary value of the Nobel Peace Prize in 1989? – What who • Q: What costume designer decided that Michael Jackson should wear only one glove? – What when • Q: In what year did Ireland elect its first woman president? – What where • Q: What is the capital of Uruguay? • Who – Q: Who is the author of the book “The Iron Lady: a Biography of Margaret Thatcher”? Esempi di tipi di domande • How – Basic how • Q: How did Socrates die? – How many • Q: How many people died when the Estonia sank in 1994? – How long • Q: How long does it take to travel from Tokyo to Niigata? – How much • Q: How much did Mercury spend on advertising in 1993? – How far • Q: How far is Yaroslavl from Moscow? – How tall • Q: How tall is Mt. Everest? – How rich • How rich is Bill Gates? – How large • How large is the Arctic refuge to preserve unique wildlife and wilderness value on Alaska’s north coast? Esempi di tipi di domande • Where – Q: Where is Taj Mahal? • When – Q: When did the Jurassic Period end? • Which – Which who • Q: Which city has the oldest relationship as sister-city with Los Angeles? – Which when • Q: In which year was New Zealand excluded from the ANZUS Alliance? – Which what • Q: Which Japanese car maker had its biggest percentage of sale in the domestic market? Esempi di tipi di domande • Name – Name who • Q: Name the designer of the show that spawned millions of plastic imitations, known as “jellies”. – Name where • Q: Name a country that is developing a magnetic levitation railway system. – Name what • Q: Name a film that has won the Golden Bear in the Berlin Film Festival? • Why – Q: Why did David Koresh ask for a word processor? • Whom – Q: Whom did the Chicago Bulls beat in the 1993 championship? Q/A moduli principali Parsing of question - Analisi sintattica della domanda per ottenerne un albero sintattico Question analysis - Per formare una query al sistema di IR, vengono estratte unità linguistiche di una solo o di più parole (concept word) Question classification - La domanda è classificata in base alla risposta attesa (nominale, temporale, numerica, di luogo) Q/A moduli principali Segmentation - Per diminuire l’ammontare del testo da elaborare, i documenti sono suddivisi in unità coerenti semanticamente Ranking of segments - Per ciascun segmento, ciascuna frase è valutata rispetto alla vicinanza con la domanda Parsing of segments - Si analizza ciascuna frase dei migliori segmenti trovati Q/A moduli principali Pinpointing - Si confrontano gli alberi sintattici di domanda e risposte, poi si estrae una parte di testo di lunghezza predeterminata per ciascuna frase, si valuta la sua appropriatezza Ranking of answers - Le risposte candidate vengono ordinate per valore Summary of main modules in IR, IE , QA Subsystem Question processing Module Keyword processing IR I Q E A X X Question representation X Answer prediction X Keyword selection X X Keyword expansion X X Document indexing Document indexing X Y X and retrieval Document search and retrieval X Y X Document ranking X Y X Morphological and lexical proc X X Extract relevant passages X X Syntactic parsing X X Name entity recognition X X Document processing Subsystem Module X X Dictionaries X X Domain ontologies X X Domain patterns X Domain coreference X Domain event merging X Patterns X X Complex nlp techniques X X Merge X X Use of world knowledge WordNet Use of domain knowledge Output extracting Output formatting IR I Q E A Answer ranking X Logic prover X Answer justification X Template filling X