UNIVERSITÀ DEGLI STUDI DI PALERMO FACOLTÀ DI INGEGNERIA DIPARTIMENTO DI INGEGNERIA INFORMATICA CORSO DI LAUREA IN INGEGNERIA INFORMATICA Sistema di interrogazione intelligente di Documenti ufficiali del Parlamento Europeo TESI DI LAUREA DI: RELATORE: Salvatore La Bua Ch.mo Prof. Ing. Salvatore Gaglio CORRELATORI: Ing. Giovanni Pilato Dott. Giorgio Vassallo ANNO ACCADEMICO 2003 - 2004 Salvatore La Bua - http://www.shogoki.it Introduzione L’obiettivo del lavoro svolto e´ la realizzazione di un sistema di recupero automatico di informazioni capace di restituire all’utente documenti del Parlamento Europeo a seguito di interrogazioni in linguaggio naturale. Sfruttare tecniche di Analisi della Semantica Latente per rappresentare le parole in uno spazio semantico. L’Analisi della Semantica Latente (LSA – Latent Semantic Analysis) permette di estrarre e rappresentare il significato delle parole tramite calcoli statistici applicati ad un vasto insieme di documenti. Salvatore La Bua - http://www.shogoki.it Fasi principali Raccolta dei documenti. Conversione dei documenti in puro testo. Elaborazione dei documenti. Realizzazione della matrice delle occorrenze. Decomposizione ai valori singolari della matrice. Codifica vettoriale. Misura della distanza. Scelta della risposta del sistema. Salvatore La Bua - http://www.shogoki.it Elaborazione dei documenti Per poter utilizzare i documenti disponibili nel sito del Parlamento Europeo, e´ necessario: Convertirli in puro testo. Eliminare segni di punteggiatura, caratteri numerici e di formattazione del testo, lasciando soltanto quelli alfabetici. Eliminare parole che non apportano significato aggiuntivo ai documenti (stop-words). Realizzare l’elenco dei termini presenti dei documenti. Salvatore La Bua - http://www.shogoki.it Realizzazione della matrice La matrice delle occorrenze mette in relazione i tutti i termini presenti nell’insieme dei documenti con ciascun documento. Documenti Termini Le righe della matrice identificano i termini. Le colonne identificano invece i documenti. Salvatore La Bua - http://www.shogoki.it Realizzazione della matrice Il valore dell’elemento aij della matrice e´ caratterizzato dal numero di occorrenza del termine i nel documento j. Documenti Termini Salvatore La Bua - http://www.shogoki.it Decomposizione ai valori singolari La matrice di partenza puo´ essere scomposta in tre matrici, secondo la relazione seguente: V’ U A A U V La matrice U conterra´ le codifiche vettoriali dei termini. La matrice V conterra´ invece quelle dei documenti. Salvatore La Bua - http://www.shogoki.it Decomposizione ai valori singolari E´ possibile scegliere la dimensione del troncamento in funzione dei valori singolari contenuti nella matrice diagonale : Troncamento effettuato a dimensione k = 100 7000 6000 5000 4000 3000 2000 1000 0 0 20 40 60 80 100 120 140 160 180 200 Valori singolari della matrice A In questo caso e´ stato effettuato un troncamento a dimensione k pari a 100. Salvatore La Bua - http://www.shogoki.it Decomposizione ai valori singolari Il troncamento a dimensione k permette di ottenere vettori a k componenti per rappresentare sia i termini che i documenti. Ak = Uk · k · Vk’ Ak U k k Vk ' Salvatore La Bua - http://www.shogoki.it Codifica vettoriale Un risultato immediato della scomposizione e´ la disponibilita´ delle codifiche vettoriali dei documenti, contenute nelle righe della matrice Vk. Altre codifiche possono essere ottenute come somma dei vettori dei singoli termini componenti il documento. Per la codifica della richiesta dell’utente e´ possibile procedere come segue: qˆ q U k k 1 Salvatore La Bua - http://www.shogoki.it Misura della distanza Ottenute le codifiche vettoriali della richiesta dell’utente e dei documenti e´ possibile effettuare una misura di distanza tra il vettore della domanda e quelli delle possibili risposte per poter individuare quella piu´ attinente alla domanda stessa. Misura di distanza adoperata: dist q seno parte ortogonale d coseno parte parallela q d cos q , d q 2 d 2 parte ortogonale parte parallela Salvatore La Bua - http://www.shogoki.it Interfaccia del sistema LSA-Bot Il sistema prevede tre modalita´ di funzionamento: Interazione semplice con l’utente. Incremento della base di conoscenza. Recupero di documenti. Salvatore La Bua - http://www.shogoki.it Funzionalita´ principali di LSA-Bot Interazione semplice con l’utente: Incremento della base di conoscenza: Simulazione del dialogo naturale uomo-macchina. Permette al sistema di aggiungere nuovi concetti con i quali puo´ successivamente interagire con l’utente. Recupero di documenti: Effettua ricerche all’interno di una collezione di documenti da mostrare all’utente. Salvatore La Bua - http://www.shogoki.it Sviluppi futuri E´ possibile migliorare il funzionamento del sistema tramite: Tecniche di stemming (recupero della radice dei termini). Introduzione di nuove misure di similarita´. Analisi di un piu´ elevato numero di documenti per la realizzazione dello spazio semantico. Salvatore La Bua - http://www.shogoki.it FINE Salvatore La Bua - http://www.shogoki.it