UNIVERSITÀ DEGLI STUDI DI PALERMO
FACOLTÀ DI INGEGNERIA
DIPARTIMENTO DI INGEGNERIA INFORMATICA
CORSO DI LAUREA IN INGEGNERIA INFORMATICA
Sistema di interrogazione intelligente di
Documenti ufficiali del Parlamento Europeo
TESI DI LAUREA DI:
RELATORE:
Salvatore La Bua
Ch.mo Prof. Ing. Salvatore Gaglio
CORRELATORI:
Ing. Giovanni Pilato
Dott. Giorgio Vassallo
ANNO ACCADEMICO 2003 - 2004
Salvatore La Bua - http://www.shogoki.it
Introduzione



L’obiettivo del lavoro svolto e´ la realizzazione di un
sistema di recupero automatico di informazioni capace di
restituire all’utente documenti del Parlamento Europeo a
seguito di interrogazioni in linguaggio naturale.
Sfruttare tecniche di Analisi della Semantica Latente per
rappresentare le parole in uno spazio semantico.
L’Analisi della Semantica Latente (LSA – Latent Semantic
Analysis) permette di estrarre e rappresentare il significato delle
parole tramite calcoli statistici applicati ad un vasto insieme di
documenti.
Salvatore La Bua - http://www.shogoki.it
Fasi principali








Raccolta dei documenti.
Conversione dei documenti in puro testo.
Elaborazione dei documenti.
Realizzazione della matrice delle occorrenze.
Decomposizione ai valori singolari della matrice.
Codifica vettoriale.
Misura della distanza.
Scelta della risposta del sistema.
Salvatore La Bua - http://www.shogoki.it
Elaborazione dei documenti

Per poter utilizzare i documenti disponibili nel sito del
Parlamento Europeo, e´ necessario:




Convertirli in puro testo.
Eliminare segni di punteggiatura, caratteri numerici e di
formattazione del testo, lasciando soltanto quelli alfabetici.
Eliminare parole che non apportano significato aggiuntivo ai
documenti (stop-words).
Realizzare l’elenco dei termini presenti dei documenti.
Salvatore La Bua - http://www.shogoki.it
Realizzazione della matrice

La matrice delle occorrenze
mette in relazione i tutti i
termini presenti nell’insieme dei
documenti con ciascun
documento.
Documenti
Termini


Le righe della matrice
identificano i termini.
Le colonne identificano invece i
documenti.
Salvatore La Bua - http://www.shogoki.it
Realizzazione della matrice

Il valore dell’elemento aij della
matrice e´ caratterizzato dal
numero di occorrenza del
termine i nel documento j.
Documenti
Termini
Salvatore La Bua - http://www.shogoki.it
Decomposizione ai valori singolari

La matrice di partenza puo´
essere scomposta in tre matrici,
secondo la relazione seguente:

V’
U
A
A  U   V 


La matrice U conterra´ le
codifiche vettoriali dei termini.
La matrice V conterra´ invece
quelle dei documenti.
Salvatore La Bua - http://www.shogoki.it
Decomposizione ai valori singolari

E´ possibile scegliere la dimensione del troncamento in funzione
dei valori singolari contenuti nella matrice diagonale :
Troncamento effettuato a dimensione k = 100
7000
6000
5000
4000
3000
2000
1000
0
0
20
40
60
80
100
120
140
160
180
200
Valori singolari della matrice A

In questo caso e´ stato effettuato un troncamento a dimensione k
pari a 100.
Salvatore La Bua - http://www.shogoki.it
Decomposizione ai valori singolari

Il troncamento a dimensione k permette di ottenere vettori a k
componenti per rappresentare sia i termini che i documenti.
Ak
=
Uk
·
k
·
Vk’
Ak  U k   k  Vk '
Salvatore La Bua - http://www.shogoki.it
Codifica vettoriale

Un risultato immediato della scomposizione e´ la disponibilita´
delle codifiche vettoriali dei documenti, contenute nelle righe
della matrice Vk.


Altre codifiche possono essere ottenute come somma dei vettori
dei singoli termini componenti il documento.
Per la codifica della richiesta dell’utente e´ possibile procedere
come segue:
qˆ  q   U k   k 1
Salvatore La Bua - http://www.shogoki.it
Misura della distanza


Ottenute le codifiche vettoriali
della richiesta dell’utente e dei
documenti e´ possibile
effettuare una misura di
distanza tra il vettore della
domanda e quelli delle possibili
risposte per poter individuare
quella piu´ attinente alla
domanda stessa.
Misura di distanza adoperata:
dist 
q
seno
parte ortogonale
d
coseno
parte parallela
 


q d
cos q , d  

q 2 d
 
2
parte ortogonale
parte parallela
Salvatore La Bua - http://www.shogoki.it
Interfaccia del sistema LSA-Bot

Il sistema prevede tre modalita´ di funzionamento:



Interazione semplice con l’utente.
Incremento della base di conoscenza.
Recupero di documenti.
Salvatore La Bua - http://www.shogoki.it
Funzionalita´ principali di LSA-Bot

Interazione semplice con l’utente:


Incremento della base di conoscenza:


Simulazione del dialogo naturale uomo-macchina.
Permette al sistema di aggiungere nuovi concetti con i quali puo´
successivamente interagire con l’utente.
Recupero di documenti:

Effettua ricerche all’interno di una collezione di documenti da
mostrare all’utente.
Salvatore La Bua - http://www.shogoki.it
Sviluppi futuri

E´ possibile migliorare il funzionamento del sistema tramite:

Tecniche di stemming (recupero della radice dei termini).

Introduzione di nuove misure di similarita´.

Analisi di un piu´ elevato numero di documenti per la realizzazione
dello spazio semantico.
Salvatore La Bua - http://www.shogoki.it
FINE
Salvatore La Bua - http://www.shogoki.it
Scarica

Presentazione Tesi LSA-Bot