Università degli Studi di Modena e Reggio Emilia
Facoltà di Ingegneria di Modena
Corso di Laurea in Ingegneria Informatica
Estrazione di concetti ed analisi di documenti
testuali: progetto e sviluppo dell’applicazione
OKKAM-POP
Relatore:
Prof.ssa Sonia Bergamaschi
Tesi di Laurea di:
Michele Vitali
Correlatore:
Dott. Daniele Cordioli
Anno Accademico 2008/2009
OBBIETTIVI
 Studio del progetto OKKAM, a cui
Expert System partecipa attivamente.
FP7
 Impiego della tecnologia linguistica COGITO®.
 Studio di metodi per Information Extraction.
 Sviluppo dell’applicazione OKKAM-POP.
WEB SEMANTICO
RDF
Inizio: 01/01/2008
Fine: 30/06/2010
PJ_REF: 215032
Costo: 7.359.931 €
OWL
L’AZIENDA EXPERT SYSTEM
 Fondata nel 1989.
 Sedi a Modena, Rovereto, Roma, Napoli e negli USA.
Opera nei settori Knowledge Management e
Natural Language Processing.
 Proprietaria della tecnologia linguistica COGITO®.
Global Mobile Award 2009 con il prodotto COGITO®
Answer (Best billing or custumer care solution).
Clienti: Pirelli, BNL,Vodafone, Eni, Poste Italiane,
RCS Mediagroup, Telecom Italia.
LA TECNOLOGIA COGITO®
 Piattaforma software per analisi linguistica che si
basa sulla rete semantica lessicale SENSIGRAFO®
 Interpreta il linguaggio naturale catturando gli aspetti
• morfologici
• grammaticali
• logici
• semantici
 La DISAMBIGUAZIONE linguistica attribuisce ad ogni
termine il giusto significato in base al contesto:
“Il rapinatore mi ha colpito con il calcio della pistola.”
“Il simbolo del calcio è Ca.”
SCHEMA FUNZIONALE COGITO®
Informazioni
non strutturate
Analisi linguistica
e semantica
DOCUMENTI
COGITO®
E-MAIL
INTRANET
analisi
morfologica
analisi
grammaticale
Informazioni
strutturate
Mappa concettuale
e cognitiva del
linguaggio naturale
Ricerca semantica
analisi logica
Categorizzazione
FLUSSI
INFORMATIVI
analisi semantica
Estrazione delle
informazioni
WEB
SENSIGRAFO®
Intelligence
MOBILE
CONTENT
INFORMATION EXTRACTION
 Selezione di concetti significativi in un testo per la
generazione automatica di metadati:
Algoritmo di estrazione
“Carlo Ancelotti, il nuovo allenatore del Chelsea, ha
tenuto la prima conferenza stampa in lingua inglese.”
Statistico
Basato su OKKAM-POP
regole
Codifica
manuale
Apprendimento
automatico
Grado di automazione
REGOLE DI ESTRAZIONE
PATTERN SINTATTICO
SOS
PNT
ART
AGG
SOS
PRE
SOS
Carlo Ancelotti , il nuovo allenatore del Chelsea …
CONTESTO SEMANTICO
Nome di
persona
Professione
Club
calcistico
Carlo Ancelotti , il nuovo allenatore del Chelsea …
APPLICAZIONE DELLE REGOLE
Tempo
…
…
Giorno – “Durata media
del periodo di rotazione della
Terra attorno al proprio asse.”
Organizzazione
…
…
Colosso – “Azienda
di notevole importanza”
AGG
SOS
SOS
“Nei
“Il colosso
giorni mondiale
scorsi
Intel ha presentato
un un
nuovo
nuovo
prodotto.”
prodotto.”
L’APPLICAZIONE OKKAM-POP
CORPUS
XML
APPLICAZIONE
ETL
DB
APPLICAZIONE
ETL
CORPUS
TXT
(Extract, transform, load)
CORPUS
XML
arricchito
COGITO®
INFORMATION
EXTRACTION
Analisi dei dati con
OKKAM QUERY GUI
e feedback
DATI ESPORTATI NEL DB
DOCUMENTI
ENTITÀ
APPOSIZIONI
SAO (Soggetto, Azione, Oggetto)
PROPRIETÀ COGITO®
CONTESTI DELLE ENTITÀ
LEMMI PRINCIPALI DEI DOCUMENTI
DOMINI ATTRIBUITI AI DOCUMENTI
OKKAM QUERY GUI
ALCUNI RISULTATI
PERSONA
DESCRIZIONE
Maurizio Mattei il designatore unico degli arbitri di serie A
John Griffin
uno scienziato esperto nei sistemi di difesa
Angelo Bottini
Il nuovo soprintendente archeologico di Roma
ORG.
DESCRIZIONE
Ucimu
L' associazione dei costruttori di macchine utensili
Sea
la società di gestione degli aeroporti milanesi
Smat
( Società Metropolitana Acque Torino )
LUOGO
DESCRIZIONE
Taipei
capitale dell' isola di Taiwan
Porto Seguro
una nota località balneare nello stato di Bahia
Genoni
un piccolo paesino in provincia di Nuoro
ALCUNE STATISTICHE
3,985,171
41.488
465,107
Sono stati analizzati
4,000,000
45
3,225,727
3,182,192
1.158.841 articoli
2,967,649
28.623
giornalistici risalenti agli
anni 2005, 2006 e 2007
3,500,000
500,000
40
450,000
3,000,000
400,00035
350,00030
2,500,000
300,00025
2,000,000
1,672,655
250,00020
117,113
TORINO, 18 GIU - I consigli di fabbrica di
Mirafiori hanno deliberato per mercoledì
200,000 due ore di sciopero ''contro lo scalone e gli scalini e la revisione al ribasso dei
1,500,000
15
906,033
promosso una raccolta di firme
150,000 coefficienti'' per il calcolo delle pensioni e hanno
per invitare i segretari generali nello stabilimento Fiat (Fabbrica Italiana Automobili
1,000,000 10
100,000 Torino) prima della conclusione della 625,465
trattativa e per sottoporre l'eventuale intesa al
5
39,754
50,000 voto dei lavoratori. Lo ha reso noto il sindacato Fiom-Cgil. Le Rsu aziendali hanno
500,000
31,847
deliberato unitariamente
due ore di sciopero, per ogni turno, dalle 10 alle 12 e dalle
0
0 14 alle 16, con iniziative fuori dai cancelli. Intanto domani, scioperera' l'Avio Group,
0 ex Fiat Avio, di Rivalta, con corteo fuori dallo stabilimento. ''Il governo e i sindacati
Frequenza
media
diMirafiori
ciascuna
persona
Informazioni
SAO
estratte
ascoltino
i buoni consigli
dei delegati
di
e estratte
usino la PROPRIETÀ
forza che a loro viene
Numero
di persone
distinte
Frequenza
ciascuna
organizzazione
data. Saremo
tutti giudicati media
dall'esito di
di questo
negoziato'',
afferma ®il estratte
segretario
estratte
COGITO
Numero
di
organizzazioni
distinte
estratte
generale della Fiom torinese, Giorgio Airaudo.
8.921
71,546
Frequenza media
di ciascun luogo
Persone
Organizzazioni
Numero
di luoghi
distinti estratti Luoghi
SVILUPPI FUTURI
 Clustering
dei dati per individuare il rumore
all’interno delle estrazioni effettuate.
 Integrazione dei risultati all’interno del progetto
europeo OKKAM.
Grazie per la cortese
attenzione…
Scarica

okkam-pop. - DBGroup - Università degli studi di Modena e Reggio