Modeling, managing and
accessing e-content
Linguistic Computing Laboratory
Prof. Paola Velardi
Aree di ricerca
• Metodologie
– Elaborazione del Linguaggio naturale
– Apprendimento automatico
• Applicazioni
– Modellazione ontologica
– E-learning
– Information Retrieval
Modellazione Ontologica
• Ontologia: una rappresentazione formale e
condivisa di un certo dominio di conoscenza
• Vantaggi:
– Interoperabilità
– Riusabilità
– Accesso facilitato ad informazioni (strutturate e non)
INTEROPERABILITA’ (es.)
ACCOMODATION
Bed&Breack
Resort
Hotel: Hilton Resort
Address: Hill Street, 6
Los Angeles
Description: bla bla
..swimming pool ..bla
bla
DATA COMPONENT
IS_A
NAME
ADDRESS
FACILITY
Street
Sport facility
HAS_PART
City
Room facility
Country
Hotel_name: Pippo’s
Type: B&B
Street: Canale, City:NY
Details: .. private baths…..
Interoperabilità
• L’ontologia consente di identificare i vari
elementi informativi, anche se questi sono
rappresentati mediante strutture dati eterogenee
(es: Indirizzo(via, numero,città,paese) oppure
Indirizzo(campo unico) ) o inclusi in stringhe di
testo.
Accesso facilitato alle informazioni:esempio
CURRICULA
name
Curriculum Vitae Paolo Rossi
……mi sono laureato in Ingegneria elettronica nel..
..ottima conoscenza inglese
..linguaggi di programmazione:
Java, C++ , OWL..
ABILITY
title
skills
computing_skills
linguistic skills
Cerco un ingegnere
con esperienza di programmatore
Accesso facilitato a Informazioni
• L’ontologia consente di annotare parti salienti
del testo, favorendo la classificazione e il
recupero di documenti non basato sul semplice
uso di parole chiave.
Stato dell’arte nell’area
modellazione ontologica
•
•
•
•
•
Linguaggi e formalismi (OWL, DAML+OIL..)
Principi di modellazione concettuale (DOLCE)
Tools per lo sviluppo di ontologie (OntoEdit..))
Popolazione “large-scale” di ontologie
Killer applications
Il sistema Ontolearn per la popolazione automatica
di ontologie di dominio
• RISORSE DISPONIBILI: Esistono in rete alcune grandi ontologie
general purpose (CYC, WordNet,..). Esistono glossari di dominio
(glossari: termini + definizione in LN).
• IPOTESI: E’ possibile costruire automaticamente ontologie di
dominio estendendo e potando ontologie general-purpose, ed
integrando le informazioni nei glossari.
• Metodo 1: interpretazione composizionale. Es: l’interpretazione
semantica del termine information technology si può ricavare
componendo opportunamente i concetti information e technology,
nelle accezioni corrette.
• Metodo 2: “ontologizzazione” dei glossari. Effettuando un parsing
delle definizioni e utilizzando misure di similarità (es. LSI) si può
passare da una struttura piatta ed informale (glossario) ad una
strutturazione tassonomica con (qualche grado di) formalità.
Il sistema Ontolearn per la poplazione automatica
di ontologie di dominio (metodo 1)
Domain Corpus
Extraction of
candidate
terminology
Natural language
processor
Filtering of domain
terminology
Contrastive Corpora and
glossaries
Semantic relation
Annotaton rules
Semantic
Interpretation
Identification of
taxonomic relations
Gloss generation
rules
Domain
Ontology
WordNet+
lexical
resources
Ontology
updating
Domain Concept Forest
Estrazione della terminologia
•
•
Estrae da corpora di dominio stringhe terminologiche :
• Parsing in linguaggio naturale
• Identifica strutture sintattiche tipiche di terminologia
(compounds, gruppi preposizionali)
Filtraggio dei candidati terminologici, usando corpora e
glossari in dominii diversi, per “contrasto”. Usa due
misure basate sul concetto di entropia:
Market analysis
Project partner
RD
• Domain Relevance
CD
• Domain Consensus
D1 ... Di ... Dn
d ... d ... d
1
i
n
Interpretazione semantica delle stringhe
terminologiche: l’idea generale
1. Determina i sensi corretti
memory access
memory,remembering
memory,retention
memory,storage
memory, cognitive psychology
access, the right to obtain
access,approach
access, stored information
Interpretazione semantica delle stringhe
terminologiche: l’idea generale (2)
2. Determina le relazioni semantiche sussitenti
memory,storage
TOPIC
access, stored information
Interpretazione semantica delle stringhe
terminologiche: l’idea generale (3)
• Identifica le relazioni tassonomiche fra concetti
ONTOLOGIA GENERICA
data access
(WordNet)
operation
access, stored information
memory access
multiport memory access
ONTOLEARN
Interpretazione semantica:
Rappresentazione dei concetti mediante grafi
g
ki los
nd s
-o
f
transport#1
person#1
traveler#1
of
kind- of
of kin
dddn
n
i
i
k
of
k
passenger#1
public
protection#2
transport#1 instrumentation#1
glo bus#1
of
ss
haskind
express#2
rt
nd
-pa
ki
g lo s s
ha s
vehicle#1
roof#2
ind
covering#2
(a)
k
school bus#1
has
window#2 framework#3
art
plate glass#1
f
s-p
a
kindh
d-o
of
kin
pane#1
window frame#1
ha s
f
-o
nd
ki
-pa
rt
ha s
-pa
rt
connected#6
ss
glo
ind
s-k
ha
of
of
rtpa
gloss
k in d -
electricity#1
pert
s
electrical#2
os
device#1
gl
inter
kind-of
f
s
s
o
l
d-o
g
n
instrumentality#3
connection#1
i
k
state#4
f
o
d
bus#2
n
ki
conductor#4
gloss
machine#1
f
d-o
has-kind
f
kin connection#2
o
dk in
calculator#2
union#4
computer#1
haselectrical device#1 d-of
kind
(b)
wiring#1
kin circuit#1
kind-of
Lessici computazionale e
risorse lessicali on-line,
analizzati con opportune
tecniche, consentono di
generare, per ogni possibile
senso di ogni termine
“elementare”
un GRAFO S EMANTICO
Interpretazione Semantica:
(1b) Intersezione fra grafi semantici
L’interpretazione corretta per una
certa stringa terminologica viene
determinata identificando la migliore
combinazione di sensi associati a
ciascun componente.
L’algoritmo di interpretazione
semantica si basa sulla ricerca di
specifici pattern di interconnesione,
che vengono descritti mediante una
grammatica context free. I pattern
rossi in figura sono esempi di rule
matches.
f device#1
o
kin
f
d-o
k
f
s
f
o
d
i
o
d
s
n
n
inf
d
k
i
o
-o
d
l
o
k
f
n
g
i
d
k
k
n
conductor#4 i machine#1 k
converter#1 i keyboard#1
n
i
k
d
n
- has-a
d
o
data
busbar#1 f
converter#1
o
ha
f
s-a
computer#1
has-a
a
s
s
glo
terminal#3
s
glo
ss
a
h
display#6
kind-o f
monitor#3
kind _of
kind _of
kind _of
terminal # 3 
 
 device# 1
 machine# 1
 com puter# 1
Ulteriori passi dell’algoritmo
• determina le relazioni concettuali fra concetti componenti un
concetto complesso (memory based learning) ES:
TOPIC
in fo rma tio n# 2
  techn olog y# 1
HAS _ PA RT
c o m p uter# 1 
 
term in al# 3
• struttura i concetti in ordine tassonomico
technology
representation
technology
modelling technology
knowledge modelling technology
•Genera definizioni in linguaggio naturale per i nuovi concetti
(context free grammars), es:
Mailing list : a kind of list, a database containing an ordered
array of items, for the transmission of a letter.
Applicazioni ed esperimenti
• Applicazioni nell’ambito di progetti nazionali
ed europei, nei dominii: computer networks
(Web-learning), tourism (Harmonise), enterprise
interoperability (INTEROP)
• Studio di killer applications: web information
retrieval, e-learning
Scarica

velardi