Le nuove frontiere nella
gestione della conoscenza
sul Web
Fabio Ciotti
La gestione della conoscenza sul Web

Una delle conseguenze più rilevanti della
diffusione del Web è il problema
dell'information overload

I motori di ricerca full-text generalisti hanno
successo perchè



Richiedono un minimo sforzo dell’utente
(inserire keyword in una semplice form
ed eventualmente raffinare la richiesta
aggiungendo/cambiando parole)
Forniscono risultati rilevanti, numerosi e
“pronti per l’uso”
Ma la ricerca è un’attività costosa e
La gestione della conoscenza sul Web



Un'altra conseguenze della diffusione del
Web è il passaggio dai sistemi informativi
monade ai sistemi aperti e interoperabili
Nei ‘primordi’ del Web la semplicità
dell’architettura (basata su
HTTP/URL/HTML in modalità client side)
forniva sufficienti garanzie per far interagire
senza limiti gli agenti presenti nel sistema
L’introduzione dell’elaborazione server
side…
La gestione della conoscenza sul Web

Al fine di garantire l’interoperabilità
possono adottare due strategie:
 standardizzazione
a priori di architetture e
linguaggi (omogeneità dei sistemi)
 definizione di protocolli di interoperabilità tra
sistemi eterogenei
La gestione della conoscenza sul Web



Un ruolo centrale in entrambi i casi è svolto
dall’introduzione di XML
XML è un formalismo per la modellizzazione di
documenti digitali da pubblicare sul Web
sottoforma di alberi etichettati
In virtù della sua flessibilità sintattica XML è
stato ampiamente adottato come formato di
serializzazione (cioè rappresentazione in forma
di stringa lineare di caratteri codificati) per
modelli di dati non intrinsecamente gerarchici
(reti, grafi, tabelle, strutture relazionali)
La gestione della conoscenza sul Web

I vantaggi di XML in questo campo sono
numerosi





standard aperto
specifiche chiare, complete e abbastanza
semplici da implementare
alto livello di portabilità
possibilità di definire il proprio linguaggio di
rappresentazione formale dei dati
possibilità controllo sintattico/strutturale
rigoroso dei dati codificati
La gestione della conoscenza sul Web




XML infatti si basa sulla associazione di
etichette descrittive ai dati
Etichette e dati sono memorizzati in formato
testuale (stringhe di caratteri codificati in
Unicode)
Sia il vocabolario delle etichette utilizzabili sia la
struttura sintattica che ne regola l’uso possono
essere stabilite a priori mediante la definizione
di uno schema
I dati possono essere validati automaticamente
rispetto allo schema mediante un processo di
parsing
La gestione della conoscenza sul Web


Queste caratteristiche hanno fatto si che XML
assumesse un ruolo centrale nella costruzione
di linguaggi standard per la rappresentazione di
dati e metadati, divenendo una sorta di
esperanto sintattico
Il problema è che XML di per sé non può
giocare nessun ruolo nel garantire il trattamento
semantico (automatica) dei dati, sebbene
spesso si senta affermare il contrario
La gestione della conoscenza sul Web

“XML is a poor language for data modelling if the goal is
to represent information objects in the problem domain
such that they correspond transparently ("one-to-one")
to the user's conceptual model of objects in this
domain.”


XML permette esclusivamente di esprimere semplici
relazioni strutturali:




Robin Cover, XML and Semantic Transparency
gerarchia (A contiene B)
adiacenza (A seguito da B)
co-occorrenza (se A allora [anche/non] B)
Con l’introduzione degli schema language si è
aggiunta la possibilità di tipazione dei valori di elementi
e attributi eguagliando la espressività semantica dei
DBMS
La gestione della conoscenza sul Web


XML non aggiunge senso ai dati, almeno non
lo aggiunge in modo computazionalmente
accessibile/trattabile
L’errore deriva da una sorta di fallacia
interpretazionale dovuta al fatto che



le etichette XML sono leggibili e comprensibili da un
utente umano,
di norma il vocabolario utilizzato nei linguaggi XML usa
termini sensati tratti da una lingua naturale
Ma la semantica del vocabolario XML è del tutto
inaccessibile a un elaboratore XML
La gestione della conoscenza sul Web

Per un parser





<title>Il fu Mattia Pascal</title>
<blob>Il fu Mattia Pascal</blob>
sono entrambi frammenti perfettamente
accettabili
È la mente dell’agente umano che legge il
documento XML a fornire una semantica al
markup…
… eventualmente associandovi una apposita
documentazione in lingua naturale (come il
manuale EAD, TEI, METS, MODS etc…)
La gestione della conoscenza sul Web



Si noti che anche i successivi livelli di elaborazione di un
sistema basato su XML non risolvono il problema
Ad esempio una trasformazione XSLT è in grado di
prendere in input un albero XML A e trasformarlo
nell’albero B, ma di nuovo tutto avviene sulla base
esclusiva di vincoli sintattici e strutturali
Nessuna trasformazione XSLT può introdurre
complessità semantica


ad esempio prendere i nomi unitari in un set di metadati DC e
dividerli in componenti come previsto da MODS…
…a meno di complessi insiemi di regole ad hoc o dell’uso di
vocabolari controllati preesistenti
La gestione della conoscenza sul Web



Perché questo è un problema? Torniamo a considerare il discorso
iniziale sulla centralità dell’interoperabilità e sulle strategie per
conseguirla
Se si sceglie di percorrere la strada della standardizzazione a priori
l’indifferenza semantica di XML (e di qualsiasi altro metalinguaggio
di modellizzazione dati) non sarebbe un problema rilevante
In questo caso infatti una comunità di utenti decide di adottare un
vocabolario




condiviso
definito a priori
con una semantica chiara e prefissata
Chiunque può sviluppare delle applicazione di elaborazione e
scambio dei dati consistenti a tale standard

Si tratta di una pratica ben nota nel mondo delle biblioteche e degli
archivi che sin dai primordi dell’automazione hanno avvertito l’esigenza
di definire modelli di descrizione (oggi le chiameremmo ontologie),
formati, vocabolari controllati per la descrizione semantica
tendenzialmente condivisi: da MARC a Dublin Core, da ISBD a ISAD a
FRBR, dal soggettario LC ai vari thesaura settoriali…..
La gestione della conoscenza sul Web


Tuttavia questa strategia è adottabile solo in
ambienti chiusi e omogenei o in domini ristretti
Non appena il dominio applicativo si estende o
l’ambiente si estende e diviene eterogeneo
(come nel Web) l’uniformità a priori dei
linguaggi descrittivi non è praticabile


sia perché esistono numerosi standard diversi che
insistono sul medesimo dominio
sia perché ci sono profili di adozione e applicazione
diversi del medesimo standard
La gestione della conoscenza sul Web

Si pone dunque l’esigenza di individuare
dei sistemi di interoperabilità semantica
che consentano
 l’integrazione
di sistemi eterogenei
 l’erogazione servizi avanzati di descrizione ed
elaborazione semantica.

In questa direzione si muovono le
sperimentazioni che complessivamente
ricadono nell’area del Semantic Web
La gestione della conoscenza sul Web


Il termine ‘Semantic Web’ è stato coniato nel 2001 da Tim Berners
Lee
Obiettivo: aumentare l’efficacia del World Wide Web come luogo di
elaborazione e scambio di conoscenza attribuendo ad agenti
software la capacità di




analizzare il significato dei documenti in esso presenti,
di selezionarli o confrontarli in modo semanticamente rilevante
di inferirne conseguenze non esplicitate.
Questo obiettivo visto nella sua generalità richiede numerose e
rilevanti innovazioni


sia dal punto di vista tecnico, con la convergenza tra alcune tecnologie
sviluppate nell’ambito della rappresentazione e gestione della
conoscenza in Intelligenza Artificiale e quelle create per implementare
l’architettura del Web
sia da quello dei comportamenti sociali degli utenti, poiché il progetto
richiederà il contributo diffuso dell’intera comunità della rete.
La gestione della conoscenza sul Web



L’idea alla base del Web Semantico consiste nell’associare alle
risorse informative disponibili in varie forme sul Web una
descrizione formale del loro significato
Tale descrizione può essere elaborata autonomamente da un
agente software in modo significativo (cioè tenendo conto di che
cosa essa significhi), così da dedurne conseguenze implicite e
generare automaticamente nuova informazione
Le ricadute applicative di questo progetto sono numerose:





creazione di sistemi di ricerca dell’informazione guidati dalla semantica
interazione multilinguistica uomo-macchina e macchina-macchina
creazione di applicazioni di e-commerce intelligenti
sviluppo di agenti software autonomi
…
La gestione della conoscenza sul Web

Nell’architettura disegnata da Berners-Lee
e dai suoi collaboratori presso il W3C
Consortium, le componenti tecnologiche
che dovranno contribuire alla costruzione
del Web Semantico sono le seguenti
 URI
 RDF
 ontologie
formali (e relativi linguaggi)
 motori inferenziali
La gestione della conoscenza sul Web

Le URI, sono i formalismi che consentono di identificare
le risorse sulla rete.


Una volta che una risorsa sia identificata in modo
univoco è possibile esprimere su di essa asserzioni che




Ogni risorsa – dal singolo documento, a sue parti, a oggetti ed
entità in essi menzionate, a collezioni di documenti – deve avere
un suo identificativo URI, affinché possa essere univocamente
individuata nello spazio informativo costituito dal Web.
ne descrivono il contenuto
o esprimono ciò che un utente pensa su tale contenuto
in generale ne specificano proprietà da vari punti di vista
Queste asserzioni sono informazioni che si riferiscono
ad altre informazioni, ovvero metadati semantici
La gestione della conoscenza sul Web



Naturalmente, affinché i metadati semantici
siano utilizzabili non solo dagli esseri umani ma
anche dai computer, è necessario che vengano
espressi in un linguaggio che sia
computazionalmente trattabile sia dal punto di
vista sintattico sia da quello semantico
È questo il fine del Resource Description
Framework (RDF)
Si tratta di un metalinguaggio dichiarativo per la
formalizzare di asserti (predicati) che esprimono
proprietà di e relazioni tra risorse
La gestione della conoscenza sul Web

L’architettura di RDF è basata su tre concetti:


Risorse: tutto ciò che viene descritto. Ogni risorsa è
identificata da un URI (può essere anche un oggetto non
accessibile dal Web)
Proprietà: una coppia attributo-valore associata alla risorsa.





Ogni proprietà ha un significato specifico
una serie di valori leciti
è associabile ad uno o più tipi di risorsa
Proprietà e i valori possono essere espresse da URI ma anche
da valori letterali
Asserzioni (statement): l’associazione di una proprietà a una
risorsa


Ogni asserzione ha una struttura “soggetto” - “predicato” “oggetto”
In RDF sono consentite solo relazioni binarie
La gestione della conoscenza sul Web
Fabio Ciotti
è l’autore di
“http://www.laterza.it/internet/leggi/internet2004/index.htm”:
«La proprietà “Autore” della risorsa
“http://www.laterza.it/internet/leggi/internet2004/index.htm” vale “Fabio Ciotti”»
http://www.laterza.it/internet/leggi/internet2004/index.htm
Risorsa
Autore
Proprietà
Fabio Ciotti
Letterale
La gestione della conoscenza sul Web


L’architettura prevista da RDF si divide in due parti:
Resource Description Framework (RDF) Model and Syntax
Specification – le cui specifiche sono state rilasciate come
raccomandazioni definitive nel febbraio 1999 – definisce





il modello dei dati
la sintassi di RDF, basato su XML (ma è stata sviluppata una notazione
più compatte per esprimere asserzioni RDF, Notation 3)
RDF di per sé non fa alcuna assunzione circa il vocabolario
specifico o la tipologia delle proprietà che si possono attribuire e
delle relazioni tra tali proprietà
A tale fine occorre definire un RDF Schema, la seconda parte
dell’architettura RDF (RDF Vocabulary Description Language 1.0:
RDF Schema)
Una volta che uno schema è stato definito formalmente e
pubblicato, chiunque può adottarlo e utilizzarlo per costruire
descrizioni RDF dei propri documenti
La gestione della conoscenza sul Web





Potranno esistere numerosi schemi, basati su diverse
concettualizzazioni di particolari domini, su diverse nomenclature e
su diverse lingue
Occorre un sistema per specificare le relazioni logico-semantiche
(equivalenza, specificazione, generalizzazione, istanziazione,
cardinalità etc.) tra oggetti e proprietà di un medesimo schema e di
schemi diversi
Ad esempio, in un schema la relazione di ‘autorialità’ potrà essere
indicata con il termine ‘author’ – che fa parte della classe ‘creator’ –
in funzione di soggetto, il cui oggetto è una certa risorsa
In un altro potremmo avere che il soggetto è il documento di cui si
predica la proprietà ‘essere scritto da’ un esponente della classe
‘responsabili intellettuali’ caratterizzato dalla proprietà ‘primario’
Evidentemente si sta parlando dello stesso insieme di individui e
relazioni (un dominio), ma in modo diverso
La gestione della conoscenza sul Web


Le ontologie formali sono un sistema ideato
per definire formalmente domini concettuali e
indicare in che modo essi sono espressi da
schemi logici e nomenclature differenti
Esistono numerosi linguaggi formali per
specificare ontologie. In particolare nel contesto
del progetto Web Semantico è stato sviluppato
il Web Ontology Language (OWL), derivato
dal DARPA Agent Markup Language
(DAML+OIL)
La gestione della conoscenza sul Web

OWL si divide in tre livelli a seconda della capacità espressiva

OWL Lite





principalmente rivolto alla formalizzazione di tassonomie gerarchiche e thesaura
permette di esprimere solo cardinalità zero o uno
esclude alcuni costrutti che esprimono relazioni tra classi (disgiunzione, unione,
istanziazione…)
facilmente implementabile in sistemi inferenziali
OWL Description Logic


basato sul modello delle description logic (una formalizzazione logica decidibile e
computabile del concetto informale di rete semantica e frame dotata di una semantica
formale completa)
include tutti i costrutti di OWL, ma fornisce alcuni vincoli sul loro uso.
•


una classe può essere sottoclasse di una classe, ma non istanza di una classe; non si possono
esprimere restrizioni di cardinalità per proprietà transitive
notevole espressività mantenendo la completezza computazionale e la trattabilità
OWL Full




OWL Full serve per quegli usi in cui è necessaria la massima espressività e la libertà
sintattica di RDF senza nessuna garanzia computazionale.
in OWL Full i livelli si mescolano, ed è lecito trattare una classe simultaneamente come
una collezione di individui e come un individuo a sé stante.
attraverso OWL Full un’ontologia può arricchire il modello semantico predefinito dai
vocabolari di RDF e OWL.
non è decidibile (equivalente a logica dei predicati) e dunque difficilmente
implementabile
La gestione della conoscenza sul Web



Una architettura alternativa a RDF/SOWL, ma dotata di funzioni e scopi simili,
è quella delle Topic Map
Topic Map è uno standard definito dalla
ISO (ISO 13250)
Nasce come meccanismo per la
rappresentazione di tassonomie e reti
concettuali cui associare come istanze
risorse informative sia off-line sia on-line
La gestione della conoscenza sul Web




Una topic map è costituita da un insieme di soggetti (i concetti astratti)
che vengono rappresentati sottoforma di topic (i concetti oggettivati o
reificati)
Ogni topic ha uno o più nomi ma esprime uno e un solo soggetto (cui può
essere formalmente collegato)
Ogni topic può essere istanziato da una o più risorse informative
(occorrenze)
Ogni topic può essere inserito in diverse relazioni (associazioni) con altri
topic
La gestione della conoscenza sul Web

A differenza di RDF
 in
TM le associazioni (relazioni) possono
essere n-arie
 ci sono delle relazioni predefinite in TM che
consentono di esprimere
rapporti classe/sottoclasse
 rapporti tipo/istanza

 ci
sono costrutti per esprimere direttamente il
tipo di una topic o il ruolo che svolge in una
associazione
La gestione della conoscenza sul Web



Una TM costituisce dunque la formalizzazione
di una rete concettuale collegata all’insieme
delle risorse informative che veicolano tali
concetti.
Anche le TM hanno una sintassi di
serializzazione XML (XTM) e una non XML
(Linear Topic Map)
È in corso di sviluppo un linguaggio per le
espressione di restrizioni ontologiche su topic e
associazioni (TMCL) e uno per l’interrogazioni
di Topic Map (TMQL)
La gestione della conoscenza sul Web



Molti esperti nutrono non pochi dubbi sul fatto
che l’architettura del Web Semantico, almeno
nella sua versione più ambiziosa e universale,
potrà mai trasformarsi da sogno a realtà
Diverso il discorso relativo all’applicazione di
tecnologie di Semantic Web a domini circoscritti
e limitati, che già iniziano a essere sperimentate
e implementate
Tra queste applicazioni locali di particolare
interesse possono essere quelle nel dominio
della biblioteche e degli archivi digitali
La gestione della conoscenza sul Web

sistemi di organizzazione e reperimento su
collezioni locali o distribuite basati sulla
semantica





si veda AustLit http://www.austlit.edu.au/
il progetto di una ontologia della letteratura Italiana di
Bibit per generi, temi, cronologia
integrazione di metadati da fonti informative
distribuite che adottano schemi descrittivi o
semantici diversi (OAI + semantic web)
estensione della funzione dell’authority control
authority file come rete semantica
La gestione della conoscenza sul Web



Problemi aperti
1) esistono possibilità di interoperabilità
tra i due paradigmi RDF/OWL e TM?
2) come popolare una rete
concettuale/ontologia di vaste
dimensioni?
La gestione della conoscenza sul Web



L’interoperabilità tra TM e RDF è oggetto di numerose
proposte teoriche e tecniche
La risposta in generale è….
“Si anche se la cosa non è così semplice!!!”

Si veda il rapporto A Survey of RDF/Topic Maps Interoperability
Proposals, http://www.w3.org/TR/rdftm-survey/
La gestione della conoscenza sul Web



Sviluppare e popolare ontologie è faticoso e costoso, ma….
…se lo sviluppo del livello ontologico vero e proprio richiede
necessariamente un intervento umano di concettualizzazione e
formalizzazione…
..la costituzione di relazioni di istanziazione tra risorse e concetti
può essere parzialmente automatizzata



1) adozione di tecnologie di data mining, clustering e knowledge
discovery su vaste masse documentali (si veda il progetto NORA Webbased Text-Mining and Visualization for Humanities Digital Libraries
della University of Illinois diretta da John Unsworth http://www.noraproject.org/)
2) definizione di un vocabolario controllato di parole chiavi da adottare
come descrittori semantici tradizionali che poi vengono collegati a una
rete concettuale o a una ontologia formale in grado di fungere da base
per processi inferenziali
3) integrazione di sistemi basati su schemi formali con Folksonomies...
una strada la cui fattibilità tecnica resta da esplorare che presenta in
particolare la criticità della gestione di inconsistenze su vasta scala