La genesi del
Web Semantico
Prof. Angelo Chianese
Ingg. Antonio Penta, Vincenzo Moscato
I limiti dell’attuale World Wide Web

L’affermazione di Internet come rete globale di
comunicazione ha fatto emergere


la necessità di modalità di interazione superiori a
quelle offerte dalle pagine del World Wide Web
i limiti esistenti nella ricerca di informazioni in rete

es., chi si cimenta per lavoro o per studio nella
ricerca di informazioni in rete si scontra con i
seguenti limiti:




Tipologia delle ricerca di documenti
Difficoltà della ricerca di informazioni
Carenza di integrazione delle informazioni
Bassa cooperazione tra le applicazioni
Tipologia della ricerca di documenti nel
Web attuale

Oggi il Web è in gran parte un grande sistema di
interconnessione di documenti nei quali cercare le
informazioni desiderate, per trovare un documento in
rete due sono le strade percorribili:




seguire i collegamenti da una pagina all’altra fino a
trovare quello che serve
servirci di un motore di ricerca per ottenere una lista di
collegamenti tra i quali scegliere quelli di interesse
Mentre l’efficacia della ricerca nel primo caso, dipende
da chi ha organizzato e programmato i contenuti del
sito, nel secondo dipende dagli algoritmi usati dai
motori di ricerca per classificare le informazioni
Il primo approccio è tuttavia stimolante da un punto di
vista cognitivo in quanto richiede uno sforzo di
comprensione del contenuto del documento dalla sua
descrizione e da altre informazioni di contesto

…ma è dispendioso in termini di tempo e spesso può
essere dispersivo
Caratteristiche dei motori di ricerca per
l’accesso ai documenti

Il motore di ricerca ha il grande vantaggio di
richiedere pochissime informazioni per dare avvio
alle ricerche


…ma circa l’80% dei contenuti del Web non sono
classificati perché non ancora analizzati o non
analizzabili per motivi di tipo tecnico
la ricerca può essere scoraggiante sia per i falsi
positivi che per i falsi negativi


nel primo caso i documenti restituiti dal motore di
ricerca contengono la parola chiave inserita all’atto
della ricerca, ma poco hanno a che fare con ciò che
interessa
nel caso dei falsi negativi rientrano invece quei
documenti con contenuti di interesse che non vengono
individuati perché, ad esempio, contengono non
esattamente la parola chiave immessa
Difficoltà della ricerca di informazioni
nel Web attuale

Un altro limite del Web attuale è che:

i risultati delle ricerche, comunque siano state
condotte, riguardano interi documenti e non la
specifica informazione cercata
 …al lavoro di ricerca dei documenti dovrà far
seguito quello di estrazione delle informazioni
desiderate da uno di essi o da più di essi

se, ad esempio, siamo interessati alle opere del
Leonardo realizzate in uno specifico anno,
dovremo sicuramente cercarle ed estrarle dalla
moltitudine di documenti che sul grande artista
sono presenti in rete…
Carenza di integrazione delle
informazioni nel Web attuale

Ancora più complesso è il caso in cui serve
combinare informazioni diverse che sono tra loro
in relazione

solitamente ogni informazione si trova in documenti
diversi e una volta estratta va integrata con tutte le
altre

…non è possibile ancora sapere dal Web con una sola
interrogazione quando ha inizio un film e a che ora
parte il treno della metropolitana per raggiungere il
cinema


per ottenere l’informazione desiderata si deve prima
scegliere il film nel Web del cinema, e successivamente
combinarla con quella che si estrae dal Web degli orari
della metropolitana
Non esistono ancora applicazioni per il web in
grado di combinare informazioni provenienti da
fonti diverse in modo da risolvere uno specifico
problema
Bassa cooperazione tra le applicazioni
nel Web attuale

La maggior parte dei siti web non sono progettati
per interagire tra loro o con altre applicazioni


la quasi totalità dei siti è da considerare come dei
contenitori di informazioni che vengono erogate a
fronte di una richiesta di un utente
se il Web venisse progettato per fornire servizi ad
altri servizi, consentendo la cooperazione sia tra
programmi che tra programmi ed utenti, allora si
assisterebbe ad una più pervasiva diffusione di
Internet

…quando il Web sarà dotato di tali potenzialità sarà
possibile, ad esempio, prendere appuntamento con il
chirurgo per un intervento, prenotare il posto letto in
ospedale, fissare il volo aereo per raggiungere
l’ospedale, ottenere un prestito dalla banca a
copertura delle spese, con una sola operazione

saranno le applicazioni di gestione dell’ospedale, della
compagnia aerea, della banca a parlarsi tra loro per
fornire la soluzione al problema indicato
Il Web Semantico

In un articolo pubblicato nel maggio del 2001 sulla prestigiosa
rivista Scientific American, Tim Berners-Lee (uno degli
“inventori” dell’attuale World Wide Web), James Hendler e
Ora Lassila scrivono:


Il Web Semantico non è la proposta di un Web diverso o
alternativo all’attuale, ma vuole essere la risposta ai limiti
riscontrati proponendosi come sua estensione in grado di
aumentarne enormemente le potenzialità


“Il SemanticWeb è un’estensione dell’attuale Web, nella
quale all’informazione viene dato un significato ben
definito, permettendo così ai computer e alle persone di
lavorare meglio in cooperazione”
ciò che differenzia il Web Semantico dal semplice Web è la
possibilità di associare una semantica ai dati che sono contenuti
nella rete, rendendone espliciti i relativi significati.
Il Web Semantico è un’architettura in cui non solo sono
presenti testi ma meta informazioni e affermazioni che
esprimono relazioni tra oggetti, risorse, fatti, e che possono
essere utilizzate anche da applicazioni automatiche
Gli obiettivi del Web Semantico (1)

Il Web Semantico è un ambizioso progetto teso a
definire una piattaforma concettuale e tecnologica per
supportare su scala globale processi comunicativi
significativi




uomo-uomo
uomo-macchina
macchina-macchina
Gli obiettivi del Web Semantico possono riassumersi in:





definizione di meta informazioni per rendere il Web
processabile dalle applicazioni
interoperabilità sintattica per garantire ad applicazioni
diverse di leggere gli stessi dati
interoperabilità semantica per garantire ad applicazioni
diverse di comprendere gli stessi dati
potere espressivo universale per la rappresentazione
univoca delle meta informazioni
ricerca dei documenti basata sul significato di un concetto
o di più concetti legati tra loro
Gli obiettivi del Web Semantico (2)

Le applicazioni future del Web Semantico
potranno riguardare diversi campi



esso sarà utile nel commercio elettronico in
quanto faciliterà la comunicazione fra cliente e
venditore, garantendo l’uniformità del mercato
potrà potenziare gli attuali motori di ricerca
aggiungendo tutti i vantaggi derivanti
dall’introduzione della semantica
migliorerà il reperimento dei servizi presenti su
Internet
L’architettura del Web-Semantico (1)

Il Web semantico è
costruito attraverso strati
sovrapposti che permettono
di raggiungere i vari
obiettivi che si prefigge,
ogni strato usa o estende
gli strati precedenti




Al primo livello si trovano i
dati
al secondo le informazioni
sui dati e le relazioni che
intercorrono tra essi, ossia
i meta dati
al terzo i vocabolari
(ontologie) che definiscono
il ruolo semantico dei meta
dati
all’ultimo le regole per
ragionare sui dati
disponibili
L’architettura del Web-Semantico (2)

L'idea del web semantico si basa
sull’utilizzo di schemi per descrivere
domini di informazione


dei meta dati devono mappare i dati rispetto a
classi, o concetti, di questo schema di dominio
Gli aspetti innovativi del Web Semantico
sono rappresentati dall’introduzione di
due elementi fondamentali:


le ontologie
i meta dati e le annotazioni semantiche
Le ontologie nel Web Semantico

Un’ontologia è la concettualizzazione di un determinato
campo di interesse, ovvero un modello astratto e semplificato
del dominio che si vuole rappresentare


può essere considerata una gerarchia tassonomica di classi,
ognuna delle quali descrive un concetto sulla base delle sue
proprietà, caratteristiche e attributi
…inoltre viene aggiunta la possibilità di formulare assiomi tra le
varie classi


L’insieme di ontologia e delle istanze costituisce la conoscenza di
base (knowledge base)


che possono contenere un insieme di istanze, che possono essere
considerate come elementi che soddisfano le caratteristiche di quel
concetto.
ogni classe può essere formata da più sottoclassi che individuano
concetti più specifici
La definizione di ontologia va oltre la semplice classificazione,
permettendo di stabilire anche relazioni incrociate fra i
concetti che la compongono o con quelli relativi ad altre
ontologie.

lo scopo primario di un’ontologia è quello di permettere la
condivisione e il riutilizzo della conoscenza
Esempio di Ontologia


Viene rappresentata
graficamente con un albero
nei cui nodi si collocano le
classi
La classificazione delle
automobili può essere un
primo esempio di ontologia
in cui i nodi rappresentano
una classe indicativa di un
differente tipo di
automobile con attributi
tipo il colore, le prestazioni,
il numero di posti, etc..

un esempio di istanza della
classe Multipla potrebbe
essere l’automobile
acquistata dal professore
Chianese
I metadati e le annotazioni per il Web
Semantico


Il web è strutturato in componenti che vengono detti risorse e
identificati univocamente da un indirizzo detto URI (Uniform
Resource Identifier)
Solitamente una risorsa viene detta “documento” se si vuole
sottolineare il fatto che è leggibile da un essere umano, o
“oggetto” quando a leggerla è una macchina, qualunque sia il
termine utilizzato, la risorsa non è una entità a sé, ma è
accompagnata da informazioni che la descrivono



Le annotazioni rappresentano un metodo per inserire o
associare meta dati ad una risorsa


le informazioni sulla risorsa vengono generalmente dette Meta
dati
i meta dati sono quindi informazioni, comprensibili dalla
macchina, relativi a una risorsa web
Esse costituiscono lo strumento principale del Web Semantico in
quanto permettono di introdurre la semantica per descrivere il
contenuto dei documenti web, con il supporto delle ontologie
Va tenuto presente che i meta dati sono dati, e pertanto
possono essere:


memorizzati come dati, in una risorsa che può contenere sia
informazioni relative a se stessa o ad un’altra risorsa
descritti da altri meta dati
Un esempio… (1)

Se consideriamo come risorsa l’URL
http://www.dol.unina.it

… e selezionamo come meta dati:
Autore
 Titolo
 Descrizione
 Keywords


si intuisce la loro importanza nel
processo di annotazione dei documenti
web
Un esempio… (2)

Se poi specifichiamo le seguenti
asserzioni:



Autore = “Angelo Chianese”
Keywords = “Teledidattica”
e, dall’ontologia di dominio, ci accorgiamo
che teledidattica è una forma di eelarning e che Angelo Chianese è un
docente della Federico II, si va ad
esplodere ancora di più il contenuto
informativo della risorsa e si possono
investigare le possibili relazioni sematiche
con altre risorse presenti nel web
La promozione del Web Semantico

Il termine Web Semantico è stato proposto per la
prima volta nel 2001 e da allora è stato associato
all'idea di un Web nel quale agiscano agenti intelligenti:


applicazioni in grado di comprendere il significato dei testi
presenti sulla rete e perciò in grado di guidare l'utente
direttamente verso l'informazione ricercata, oppure di
sostituirsi a lui nello svolgimento di alcune operazioni
Il Web Semantico è oggi un grande progetto di ricerca
promosso dal consorzio W3C con l’intento di ridefinire e
ristrutturare i dati sul Web in modo che il loro
significato sia accessibile non solo a utenti umani ma
anche, e forse soprattutto, a programmi capaci non
solo di visualizzarli ma di manipolarli, integrarli,
renderli disponibili per altri programmi
Il World Wide Web Consortium o W3C


Il World Wide Web Consortium, o W3C è un consorzio
che sviluppa tecnologie per portare il Web al massimo
del suo potenziale, definendo protocolli comuni che ne
favoriscano l’evoluzione e assicurino l’interoperabilità
Il consorzio è impegnato per rendere il Web accessibile
a tutti


…promuovendo lo sviluppo di un ambiente software che
consenta ad ogni utente di fare il miglior uso possibile
delle risorse disponibili sul Web e tenendo in attenta
considerazione gli aspetti innovativi che questa tecnologia
solleva in campo legale, commerciale e sociale.
Il W3C considera il Web Semantico come la naturale
evoluzione del Web dal machine representable
(rappresentabile dalle macchine) al machineunderstandable (compreso dalle macchine)
L’azione del W3C

I principi e gli obiettivi dell’azione del W3C sono riassumibili in
sette punti:
1.
2.
3.
4.
5.
6.
7.
Accesso Universale per rendere disponibili i benefici del Web a
chiunque, qualsiasi sia il loro hardware, software, infrastruttura di
rete, linguaggio nativo, cultura, localizzazione geografica o abilità
fisica/mentale
Web Semantico per esprimere le conoscenze del Web con
terminologie e modalità che i computer possono interpretare e
interscambiare
Fiducia per accrescere la confidenza con il web e rendere possibile
responsabilizzare le persone che pubblicano contenuti nel web
Interoperabilità per creare e promuovere linguaggi e protocolli
aperti (non proprietari) che consentano di diminuire la
frammentazione del mercato riscontrata negli anni precedenti
Evolvibilità per consentire evoluzioni in modo semplice in un web
migliore, senza interrunzione con quanto già prodotto
Decentralizzazione per limitare l'accentramento delle informazioni
evitando problemi di congestione del traffico dati e riducendo la
vulnerabilità della struttura di Internet
Multimedialità più eccitante
Le Raccomandazioni del W3C (1)


Le Raccomandazioni del W3C sono il risultato di
un processo lungo e cooperativo, regolato dal
Process Document, che prevede una serie di passi
e di documenti prodotti
Anche se Network Computing cita il W3C nella sua
lista dei "Ten Most Significant Standards Groups",
dal punto di vista formale il W3C non è un organo
di standardizzazione

…tuttavia, va riconosciuto che il W3C è una
comunità di membri che cooperano
spontaneamente per definire le linee guida e le
specifiche, verificando che esse siano realmente
implementabili, e mantiene stretti contatti con gli
organi di standardizzazione e con gli User Forum.
Le Raccomandazioni del W3C (2)

Il W3C ha individuato alcuni domini di attività, che hanno comunque
una significativa interazione tra di loro





Architecture. Sviluppa le tecnologie di base del Web, potenziandone l’
infrastruttura e migliorandone l’ automazione
Document Formats. Opera sui formati e i linguaggi utilizzati per presentare
le informazioni agli utenti in modo accurato, piacevole e con un adeguato
livello di controllo
Interaction. Mira a migliorare l’interazione degli utenti con il Web. Questo
comporta sviluppi sui formati e i linguaggi per presentare l’ informazione
con maggiore accuratezza e più elevato livello di controllo
Technology and Society. Cerca di sviluppare l’ infrastruttura del Web per
affrontare i problemi di tipo sociale e politico. La crescita esponenziale del
Web ha costretto la comunità del Web a considerare gli aspetti etici e legali
in una prospettiva internazionale. Il Technology and Society Domain cerca di
comprendere questi problemi alla luce della nuova tecnologia, sia
modificandola, sia formando gli utenti su benefici, costi e limiti della
tecnologia
Web Accessibility. L’ impegno del W3C per portare il Web al massimo del
suo potenziale prevede la promozione di un elevato grado di usabilità per le
persone portatrici di handicap. La Web Accessibility Initiative (WAI)
persegue l’ obiettivo di una maggiore accessibilità operando in cinque
settori: tecnologia, linee guida, strumenti, formazione e promozione, ricerca
e sviluppo
Il Web semantico nella visione del W3C

Il Semantic Web è un ambiente
dichiarativo, in cui si specifica il
significato dei dati e non il modo in cui
si intende utilizzarli

la filosofia di base è quella di uno spazio
informativo universale in cui ogni risorsa
è identificata da un URI (Uniform
Resource Identifier)

nella struttura appare evidente il
ruolo giocato da XML (con Name
Space e xmlschema) e la centralità
di RDF e RDF Schema, che
costituiscono il linguaggio per
descrivere le risorse e i loro tipi

al di sopra di questo strato si pone
il livello ontologico nel quale
vengono descritte le relazioni tra i
tipi di elementi senza però fornire
informazioni su come utilizzare
queste relazioni dal punto di vista
computazionale

la firma digitale (digital signature)
è di significativa importanza nei
diversi strati del modello per
stabilire la provenienza delle
ontologie e delle deduzioni, oltre
che dei dati permettendone il
riconoscimento e l’accettazione
come credibili fissando il livello di
fiducia nei risultati forniti dal Web

al livello superiore si trova il livello
logico nel quale si collocano le
asserzioni che possono essere
utilizzate per derivare nuova
conoscenza.
XML




Il linguaggio XML (Extensible Markup Language) si sta
dimostrando il mezzo espandibile e flessibile per modellare il
Web e per tali motivi è stato individuato dal W3C come la
tecnologia chiave nello sviluppo del Web Semantico
La centralità di XML nell' architettura del Web è provata anche
dal fatto che ogni nuovo linguaggio utilizzato per definire un
nuovo standard deve essere descritto in XML
XML è una sintassi a basso livello per rappresentare dati
strutturati, e può essere utilizzato per una larga varietà di
applicazioni.
XML è nato per superare le limitazioni di HTML e realizzare le
nuove applicazioni Web, in cui i dati costituiscono un
elemento essenziale


XML è stato quindi il primo passo per inserire una semantica nella
struttura delle pagine e supportare le transazioni sul Web,
permettendo lo scambio di informazioni tra database diversi
l' adozione di XML costituisce un supporto fondamentale per la
pubblicazione di informazioni a livello internazionale, con il grande
vantaggio di essere indipendente dalla piattaforma e dal
linguaggio
Scaricare
Web Semantico

Marco Colombetti