WEB SEMANTICO Comunicazione Multimediale Letizia Catarini World Wide Web rete di risorse di informazione basata sull’infrastruttura di internet Modalità di localizzazione delle risorse(URL) Protocolli per accedere alle risorse(HTTP) Ipertesto, per la navigazione tra le risorse(HTML) Primo sito (1991 – Berners Lee) (1989 – CERN di Ginevra) necessità di condividere la documentazione scientifica in formato elettronico – definizione di linguaggi (HTML) e protocolli (HTTP). World Wide Web rete di risorse di informazione basata sull’infrastruttura di internet Dal web statico ai web service Ci si orienta verso la costruzione di pagine dinamiche che consentissero l’utilizzazione di dati estratti da database Common Gateway Interface consentono di eseguire presso un web server applicazioni esterne che presentino poi i risultati in una pagina html interpretabile dal browser. Introduzione di linguaggi di scripting (Javascript, VBscript) interpretabili dai browser lato client Linguaggi integrati con il web server (jsp, php,asp, …) lato server Web service che hanno lo scopo di limitare il più possibile le attività di implementazione, consentendo di accedere a servizi software resi disponibili in rete. World Wide Web rete di risorse di informazione basata sull’infrastruttura di internet Dal web statico al web semantico Il web è ancora una gigantesca biblioteca di pagine html statiche on line. Html come strumento di formattazione dei documenti senza consapevolezza dei contenuti (ricerca Rossi – signor Rossi, capelli rossi, etc.) 1998 (lee) definizione dello standard XML(eXtensible Markup Language), metalinguaggio che consente la creazione di nuovi linguaggi di marcatura , consente l’aggiunta di informazioni semantiche sui contenuti Obiettivi XML: utilizzo del linguaggio su internet Facilità di creazione dei documenti Supporto di più applcazioni Chiarezza e comprensibilità Dall’XML al vero e proprio web semantico dal machine-representable al machine-understandable (documenti interpretati anche da agenti automatici) Sono definiti nuovi linguaggi Resource Description Framework e Web Ontology Language basati su XML che si rifanno alla logica dei predicati mutuata dall’intelligenza artificiale. eXtensible Markup Language linguaggio estensibile di marcatura dalle proprietà E’ un linguaggio per lo scambio di dati Utilizza tag inventati dallo sviluppatore Devono essere comprensibili Devono rispettare delle regole (case sensitive) (non possono iniziare con numeri o caratteri speciali e non possono contenere spazi) E’ altamente portabile (Microsoft per ASP e Visual Basic usa l’oggetto XMLDOM, ecc) E’ alla base di altri meta-linguaggi: DTD(Document Type Definition) specifica il tipo di documento attraverso una serie di regole grammaticali Schema come DTD definisce la grammatica è più avanzato (XSD XML Schema Definition) Xlink definisce link tra risorse eXtensible Markup Language linguaggio estensibile di marcatura dalle proprietà 1. Serve a strutturare i dati: parametri di configurazione, transazioni finanziarie; insieme di regole per strutturare i dati; non è un linguaggio di programmazione 2. Assomiglia ad HTML: fa uso di tag e attributi per delimitare pezzi di dati interpretati dall’applicazione che li legge, non hanno sempre lo stesso significato 3. E’ testo, ma non da leggere: i dati non sono scritti in binario, quindi rileggibili anche senza l’applicativo, ma se ci sono errori non risultano eseguibili a differenza dell’html 4. E’ prolisso per design: occupa più spazio, ma i vari compressori possono essere usati e i protocolli di comunicazione possono comprimere i dati al volo 5. E’ una famiglia di tecnologie: XLink, Xpointer, CSS (XSL), DOM (dai linguaggi di programmazione),…. (vedi W3C9) eXtensible Markup Language linguaggio estensibile di marcatura dalle proprietà 6. E’ nuovo, ma non così nuovo: inizia nel 1996, deriva da SGML nato nei primi anni 80 7. Porta dall’HTML all’XHTML: applicazione dell’XML alla formattazione di un documento, sintassi simile all’HTML 8. E’ modulare: consente di definire un nuovo formato di documento combinando o riutilizzando altri formati 9. E’ la base per RDF e il web semantico: supporta la descrizione di risorse e applicazioni metadata come liste musicali, album di foto e bibliografie. I computer necessitano di meccanismi per accordarsi sul significato dei termini 10. E’ libero, indipendente dalla piattaforma e ben supportato: xml è gratis, una grossa comunità di tecnici lo utilizza, è in espansione Resource Description Framework insieme di librerie e codice per la descrizione della conoscenza nel web Descrive i metadati relativi alle risorse, si basa su tre principi chiave: Qualunque cosa può essere identificata da un Universal Resource Identifier Utilizzare il linguaggio meno espressivo per definire qualunque cosa Qualunque cosa può dire qualunque cosa su qualunque cosa E’ un modello formale di dati dotato di sintassi di interscambio, un sistema di schemi di tipo ed un linguaggio di interrogazione Resource Description Framework insieme di librerie e codice per la descrizione della conoscenza nel web Qualunque cosa descritta da RDF è detta risorsa. Principalmente una risorsa è reperibile sul web, ma non solo. L’URI è un identificatore univoco di risorse e può essere un Uniform Resource Locator (URL). Il modello di dati RDF è formato da risorse, proprietà e valori. Le proprietà sono delle relazioni che legano tra loro risorse e valori, e sono anch’esse identificate da URI. Un valore, invece, o è una risorsa o è un tipo di dato primitivo. L’unità base per rappresentare un’informazione in RDF è lo statement. Uno statement è una tripla del tipo: Soggetto – Predicato – Oggetto dove il soggetto è una risorsa, il predicato è una proprietà e l’oggetto è un valore. Esempio: “Umberto_Eco” “è_autore_di” “In_nome_della_rosa” WEB SEMANTICO Con il termine Web Semantico si intende la trasformazione del World Wide Web in un ambiente dove è possibile pubblicare non più solo documenti (pagine HTML, file office, immagini, file multimediali,...) ma anche informazioni e dati in un formato adatto alla interrogazione, interpretazione e, più in generale, elaborazione automatica. WEB SEMANTICO in un documento (ad es. una pagina HTML) sia possibile parlare di un Signor Ciampi ed esprimere semanticamente questo con opportuni tag, è difficile capire se due documenti che parlano di un Signor Ciampi si riferiscono alla stessa persona con conseguente scarsa qualità dei risultati restituiti dai motore di ricerca. Nella migliore delle ipotesi sarebbe possibile dedurlo se, tra gli altri, vi fossero dati anagrafici semanticamente definiti e sufficientemente precisi (ad es. il Codice Fiscale) o hyperlink debitamente descritti che li collegano. Poiché, però, i diversi documenti sono redatti per scopi differenti, indipendentemente gli uni dagli altri e normalmente senza condividere un comune formato XML, informazioni utili quali l'indirizzo postale o la data di nascita finiscono per essere espresse in modo dissimile e non uniforme. L'indirizzo in un caso può essere semplicemente racchiuso dal tag <indirizzo>, in altri da <indirizzo_postale>, <direccion>, <address> o <adresse>, e poi è da considerare la possibilità di avere esplicitamente identificati <via>, <numero_civico>,... rendendo ardua e non priva di rischi ogni deduzione automatica. WEB SEMANTICO LINGUAGGI: RDF e XML. secondo la logica dei predicati le informazioni sono esprimibili con asserzioni (statement in inglese) costituite da triple formate da soggetto, predicato e valore (in inglese spesso identificati come subject, verb e object). Ad esempio, le seguenti affermazioni: 1. La Signora Catarini vive a Macerata. 2. La Signora Catarini ha codice fiscale CTRLTZ57B49E783H. possono essere schematicamente scomposte come: Asserzione 1 Asserzione 2 Soggetto: La Signora Catarini La Signora Catarini Predicato: vive a ha codice fiscale Valore: Macerata CTRLTZ57B49E783H WEB SEMANTICO La Signora Catarini vive a Macerata ha codice fiscale http://www.biografie.it/catarini.htm http://it.wiktionary.org/wiki/vivere http://www.comune.macerata.it http://www.agenziaentrate.it/servizi/ Si deduce che condizione necessaria per il buon utilizzo di RDF è la disponibilità on line di riferimenti di qualità alle URI referenziate. Nella scelta dei termini da utilizzare per la definizione delle relazioni si deve ricorrere a dizionari già noti e diffusi invece che inventarne ogni volta di nuovi. Ad es. per le informazioni anagrafiche personali tipiche dei biglietti da visita quali nome, cognome, indirizzo, e-mail, ruolo aziendale,... è già disponibile vCard. Ci sono numerose applicazioni XML definite per abilitare l'EDI (Electronic Data Interchange, scambio dati elettronico) nell'ambito della pubblica amministrazione (e-Governement [2]) o di associazioni di settore (xml.org). Nella costruzione del web semantico, progetti come wikipedia o wikidizionario sono funzionali e abilitanti perché forniscono lemmi ben documentati per individuare risorse e predicati, garantendone la stabilità nel tempo e, grazie alla possibilità di dichiarare equivalenze nella stessa lingua e tra lingue diverse, di accrescere ulteriormente l'estensione di un'indagine automatica. ESEMPIO RDF 1. 2. 3. 4. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. <?xml version="1.0"?> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:agenzia= “http://www.agenziaentrate.it/servizi/” xmlns:wikidizionario="http://it.wikidictionary.org/wiki/"> <rdf:Description rdf:about=" http://www.biografie.it/catarini.htm "> <wikidizionario:vivere rdf:resource=" http://www.comune.macerata.it " /> </rdf:Description> <rdf:Description rdf:about=" http://www.biografie.it/catarini.htm "> <agenzia:codice_fiscale> CTRLTZ57B49E783H </agenzia:codice_fiscale> </rdf:Description> </rdf:RDF> WEB SEMANTICO WEB SEMANTICO Ontology Web Language: estensioni ad RDF (una ontologia è il tentativo di formulare uno schema concettuale esaustivo e rigoroso nell'ambito di un dato dominio; si tratta generalmente di una struttura dati gerarchica che contiene tutte le entità rilevanti, le relazioni esistenti fra di esse, le regole, gli assiomi, ed i vincoli specifici del dominio) Sfruttando le possibilità offerte dall'elaborazione automatica, la logica dei predicati può essere ulteriormente estesa con costrutti capaci di ampliarne ulteriormente l'espressività. Due di queste, molto semplici da comprendere, sono l'equivalenza tra risorse e la relazione inversa. •Per equivalenza tra risorse si intende la possibilità di poter affermare che due o più URI rappresentano lo stesso elemento •Per inversa si intende la possibilità di dire che se è vero (soggetto, predicato, oggetto), allora è anche vero (oggetto, predicato_inverso, soggetto). WEB SEMANTICO Fiducia Un altro tema molto importante e dibattuto è come gestire la fiducia sulle asserzioni o, più esattamente, sugli autori delle asserzioni. Agenti È da segnalare che molto lavoro è attualmente in corso per estendere le possibilità del web semantico applicando l'idea degli agenti intelligenti (programmi in grado di esplorare ed interagire autonomamente con i sistemi informatici per, ad es., ricercare informazioni). Ruolo di questi agenti nel web semantico è di fornire più vaste capacità di inferenza: si prospetta un futuro in cui Lucy fissa una visita medica alla madre utilizzando alcuni agenti capaci di "capire" la patologia, contattare i centri in grado di curarla e perfino di richiedere un appuntamento ai relativi agenti, salvo poi lasciarle la decisione di confermare. WEB SEMANTICO Web semantico e gestione della conoscenza L'XML si rivolge alla descrizione di documenti, RDF (e sue evoluzioni) è particolarmente indicato per rappresentare dati, fornendo un metodo potenzialmente capace di risolvere un tema finora solo parzialmente soddisfatto da strumenti informatici: la Gestione della conoscenza aziendale, ovvero la capacità non solo di trattare le diverse anagrafiche (di prodotto, clienti, fornitori, dipendenti,...) e di classificare i documenti tecnici o amministrativi, (analisi di mercato, specifiche tecniche, norme, procedure,...) ma di arrivare anche a gestire i contenuti di questi documenti permettendo, ad es., il reperimento delle informazioni in funzione delle specifiche esigenze del richiedente, integrando quanto reso disponibile da fonti diverse [3].