Metadati descrittivi Scuola vaticana di biblioteconomia anno accademico 2007-2008 Paul Gabriele Weston [email protected] La navigazione in internet l’inefficienza della rete si misura dalla difficoltà di trovare quel che si cerca trovare solo quel che si cerca trovarlo in tempi ragionevolmente brevi per ovviare a questi inconvenienti e favorire la diffusione del web come infrastruttura di comunicazione (sul fenomeno si consultino i documenti citati nella bibliografia), nel corso del tempo sono stati sviluppati numerosi dispositivi, ciascuno dei quali caratterizzato in modo da rispondere a specifiche finalità ed erogare servizi ad un particolare target di utenza tra questi dispositivi ricordiamo: i portali i repertori classificati i motori di ricerca I portali destinati in particolare agli utenti meno esperti ed esigenti, i portali sono strutturati in modo da costituire una risorsa di riferimento non soltanto per la ricerca di informazioni, ma anche per ogni altra attività effettuabile in rete (comunicazioni, giochi, acquisti in linea, prenotazione di servizi, ecc.). un primo strumento di ricerca è costituito dalla directory per argomento, indice organizzato secondo una struttura di tipo gerarchico, affine a quella di un thesaurus. L’utente sceglie da un elenco di termini di volta in volta proposti dal sistema stesso, che in questo modo guida la ricerca. A ciascun termine corrisponde un certo numero di documenti directory: indice allestito da personale specializzato allo scopo di indicizzare e organizzare alcune risorse web in base al soggetto, scartando quelle ritenute meno interessanti e talvolta aggiungendo una nota di commento, di guida all’uso o di valutazione. L’intervento dello specialista dovrebbe garantire una qualità più omogenea rispetto all’indicizzazione automatica, che per ovvi motivi interesserà un numero assai più grande di documenti I repertori classificati Un tipo particolare di indice è rappresentato dai repertori classificati, ai quali vengono attribuite differenti denominazioni: guide, pathfinders, subject gateways. Le risorse – documenti primari o ricavati da altri repertori - che vi vengono segnalate sono il risultato di un procedimento di selezione manuale, assai simile alla compilazione di una bibliografia. Al proprio interno l’indice ha una struttura gerarchica ad albero, secondo il modello di un sistema di classificazione. Sono caratterizzati da un basso richiamo (quantità di documenti, più o meno rilevanti per le finalità dell’utente, ottenuti in seguito all’effettuazione di una ricerca (il grado di richiamo, che varia da 0 a 1, si ottiene dividendo il numero dei documenti rilevanti trovati per il numero dei documenti rilevanti esistenti). Poiché all’aumento del grado di richiamo corrisponde una diminuzione del grado di precisione, se si vogliono ottenere risultati più selezionati occorre fare uso di combinazioni di termini rari) e da un’alta precisione (frazione dei risultati della ricerca che rispondono effettivamente alle finalità e all’interesse dell’utente (il grado di precisione che varia da 0 a 1, si ottiene dividendo il numero dei documenti rilevanti trovati per il numero dei documenti trovati). Poiché all’aumento del grado di precisione corrisponde una diminuzione del grado di richiamo, se si vogliono ottenere risultati più completi occorre fare uso di combinazioni di termini comuni) Tipologie di repertori classificati • distribuiti: sono repertori compositi le cui componenti sono ospitate su diversi server; l’adozione di una grafica comune e la condivisione delle modalità di realizzazione contribuiscono a garantirne l’omogeneità specializzati: sono repertori dedicati a singole discipline, che vengono spesso indicati come virtual libraries; alcuni di essi segnalano, eventualmente in forma annotata, repertori di immediata consultazione, come enciclopedie, dizionari, indirizzari, ecc. e vengono detti virtual reference desk The WWW virtual library <http://vlib.org> Virtual reference desk per le biblioteche pubbliche <http://www.cultura.toscana.it/biblioteche/servizi_web/vrd/index.shtml> per categorie di documenti: immagini, audio, liste di discussione, software, ecc. Google Immagini <http://www.google.it/imghp?hl=it&tab=wi&q=>, Audiofind <http://www.audiofind.com/>, Google Gruppi <http://www.google.it/grphp?hl=it&tab=ig&q=>, All the Web FTP <http://www.alltheweb.com/?cat=ftp&cs=utf-8&l=any&q=> La nascita dei motori di ricerca Esistono, poi, indici che hanno una struttura e un’origine assai diversa, dal momento che vengono creati automaticamente dagli elaboratori: sono i motori di ricerca (in inglese search engine), nati nei primi anni ’90 per l’esigenza di rendere rintracciabili i documenti che andavano popolando, con crescita esponenziale, la rete. La loro apparente semplicità di funzionamento e la sensazione, rivelatasi illusoria, di poter governare ed organizzare razionalmente il patrimonio di dati e di informazioni presenti all’interno del web, ne hanno favorito la diffusione e l’uso da parte degli utenti. Esistono siti dedicati ad illustrare le loro caratteristiche. Il funzionamento dei motori di ricerca La struttura dei motori di ricerca è sostanzialmente basata sulle applicazioni di information retrieval degli anni ’60 e ’70, le quali sfruttano il fatto che, in un testo elettronico, qualsiasi parola è localizzabile al suo interno e può costituire un termine di indice. L’interrogazione avviene mediante l’immissione di una stringa di ricerca - costituita da una o più parole (o parti di esse) - che viene confrontata con gli indici presenti nel motore stesso per individuare i documenti che presentano l’esatta corrispondenza con la stringa. Il soddisfacimento della condizione di ricerca si identifica in tale corrispondenza. Funzionamento schematico deI motore Fase dell’indicizzazione dei documenti: scansione sistematica del web archiviazione in memoria locale esclusione delle stopword (lista di parole, per lo più costituite da articoli, congiunzioni, preposizioni e avverbi, che ricorrendo con troppa frequenza non vengono considerate utili ai fini della ricerca e che pertanto vengono ignorate dalla procedura di indicizzazione) creazione dell'indice Fase di ricerca dei documenti: input richiesta dell'utente ricerca nell'indice calcolo del punteggio di rilevanza (ranking) presentazione dei risultati. La ricerca dei termini L’effettuazione di una ricerca consiste nell’individuazione (e nel recupero) dei documenti che contengono la singola o le diverse parole specificate dall’utente. Poiché sono molte le ragioni, anche casuali, per le quali una parola può essere presente in un documento, la sua individuazione non è sufficiente a garantire la rilevanza del documento, ossia che esso tratti davvero l’argomento espresso dalla parola e non rappresenti del rumore I motori di ricerca hanno quindi alto richiamo, ma bassa precisione e sono più utili per cercare parole rare o nomi propri La valutazione dei risultati della ricerca Più i risultati prodotti da una ricerca sono numerosi, maggiore è la difficoltà ad esaminarli tutti per effettuare la selezione dei documenti interessanti. Oltre un certo numero di risultati, il cosiddetto “punto di futilità”, l’utente tende ad accontentarsi di quanto trovato fino a quel momento o ad impostare una nuova ricerca secondo una differente strategia. Quando i risultati sono molto numerosi e superano il punto di futilità, è determinante l'ordine in cui vengono presentati, perché l'utente prenderà in considerazione soltanto i primi. I criteri di ordinamento dei risultati rappresentano una caratteristica distintiva del motore di ricerca, sulla quale valutare la qualità del servizio. I criteri di ordinamento dei risultati I produttori di motori di ricerca hanno individuato diversi criteri di ordinamento dei risultati, che si basano sull’assegnazione di un punteggio di rilevanza, detto ranking, ottenuto in seguito all’applicazione di un algoritmo di calcolo che prende in considerazione numerosi fattori Alcuni criteri, che peraltro quasi mai vengono resi noti all'utente, sono coerenti con una buona metodologia di ricerca documentaria; altri, invece, tendono ad assecondare la soddisfazione immediata degli utenti meno esperti e sono intesi quindi a favorire il successo commerciale del motore di ricerca Fattori per l’ordinamento frequenza (numero di occorrenze) densità (numero di occorrenze / parole totali del documento) rarità (occorrenze rispetto al totale delle parole) compresenza (di due o più parole) prossimità (parole vicine fra loro nel documento) posizione (nei titoli, nei link, nelle intestazioni, nei metatag) aggiornamento del documento somiglianza delle parole con quelle di documenti già rintracciati popolarità (frequenza di scelta in precedenti ricerche) pagamento (per inclusione o posizionamento privilegiato). Le strategie dei produttori di motori Il maggior peso attribuito all’uno o all’altro fattore dipende dalle strategie commerciali dei singoli motori: alcuni puntano sulla precisione anche con ricerche generiche, altri soprattutto su risultati molto esaustivi per ricerche difficili. Per attrarre nuove fasce di utenti, alcuni motori dedicano maggiore attenzione all’indicizzazione di quella parte del web denominata web sommerso o invisibile per l’impenetrabilità ai motori di ricerca: le risorse in formato pdf quelle all’interno delle basi di dati quelle difficilmente identificabili come i file di immagini, audio e video. Le componenti di un motore di ricerca • Il software detto spider che, con periodicità costante, visita i siti ospitati dalla miriade di host server che popolano il web per estrarre dai documenti le informazioni necessarie. Il programma è in grado di seguire i collegamenti presenti sulle singole pagine per raggiungere nuovi documenti da indicizzare. La base dati o indice che conserva i dati raccolti dallo spider sotto forma di elenco di tutte le parole contenute nelle pagine web con il relativo indirizzo. Il software del motore di ricerca, l’interfaccia di immissione e di visualizzazione dei dati. Criteri di indicizzazione L’indicizzazione automatica applicata dai motori di ricerca consiste nell’estrazione dei termini dall'intero corpo del documento. Un altro criterio prevede il riconoscimento e l’utilizzazione dell’indicizzazione già presente nei documenti. Quest’ultimo è molto più efficace ai fini della comprensione del contenuto del documento e quindi della sua valorizzazione al momento della presentazione all’utente del risultato di una ricerca. Attribuendo a queste informazioni un peso accresciuto rispetto alle altre, il motore ne determina, infatti, un ranking più elevato e, di conseguenza, una maggiore visibilità. La marcatura dei documenti elettronici . I documenti elettronici, come le pagine web, sono realizzati usando linguaggi di marcatura, che combinano gli elementi di contenuto (testi, immagini, ecc.) con marcatori che ne specificano la funzione e la modalità di presentazione nell’ambito del documento. Nell’esempio: <title>Il mondo digitale</title> “Il mondo digitale” è il contenuto del documento, mentre “<title>” è un marcatore che racchiude quel contenuto, indicando che si tratta di un titolo. In questo caso il marcatore specifica la funzione della stringa che racchiude, ovvero la connota semanticamente Marcatori e browser Quando il documento è ricevuto dal browser, i marcatori vengono utilizzati da quest’ultimo per stabilire in che modo visualizzare e gestire i diversi contenuti. I marcatori possono indicare infatti: il ruolo logico del contenuto nella struttura del documento, ad esempio titolo, intestazione, sezione, paragrafo, citazione, ecc. (componente semantica) la modalità di presentazione del contenuto, ad esempio grassetto, corsivo, dimensione, colore, ecc. (componente grafica) Le componenti del documento elettronico Appositi marcatori provvedono a suddividere il documento elettronico in due parti: HEAD BODY Le informazioni contenute all’interno di HEAD sono dette metatag, cioè informazioni ausiliarie sul contenuto del documento, che viaggiano insieme ad esso ma non vengono visualizzate. Le informazioni contenute all’interno del marcatore BODY costituiscono il corpo del documento vero e proprio, e verranno visualizzate dal browser. I metatag L’introduzione dei metatag all'interno del documento elettronico ha la funzione di permettere ai motori di ricerca di ottimizzare il recupero dell'informazione, non molto diversamente da quanto farebbe una scheda di catalogo in una biblioteca. I metatag hanno due funzioni principali: individuare e identificare un documento informare sulle sue caratteristiche I metatag possono essere utilizzati anche per consentire un impiego funzionale dei documenti nell’ambito di un determinato sistema informativo. Le funzioni dei metatag certificare il creatore (persona/ente) del documento; stabilirne il periodo di validità; consentirne (o impedirne) la lettura a determinate categorie di utenti; individuare la base di dati dalla quale è estratto o il software con cui è stato generato; identificare lo specifico formato del documento e l’ambito della sua applicabilità; stabilire legami operativi con altri documenti (anche non HTML). Metatag e sistema informativo La struttura del documento digitale è tale che esso potrebbe essere indicizzato dall'autore al momento stesso della sua creazione. In questo caso, tuttavia, l’informazione potrebbe non rispettare il criterio dell’obiettività, in quanto l’autore se ne potrebbe avvalere per finalità pubblicitarie L'indicizzazione dei documenti consiste, sostanzialmente, nell'aggiungere soggetti o parole-chiave che ne descrivono il contenuto. A tale scopo, occorrerebbe definire l’insieme di regole da applicare, delegando al sistema informativo il compito di completare l'informazione con i dati di natura tecnica Metatag e problemi di indicizzazione L’indicizzazione automatica non permette di distinguere i documenti in base al loro livello culturale e alla loro attendibilità; per questo motivo un motore di ricerca è uno strumento di mediazione privo di qualunque autorevolezza che moltiplica il numero dei documenti potenzialmente individuabili. La quantità esorbitante di risultati, di cui le tecniche di interrogazione non particolarmente sofisticate messe in atto dai motori di ricerca raramente rendono possibile l’ulteriore selezione, fa sì che il criterio di ordinamento delle citazioni diventi cruciale per il successo della ricerca. L’ordinamento dei risultati L’ordinamento in base alla “rilevanza”, come viene definito il risultato dell’applicazione di parametri a carattere quantitativo e statistico, non tiene in alcun conto le reali esigenze di chi effettua la ricerca, il quale può essere obbligato a scorrere in sequenza molte schermate di risultati prima di individuare l’informazione desiderata. L’indicizzazione manuale dovrebbe, al contrario, garantire una migliore qualità nelle risposte, in quanto chi effettua l’indicizzazione dispone di tutte le informazioni occorrenti a valutare le reali caratteristiche della risorsa e può prevedere in che modo le scelte effettuate al momento dell’indicizzazione determineranno la presentazione dei risultati. Il principio di terzietà della catalogazione Perchè la descrizione di un documento si possa definire obiettiva rispetto ai contenuti e alle caratteristiche del documento stesso, occorre che venga rispettato il principio di terzietà, secondo il quale la descrizione del documento compete a persona diversa da chi ne è l’autore, a garanzia dell’obiettività dei criteri adottati. L’autore potrebbe essere tentato, infatti, di includere nell’indicizzazione termini che, pur non avendo un riscontro nel soggetto del documento, ne favoriscano il reperimento attraverso la loro non corretta valorizzazione da parte del sistema di ricerca. L’indicizzazione e la ricerca Poiché l'efficacia del recupero dell'informazione è direttamente proporzionale alla precisione della parola chiave impiegata, sarebbe utile disporre almeno di un vocabolario controllato (oppure di un thesaurus) che elenchi le parole-chiave più appropriate per descrivere un documento sulla base del suo contenuto o dell’ambito disciplinare. A differenza del mondo bibliotecario non esistono vocabolari o sistemi di classificazione standard. All’utente è perciò richiesta una certa abilità ed esperienza nel variare la strategia di ricerca in ragione dei criteri applicati dallo strumento consultato. Esempio di metatag Si riporta come esempio la sintassi relativa alla definizione del nome dell’autore e del titolo del documento nel linguaggio di marcatura HTML. I metatag sono racchiusi all’interno di HEAD, la cui funzione nei confronti del documento può essere paragonata a quella svolta dal frontespizio di un libro. I metatag, come gli elementi del frontespizio, sono i contrassegni del documento, di cui HEAD rappresenta una vera e propria carta d’identità. <HEAD> <META NAME="author" CONTENT=“Fabio Ciotti"> <META NAME=“title" CONTENT=“Il mondo digitale"> </HEAD> Metatag comuni in HTML Author: Indica l'autore della pagina, in genere identificato con chi l’ha composta piuttosto che con chi detiene la paternità intellettuale del suo contenuto Copyright: Dichiarazione esplicita e sintetica sui diritti relativi al documento, senza link a formulazioni più articolate Generator: Indica il software utilizzato per creare il file HTML. Molti di tali software inseriscono automaticamente il proprio nome nel file stesso senza neppure "avvertire" l'utilizzatore. Evidenti le implicazioni pubblicitarie Robot: Indica ai software di ricerca dei motori se e come tenere conto della pagina. Non tutti i robot sono però rispettosi delle indicazioni ricevute Metatag comuni Title: Il metatag più importante. Non dovrebbe mai mancare in una pagina ben costruita e dovrebbe includere alcune parole particolarmente significative per individuare la risorsa a cui si riferisce. E' il metatag più utilizzato e più "pesante" per i motori di ricerca, che - fra l'altro - lo visualizzano in testa alle citazioni che si ottengono effettuando una interrogazione. Inoltre il TITLE, che potrebbe essere definito come qualcosa a metà strada fra il soggetto e il titolo uniforme, appare anche nei bookmark e in testa alla finestra del browser. Alcuni motori permettono di limitare la ricerca alle sole parole contenute in questo metatag Metatag comuni Description: Breve descrizione del contenuto della pagina, ovvero un abstract che molti motori visualizzano nel corpo delle loro citazioni. In caso di assenza di questo metatag il motore visualizza in genere le prime parole presenti nella parte visibile al browser della pagina (BODY), con risultati talvolta efficaci ma più spesso inutilizzabili Keyword: Ulteriori parole chiave (oltre a quelle contenute in TITLE e DESCRIPTION) ritenute particolarmente significative dall'autore della pagina per caratterizzarne il contenutoUlteriori parole chiave (oltre a quelle contenute in TITLE e DESCRIPTION) ritenute particolarmente significative dall'autore della pagina per caratterizzarne il contenuto Cosa sono i metadati? Letteralmente il termine “metadati” significa “dati intorno ad altri dati” E’ più interessante la definizione fornita nell’ambito del progetto DESIRE (Development of a European Service for Information on Research and Education): “Sono dati relativi ad oggetti che consentono agli utenti di conoscere l’esistenza di una fonte informativa e le sue caratteristiche.” Di un documento elettronico o di un’opera originale essi descrivono: gli attributi il contenuto Finalità dei metadati I metadati sono finalizzati a rendere possibile, idealmente, la catalogazione “automatica” del documento, al momento della sua indicizzazione da parte di strumenti di ricerca appositamente predisposti per interpretarli. I metadati hanno lo scopo di rendere accessibile l’informazione etichettandone il contenuto secondo uno schema coerente. In questo modo, per reperire l’informazione, l’utente dispone di un percorso segnalato. L’esistenza di questi segnali è ciò che gli permette di non perdersi nell’universo delle risorse elettroniche. Esistono glossari specifici per la terminologia dei metadati. Metadati e risorse referenziali Sebbene il termine venga applicato alle risorse elettroniche, sono metadati tutte le risorse di tipo referenziale: cataloghi sommari indici abstract. Tutte queste risorse condividono infatti lo scopo di rappresentare, surrogandolo, il documento originale attraverso insiemi organizzati di metadati. Il loro obiettivo è quello di permettere l’individuazione, la selezione, la localizzazione e il recupero dei documenti primari. Metadati e risorse elettroniche I metadati – nel caso delle risorse elettroniche fanno riferimento a “dati” intesi nell’accezione più ampia: informazioni testuali grafica musica immagini in movimento qualsiasi documento che possa essere prodotto in forma elettronica Metadati e motori di ricerca Poiché la maggior parte dei motori di ricerca è di tipo testuale, occorre aggiungere informazioni di tipo testuale ai documenti che non hanno forma testuale Ad esempio, per documenti di tipo cartografico: nomi di entità geografiche nomi di entità politiche coordinate altitudine / profondità tecnica di rilevamento Le informazioni dei metadati I metadati forniscono informazioni di tipo catalografico ma anche riguardanti l’autenticità la disponibilità l’accesso le riproduzioni la proprietà intellettuale la storia del documento elettronico Altre funzioni dei metadati Alcuni metadati sono stati creati per rendere possibile – in modo automatico – l’elaborazione ed il trattamento dell’informazione da parte del computer dell’utente (ad esempio quello indicante il formato originale del documento) Altri invece sono stati creati per agevolare la gestione del documento nell’ambito del deposito Universo del fornitore di risorse informative recupero individuazione ricerca trovare utilizzare rielaborazione Spazio dell’utente di risorse informative organizzazione analisi Dublin core formato individuazione recupero Universo del fornitore di risorse informative descrizione / immagine ricerca trovare utilizzare termini / condizioni rielaborazione organizzazione transcodifica Spazio dell’utente di risorse informative schema descrittivo analisi La descrizione di un documento più tipologie di informazioni concorreranno a descrivere un documento quelle di tipo semantico o formale (catalogazione, indicizzazione, ecc.) ne renderanno possibile la ricerca e l’individuazione quelle di natura tecnologica (digitalizzazione, compressione, specifiche hardware e software, ecc.) ne consentiranno il recupero, il trasferimento e la rielaborazione quelle amministrative (acquisizione, diritti, reperibilità, ecc.) ne faciliteranno la gestione. La diversificazione dei metadati Nel corso degli anni, numerose categorie di utenti hanno messo a punto insiemi di metadati finalizzati a rappresentare nel modo più efficace le risorse elettroniche di proprio interesse e a soddisfare i requisiti funzionali dei sistemi informativi da essi gestiti. La definizione di tali schemi di metadati ha seguito due percorsi: in alcuni casi i metadati sono stati definiti in modo autonomo, senza tener conto di schemi relativi a risorse delle medesima natura, prodotti da altri utilizzatori in altri casi, uno schema esistente è stato ampliato fino a comprendere tutti i dati necessari al soddisfacimento dei requisiti funzionali. Schemi di metadati Schemi di metadati complessi sono stati sviluppati per scopi specifici: MARC (dati bibliografici) NSDI (dati geospaziali) TEI (testi letterari) ... Il web rende opportuna l’esistenza di schemi di metadati universali, che permettano l’interoperabilità fra metadati prodotti nell’ambito di aree disciplinari eterogenee La nascita di Dublin Core L'occasione che ha dato luogo al primo gruppo di lavoro informale (poi inserito stabilmente nei lavori del W3C) su questo tema, è stata un convegno svoltosi nel 1995 a Dublin (Ohio), sede della rete OCLC, Online Computer Library Center, una organizzazione no-profit cui aderiscono biblioteche nordamericane e di altri 70 paesi in tutto il mondo Al seminario partecipavano bibliotecari, documentalisti e tecnologi dell'informazione. Le finalità Lo schema è stato definito tenendo presenti essenzialmente le esigenze della ricerca e della individuazione delle risorse informative L’insieme degli elementi che ne costituiscono la struttura è il risultato di un consenso ampio ed interdisciplinare sulla natura dei dati che sono indispensabili per l’effettuazione della ricerca di una risorsa informativa Le caratteristiche semplicità: è usabile da chiunque senza particolare apprendistato comprensibilità: i descrittori utilizzati sono molto vicini al linguaggio naturale interoperabilità semantica: può descrivere documenti appartenenti a qualsiasi disciplina flessibilità: non ci sono limiti formali al suo sviluppo per ulteriori, diverse, applicazioni consenso: è norma in molti siti nel mondo Gli utilizzatori Comprendono tutti coloro che ritengono che tale struttura sia adeguata alle proprie esigenze descrittive Le pagine web sono fra le risorse informative quelle che più frequentemente si prestano alla inclusione di elementi descrittivi Dublin Core, eventualmente con marcatura HTML Si sono costituiti alcuni gruppi di utenza specialistica che fanno degli elementi Dublin Core la base della propria scheda descrittiva Gli elementi (15) Titolo Creatore Soggetto / parola chiave Descrizione Editore Autore di contributo subordinato • • • • • • • • • Data Tipo Formato Identificatore Fonte Lingua Relazione Copertura Gestione dei diritti Elementi di contenuto title (titolo) keyword (soggetto o parole chiave) description (descrizione testuale, eventuale abstract) source (identificatore della fonte da cui il documento è derivato) language (lingua, secondo ANSI NISO Z39.53) relation (relazione con altri documenti) coverage (copertura spaziale e temporale) Elementi di proprietà creator (autore o creatore) contributor (altra persona o ente responsabile intellettualmente) publisher (editore) rights (link a informazioni su copyright o diritti d'autore) Elementi di istanza (esemplarità) date (data, nella forma AAAA-MM-DD) type (categoria a cui appartiene il documento) format (formato dei dati) identifier (identificatore univoco, es. URL) Esempio <HEAD> <META NAME="Content-Type" CONTENT="text/html; charset=iso-8859-1"> <META NAME="GENERATOR" CONTENT="Mozilla/4.06 (Macintosh; I; PPC) [Netscape]"> <META NAME="DC.Title" CONTENT="Meta-dati"> <META NAME="DC.Title.Alternative" CONTENT="Metadata"> <META NAME="DC.Creator" CONTENT="Bogliolo, Domenico (Ingo)"> <META NAME="DC.Creator.Address" CONTENT="[email protected]"> <META NAME="DC.Subject" CONTENT="metadata"> <META NAME="DC.Subject" CONTENT="meta-dati"> <META NAME="DC.Subject" CONTENT="metatag"> Esempio (cont.) <META NAME="DC.Description" CONTENT="Come gli autori di documenti HTML possono impiegare i meta-dati nell'indicizzare documenti al fine di ottimizzarne il recupero"> <META NAME="DC.Publisher" CONTENT="CICS. Universita` di Roma 'La Sapienza'"> <META NAME="DC.Date.Creation" CONTENT="1998-08-25"> <META NAME="DC.Type" CONTENT="Text.Article"> <META NAME="DC.Format" CONTENT="text/html"> <META NAME="DC.Identifier" CONTENT="(SCHEME=URL) http://www.uniroma1.it/Documentation/metadati.html"> <META NAME="DC.Language" CONTENT="it"> <META NAME="DC.Date.X-MetadataLastModified" CONTENT="1998-0826"> <TITLE>Guida ai Meta-dati</TITLE> </HEAD> Commenti all’esempio Ciascuno dei 15 elementi è replicabile un numero teoricamente infinito di volte; per esempio: uno per l'italiano e uno per l'inglese, quando la differenza linguistica è apprezzabile. Nell'esempio sono stati replicati, per vari scopi, i campi "Title", "Subject" e "Date" Qualificatori e attributi <META NAME="DC.creator" CONTENT="(TYPE=name) Paperino"> Per gli usi delle diverse comunità sono stati definiti qualificatori per specificare: riferimenti allo schema di riferimento (LINK) valore semantico (TYPE) e attributi. Di che si tratta ? Sono termini finalizzati ad estendere o circoscrivere l’applicazione degli elementi originari Sono stati identificati all’interno dei Gruppi di lavoro di DCMI Il DCMI Usage Board ne ha verificato la coerenza con i principi sottostanti all’intera struttura Sono stati preferiti termini provenienti da vocabolari già adottati da altre agenzie Il set attuale è il risultato di una selezione da un insieme assai più ampio Dumb-down principle Se la struttura generale viene rispettata, i qualificatori non ostacolano l’interpretazione di DC Infatti il client ignorerà il qualificatore e utilizzerà l’informazione come se non fosse qualificata Viene meno la specificità e non la reperibilità Applicazione del principio Se il sistema di ricerca ignora le qualificazioni: Title=“Bollettino AIB” Title.Alternative=“Bollettino Associazione Italiana Biblioteche” Verrebbero trattati come: Title=“Bollettino AIB” Title=“Bollettino Associazione Italiana Biblioteche” Sviluppi locali Gli utilizzatori possono definire ed applicare qualificatori di uso locale purché rispettino la struttura generale Viene raccomandato il riferimento a standard e vocabolari di uso della comunità di riferimento Viene auspicata la diffusione delle varianti locali che potranno diventare parte integrante dello standard DCMES Tipologie di qualificatori Specificazione dell’elemento: ne circoscrive il significato o l’applicazione ne mantiene il significato generale ne va dichiarata la definizione Schema di riferimento: comprende vocabolari controllati, criteri di descrizione, sistemi di classificazione va dichiarata la definizione standard Tabella riassuntiva (1/3) Elemento DC Specificazione Schema di riferimento Title Alternative - Creator - - Subject - LCSH MeSH DDC LCC UDC Description Table Of Contents Abstract - Publisher - - Contributor - - Date Created Valid Available Issued Modified Date Copyrighted Date Submitted DCMI Period W3C-DTF Type - DCMI Type Vocabulary Tabella riassuntiva (2/3) - IMT Extent - Medium - - URI Bibliographic Citation - Source - URI Language - ISO 639-2 RFC 3066 Relation Is Version Of Has Version Is Replaced By Replaces Is Required By Requires Is Part Of Has Part Is Referenced By References Is Format Of Has Format Conforms To URI Format Identifier Tabella riassuntiva (3/3) Spatial DCMI Point ISO 3166 DCMI Box TGN Temporal DCMI Period W3C-DTF Rights Access Rights - Audience Mediator Education Level - Coverage Varianti linguistiche Ad eccezione del nome del qualificatore che dovrebbe essere standard, oppure espresso in inglese le restanti proprietà possono essere espresse in qualunque lingua Link a schema non in linea <META NAME="DC.creator" CONTENT="(TYPE=email) [email protected]"> <LINK REL=SCHEMA.dc HREF="http://purl.org/metadata/dublin_core_elements#creator"> in linea <META NAME="DC.language" CONTENT=(SCHEME=iso639) en"> <LINK REL=SCHEMA.iso639 REFERENCE="ISO 639:1988 Code for the representation of names of languages"> Schemi • Gli schemi usati possono essere di natura biblioteconomica DDC, UDC [classificazioni] LCSH, MeSH [soggettari] ... oppure, i metadati DC possono essere integrati con altri schemi esistenti creati appositamente con sintassi analoga ed espressi in pacchetti all’interno di <HEAD> Esempio di pacchetto <META NAME="package" CONTENT=(TYPE=begin) Dublin Core"> <META NAME=DC.Creator [...]> [...] <META NAME="package" CONTENT=(TYPE=end) Dublin Core"> Elemento: Title Definizione: Nome dato alla risorsa Commento:Il Titolo è la denominazione con la quale la risorsa è formalmente conosciuta. È possibile assegnare anche titoli alternativi, come sottotitoli, titoli paralleli, eccetera, replicando il tag con il nome: Title.Alternative Elemento: Creator Definizione: Entità responsabile per il contenuto della risorsa Commento: Può essere un autore personale o collettivo (ente), da specificare replicando il tag con il nome: Creator.PersonalName o: Creator.CorporateName. È utile anche fornire l'indirizzo e-mail dell'autore, replicando il tag nella forma: Creator.PersonalName.Address o: Creator.CorporateName.Address. Per facilitare la ricerca è preferibile porre il nome personale nella forma: Cognome, Nome Elemento: Subject and Keywords Definizione: Termine indicante il contenuto della risorsa Commento: Espresso con singole parole-chiave (keyword) o con stringhe (phrase) di parole o con codici alfa-numerici di classificazione. È preferibile riferirsi a un'autorità indicale semantica come un thesaurus di termini controllati o a un soggettario o a uno schema di classificazione facendo precedere il termine utilizzato dall'indicazione: (Scheme=nome del sistema scelto) Elemento: Description Definizione: Descrizione del contenuto della risorsa Commento: Abstract, sommario, rappresentazione in forma di testo libero Elemento: Publisher Definizione: Entità responsabile per la disponibilità della risorsa Commento: Una persona, un ente, un servizio. Di solito è una casa editrice, un'università, un ente. È utile fornire anche l'indirizzo e-mail dell'editore, replicando il tag nella forma: Publisher.Address Elemento: Contributor Definizione: Entità che ha contribuito al contenuto della risorsa Commento: Gli autori secondari possono essere persone o enti, distinguibili nella forma: Contributors.PersonalName o: Contributors.CorporateName. Se necessario, si può fornire l'indirizzo e-mail dell'autore, replicando il tag nella forma: Contributors.PersonalName.Address. Per facilitare la ricerca è preferibile porre il nome personale nella forma: Cognome, Nome Elemento: Date Definizione: Data relativa ad un evento nell’esistenza della risorsa Commento: È da preferire la forma indicata dall‘ISO 8601: YYYY-MM-DD (anno-mese-giorno) e HH-MMM (ore-minuti) dove la terza M sta per il meridiano di riferimento: per Greenwich è Z. Il tag è replicabile per distinguere la data di prima pubblicazione (nella forma: Date.Creation) dalla data di ultimo aggiornamento (nella forma: Date.X-MetadataLastModified) del documento Elemento: Type Definizione: Natura o genere del contenuto della risorsa Commento: Termini indicanti categorie generali, funzioni, generi o livelli di aggregazione del contenuto, possibilmente ricavati da un vocabolario controllato come: Text, Image, Sound, Software, Data, Interactive e tutti i loro possibili sotto-insiemi gerarchici elencati nel WG Resource Types; per esempio: Text.Thesis.Doctoral Elemento: Format Definizione: Manifestazione fisica o digitale della risorsa Commento: Informazioni sul supporto (s/w, h/w, altri dispositivi richiesti) e sull’estensione (dimensioni e durata) della risorsa. Serve per consentire al lettore (umano o macchina) di decidere se il documento è usabile o no, sulla base del hardware/software disponibili. Nel caso di un documento HTML il formato è txt/html. L'elenco completo delle possibilità teoriche è contenuto nel documento RFC2046 Elemento: Identifier Definizione: Riferimento univoco alla risorsa in un determinato contesto Commento: Uniform Resource Identifier (ad es., URL – Uniform Resource Locator), Digital Object Identifier (DOI) e International Standard Book Number (ISBN). Di solito si dà l'URL del documento. Negli altri casi è necessario anteporre all'identificatore il codice di riferimento, come: (SCHEME=ISBN) per i libri, (SCHEME=ISSN) per i periodici; e simili Elemento: Source Definizione: Citazione della fonte da cui è derivata la risorsa Commento: Citazione della fonte da cui la risorsa è totalmente o in parte derivata, per mezzo di una stringa o di un numero conforme ad un sistema di identificazione formale. Si può citarne il titolo o limitarsi a indicarne l'URL o altri identificatori (vedi Identifier) Elemento: Language Definizione: La lingua del contenuto intellettuale della risorsa Commento: Codice linguistico di due caratteri secondo lo standard ISO 639-1 (eventualmente seguito dal codice del paese, egualmente di due caratteri, secondo ISO3166) Elemento: Relation Definizione: Riferimento ad una risorsa correlata Commento: Il riferimento alla risorsa correlata è attuato per mezzo di una stringa o di un numero conforme ad un sistema di identificazione formale. Per esempio: immagini in un documento, capitoli in un libro, esemplari in una raccolta, eccetera. Si può citarne il titolo o limitarsi a indicarne l'URL o altri identificatori (vedi Identifier) Elemento: Coverage Definizione: Estensione o scopo del contenuto della risorsa Commento: Coordinate spaziali, temporali o giurisdizionali, possibilmente mediante termini di un vocabolario controllato. La materia è ancora in corso di definizione, per cui l'informazione può essere data in forma testuale o numerica, a preferenza: nomi, coordinate geografiche, periodizzazioni geologiche, eccetera. Cfr il WG Coverage Element Elemento: Rights Definizione: Diritti riguardanti l’uso della risorsa e la manipolazione del suo contenuto Commento: Diritti di proprietà intellettuale, copyright o simili, con l’indicazione dei termini o del servizio responsabile per la loro gestione. Può indicare Public domain o rinviare all'URL che fornisce queste informazioni. Nessuna presunzione legale discende dal non compilare questo campo Progetto CORC Cooperative Online Resource Catalog <http://www.oclc.org/oclc/corc/index.htm> Insieme di strumenti per la creazione e manutenzione di indici -- per metadati DC, per descrizioni bibliografiche MARC e per classi -- di documenti non solo in rete e di altri oggetti, con attribuzione semiautomatica di LCSH e CDD e collegamenti dinamici a liste di autorità Formato dei metadati Testo non strutturato Indici Web Ricerca a testo libero Testo semistrutturato Dublin Core Directory Testo strutturato TEI, EAD, MARC SGML Generale Specifico Semantica Sintassi e semantica Ricerca per campi Ricerca per campi IFLA e metadati L’interesse dell’IFLA (International Federation of Library Associations and Institutions) verso le questioni relative ai metadati e, in particolare, alla loro applicazione nell’ambito delle biblioteche, è una conseguenza della diffusione quantitativa e tipologica degli schemi di metadati nella seconda metà degli anni Novanta. La questione è stata affrontata durante il convegno annuale dell’IFLA tenutosi nel 1998 ad Amsterdam. Nell’ambito della sezione catalogazione è stato istituito un gruppo di lavoro sull’utilizzazione degli schemi di metadati, il Working Group on the Use of Metadata Schemas. Obiettivi dello studio ricognizione dello sviluppo e dell’implementazione/ applicazione di schemi di metadati nei diversi Paesi redazione di linee-guida dirette alle biblioteche e relative alla migliore scelta/utilizzazione di record di metadati e record bibliografici definizione di un “core record” (gli elementi di uso più comune e diffuso) da raccomandare ai creatori/editori di documenti elettronici per favorire l’individuazione della risorsa e l’integrazione di tali elementi nei record bibliografici Tipologie di metadati (1/3) metadati amministrativi numero del record data di creazione data di ultima modifica identificazione del creatore/revisore lingua del record note relazioni con altri record metadati descrittivi titolo (anche alternativo, parallelo, sottotitolo, variante, ecc.) creatore (autore, compositore, cartografo, artista, ecc.) data editore identificativi univoci (ISBN, ISSN, ecc.) link dinamici (URI, URL, ecc.) note di contenuto (sommario, abstract, recensione, ecc.) destinatari caratteristiche fisiche (supporto, formato, ecc.) lingua del documento versione Tipologie di metadati (2/3) Metadati analitici termini di vocabolario controllato (soggetti, descrittori, ecc.) parole-chiave (per soggetto, topiche, ecc.) abstract, table-of-contents codici da schemi di classificazione altre informazioni di carattere locale (affiliazioni, link ad e-content correlato, ecc.) Metadati per la gestione dei diritti restrizioni di uso dichiarazioni di permesso canoni di sottoscrizione/licenza/pay-per-use credits copyright quality ratings disclaimers Tipologie di metadati (3/3) Metadati tecnici specifiche delle apparecchiature elettroniche coordinate delle apparecchiature fotografiche condizioni di cattura delle immagini parametri di codifica/compressione parametri della registrazione sonora specifiche dello scanner apparecchiature per la restituzione delle immagini tipo di file e requisiti software per la conversione Altri metadati elementi basati su requisiti nazionali o locali, non rientranti tra gli elementi elencati in precedenza La scelta di uno schema di metadati (1/2) esiste uno standard appropriato per gli oggetti e gli scopi della collezione digitale? quali elementi sono più necessari alla comunità di utenti ai quali è diretta la collezione digitale? quale livello di dettaglio dovrebbero supportare? quali elementi sono più necessari per coloro che creano/gestiscono la collezione digitale? è prevista qualche forma di restrizione all’uso o all’accesso della collezione digitale? in che modo ne vengono informati gli utenti? vi sono requisiti relativi alla lingua, al formato, al tipo di supporto che richiedano specifici elementi? vi sono requisiti relativi alla creazione o alla gestione condivisa in rete della collezione digitale che richiedano specifici elementi? se è necessario combinare più schemi di metadati, esistono mappature facilmente ottenibili, autorevoli e mantenute nel tempo? La scelta di uno schema di metadati (2/2) le risorse rappresentate da uno schema di metadati possono venire scambiate con istituzioni cooperanti che utilizzino uno schema differente? quanto è diffusa l’utilizzazione di un particolare schema in applicazioni o ambienti paragonabili al proprio? quale garanzia di stabilità, di portabilità e di flessibilità assicura nei diversi contesti? a quali condizioni può essere effettuata la migrazione ad un altro schema nell’eventualità che occorra procedere ad una conversione di dati? quali compatibilità esistono con le prescrizioni e gli standard dell’istituzione, locali, nazionali ed internazionali? quali risorse umane (consistenza, competenze, formazione), tecniche, finanziarie o di altro genere sono richieste per l’implementazione dello schema? in che modo queste possono venire garantite dall’istituzione? Utilizzare metadati in modalità autonoma per la marcatura di una raccolta di risorse digitali non ancora accessibili agli utenti, comprendente sia oggetti digitali nativi, sia prodotti da trattamento elettronico possono fare riferimento a schemi esistenti e consolidati oppure definiti localmente occorre analizzare: le finalità (individuazione interna/esterna, deposito legale, e-business, controllo inventariale, ecc.) le procedure di derivazione, modifica e mantenimento dei metadati nel tempo la stabilità dei collegamenti tra il record e gli oggetti in un contesto dinamico le modalità di integrazione con gli altri archivi/repositories dell’istituzione Utilizzare metadati al posto di standard bibliografici tradizionali per distinguere le raccolte fisicamente presenti in biblioteca da quelle elettroniche/digitali accessibili via web iniziative miranti alla standardizzazione di un unico schema di metadati per facilitare la comprensione e l’accesso da parte dell’utente: Resource Description Framework (RDF) Open Archives Initiative (OAI) Sematic Web Project un grande impulso viene dallo sviluppo di XML che fornisce una sintassi comune per agevolare l’interoperabilità tra schemi di metadati alcune biblioteche mantengono due standard (MARC e DC) a seconda della tipologia di materiale, altre ne adottano uno solo (DC, TEI); ciò è possibile soltanto se la quantità di record nello standard precedente è insignificante Utilizzare metadati in aggiunta al record bibliografico tradizionale conseguenza dell’incremento delle attività di cooperazione, anche tra ambiti contigui mediante l’uso di convertitori i metadati annidati nella risorsa vengono convertiti in MARC e i record così ottenuti sono indicizzati nell’OPAC al tempo stesso essi vengono indicizzati dai motori di ricerca, sia interni, sia esterni al sito in questo modo si rende possibile una procedura di harvesting reciproca, della quale può avvantaggiarsi un sistema che voglia rappresentare un raccordo tra domini, discipline e applicazioni differenti (biblioteche, archivi, musei, editori, amministrazione, formazione, ecc.) Il “core record” (1/3) basato sulla struttura di FRBR, deve soddisfare le seguenti funzioni definire l’obbligatorietà degli elementi atti a rappresentare periodici elettronici, risorse ad integrazione, risorse monografiche punto di partenza: trovare (dati corrispondenti ai criteri di ricerca) identificare (distinguere tra più entità) selezionare (per lingua, versione, ecc.) ottenere (ordinare, acquisire, accedere in remoto) otto aree ISBD quindici elementi Dublin Core indipendenza da qualunque schema di metadati Il “core record” (2/3) mappatura tra MARC21 e otto schemi di metadati Encoded Archival Description (EAD) Dublin Core (DC) Global Information Locator Service (GILS) metadata schema Information Locator Service Text Encoding Initiative (TEI) Header Visual Resources Association (VRA) Core Categories Consortium for the Interchange of Museum Information (CIMI) metadata set Content Standard for Digital Geospatial Metadata (CSDGM) Online Information Exchange (ONIX) publishing standard Il “core record” (3/3) Soggetto Data Condizioni di utilizzazione Editore Nome assegnato alla risorsa Lingua/modalità di espressione Identificativi della risorsa Tipologia della risorsa (i.e., ciò che la risorsa è, non ciò di cui essa si occupa) Autore/creatore Versione “Common core”: raccomandazione “Le biblioteche nazionali e le altre agenzie bibliografiche o catalografiche adottino l’insieme costituito dai dieci elementi del common core come la struttura standard di un record di metadati finalizzato ad organizzare risorse digitali, comprese quelle consegnate alle biblioteche nazionali in ottemperanza al deposito legale.” L’interoperabilità Il Joint Information System Committee definisce l’interoperabilità: “la capacità di un sistema o di un prodotto di operare in combinazione con altri sistemi o prodotti senza richiedere un impegno particolare da parte dell’utente”. Essere interoperabili quindi significa: “essere attivamente coinvolti nel processo volto ad assicurare che i sistemi, le procedure e la cultura di una organizzazione siano gestite in modo tale da massimizzare le occasioni di scambio e di riutilizzazione dell’informazione, sia internamente che all’esterno”. Categorie di interoperabilità (1/4) Secondo l’UK Interoperability Focus esistono 5 tipologie di interoperabilità: Interoperabilità tecnica: presuppone lo sviluppo e l’applicazione di standard per la comunicazione, il trasferimento, l’immagazzinamento e la rappresentazione dei dati, come ad esempio i protocolli, i formati e i linguaggi di marcatura (rientrano in questa categoria Z39.50, ISO-ILL e XML). Categorie di interoperabilità (2/4) Interoperabilità semantica: presuppone lo sviluppo di dispositivi, innanzi tutto logici, che stipulino le corrispondenze fra termini indicanti funzioni, ruoli e concetti equivalenti in sistemi di ricerca appartenenti ad ambiti disciplinari diversi. Interoperabilità politica/umana: presuppone la scelta consapevole da parte delle istituzioni di rendere disponibili le proprie risorse informative sia mediante l’introduzione di nuove procedure amministrative per il controllo degli accessi e per la riscossione dei diritti sui dati, sia con l’immissione di nuovo personale specializzato o la riqualificazione di quello esistente, sia per mezzo della sensibilizzazione della propria utenza. Categorie di interoperabilità (3/4) Interoperabilità multidisciplinare: presuppone l’avvio di iniziative congiunte da parte di biblioteche, archivi e musei, finalizzate da un lato alla maggior conoscenza reciproca e alla individuazione di problemi e obiettivi comuni, e dall’altro lato alla realizzazione di prodotti e di sistemi di ricerca che permettano di sperimentare le soluzioni adottate. L’esigenza di favorire questa cooperazione, innestando un circolo virtuoso di sinergie, è stata fatta propria anche dalla Commissione Europea, che lo considera uno degli elementi sui quale effettuare la valutazione dei progetti presentati nell’ambito dei propri Programmi Quadro Categorie di interoperabilità (4/4) Interoperabilità internazionale: presuppone che tutti i fattori esaminati in precedenza vengano considerati alla luce delle problematiche connesse allo scambio internazionale dei dati, tenendo conto in primo luogo delle barriere linguistiche e delle diversità culturali Interoperabilità e punti di accesso La mappatura fra i metadati di più ampia diffusione, condotta in parallelo, sta permettendo di affrontare in parte la delicata questione delle equivalenze semantiche. L’analisi delle applicazioni sulle quali è stato condotto il confronto ha fatto emergere la questione della diversa granularità secondo cui vengono trattati i documenti nelle risorse informative, cioè la coesistenza all’interno degli archivi di più livelli di descrizione (singoli oggetti, serie, intere raccolte). Fattore che è non trascurabile, se circoscritto ad un singolo sistema o a sistemi omogenei dal punto di vista disciplinare, ma che diventa di estrema criticità nel caso di sistemi eterogenei. Elementi critici dell’interoperabilità Un altro elemento cruciale è costituito dalla standardizzazione dei termini utilizzati come punti di accesso, quali nomi, titoli e descrittori. Purtroppo manca, allo stato dei fatti, un archivio internazionale di intestazioni controllate che possa fungere da autorevole punto di riferimento per la redazione delle descrizioni ed essere condiviso fra tutte le istituzioni culturali coinvolte. Più facile dovrebbe risultare la formalizzazione degli altri elementi, in particolare di quelli riguardanti la descrizione formale e strutturale dei documenti.