Riproduzione digitale di fonti manoscritte (metadati descrittivi e reperimento delle risorse elettroniche) CORSO DI PERFEZIONAMENTO SAPERI STORICI E NUOVE TECNOLOGIE (Napoli, 6 giugno 2006) -------- Paul Gabriele Weston [email protected] Argomenti Breve introduzione ai metadati Standard per la codifica Interoperabilità Funzioni dei service provider Conclusioni Cosa sono i metadati? Informazione strutturata sulle risorse termine di nuovo conio utilizzato per indicare informazioni di tipo referenziale applicate a risorse elettroniche, simili per funzione alle notizie create nel tempo per rappresentare risorse tradizionali schede di catalogo, citazioni bibliografiche, registri inventariali, ecc. Descrivono specifici file, singoli oggetti o collezioni complesse Archiviati a parte o facenti parte integrante della risorsa alla quale si riferiscono In particolare, i metadati sono … informazioni elettroniche utilizzabili direttamente dal computer dotate di una struttura e di una semantica definite che descrivono una risorsa I metadati agevolano … l’identificazione delle risorse elettroniche la loro autenticazione la conservazione del contesto di origine la ricerca delle risorse l’accesso alle risorse raggiungibili via web la raccolta delle informazioni (metadata harvesting) utili all’allestimento di dispositivi di mediazione e di conservazione I metadati costituiscono il valore aggiunto della risorsa elettronica Metadati nativi e aggiuntivi I metadati nativi si trovano in un documento fin dal momento della sua creazione, in quanto vengono creati dall’autore del documento o dal software in modo automatico supportano il reperimento della risorsa comprendono il nome del creatore del documento, il titolo, la data I metadati aggiuntivi vengono creati da soggetti terzi per incrementare il valore della risorsa supportano la selezione della risorsa comprendono termini di vocabolario controllato, la descrizione, informazioni sui diritti Metadati differenti per funzioni diverse descrittivi amministrativi organizzazione interna della risorsa – identificativi univoci, numeri di pagina, caratteristiche peculiari (indice dei contenuti, indici, ecc.) tecnici gestione e amministrazione della risorsa – versione, fonti degli originali, date di creazione, modifica, ecc. strutturali descrizione della risorsa – autore, titolo, soggetto conservazione della risorsa nel medio e nel lungo periodo – formati dei file, apparecchiature per il trattamento digitale, formato di compressione, componenti hardware e software relativi ai diritti (rights management) fruizione e controllo della risorsa e dei suoi contenuti – proprietà intellettuale e commerciale, restrizione all’uso, ecc. La documentazione del contesto contenuto relazioni identifica la natura della risorsa e ne rappresenta il contenuto evidenzia le relazioni con altri oggetti struttura comprende concetti quali inizio e fine del documento, capitoli, articoli, ecc. ai fini di comunicarne la gerarchia e l’organizzazione dei dati e delle componenti della risorsa I metadati supportano …. la gestione delle risorse digitali l’interoperabilità delle risorse digitali la conservazione delle risorse digitali la reperibilità delle risorse digitali la gestione dei diritti l’integrità e l’autenticazione la sostenibilità Standard per la codifica informazione globale applicazioni generaliste e specialistiche soggetti promotori e siti istituzionali standard de iure e de facto Standard internazionali il conseguimento della standardizzazione è la conseguenza dell’esistenza di accordi e protocolli internazionali pubblicati come standard internazionali Il formato MARC MAchine-Readable Cataloging notizia catalografica che viene automaticamente elaborata dal computer, il quale è in grado di riconoscere l’identità delle diverse componenti della notizia e di trattarle di conseguenza notizia catalografica = record bibliografico = metadati criteri di compilazione determinati dalle normative catalografiche (ISBD, RICA, AACR2, ecc.) permette a ricerca elettronica del catalogo (opac) Il formato MARC nel tempo Personalizzazioni: USMARC, LCMARC, UKMARC, INTERMARC, ecc. Scambio internazionale dei dati: UNIMARC Evoluzioni del formato: da LCMARC a MARC 21 MARCXML (ambiente XML, sviluppato da LC) MODS (semplificazione e razionalizzazione, finalizzato alla realizzazione delle biblioteche digitali) Struttura del record MARC campi (autore, titolo, pubblicazione, ecc.) identificati da un codice numerico di tre cifre (tag) 100 1# $a Guerrini, Mauro [responsabilità principale, persona fisica] alcuni campi sono suddivisi in sottocampi campo [area] della pubblicazione, distribuzione, ecc. (identificato dal codice 260) include i sottocampi [elementi] luogo, nome dell’editore, data di pubblicazione) 260 ## $a Milano : $b Editrice Bibliografica, $c 2005 Esempio di record MARC21 100 1# $a 245 10 $a $c 250## $a 260## $a $b $c 300## $a $b $c 490## $a $v 650#1 $a Guerrini, Mauro. Catalogazione / Mauro Guerrini. 1 ed. Roma : Associazione Italiana Biblioteche, c1999 141 p. : ill. ; 17 cm Enciclopedia tascabile ; 16 Catalogazione bibliografica MARCXML il Network Development and MARC Standards Office della Library of Congress ha sviluppato una struttura utile ad utilizzare dati MARC in ambiente XML la struttura è flessibile ed estensibile per ampliare il numero e la varietà delle applicazioni, ma non vengono meno i caratteri di specificità del MARC l’elaborazione ha incluso lo sviluppo di schemi, fogli di stile e dispositivi software, accessibili e scaricabili attraverso il sito record MARCXML Conversione tra schemi di metadati è il risultato di una mappatura, cioè del procedimento con il quale vengono individuate le corrispondenze sintattiche e semantiche tra singoli elementi di due schemi di metadati l’ambiente XML in funzione del quale è stato sviluppato MARCXML si presta bene alla conversione tra schemi di metadati sono stati sviluppati dei dispositivi software per semplificare le procedure Conversione a Dublin Core Presentazione dei dati presentazione è la visualizzazione e/o la marcatura dei dati MARC in una forma leggibile presentazione HTML … Record visualizzati in HTML XML per la codifica dei metadati eXtensible Markup Language XML serve per attribuire una struttura ai dati esempi di dati strutturati sono i fogli di calcolo, le transazioni fininziarie, I disegni tecnici si definisce con XML un insieme di regole per produrre formati di testo che diano una struttura ai dati XML non è un linguaggio di programmazione e non richiede particolari competenze informatiche XML agevola la produzione e la lettura di dati da parte del computer e assicura che la struttura di tali dati sia non ambigua XML si presenta non dissimile da HTML è comune l’uso di marcatori (tags, termini racchiusi tra parentesi uncinate) e di attributi in HTML viene specificato il significato di ogni marcatore e attributo e talvolta anche la resa grafica in XML i marcatori servono solo a segmentare i dati, la cui interpretazione è affidata all’applicazione XML per la codifica dei metadati XML consiste di testo, ma non è finalizzato alla lettura XML è modulare i dati sono archiviati in formato testo, per cui possono essere letti mediante un text editor in caso di compilazioni errate, l’applicazione si ferma e genera un messaggio di errore il formato di un nuovo documento può essere prodotto combinando e riutilizzando altri formati per evitare di assegnare lo stesso nome ad elementi o attributi diversi, XML fornisce meccanismi di namespace XML non pone problemi di licenze ed è indipendente da qualunque piattaforma ci si può avvalere del lavoro e dei dispositivi prodotti dalla comunità di utilizzatori XML Tecnologie XML XML comprende una famiglia di tecnologie correlate XLink – modalità standard di aggiungere link ipertestuali ad un file XML XPointer – sintassi per puntare a porzioni di dati interni a un documento XML (il ruolo dell’URL nel web) XSL – linguaggio per la produzione di fogli di stile XSLT – linguaggio di trasformazione utile a riorganizzare, aggiungere e rimuovere tag e attributi XML per le biblioteche digitali “Occorre trovare il modo per trasferire dati e informazioni in modo efficiente ed efficace. Dati in XML condivisi tra computer ed applicativi differenti rappresentano un passo in direzione dell’agevolare questa condivisione” strutturazione del contenuto per trasferimenti di dati in tempo reale (online delivery) integrazione di informazioni interne ed esterne gestione dei dati bibliografici – creazione, archiviazione, condivisione ed utilizzazione cattura di metadati Schemi di metadati descrittivi Dublin Core (DC) descrizione semplice di risorse di ogni genere per la prima ricerca Encoded Archival Description (EAD) Text Encoding Initiative (TEI) codifica di strumenti di corredo archivistici Music Encoding Initiative (MEI) Synchronized Multimedia Integration Language (SMIL) marcatura di documenti musicali marcatura di testi letterari sincronizzazione ed integrazione di documenti multimediali Dublin Core elementi non qualificato semplici da comprendere e adoperare opzionali e ripetibili internazionali e trasversali tra le discipline finalizzato ad una sommaria descrizione della risorsa per agevolare la prima ricerca qualificato per descrizioni più ricche che permettano raffinamenti nella ricerca e un loro uso professionale nell’ambito degli strumenti di mediazione propri delle diverse discipline Applicazioni di Dublin Core oggetti fotografie diapositive Implementazione formato di descrizione di una risorsa informativa mira ad agevolare il reperimento delle risorse elettroniche funge da base per l’interoperabilità semantica adottata da numerose comunità utenziali (biblioteche, musei, agenzie governative, organizzazioni commerciali) beneficia dell’attiva partecipazione e promozione in oltre 20 Paesi in Nord America, Europa, Asia ed Oceania Dublin Core Metadata Element Set Title Creator Subject Description Publisher Contributor Date Type Format Identifier Source Language Reference Coverage Rights Encoded Archival Description (EAD) Basato sullo standard ISAD(G) per la descrizione di complessi archivistici schema di codifica (marcatura, markup) non-proprietario finalizzato alla produzione di strumenti di corredo elettronici mediante l’impiego di linguaggi di marcatura (SGML e poi XML) per agevolare la ricerca all’interno dell’archivio e l’accessio via web http://www.loc.gov/ead/ EAD e la struttura degli strumenti di corredo LIVELLO ALTO Descrizione dell’archivio Descrizione di serie archivistiche Descrizione di sottoserie archivistiche LIVELLO BASSO Descrizione dell’unità documentaria Principi ispiratori di EAD obiettivo è rendere le risorse archivistiche provenienti da istituzioni diverse accessibili agli utenti del web nomi di elementi ed attributi definiti in modo tale da favorire lo scambio internazionale di dati – l’interoperabilità è un formato di struttura, non uno standard per i dati di contenuto Linee guida e migliori pratiche di EAD facilitare il reperimento della risorsa attraverso l’interoperabilità normalizzare la creazione di documenti correttamente codificati in EAD all’interno o tra più istituzioni incoraggiare l’inclusione di specifici elementi sviluppare un insieme di dati essenziali (core data elements) Text Encoding Initiative (TEI) schema per la codifica di testi in fase di creazione di nuovi documenti testuali o per lo scambio di documenti esistenti basato su XML non richiede l’utilizzo di specifico software consente la rigorosa partizione del testo agevola il trattamento scientifico dei testi Elementi rappresentano le caratteristiche del testo ai fini di un suo trattamento elettronico (titolo, indici, ecc.) marcatori (tags) per indicare la struttura del testo ed altre caratteristiche di interesse (<title>, <index>) TEI comprende circa 450 elementi un sottoinsieme è TEI Lite che include circa 150 elementi Struttura TEI TEI header (intestazione, elemento <teiHeader>) element) trascrizione del testo (elemento <text>) <TEI.2> <teiHeader> [ TEI Header information ] </teiHeader> <text> <front> [ front matter ... ] </front> <body> [ body of text ... ] </body> <back> [ back matter ... ] </back> </text> </TEI.2> TEI header l’elemento teiHeader non fa parte del documento codificato, ma fornisce informazioni sul documento si comporta come una scheda di catalogo (o il frontespizio) nei confronti di un libro a stampa fornisce i metadati relativi alla versione elettronica del libro è obbligatorio per ogni documento TEI Music Encoding Initiative (MEI) definito specificamente per testi musicali, partiture, annotazioni del musicista, ecc. tiene separati I dati dai metadati può ospitare raccolte, parti, varianti struttura simile a TEI ancora in corso di sviluppo http://dl.lib.virginia.edu/bin/dtd/mei/ Synchronised Multimedia Integration Language (SMIL) pronunzia "smile" utilizzato per presentazioni multimediali integra e sincronizza audio e video con immagini, testo e altre tipologie documentarie animazione struttura controllo dei contenuti gestione tempi e sincronizzazione struttura di presentazione effetti transizione collegamenti manipolazione tempi integrazione di oggetti mediatici Scelta di uno schema di metadati tipologie documentarie oggetto della conversione al digitale finalità del progetto di digitalizzazione – accesso o conservazione utilizzatore potenziale competenze e capacità del personale del progetto infrastruttura tecnica disponibile presso l’istituzione livello di dettaglio (varia da un’istituzione all’altra) Condivisione degli standard e collaborazione partenariato soluzioni comuni condivisione di infrastrutture, specie tecnologiche condivisione di competenze interoperabilità Interoperabilità “occorrerebbe garantire che … i sistemi, le procedure e la cultura di un’organizzazione siano gestiti … in modo tale da massimizzare le opportunità di scambio e di riutilizzazione dell’informazione, sia internamente, sia all’esterno della struttura” Paul Miller. Interoperability: what is it and why should I want it? «Ariadne» Issue 24 Diversi livelli di interoperabilità tecnologica semantica nazionale e internazionale Livello tecnologico qual è l’oggetto dello scambio – elementi dei dati in che modo strutturarli ai fini dello scambio – schemi in che modo effettuare lo scambio – transazioni e messaggi di protocollo, profili Livello semantico “Le biblioteche digitali si occupano sempre meno di libri e sempre più delle idee e dei concetti espressi nei libri” utilizzo coerente dei termini di soggetto migliori descrizioni delle risorse reperimento delle risorse più efficace accesso al contenuto intellettuale Ricerca full text e vocabolari controllati ricerca full text ampia e non specifica termini fuori contesto risultati erronei indicizzazione automatica Amazoogle vocabolari controllati definizione dei termini precisione nei risultati soggetti correlati comprensione condivisa da persone e computer thesauri multilingua Accesso – ricerca e recupero termini di un vocabolario controllato thesaurus acronimi archivi di authority Thesauri lista di termini interrelati, nell’ambito di uno specifico dominio disciplinare, provvista di collegamenti semantici predefiniti ed eventualmente anche della definizione dei termini Library of Congress Subject Headings MESH The International Thesaurus of Refugee Terminology Livello nazionale ed internazionale scambio universale dei dati raccolta (harvesting) dei metadati cooperazione internazionale gateway informativi (portali, virtual reference desk) Requisiti attitudini – volontà di condividere, partecipare cambiamenti – nuove procedure, nuove abilità e competenze, nuovi criteri gestionali condivisione degli standard per la codifica dei dati protocolli per la condivisione dei metadati Z39.50 protocollo che consente la ricerca e il recupero di record da più archivi elettronici in contemporanea, mediante un’unica interfaccia sul lato utilizzatore protocollo: un insieme di regole che governa lo scambio di informazioni tra dispositivi e computer diversi trova ampia applicazione nella ricerca bibliografica all’interno degli opac e dei metaopac Schema di colloquio tra un opac, un cliente Z e un server Z Perchè è importante? consente la ricerca trasversale su più cataloghi di biblioteca permette all’utilizzatore di servirsi di un’interfaccia di ricerca con la quale ha già familiarità favorisce il recupero di dati in forma strutturata rende possibile l’attivazione di applicazioni in forma distribuita Limiti di Z39.50 mancanza di semantica condivisa differenze tra i servizi esposti dal client e dal server esempio: il sistema di ricerca locale effettua la ricerca di nomi personali e di enti nel medesimo indice; nel sistema remoto invece la ricerca di un nome di persona viene effettuata soltanto all’interno dell’indice di persone più versioni rilasciate con caratteristiche differenti non è compreso all’interno dei browser standard e dei più comuni motori di ricerca Open Archives Initiative Open Archives Initiative sviluppa e promuove dispositivi per l’interoperabilità che mirano ad agevolare l’efficacia della disseminazione dei contenuti sul web i documenti sono depositati in archivi (repository) ai fini di consentire la condivisione dei metadati, la pubblicazione dei contentui e l’archiviazione delle risorse la descrizione dei documenti avviente mediante Dublin Core non qualificato http://www.openarchives.org OAI Protocol for Metadata Harvesting OAI-PMH Protocol for Metadata Harvesting si basa su uno Schema W3C XML “L’obiettivo è “l’apertura", favorita attraverso l’esposizione e la raccolta dei metadati attraverso un protocollo http semplice e appositamente definito” NELSON, M. OAI and OAIS: What’s in a name. D-Lib Magazine, 7(5), May 2001 Linee guida per l’implementazione Harvesting mediante OAI-PMH Data Providers (open archives, repositories) forniscono libero accesso ai metadati ed, eventualmente ma non necessariamente, anche ai testi (full text) o ad altre risorse Service Providers utilizzano le interfacce OAI dei Data Providers per raccogliere e archiviare metadati le sessioni di ricerca non avvengono direttamente sulla repository del Data Provider i servizi si basano sui dati raccolti mediante harvesting Funzionamento di OAI-PMH Carpenter. L. 2003. OA-Forum Tutorial. University of Bath, Bath Risorsa che non espone metadati descrittivi punto di accesso unico Produttore / distributore utenti sito del produttore Risorsa che espone metadati descrittivi punti di accesso multipli Produttore / distributore sito del produttore Varie fasce di utenti Aggregatori di metadati motori, portali, aggregatori harvesting di metadati Data provider repository Service provider Archiviazione metadati OAI-PMH ricerca Interfaccia Data provider di ricerca standard database Z39.50 SRU/SRW Service provider risultati (compresi metadati) Data providers metadati Dublin Core convertiti dinamicamente mediante mappatura da un altro schema di metadati a DC oppure archiviati direttamente come DC sono disponibili mappature tra DC, EAD e MARC 21 i dati sono codificati in XML tutti i record vengono contrassegnati da un elemento cronologico (datestamp) Service providers dispongono di dispositivi per l’harvesting software per l’harvesting automatico web robots, cioè programmi che scandiscono lo spazio web automaticamente (crawlers, spiders) i web robot fanno uso di protocolli HTTP forniscono servizi relativi a tutti i dati raccolti interfaccia di ricerca sistemi di peer-review Architettura gestione dell’archivio richieste HTTP ai data providers uso della sintassi di OAI-PMH harvesting selettivo mediante parametrazione calendario selezione delle repository sulle quali effettuare l’harvesting lista delle repository immessa manualmente o facendo uso del registro ufficiale raccolta periodica e programmata dei metadati normalizzazione armonizzazione dei diversi formati di metadati in una struttura omogenea (data, nomi, codici di lingua e paese) mediante mappatura e/o traduzione Servizi a valore aggiunto OAI permette l’erogazione di servizi basati sulla raccolta dei metadati, nel quale il valore dei dati può crescere in seguito alla normalizzazione e all’arricchimento dei metadati stessi esempi di servizi sono ricerche collegamenti per citazionie peer-review RSS feeds tre diverse denominazioni Really Simple Syndication: distribuzione mediante condivisione a procedura semplice Rich Site Summary: indice ricco delle informazioni presenti su un sito web RDF Site Summary: come il precedente, con riferimento alle sue origini RDF Resource Description Framework usato nella produzione, distribuzione, fruizione di contenuti da: siti di informazione fornitori di contenuti periodici scientifici quotidiani online weblog CMS (Content Management System), sistemi per la gestione di contenuto Definizioni termini derivati dalla pratica e dal linguaggio dei dispositivi di mediazione tradizionali syndication: distribuzione di contenuti attraverso appositi canali, rappresentati da feed Atom o RSS feed, file contenente segmenti di contenuti veicolati all’interno di un canale channel (canale): percorso attraverso il quale l’informazione viene veicolata o trasmessa Wikipedia: RSS Wikipedia definisce RSS uno “standard de facto”, ovvero uno standard che, benché non riconosciuto ufficialmente come ISO è talmente diffuso da essere comunque un elemento di riferimento “Oggi RSS è lo standard de facto per l'esportazione di contenuti Web. I principali siti di informazione, i quotidiani online, i fornitori di contenuti, i blog più popolari: tutti sembrano aver adottato il formato RSS. Gli utenti possono oggi accedere a migliaia di feed RSS: alcuni siti (directory) raccolgono i riferimenti agli innumerevoli feed RSS disponibili sul Web.” http://en.wikipedia.org/wiki/RSS_(protocol) http://it.wikipedia.org/wiki/RSS Dialetti RSS RSS 0.92: il più vecchio tra gli standard oggi in uso, evoluzione del formato usato originariamente da Netscape RSS 2.0: rilasciato da UserLand nel 2002, è l'evoluzione del formato 0.92, di cui eredita la semplicità, ma a cui aggiunge il supporto per moduli aggiuntivi RSS 1.0: è il formato ufficiale del W3C, conforme ad RDF, estensibile e modulare Dialetti e uso RSS 2.0 (Really Simple Syndication di Userland) più orientata alle implementazioni XML : servizi di distribuzione di contenuto effimero come notizie o contenuti provenienti dai blog RSS 1.0 (del W3C) adotta e implementa il modello di dati RDF Resource Description Framework più focalizzata su un generico strumento di scambio di metadati strutturati, offre un semplice meccanismo di estensione modulare per accogliere nuovi vocabolari Come funziona basato su XML: semplice, estensibile, flessibile documenti disponibili su un web server e recuperabili da qualsiasi aggregatore RSS preferenze stabilite dagli utenti (personalizzazioni) si usa un programma detto news aggregator per leggere un feed RSS basta un lettore scaricare un software adatto cliccare sull’icona RSS sul sito da cui si vogliono ricevere i feed copiare l’indirizzo del feed RSS.xml che si apre nell’apposita finestra del news aggregator http://www.alesti.org/ è possibile dirottare le novità pubblicate su un periodico elettronico verso un palmare Applicazioni al mondo delle biblioteche promozione e marketing dei servizi bibliotecari: attività, nuove risorse, eventi, annunci su novità e promozione di nuovi servizi elenchi di nuove acquisizioni della biblioteca / rete elenchi di novità librarie da siti di librerie virtuali come Amazon http://www.amazon.com/exec/obidos/subst/xs/syndicate.html/1021715106-4224135 Table of Contents (ToC) di periodici (CAS: Current Awareness Service) miglioramento dei servizi di reference: aggiunta di nuove risorse su un determinato ambito disciplinare / soggetto Opportunità aggiornamento costante in tempo reale, con cadenze personalizzabili e risparmio di tempo riduzione dello spamming nell’e-mail in quanto i canali vengono attivati in modalità opt-in recupero di notizie ad intervalli stabiliti da siti di interesse, attraverso l’uso di aggregatori, che evitano di visionare individualmente centinaia di siti attivazione di forme nuove di marketing e promozione per argomento per settore o per categorie di utenti Conclusioni i metadati aggiungono valore ai dati gli standard di codifica determinano la standardizzazione la standardizzazione facilita l’interoperabilità i protocolli consentono lo scambio dei dati