Collezioni Digitali di periodici in Italia e in Europa: standard, applicazioni, valutazioni, prospettive Arco (Trento) 15-16 novembre Le collezioni di periodici della Biblioteca Digitale italiana: le buone pratiche di gestione e lo sviluppo di standard nazionali Dott. Cristina Magliano (ICCU) Responsabile Laboratorio per le metodologie della catalogazione e per la didattica [email protected] Informazione elettronica e codici identificativi • DOI, Digital Object Identifier • PII, Publisher Item Identifier • SICI, Serial Item and Contribution Identifier (SICI number) che corrisponde alla norma ANSI/NISO Z39.56199x versione 2. (adottato dal Progetto CASA e portato avanti dal CIB di Bologna); utilizzato in MAG per l’elemento cronologia. tag 856 del formato MARC (Machine-Readable Catalogue), che non è un codice ma un campo all'interno di uno standard per la descrizione dei documenti, che connette a risorse esterne Codici di connessione • Tali codici di connessione intelligenti devono necessariamente far parte del nuovo bagaglio culturale del bibliotecario che si muove nel Web con la sua biblioteca • capire il meccanismo dei codici che permettono di integrare le risorse situate in punti differenti della Rete permetterà al bibliotecario di poter effettuare scelte di prodotti (banche dati bibliografiche o full-text) adeguate al proprio sistema gestionale ed adattabili all'interfaccia OPAC della biblioteca. • Scelta tra accesso o possesso, tra edizione cartacea o edizione elettronica dei documenti sono divenuti così sempre più spesso materia di discussione tra bibliotecari. Mercato globale dell'informazione digitale • costi • catalogazione e organizzazione dell'accesso alle informazioni • individuazione di nuovi meccanismi di scelta della documentazione • evoluzione del catalogo in funzione non solo del possesso ma anche dell'accesso • problemi di copyrigth • evoluzione tecnologica per l’accesso • conservazione costante nel tempo. Digitalizzazione • nuovo versante per la fruizione del materiale periodico • esigenza di nuovi standard descrittivi amministrativi gestionali Metadati e la biblioteca digitale La costituzione di collezioni elettroniche e cataloghi collettivi ha obbligato le biblioteche, gli archivi ed i Musei a dovere gestire: – una teca fisica; – una teca virtuale >>>> necessità di ricorrere a nuovi strumenti di identificazione e descrizione che definiscano le risorse e le mettano in relazione con altre disponibili in rete. >>>> l’accesso all’oggetto digitale deve essere reso possibile attraverso un’infrastruttura di sistema informativo che aiuti l’utente nell’identificazione e selezione della risorsa. I metadati sono uno strumento fondamentale per la creazione di questa infrastruttura. Se la digitalizzazione del patrimonio culturale e la conditio sine qua non per un progetto di “digital library”, l’utilizzo di metadati gestionaliamministrativi è comunque un aspetto da non trascurare per rendere efficiente questo strumento. In Italia, commissioni di studio hanno promosso l’individuazione di set di elementi di metadati estensibili ai vari ambiti dei beni culturali Per quanto concerne i metadati amministativi-gestionali e strutturali (metadati tecnici) si è mirato a definire un set di metadati relativi a: – modalità e politica di accesso alle risorse digitali; – aspetti organizzativi e gestionali relativi agli oggetti digitali; – strategie di conservazione di lungo periodo degli oggetti medesimi I metadati amministrativi e gestionali (MAG) Nascono in un momento successivo rispetto ai metadati descrittivi da una necessità nata nell’ambito dei progetti di digitalizzazione. Rendono possibili le funzioni di gestione degli oggetti digitali (derivati e nativi), in particolare quelle di presentazione all’utente, di accesso e di conservazione. Scopo del set MAG è stato quello di produrre uno schema xml basato sul modello METS (Metadata Encoding and Transmission Standard ) utilizzato dalla Library of Congress e di predisporre un set minimo di metadati gestionali al fine di una loro applicazione nei progetti di digitalizzazione. Obiettivi • L’obiettivo dello SCHEMA MAG è quello di fornire delle specifiche formali relative alla fase di raccolta e riversamento di metadati e dati digitali nei rispettivi archivi. • È stato individuato un set di metadati amministrativi, gestionali e strutturali di applicabilità generale. Obiettivi • Definisce: – come devono essere preparati gli oggetti digitali; – le modalità dell’immissione nell’archivio; – le modalità: • dell’archiviazione a lungo termine; • della manutenzione; • dell’accesso. Comitato MAG L’ICCU, quale responsabile della diffusione delle normative e degli standard bibliografici, ha pertanto costituito nel 2003 un Gruppo di lavoro permanente, il Comitato MAG, quale struttura di riferimento per le attività connesse alla promozione, supporto, gestione ed evoluzione dello standard di Metadati Amministrativi Gestionali MAG, nonché all’assistenza e consulenza alla comunità bibliotecaria, archivistica e museale per la gestione e l’accesso alle informazioni sull’oggetto digitale. Schemi importati e modelli di riferimento XML Schema Namespace (W3C) DC Dublin Core Element Set (traduzione italiana) Modello OAIS NISO-MAG XML Linking Language della Library of Congress XML eXtensible Markup Language • Linguaggio di markup sviluppato dal W3C (1999). E’ un meta linguaggio, cioè un linguaggio per costruire altri linguaggi Costituito da tag Deve avere le seguenti caratteristiche: • Ottemperare alle specifiche della sintassi (parser) • Rispettare i vincoli dello schema • Semanticamente coerente XML eXtensible Markup Language • Memorizza i dati • Comprende sia la struttura che la semantica dei dati • Rappresenta i dati sotto forma di strutture ad albero • Creato per lo scambio dei dati tra le diverse piattaforme Relazioni fra gli elementi • Gerarchiche • Ordinali La struttura deve essere rappresentata mediante un grafico ad albero Ciascun nodo corrisponde ad un elemento e a ogni ramo verso il basso una relazione di inclusione NISO-MAG </xsd:simpleType> - <xsd:simpleType name="mimetype"> - <xsd:restriction base="xsd:string"> <xsd:enumeration value="image/gif" /> <xsd:enumeration value="image/jpeg" /> <xsd:enumeration value="image/tiff" /> <xsd:enumeration value="image/png" /> <xsd:enumeration value="text/plain" /> <xsd:enumeration value="text/xml" /> <xsd:enumeration value="application/pdf" /> </xsd:restriction> </xsd:simpleType> - <xsd:simpleType name="compressiontype"> - <xsd:restriction base="xsd:string"> <xsd:enumeration value="Uncompressed" /> Sezioni standard MAG • <gen> informazioni generali sul progetto e sul tipo di digitalizzazione • <bib> metadati descrittivi sull'oggetto analogico • <stru> metadati strutturali • <img> metadati specifici relativi alle immagini fisse • <ocr> metadati specifici relativi al riconoscimento ottico del testo • <doc> sezione utilizzata per descrivere ad esempio un file in formato pdf o rtf • <audio> metadati specifici per file audio • <video> metadati specifici per file video • <dis> metadati specifici per la distribuzione di oggetti bibliografici Caratteristiche principali dello SCHEMA MAG SEZIONE BIB BIB GEN GEN ELEMENTO ATTRIBUTO REQUISITI dc:identifier obbl. piece opz. gen creation obbl. gen last update obbl. NOTE Individuano il documento in catalogo Individuano la campagna di digitalizzazione GRAFICO MAG: sezione GEN • istituzione responsabile del progetto di digitalizzazione, • Nome del progetto stesso • completezza o integrità del file • dati sull'accessibilità dell'oggetto (o degli oggetti) Perché i metadati descrittivi nello SCHEMA MAG? La presenza di tali metadati nello schema è garanzia del collegamento con l’archivio bibliografico standard. La sintassi fa riferimento al DCMES (Dublin Core Metadata Element Set ). GRAFICO MAG: sezione BIB Nel file MAG un documento individuato dalla chiave (dc:identifier, piece) è decomposto in parti elementari in funzione della struttura e del processo di digitalizzazione subito. – Le parti elementari sono univocamente individuate dal “sequence number” nella sezione multimediale pertinente (img, audio, video) – L’associazione “sequence number”/parte elementare viene definita in maniera permanente. L’utilizzo dell’elemento “datetimecreated” garantisce la gestione degli aggiornamenti. GRAFICO MAG: sezione STRU • Sequence number: numero progressivo che identifica una stru all’interno del file XML. • Nomenclature: descrizione dell’elemento di struttura (es. Le “Quattro Stagioni, Capitolo Primo, ecc.) GRAFICO MAG: sezione IMG • Contiene i metadati immagini digitalizzate. • Componenti: che descrivono le – sequence number: numero progressivo che identifica l’immagine all’interno del file XML. – nomenclature: la terminologia è definita dagli standard del progetto; – usage: indica l’uso consigliato per l’immagine (es. visualizzazione web) – side: indica se l’immagine acquisita comprende una o due pagine del libro e nel caso di una pagina singola, se è destra o sinistra. • scale: indica la presenza di una scala millimetrica in fase di digitalizzazione; • file: indica la localizzazione del file; • md5: algoritmo generato automaticamente che garantisce l’integrità del file; • filesize: dimensione del file in bit. • imagedimensions • imagemetrics • target • altimg: contiene i metadati relativi a formati alternativi dell’immagine considerata master (es. per il web, per anteprime, ecc.) Usage • <usage> Es.: 1: master 2: alta risoluzione 3: bassa risoluzione 4: preview a: il repository non ha il copyright dell'oggetto digitale b: il repository ha il copyright dell'oggetto digitale GRAFICO MAG: sezione OCR e DOC Sezione OCR Contiene metadati relativi a file di testo ottenuti mediante riconoscimento ottico automatico del contenuto Sezione DOC Contiene i metadati gestionali amministrativi relativi a file di testo born digital Viene utilizzato il namespace NISO e ci si basa sul NISO draft Standard- technical MD for digital Still images http://www.niso.org/pdfs/dataDict.pdf Sezione DOC Contiene i metadati gestionali amministrativi relativi a file di testo born digital Viene utilizzato il namespace NISO e ci si basa sul NISO draft Standard- technical MD for digital Still images http://www.niso.org/pdfs/dataDict.pdf Sezione video <sourcetype> Caratteristiche fisiche del supporto analogico di partenza filmato Videoregistrazione Videocartuccia Videocassetta Bobina video Materiale da proiettare Diapositiva, set di diapositive, stereografo Sezione Dis La sezione si usa in fase di DIP per la disseminazione degli oggetti digitali e contiene informazioni circa la fruibilità dell'oggetto digitale MAG: manuale utente Interoperabilità Lo scambio di dati fra sistemi con diversità di hardware e/o software comporta spesso perdite di contenuto e funzionalità. La soluzione è quella di adottare schemi di metadati definiti, protocolli di trasferimento condivisi ed eventualmente crosswalks (mappature) fra schemi di metadati diversi. Mapping Archivi, Biblioteche, Arti Iniziative dell’ICCU: • Linee guida per la digitalizzazione del materiale fotografico (2005) • Linee guida per la digitalizzazione di materiale cartografico (2006) • Linee guida per la digitalizzazione di bandi, manifesti e fogli volanti (2006) Set minimo degli elementi Dublin Core – Confronto DC-Unimarc ISBD/SBN-Scheda F Dublin Core UNIMARC ISBD/SBN Scheda F Title 200$a Titolo proprio SGLT Title alternative 540$a Titolo attribuito SGLA Creator 700$a Autore AUFN, AUFB Subject 610$a Soggetto SGTI Identifier 001 Bid NCTR, NCTN, NCTS DateCreated 210$h Data Di esecuzione LRD DateIssue 210$d Data di pubbl. DTSI, DTSF,DTSL; Coverage 300 Note LRCS, LRCC, LRA Dublin Core/ MAG UNIMARC ISBD/SBN ISAD(G) 2 EAD 2002 Scheda S Ambito di applicazione Identifier 001 BID Segnatura o codice identificativo (3.1.1) <unitid> COUNTRY CODE and REPOSITORY CODE attributes NCTR NCTN NCTS RVEL INVN Identificativo univoco della risorsa analogica Title 200$a Titolo proprio Denominazione o titolo (3.1.2) <untitle> SGTT SGTP SGTL Titolo della risorsa o, in assenza, titolo attribuito Creator 7-- Autore principale Denominazione del soggetto produttore (3.2.1) <origination> AUTN AUTB ATBD AAT Responsabilità principale Contributor 7-- Autore secondario ECP EPR Responsabilità secondaria Subject 610$ Soggetto SGTI DESI DESS Soggetto; parole chiave; notazione di classificazione Date 210$a $d Luogo e Data di pubblicazione DTZG DTSI DTSF Luogo e data di stampa Data (3.1.3) <unitdate> Not_date (profilo MAG) Data di emanazione Data (3.1.3) Data topica e cronica di emanazione (solo per i bandi) Type Type of record, posizione 6 della Leader Designazione generica del materiale Livello di descrizion e (3.1.4) Valori: unità archivistic a/ unità documenta ria <archdesc>and <c> LEVEL Valori: file o item TSK Designazione della risorsa; livello di descrizione Format 215$a Indicazione specifica del materiale ed estensione Consistenz ae supporto dell’unità di descrizion e (3.1.5) <physdesc> and subelements <extent> <dimensions> <genreform> <physfacet> MTC MISA MISL MISD MIFU MIFA MIFL MIFD Descrizione fisica; materia; tecnica e formato Descriptio n 3-- Nota di contenuto Ambiti e contenuto (3.3.1) <scopecontent> OGTD OGTT Descrizione del contenuto; regesto La descrizione archivistica e l'uso di identifier Per la scelta del valore di level nel caso si stiano elaborando metadati relativi a progetti di digitalizzazione di serie archivistiche, si precisa il significato da attribuire ai due valori suggeriti: • f: unità archivistica (file). Un insieme organizzato di documenti raggruppati o dal soggetto produttore, per le esigenze della sua attività corrente, oppure nel corso dell’ordinamento dell’archivio, in base al comune riferimento allo stesso oggetto, attività o fatto giuridico. Costituisce di solito l’unità elementare di una serie (ISAD(G) 2, Glossario) • d: unità documentaria (document, item). L’unità minima, concettualmente non divisibile, di cui è composto un archivio, per esempio, una lettera, un memorandum, un rapporto, una fotografia, una registrazione sonora (ISAD(G) 2, Glossario). • Mentre negli standard di catalogazione in ambito bibliotecario si catalogano i singoli documenti, nella descrizione archivistica l’unità di descrizione implica anche quella dei livelli superiori, che ne definiscono il contesto e ne completano il significato, rispecchiando la struttura logica degli archivi. • Per quanto concerne l'uso degli elementi Dublin Core, si ricorda che l'unico elemento obbligatorio è dc:identifier, la cui struttura per gli archivi dovrà seguire le regole suggerite in ISAD(G) 3.1.1, applicate ad esempio per gli Archivi di Stato nell’ambito del SIAS in base alla sintassi: “IT - acronimo archivio - numero univoco del complesso documentario con prefisso F - identificativo dell’unità di descrizione”, • es. IT-ASMS-F160349-034, che corrisponde al bando n. 34 di: Archivio di Stato di Massa Carrara > Archivio ducale > Archivio Cybo Malaspina > Bandi, esprimendo cioè per intero la gerarchia di conservazione, es. Sezione BIB Contiene i metadati descrittivi relativi all'oggetto analogico digitalizzato o comunque all’oggetto fonte nome <bib> descrizione metadati descrittivi che identificano la risorsa analogica path metadigit tipo xsd:sequence obbligatorietà M ripetibilità No attributi level = a spoglio m monografia s seriale c raccolta prodotta dall'istituzione f unità archivistica d unità documentaria) valori componenti tutti i tag Dublin Core, <holdings> , <piece> note nome <dc:identifier> descrizione identificatore univoco alla risorsa analogica nell’ambito di un dato contesto path metadigit/bib tipo dc:elementType obbligatorietà M ripetibilità Sì attributi Es.: valori componenti <dc:identifier>SBL0285585</dc:identifier> <dc:identifier> info:sbn/CFI0342793 </dc:identifier> <dc:identifier>IT-ASMS-F160349-034</dc:identifier> componenti note Cfr. http://dublincore.org/documents/dces#identifier e http://www.iccu.sbn.it/dublinco.html. L'attributo xsi:type della precedente versione poneva problemi di validazione. In questa versione, nel caso si vogliano inserire più <dc:identifier>, si propone l'utilizzo di un identificatore standardizzato da porre nel contenuto dell'elemento, vale a dire lo schema URI info che serve a referenziare tramite una URI gli asset che pur avendo un identificatore pubblico non possono essere referenziati con una URI. Per poter usare tale sistema, è necessario registrare preventivamente un namespace al sito http://info-uri.info/. Ulteriori informazioni circa relative allo schema URI info possono essere lette al sito http://infouri.info/registry/docs/misc/faq.html oppure al sito http://www.loc.gov/standards/uri/info.html#openurl. Per gli archivi, la struttura di dc:identifier dovrà seguire le regole suggerite in ISAD(G) 3.1.1, in base alla seguente sintassi: “IT - acronimo archivio - numero univoco del complesso documentario del livello più basso - identificativo dell’unità di descrizione” Per i documenti archivistici il valore di level potrà essere scelto fra i seguenti: f: unità archivistica (file) d: unità documentaria (document, item). Nuovi servizi SBN: Internet culturale e i periodici • riproduzione digitale periodici • localizzazione e gestione documenti digitali • Down load libero o a pagamento di tutto o parte di una sezione del periodico (commercio elettronico) Criteri di selezione • la particolare rappresentatività sotto il profilo storico-culturale, ove i materiali non siano stati già pubblicati in forma anastatica o in altro modo; • l’ampia e frequente consultazione in specifici ambiti disciplinari o tematici, eventualmente documentata da studi e ricerche; • la rarità, legata al valore storico-documentario e all’integrità delle copie conservate; • la difficoltà di reperimento delle testate, sia in termini di numero degli esemplari disponibili sia in termini di completezza delle copie conservate; • il precario stato di conservazione degli originali, dovuto alle modalità di stampa, alle caratteristiche tecnologiche dell’inchiostro o della carta, ma anche a fattori estrinseci come la frequenza d’uso e le condizioni ambientali. Progetti periodici BDI • i periodici eruditi a partire dal ’600; • le riviste letterarie del ’900, a carattere nazionale; • i periodici storici locali di interesse comunale, provinciale e regionale; • quotidiani e settimanali, comprese altre tipologie di giornale con formato simile al quotidiano. Progetto Riviste storiche preunitarie Il progetto è stato approvato dalla BDI e ha riguardato la digitalizzazione di 67 riviste conservate revalentemente presso le Biblioteche: Nazionale Centrale e Storia Moderna e Contemporanea di Roma, Universitaria di Pisa. A completamento delle raccolte alcune annate delle riviste sono state localizzate e digitalizzate anche presso altre biblioteche come la Biblioteca Reale e la Nazionale Universitaria di Torino, la Biblioteca Nazionale Marciana di Venezia, la Biblioteca Braidense di Milano. Il materiale periodico selezionato è interrogabile in linea nell'ambito della sezione Contenuti digitali del Portale Internet culturale e nel server periodici dell’ICCU Specifiche dell’elemento piece La prima parte dati cronologici del fascicolo (<mag:year>) sara' composta dai seguenti elementi: • serie, annata, num. volume, anno • I valori combinati si separano con lo slash. Il valore anno sara' sempre presente. • Il numero si può normalizzare in cifre arabe "vol. 1" o "vol. 1/2". • Es. <mag:year>vol. 1, 1934</mag:year> Specifiche dell’elemento piece (<mag:issue>) sara' composta dai seguenti elementi: • Mese, giorno, num. fascicolo • I valori combinati si separano con lo slash. • Se manca il giorno, si scrive solo il mese, se mancano tutti e due i valori si omettono tali indicazioni. • Il mese si scrive in lettere eventualmente con abbr. (es. gen.). • Il numero del fascicolo si scrive "fascicolo 1" o "fascicolo 1/2". Se il fascicolo non ha numero si scrive "fascicolo s.n." • Es. <mag:issue>gen./dic., fascicolo 1/2</mag:issue> Cronologia • <stpiece_per> : il campo permette di registrare in una forma normalizzata il riferimento a un fascicolo di un periodico; questo sia per poter scambiare i dati, sia per poter ordinare in modo automatico i vari record. Il campo <stpiece_per> è opzionale, non ripetibile e non è inteso a sostituire le informazioni contenute negli altri campi di <piece>. Formalmente è definito come restrizione del tipo xsd:string, essendo il suo contenuto regolato da una complessa espressione regolare. La sintassi utilizzata per la normalizzazione è quella dello standard SICI (ANSI/NISO Z39.56) per i segmenti Chronology, Enumeration e Supplements and Indexes http://www.niso.org/standards/standard_detail.cfm?std_i d=530. • • • • • • • • • • • • • • • • • • • • • • 01 = gennaio 02 = febbraio 03 = marzo 04 = aprile 05 = maggio 06 = giugno 07 = luglio 08 = agosto 09 = settembre 10 = ottobre 11 = novembre 12 = dicembre 21 = Primavera 22 = Estate 23 = Autunno 24 = Inverno 31 = primo quarto 32 = secondo quarto 33 = terzo quarto 34 = quarto quarto Es: La Repubblica 23 gennaio 2005 -> (20050123) Airone febbraio 2003 -> (200302) Renaissance Quarterly, 2? quarto 2004 -> (200432) Cronologia 4. Numerazione combinata e numerazione continua: Nella numerazione si può usare la barra "/" per una numerazione combinata. Es. (119021/22)17:3/4 per Primavera Estate 1990 volume 17 numero 3/4. Se vi sono due tipologie di numerazione si preferisce quella regolare volume:numero Es. Vol 21, n. 13 (fasc 389) 23 giugno 1995 viene codificato in (11950623)21:13 e non si tiene conto di "fasc 389" Cronologia • Se un periodico presenta solo una numerazione progressiva dei fascicoli • senza alcuna indicazione cronologica e senza alcuna indicazione di fascicolo • il risultato sarà, ad esempio, ()454 per indicare il fascicolo numero 454. • 5. Supplementi e indici: Un supplemento al fascicolo si indica con il "+" • (19950910)+ per Supplemento del 10 settembre 1995 non riferito a un particolare numero(198408)21:8+ per Supplemento al Volume 21 numero 8, Agosto 1984 Gli indici si indicano con "*" • Indice dell'annata 1990 --> (1990)* Siti di riferimento METS: http://www.loc.gov/standards/mets OAIS: http://www.oclc.org/research/projects/pmwg/pm_framework.pdf MAG: versione 2.0.1 http://www.iccu.sbn.it/genera.jsp?id=267 Dublin Core: http://dublincore.org/ ANSI/NISO Z39.56 -1996 (R2002) http://www.niso.org/standards/standard_detail.cfm?std_id=530