Biblioteca Italiana Predisposizione delle fonti per l’utilizzo degli studiosi Fabio Ciotti Il progetto BibIt Biblioteca Italiana (BibIt) è una biblioteca digitale di testi rappresentativi della tradizione culturale e letteraria italiana dal Medioevo al Novecento promossa dal "Centro interuniversitario Biblioteca italiana telematica" (CiBit) progettata realizzata e gestita dal 2001 dalla sua unità attiva presso il dipartimento di Italianistica dell'Università di Roma "La Sapienza" supportata dal progetto "Biblioteca Digitale Italiana" del Ministero per i beni e le attività Culturali Il contesto: i repositories testuali nelle istituzioni di ricerca e universitarie OTA Electronic text center WWP Cibit TIL Orientati da obiettivi di ricerca o di supporto alla ricerca Risorse in formati testuali (prevalentemente) Organizzazione per corpora testuali scientificamente coerenti Rivolti a un pubblico specialistico Il contesto: i progetti di archiviazione digitale istituzionali American memory Gallica Biblioteca Digitale Italiana Orientati alla conservazione e alla valorizzazione del patrimonio testuale Risorse in formato immagine (prevalentemente) Rivolti a un pubblico generalista Il contesto: il paradigma della biblioteca digitale A partire dagli anni ’90 emerge il paradigma della biblioteca digitale Sperimentazioni Finanziamenti USA: DLI I e II UE: vari programmi quadro Riflessioni DLib magazine Esplosione della letteratura sul tema Linee guida e indirizzi fondamentali recuperare il patrimonio di risorse digitali in formati testuali prodotte in precedenti progetti di digitalizzazione di opere della tradizione letteraria italiana rendere accessibile tale patrimonio a sia a utenti specialisti e ricercatori sia a utenti generici inserire tale patrimonio in un progetto di Biblioteca Digitale adeguato al livello di elaborazione teorica e alle esperienze di punta a livello internazionale adottare i più avanzati standard disponibili nella progettazione e implementazione delle varie componenti funzionali del sistema fornire testi scientificamente affidabili dal punto di vista linguistico tenendo conto della possibilità di perfettibilità indefinita che consentono i testi elettronici dal punto di vista dei formati fornire servizi ricerca che consentano di ottimizzare la capacità degli utenti di individuare l’insieme di risorse informative che in un dato momento risponde nel modo più adeguato ai propri bisogni informativi garantire la preservazione a lungo termine degli oggetti informativi (risorse) acquisite/prodotte e l’accesso a essi da parte della comunità di utenti di riferimento adottare soluzioni software open source e aperte La progettazione del sistema BibIt Il conseguimento di questi obiettivi ha richiesto una attenta progettazione del sistema e dei relativi servizi Progettazione e definizione culturale in primo luogo (che cosa come e perché digitalizzare, per quale utenza o gruppi di utenze, con quali rapporti costi/benefici di cui tenere conto) Progettazione e modellizzazione concettuale Architettura logica del sistema informativo e definizione dei modelli e formati di dati Progettazione tecnica e implementazione del sistema informativo, scelta dei software e sviluppo delle interfacce Progettazione concettuale Il modello concettuale che ha orientato lo sviluppo di Bibit è (liberamente) ispirato al Reference Model for an Open Archival Information System (OAIS) CCSDS 650.0-B-1: Reference Model for an Open Archival Information System (OAIS). Blue Book. Issue 1. January 2002. adottata come standard ISO 14721:2003 The reference model would define the basic functional components of a system dedicated to the long-term preservation of digital information, detail the key internal and external system interfaces, and characterize the information objects managed by the system. These descriptions would be expressed in terms of a well-defined set of concepts and terminology transcending, yet mappable to, domain-specific vocabularies. The reference model would also enumerate a set of minimum requirements an archival system is expected to meet [B. Lavoie, The Open Archival information System Reference Model: Introductory Guide, 2004] Modello funzionale e modello informativo Open Archival Information System Open – Reference Model standard(s) are developed using a public process and are freely available Information – – – Any type of knowledge that can be exchanged Independent of the forms (i.e., physical or digital) used to represent the information Data are the representation forms of information Archival Information System – Hardware, software, and people who are responsible for the acquisition, preservation and dissemination of the information OAIS: tipo di pacchetti informativi Submission Information Package – – Negotiated between Producer and OAIS Sent to OAIS by a Producer Archival Information Package – – Information Package used for preservation Includes complete set of Preservation Description Information (PDI) for the Content Information Dissemination Information Package – – Includes part or all of one or more Archival Information Packages Sent to a Consumer by the OAIS Architettura logica del sistema informativo modelli e formati dei dati L’architettura del sistema BibIt si articola in Repository dei documenti primari Archivia i documenti e fornisce i servizi di ricerca full-text e di presentazione degli stessi in diversi formati derivati Repository dei metadati Archivia i metadati associati a ciascuna risorsa e fornisce i servizi di ricerca strutturata e di presentazione degli stessi Sistema di immissione dei metadati Modulo back-office per la cerazione dei metadati che si interfaccia con con il relativo repository Modulo di interfaccia basato sul Web Modulo di ricerca e presentazione dei metadati (ereditato dall’interfaccia degli OPAC) Modulo di ricerca full-text dei documenti Quali strumenti per quali utenti? Limiti dei servizi di ricerca linguistica specialistica di un servizio di BD Modulo di presentazione dei documenti: il problema del paratesto digitale e degli strumenti di mediazione del testo in ambiente digitale ridefinizione dei ruoli della biblioteca assunzione di una vera e propria responsabilità editoriale della Biblioteca Digitale I metadati Per la gestione dei metadati è stato adottato il modello di dati e la sintassi XML dello schema METS (Metadata Encoding and Transmission Standard) Il profilo METS di BibIt identifica un modello di dati compatibile con quello dello schema MAG al fine di garantire l’interoperabilità con questo standard e con i servizi on-line che lo adottano (portale IC) Uno schema per la creazione di documenti di raccordo tra i vari componenti di una risorsa digitale e i metadati che li descrivono e per descrivere le relazioni strutturali che intercorrono tra tali componenti e la struttura logica del loro contenuto Implementazione XML del concetto di Information Package OAIS Può svolgere il ruolo di SIP AIP DIP METS Identifica i file o le parti di file che compongono il contenuto di una risorse digitale ed esprime la struttura o le strutture di questo contenuto Collega I metadati descrittivi con il contenuto digitale Collega I metadati amministrativi con il contenuto digitale Impacchetta il contenuto digitale e i metadati a esso associati come dati in formato binario METS METS non fornisce un vocabolario e una sintassi autonome per codificare metadati descrittivi e amministrativi METS fornisce un modo per puntare a metadati esterni e/o per includere metadati descrittivi in formato XML all’interno del documento METS METS fornisce un sistema per collegare questi metadati al contenuto di una risorsa digitale Struttura di un documento METS Una istanza METS consiste di 6 sezioni 1. 2. 3. 4. 5. 6. Header Descriptive Metadata Section Administrative Metadata Section File Section Structural Map Section Behavior section Uso di METS in BIBIT METS come AIP (formato del repository) METS come DIP (trasformato in XHTML mediante procedura XSLT serverside o trasmesso direttamente Trasformato in sintassi MAG come DIP per interoperare con i servizi del portale Internet Culturale A ogni risorsa informativa unitaria (espressione di un’opera) corrisponde un documento METS Extension schema adottati Metadati descrittivi MODS 3.0 (Metadata Object Description Schema) Metadati amministrativi BibIt Digital Text Metadata Set (DTMS), uno schema sviluppato internamente per la registrazione dei metadati tecnici di formati testuali sottoposto BIBIT Digital Provenance Metadata Set MIX (NISO Technical Metadata for Digital Still Images) LOC Schema for Rights Declaration I formati per i documenti La collezione di risorse digitali di BibIt è in formato testuale Il formato primario di archiviazione è un sottoinsieme del il linguaggio di markup TEI/XML Data la vastità dello schema TEI, nell’ambito del progetto Bibit sono stati individuati diversi livelli di codifica ai quali un testo può essere sottoposto: livello 1: codifica della struttura editoriale del testo, di un limitato gruppo di fenomeni editoriali intralineari e linguistici; livello 2: codifica di una serie di fenomeni linguistici e semantici, dei riferimenti bibliografici, oltre alla eventuale introduzione di riferimenti incrociati; livello 3: codifica di fenomeni testuali complessi in vista di applicazione di analisi avanzate (struttura semantica, narrativa, retorica, morfosintattica, etc.); livello 4: trascrizione diplomatica di una fonte primaria; livello 5: edizione critica di un opera. Allo stato attuale la maggior parte dei documenti presenti nella collezione sono al livello di codifica 1 I criteri editoriali Le risorse testuali prodotte nel contesto del progetto BibIt – ad eccezione di edizioni diplomatiche di fonti primarie – sono considerate in generale come vere e proprie edizioni digitali autonome Di nuovo la responsabilità editoriale della Biblioteca Digitale Il rapporto con l’edizione cartacea fonte è circoscritto al solo contenuto testuale dell’opera nella forma linguistica e nella struttura editoriale con cui essa vi appare. Il processo di digitalizzazione e codifica si limita esclusivamente a tale contenuto testuale, trascurando l’aspetto materiale della fonte i materiali paratestuali la cui responsabilità intellettuale non è ascrivibile all’autore dell’opera (a meno che tali elementi non siano entrati a far parte dell’opera stessa nel corso della sua tradizione) tutti i materiali paratestuali non d’autore o comunque estranei al testo in sé, per come questo è attestato nella tradizione (frontespizio, introduzione, prefazione, indice dei contenuti, note, titoli correnti, numeri di pagina etc.), saranno omessi le parole sillabate a fine riga saranno normalizzate; ogni fenomeno materiale non inerente al testo dell’opera occorrente sulle pagine viene tralasciato ogni fenomeno di evidenziazione viene codificato in modo funzionale Il contenuto linguistico e ortografico del testo è trascritto fedelmente nella forma in cui esso appare nella fonte, senza alcun intervento di normalizzazione. Il code set di riferimento per la rappresentazione dei caratteri è Unicode in codifica UTF-8. Architettura software Front-end Web: HTTP server Apache 2.0 Fornisce direttamente tutti i contenuti Web statici e gestisce l’accesso ai servizi dinamici basata su java Java application server/servlet container: Jakarta Tomcat 5.5 o sup Esegue le applicazioni Web basate su Java presenti nell’archiettura Repository metadati: Exist XML database Contiene e indicizza i metadati in formato XML nativo Creazione metadati: Exist XML database + Java Web application B-Mes L’immissione dei metadati si basa su una applicazione Web Java sviluppata ad hoc, B-Mes, che memorizza i dati direttamente su database XML Exist Ricerca e visualizzazione metadati: Exist XML database + applicazione web basata su Cocoon Web framework integrato con Exist La ricerca e visualizzazione dei metadati viene effettuata mediante una applicazione Web eseguita da Cocoon che ineterroga il db XML Exist e formatta i dati in HTML. Il linguaggio di query usato è Xquery 1.0 e l’elaborazione e formattazione dei dati in formato XML si basa su fogli di stile XSLT 1.2 Gestione e visualizzazione risorse in formato immagine: Exist XML database + applicazione web basata su Cocoon Web framework integrato con Exist La visualizzazione delle risorse in formato immagine si basa su una applicazione Web Cocoon che elabora server side i metadati XML/METS estratti dal db Exist mediante fogli di stile XSLT 1.1. Le immagini sono conservate direttamente su file system. Visualizzazione e ricerca full-text delle risorse testuali in formato XML/TEI: Web application XTF La ricerca e la visualizzazione on-line dei documenti testuali in formato XML si basa attualmente sull’applicazione proprietaria Dynaweb L’applicazione permette effettuare ricerche full-text e sull’intera collezione testuale e di convertire dinamicamente i documenti XML in formato HTML per la visualizzazione in ambiente Web A breve completeremo il passaggio verso la nuova piattaforma open-source XTF sviluppata dal California Digital Library basata sul motore di ricerca full-text Lucene Sviluppi futuri Estensione della collezione. Sono in lavorazione circa 150 nuovi testi che completeranno i corpora di alcuni tra i maggiori autori del canone Sviluppo di servizi avanzati differenziati per i profili di utenza Per gli utenti specialisti Servizi di ricerca e di statistica testuale avanzati con accesso ristretto Approfondimento dei livelli di codifica Predisposizione di collezioni speciali con edizioni diplomatiche e critiche Sviluppi futuri Per gli utenti specialisti Servizi di ricerca e di statistica testuale avanzati con accesso ristretto Approfondimento dei livelli di codifica Predisposizione di collezioni speciali con edizioni diplomatiche e critiche Avvio del progetto Incunaboli Volgari in formato immagine Sviluppi futuri Per gli utenti generalisti Fornitura di contenuti di mediazione e contestualizzazione culturale dei testi Adozione di tecnologie di descrizione e ricerca semantica (Sematic Web e Topic Map) Distribuzione dei testi in formati derivati adatti alla lettura mediante apparati e-book (PDF e MS Reader)