Alice Borgna (Università di Torino) Simona Musso (Università del Piemonte Orientale) Risorse digitali e strumenti collaborativi per le Scienze dell'Antichità Venezia, 2 ottobre 2014 1 Il progetto Digital Library of late antique Latin Texts è stato avviato il 1 marzo 2010 grazie ad un finanziamento della Regione Piemonte finalizzato a ricerche nell’ambito delle Scienze umane e sociali. Partito da un’idea di Raffaella Tabacco, sviluppata e concretizzata insieme con Maurizio Lana, il progetto ha lo scopo di costruire e mettere a disposizione libera e gratuita degli studiosi un database della letteratura latina tardoantica, dal II al VI secolo d.C. Venezia, 2 ottobre 2014 Alice BORGNA 2 Dipartimento di Studi Umanistici dell’Università del Piemonte Orientale, con Raffaella Tabacco, Maurizio Lana, Luigi Battezzato, Roberta Piastri, Gabriella Vanotti, Silvia Botto. Dipartimento di Studi Umanistici dell’Università di Torino, con Ermanno Malaspina e Andrea Balbo. Fabio Ciotti (Università di Roma Tor Vergata) è responsabile della formazione su XML/TEI e della configurazione e installazione del motore di ricerca avanzata interno al sito (XTF). Peter Heslin (Durham University, UK), è responsabile della conversione dei testi del PHI da Beta code a TEI, nella prospettiva di ampliare la biblioteca DigilibLT ai secoli che precedono il II d.C. Collaborano all’impresa un gruppo di giovani studiosi, stagisti, dottorandi e assegnisti di entrambi gli atenei piemontesi. Venezia, 2 ottobre 2014 Alice BORGNA 3 Tardoantico e mondo digitale Latino digitale, alcuni esempi: PHI (Packard Humanities Institute): fino al II sec. d.C. (con lacune). L’opera, prima disponibile in cd-rom, ora si trova in rete e sono allo studio possibili interazioni con DigilibLT Perseus Digital Library Musisque deoque (poesia): un pioniere nel settore In generale, molti testi tardoantichi sono disponibili in modo sparso sulla rete, ma queste banche dati sono spesso: selettive (es. i testi di un autore/editore) settoriali (es. i testi cristiani di una specifica collezione) proprietarie, quindi di consultazione assai costosa, possibile quasi solo alle istituzioni Venezia, 2 ottobre 2014 Alice BORGNA 4 Ulteriori problemi Non di rado i testi che si trovano in libera consultazione sul web: non danno alcuna garanzia di correttezza (edizione di riferimento non dichiarata oppure superata) sono privi di codifica (impossibilità di forme di ricerca avanzate) Venezia, 2 ottobre 2014 Alice BORGNA 5 Venezia, 2 ottobre 2014 Alice BORGNA 6 Rispetto agli strumenti esistenti la biblioteca digitale DigilibLT fornisce: un canone preciso degli autori e delle opere tardoantichi un database di testi, completo e chiaro nell’indicazione delle edizioni adottate come riferimento e degli interventi editoriali eventualmente operati. Venezia, 2 ottobre 2014 Alice BORGNA 7 schede autore schede opera schede catalografiche bibliografie in costante aggiornamento download gratuito di opere in .pdf sul tardoantico ormai libere da copyright oppure per cui si ottenga licenza di pubblicazione newsletter sezione feedback Venezia, 2 ottobre 2014 Alice BORGNA 8 Venezia, 2 ottobre 2014 Alice BORGNA 9 I testi sono codificati secondo gli standard: UNICODE per la codifica dei caratteri XML-TEI per la marcatura (standard aperti) Il download dei testi è possibile nei formati PDF EPUB TXT e HTML L’accesso al sito e a tutti i suoi contenuti è assolutamente gratuito. L’unico vincolo al download dei testi è la richiesta di registrazione, a puri fini statistici e di comunicazione Venezia, 2 ottobre 2014 Alice BORGNA 10 Le maschere di consultazione permettono ricerche testuali avanzate: sull’insieme dei testi su loro raggruppamenti (per autore, per epoca, per tipologia testuale) per singoli autori e opere per parole e sintagmi con condizioni posizionali per segmenti di testo Inoltre è possibile operare ricerche sulla bibliografia scientifica pertinente ai testi. Venezia, 2 ottobre 2014 Alice BORGNA 11 Venezia, 2 ottobre 2014 Alice BORGNA 12 Il corpus testuale interessato dal progetto prevede più di 35.000 pagine a stampa. Esse sono state acquisite mediante due scanner professionali, che hanno permesso buone rese di OCR. Venezia, 2 ottobre 2014 Alice BORGNA 13 Venezia, 2 ottobre 2014 Alice BORGNA 14 Gli scanner sono dotati di due programmi software in grado di lavorare sulle due pagine appaiate, in modo da non perdere mai il formato libro : BookDrive Capture (cattura immagini) BookDrive Editor Pro (editing: riduzione/aumento contrasto, cancellazione dei bordi…) Video esplicativo: http://www.youtube.com/watch?v=TCZtqdWJYjs (Il latino digitale: istruzioni per l’uso) Venezia, 2 ottobre 2014 Alice BORGNA 15 programmi OCR professionali doppia lettura e ricontrollo: esigenze di correttezza e rigore filologico correzione e segnalazione di eventuali errori di stampa Venezia, 2 ottobre 2014 Alice BORGNA 16 L’enorme versatilità di XML-TEI permette di codificare un testo secondo molteplici punti di vista. In questa prima fase del progetto si è optato per una marcatura leggera che segnalasse: struttura testuale caratteristiche filologiche presenza di lingua greca uso di diacritici Essa permette comunque una ricerca avanzata Venezia, 2 ottobre 2014 Alice BORGNA 17 Venezia, 2 ottobre 2014 Alice BORGNA 18 Coinvolgimento di giovani studiosi in tutte le fasi della realizzazione della biblioteca: progettazione, stesura del canone, digitalizzazione, correzione del testo prodotto da OCR, marcatura, definizione dei marcatori, creazione dei vari formati, implementazione del sito Formazione Partecipazione attiva alla soluzione delle problematiche affrontate Venezia, 2 ottobre 2014 S. Musso 19 Definizione del canone Scelta dei marcatori Compatibilità dei corpora in XML-TEI Gestione di glifi non presenti in Unicode e immagini Venezia, 2 ottobre 2014 S. Musso 20 Si tratta di un canone descrittivo che illustra quali edizioni sono state scelte per i testi inclusi nella biblioteca La biblioteca digilibLT non parte da un corpus pregresso di testi (a esclusione dei Grammatici) Esclusione in un primo tempo di testi cristiani e giuridici Necessità di integrare e aggiornare l’Index del Thesaurus linguae Latinae La definizione dell’edizione di riferimento si basa su criteri di scientificità Laddove siano presenti più edizioni recenti e di valore riconosciuto si è attuata una scelta; in futuro sarà possibile affiancare più testi di riferimento per ogni opera (collaborazione con Gregory Crane) Venezia, 2 ottobre 2014 S. Musso 21 Punto di partenza CD dei grammatici di Marinone: si sono quindi seguite le edizioni di riferimento scelte per il CD PROBLEMI La suddivisione delle opere e i titoli presenti nel CD ed elencati nell’articolo di Valeria Lomanto non coincidono con quelli presenti nell’Index del Thesaurus Molte opere hanno un titolo che di per sé non rende l’identificazione univoca: Ars, de metris, de uerbo… Venezia, 2 ottobre 2014 S. Musso 22 Per evitare ambiguità: Accanto all’indicazione dell’edizione di riferimento (posta in grassetto) si è sempre lasciato il riferimento all’edizione GL. Sono indicate anche edizioni più recenti rispetto a quella di riferimento presente nel CD Marinone Venezia, 2 ottobre 2014 S. Musso 23 Segnalazione di: opere che secondo la datazione canonica non rientravano nei limiti cronologici del progetto (II-VI sec. d. C.), ma che studi più recenti tendono a retrodatare opere inedite fino ad anni molto recenti opere per cui non esiste un’edizione posteriore al XVI sec. Venezia, 2 ottobre 2014 S. Musso 24 DigilibLT e Thesaurus linguae Latinae La biblioteca di testi tardo-antichi permette di aggiornare le voci del Thesaurus Gli studiosi che collaborano al Thesaurus hanno segnalato forme anomale riscontrate nei testi: Talvolta sviste nella correzione dell’OCR o errori di stampa dell’edizione di riferimento Più spesso forme tarde Venezia, 2 ottobre 2014 S. Musso 25 Realizzazione di schede opera e autore o preparazione del testo da parte di specialisti del testo in questione Collaborazione con gli studiosi che afferiscono ad altri progetti di digitalizzazione Questo secondo aspetto è più complesso e problematico ! Le molteplici opzioni di marcatura offerte da XML-TEI per lo stesso testo hanno lo svantaggio di rendere spesso incompatibili testi marcati per corpora distinti Venezia, 2 ottobre 2014 S. Musso 26 Testi tardi sono in gran parte testi tecnici, enciclopedici, commenti, testi di scuola Struttura complessa ed eterogenea Presenza di immagini Presenza di numerosi glifi non presenti in UNICODE o non presenti in tutti i font UNICODE più diffusi La presenza di glifi merita approfondimento. Le due categorie più rappresentate sono: ! ! Numerali con moltiplicatori Unità di misura Venezia, 2 ottobre 2014 S. Musso 27 Es. Esplicitazione del valore del numerale con moltiplicatore attraverso apposita marcatura X <num value="10000">X</num> che si visualizza X(10000) Venezia, 2 ottobre 2014 S. Musso 28 In TEI Header: descrizione dei caratteri <encodingDesc>! <charDecl>! <char xml:id="char1">! <charName>Nome del simbolo</charName>! <desc>Descrizione dell'aspetto del simbolo</desc>! </char>! <char xml:id="char2">! <charName>Nome del simbolo</charName>! <desc> Descrizione dell'aspetto del simbolo </desc>! </char>! …! </charDecl> ! </encodingDesc> ! Venezia, 2 ottobre 2014 S. Musso 29 Nel corpo del testo il tag <g>: A testo si rinvia al carattere in questione col tag vuoto <g/>, se non esiste il simbolo in Unicode. Qualora il simbolo esista (anche se inserito in area privata di un font) esso viene inserito all'interno dell'elemento <g>: <text>! <body>! <p>testo <g ref="#char1"/> testo. </p>! <p>testo <g ref="#char2">£</g> testo. </p>! </body>! </text>! Venezia, 2 ottobre 2014 S. Musso 30 E inoltre, in TEI Header nella sezione <editorialDecl> … Elenco delle abbreviazioni scelte per le singole unità di misura e loro esplicitazione Den. per Denarius Drag. per Dragma Pon. per Pondus Scrip. per Scripulus Sem. per Semis Semunc. per Semuncia Sext. per Sextarius Vict. per Victoriatus Vnc. per Vncia Venezia, 2 ottobre 2014 S. Musso 31 In TEI Header <char xml:id="char1">! <charName>Vnc.</charName>! <desc>Tractus longus</desc>! </char>! A testo <milestone unit="par" n="30"/> Anethi surculi uruntur eiusque pulueris cribrati <g ref="#char1">—</g> I, cicharbae <g ref="#char1">—</g> III ! Si visualizza Venezia, 2 ottobre 2014 S. Musso 32 Natura descrittiva della marcatura XML-TEI dovrebbe svincolare la scelta dei marcatori dalle possibilità di visualizzazione Tuttavia l’uso di alcuni marcatori limita le possibilità di visualizzazione ES: le suddivisioni dei testi in libri capitoli e paragrafi (se non concorrenti tra loro) potrebbero essere marcate come <div> gerarchizzate. La marcatura con div, però implica una coincidenza con il capoverso, condizione molto spesso non rispettata nel caso di paragrafi e a volte dei capitoli. Serve quindi un’idea chiara di ciò che si vuole ottenere attraverso la marcatura dei testi sia dal punto di vista della ricercabilità sia dal punto di vista delle possibilità di visualizzazione Venezia, 2 ottobre 2014 S. Musso 33 La biblioteca digilibLT fornisce i testi in vari formati a partire da un unico XML-TEI: formati pensati per essere interrogati dalla macchina (TXT e XML) e formati pensati per la lettura e la stampa (PDF, EPUB) Rispettare la scansione sia in paragrafi sia in capoversi può non essere fondamentale in XML e TXT, ma assume importanza in PDF e EPUB Si è quindi optato per marcare i paragrafi come <milestone> (tag vuoti che non solo non creano conflitti strutturali, ma permettono maggior libertà di visualizzazione) Venezia, 2 ottobre 2014 S. Musso 34 35