Alice Borgna (Università di Torino)
Simona Musso (Università del Piemonte Orientale)
Risorse digitali e strumenti collaborativi per le Scienze dell'Antichità
Venezia, 2 ottobre 2014
1
Il progetto Digital Library of late antique Latin Texts è stato avviato il 1 marzo
2010 grazie ad un finanziamento della Regione Piemonte finalizzato a
ricerche nell’ambito delle Scienze umane e sociali. Partito da un’idea di Raffaella Tabacco, sviluppata e concretizzata insieme
con Maurizio Lana, il progetto ha lo scopo di costruire e mettere a
disposizione libera e gratuita degli studiosi un database della letteratura
latina tardoantica, dal II al VI secolo d.C.
Venezia, 2 ottobre 2014
Alice BORGNA
2
  Dipartimento di Studi Umanistici dell’Università del Piemonte Orientale, con Raffaella
Tabacco, Maurizio Lana, Luigi Battezzato, Roberta Piastri, Gabriella Vanotti, Silvia Botto.   Dipartimento di Studi Umanistici dell’Università di Torino, con Ermanno Malaspina e
Andrea Balbo.   Fabio Ciotti (Università di Roma Tor Vergata) è responsabile della formazione su XML/TEI e
della configurazione e installazione del motore di ricerca avanzata interno al sito (XTF).
  Peter Heslin (Durham University, UK), è responsabile della conversione dei testi del PHI da
Beta code a TEI, nella prospettiva di ampliare la biblioteca DigilibLT ai secoli che precedono
il II d.C.
  Collaborano all’impresa un gruppo di giovani studiosi, stagisti, dottorandi e assegnisti di
entrambi gli atenei piemontesi.
Venezia, 2 ottobre 2014
Alice BORGNA
3
Tardoantico e mondo digitale
Latino digitale, alcuni esempi:
  PHI (Packard Humanities Institute): fino al II sec. d.C. (con lacune). L’opera, prima disponibile
in cd-rom, ora si trova in rete e sono allo studio possibili interazioni con DigilibLT
 Perseus Digital Library
 Musisque deoque (poesia): un pioniere nel settore
In generale, molti testi tardoantichi sono disponibili in modo sparso sulla rete, ma queste banche dati sono spesso:
  selettive (es. i testi di un autore/editore)
  settoriali (es. i testi cristiani di una specifica collezione)
  proprietarie, quindi di consultazione assai costosa, possibile quasi solo alle istituzioni Venezia, 2 ottobre 2014
Alice BORGNA
4
Ulteriori problemi
Non di rado i testi che si trovano in libera consultazione sul web:
  non danno alcuna garanzia di correttezza (edizione di riferimento non
dichiarata oppure superata)
  sono privi di codifica (impossibilità di forme di ricerca avanzate)
Venezia, 2 ottobre 2014
Alice BORGNA
5
Venezia, 2 ottobre 2014
Alice BORGNA
6
Rispetto agli strumenti esistenti la biblioteca digitale DigilibLT fornisce:
  un canone preciso degli autori e delle opere tardoantichi
  un database di testi, completo e chiaro nell’indicazione delle edizioni
adottate come riferimento e degli interventi editoriali eventualmente operati.
Venezia, 2 ottobre 2014
Alice BORGNA
7
  schede autore
  schede opera
  schede catalografiche
  bibliografie in costante aggiornamento
  download gratuito di opere in .pdf sul tardoantico ormai libere da
copyright oppure per cui si ottenga licenza di pubblicazione
  newsletter
  sezione feedback
Venezia, 2 ottobre 2014
Alice BORGNA
8
Venezia, 2 ottobre 2014
Alice BORGNA
9
I testi sono codificati secondo gli standard:
  UNICODE per la codifica dei caratteri
  XML-TEI per la marcatura (standard aperti)
Il download dei testi è possibile nei formati PDF EPUB TXT e HTML
L’accesso al sito e a tutti i suoi contenuti è assolutamente gratuito. L’unico vincolo al download dei testi è la richiesta di registrazione, a puri fini statistici e
di comunicazione
Venezia, 2 ottobre 2014
Alice BORGNA
10
Le maschere di consultazione permettono ricerche testuali avanzate:
  sull’insieme dei testi
  su loro raggruppamenti (per autore, per epoca, per tipologia testuale)
  per singoli autori e opere
  per parole e sintagmi con condizioni posizionali
  per segmenti di testo
Inoltre è possibile operare ricerche sulla bibliografia scientifica pertinente ai testi.
Venezia, 2 ottobre 2014
Alice BORGNA
11
Venezia, 2 ottobre 2014
Alice BORGNA
12
Il corpus testuale interessato dal progetto prevede più di 35.000 pagine a
stampa. Esse sono state acquisite mediante due scanner professionali,
che hanno permesso buone rese di OCR.
Venezia, 2 ottobre 2014
Alice BORGNA
13
Venezia, 2 ottobre 2014
Alice BORGNA
14
Gli scanner sono dotati di due programmi software in grado di lavorare sulle due
pagine appaiate, in modo da non perdere mai il formato libro :
  BookDrive Capture (cattura immagini)
  BookDrive Editor Pro (editing: riduzione/aumento contrasto, cancellazione dei
bordi…)
Video esplicativo: http://www.youtube.com/watch?v=TCZtqdWJYjs (Il latino digitale: istruzioni per l’uso)
Venezia, 2 ottobre 2014
Alice BORGNA
15
  programmi OCR professionali
  doppia lettura e ricontrollo: esigenze di correttezza e rigore filologico
  correzione e segnalazione di eventuali errori di stampa
Venezia, 2 ottobre 2014
Alice BORGNA
16
L’enorme versatilità di XML-TEI permette di codificare un testo secondo molteplici
punti di vista. In questa prima fase del progetto si è optato per una marcatura
leggera che segnalasse:
  struttura testuale
  caratteristiche filologiche
  presenza di lingua greca
  uso di diacritici
Essa permette comunque una ricerca avanzata
Venezia, 2 ottobre 2014
Alice BORGNA
17
Venezia, 2 ottobre 2014
Alice BORGNA
18
 
 
 
Coinvolgimento di giovani studiosi in tutte le fasi della realizzazione
della biblioteca: progettazione, stesura del canone, digitalizzazione,
correzione del testo prodotto da OCR, marcatura, definizione dei
marcatori, creazione dei vari formati, implementazione del sito
Formazione
Partecipazione attiva alla soluzione delle problematiche affrontate
Venezia, 2 ottobre 2014
S. Musso
19
 
 
 
 
Definizione del canone
Scelta dei marcatori
Compatibilità dei corpora in XML-TEI
Gestione di glifi non presenti in Unicode e immagini
Venezia, 2 ottobre 2014
S. Musso
20
 
 
 
 
 
 
Si tratta di un canone descrittivo che illustra quali edizioni sono state
scelte per i testi inclusi nella biblioteca
La biblioteca digilibLT non parte da un corpus pregresso di testi (a
esclusione dei Grammatici)
Esclusione in un primo tempo di testi cristiani e giuridici
Necessità di integrare e aggiornare l’Index del Thesaurus linguae
Latinae
La definizione dell’edizione di riferimento si basa su criteri di
scientificità
Laddove siano presenti più edizioni recenti e di valore riconosciuto si
è attuata una scelta; in futuro sarà possibile affiancare più testi di
riferimento per ogni opera (collaborazione con Gregory Crane)
Venezia, 2 ottobre 2014
S. Musso
21
 
Punto di partenza CD dei grammatici di Marinone: si sono quindi
seguite le edizioni di riferimento scelte per il CD
PROBLEMI
  La suddivisione delle opere e i titoli presenti nel CD ed elencati
nell’articolo di Valeria Lomanto non coincidono con quelli presenti
nell’Index del Thesaurus
  Molte opere hanno un titolo che di per sé non rende l’identificazione
univoca: Ars, de metris, de uerbo…
Venezia, 2 ottobre 2014
S. Musso
22
 
 
 
Per evitare ambiguità:
Accanto all’indicazione dell’edizione di riferimento (posta in
grassetto) si è sempre lasciato il riferimento all’edizione GL.
Sono indicate anche edizioni più recenti rispetto a quella di riferimento
presente nel CD Marinone
Venezia, 2 ottobre 2014
S. Musso
23
Segnalazione di:
 opere
che secondo la datazione canonica non rientravano nei
limiti cronologici del progetto (II-VI sec. d. C.), ma che studi più
recenti tendono a retrodatare
 opere inedite fino ad anni molto recenti
 opere per cui non esiste un’edizione posteriore al XVI sec.
Venezia, 2 ottobre 2014
S. Musso
24
DigilibLT e Thesaurus linguae Latinae
 La
biblioteca di testi tardo-antichi permette di aggiornare le voci
del Thesaurus
 Gli studiosi che collaborano al Thesaurus hanno segnalato forme
anomale riscontrate nei testi:
 
 
Talvolta sviste nella correzione dell’OCR o errori di stampa
dell’edizione di riferimento
Più spesso forme tarde
Venezia, 2 ottobre 2014
S. Musso
25
 
 
Realizzazione di schede opera e autore o preparazione del testo
da parte di specialisti del testo in questione
Collaborazione con gli studiosi che afferiscono ad altri progetti
di digitalizzazione
Questo secondo aspetto è più complesso e problematico
!  Le molteplici opzioni di marcatura offerte da XML-TEI per lo stesso
testo hanno lo svantaggio di rendere spesso incompatibili testi marcati
per corpora distinti
Venezia, 2 ottobre 2014
S. Musso
26
 
Testi tardi sono in gran parte testi tecnici, enciclopedici,
commenti, testi di scuola
 
 
 
Struttura complessa ed eterogenea
Presenza di immagini
Presenza di numerosi glifi non presenti in UNICODE o non presenti in
tutti i font UNICODE più diffusi
La presenza di glifi merita approfondimento. Le due categorie più
rappresentate sono:
! 
! 
Numerali con moltiplicatori
Unità di misura
Venezia, 2 ottobre 2014
S. Musso
27
 
Es.
Esplicitazione del valore del numerale con moltiplicatore attraverso
apposita marcatura
X
<num value="10000">X</num>
che si visualizza
X(10000)
Venezia, 2 ottobre 2014
S. Musso
28
In TEI Header: descrizione dei caratteri
<encodingDesc>!
<charDecl>!
<char xml:id="char1">!
<charName>Nome del simbolo</charName>!
<desc>Descrizione dell'aspetto del simbolo</desc>!
</char>!
<char xml:id="char2">!
<charName>Nome del simbolo</charName>!
<desc> Descrizione dell'aspetto del simbolo </desc>!
</char>!
…!
</charDecl> !
</encodingDesc> !
Venezia, 2 ottobre 2014
S. Musso
29
Nel corpo del testo il tag <g>:
A testo si rinvia al carattere in questione col tag vuoto <g/>, se non esiste il
simbolo in Unicode.
Qualora il simbolo esista (anche se inserito in area privata di un font) esso viene
inserito all'interno dell'elemento <g>:
<text>!
<body>!
<p>testo <g ref="#char1"/> testo. </p>!
<p>testo <g ref="#char2">£</g> testo. </p>!
</body>!
</text>!
Venezia, 2 ottobre 2014
S. Musso
30
E inoltre, in TEI Header nella sezione <editorialDecl> …
Elenco delle abbreviazioni scelte per le singole unità di misura e loro
esplicitazione
Den. per Denarius
Drag. per Dragma
Pon. per Pondus
Scrip. per Scripulus
Sem. per Semis
Semunc. per Semuncia
Sext. per Sextarius
Vict. per Victoriatus
Vnc. per Vncia
Venezia, 2 ottobre 2014
S. Musso
31
In TEI Header
<char xml:id="char1">!
<charName>Vnc.</charName>!
<desc>Tractus longus</desc>!
</char>!
A testo
<milestone unit="par" n="30"/> Anethi surculi uruntur eiusque
pulueris cribrati <g ref="#char1">—</g> I, cicharbae <g
ref="#char1">—</g> III !
Si visualizza
Venezia, 2 ottobre 2014
S. Musso
32
  Natura descrittiva della marcatura XML-TEI dovrebbe svincolare la scelta dei
marcatori dalle possibilità di visualizzazione
  Tuttavia l’uso di alcuni marcatori limita le possibilità di visualizzazione
  ES: le suddivisioni dei testi in libri capitoli e paragrafi (se non concorrenti tra
loro) potrebbero essere marcate come <div> gerarchizzate.
  La marcatura con div, però implica una coincidenza con il capoverso,
condizione molto spesso non rispettata nel caso di paragrafi e a volte dei
capitoli.
  Serve quindi un’idea chiara di ciò che si vuole ottenere attraverso la marcatura
dei testi sia dal punto di vista della ricercabilità sia dal punto di vista delle
possibilità di visualizzazione
Venezia, 2 ottobre 2014
S. Musso
33
  La biblioteca digilibLT fornisce i testi in vari formati a partire da un unico
XML-TEI: formati pensati per essere interrogati dalla macchina (TXT e XML)
e formati pensati per la lettura e la stampa (PDF, EPUB)
  Rispettare la scansione sia in paragrafi sia in capoversi può non essere
fondamentale in XML e TXT, ma assume importanza in PDF e EPUB
  Si è quindi optato per marcare i paragrafi come <milestone> (tag vuoti che non
solo non creano conflitti strutturali, ma permettono maggior libertà di
visualizzazione)
Venezia, 2 ottobre 2014
S. Musso
34
35
Scarica

Alice Borgna (Università di Torino) Simona Musso (Università del