Informatica Umanistica
LM - Scienze del Testo
Docente Alessia Scacchi
Analisi automatica di un testo.
Metodi e strumenti
Lezione 5
Digital texts
http://www.youtube.com/watch?v=NLlGopyXT_g
La differenza si fa sostanza
Rappresentare un testo significa interpretare i suoi significati
tessuti nella trama, nell’ordito,
veicolati dal significante e dal significato
Con quale metodo?
Obiettivo 1
• Conservazione del documento
– Conservare la memoria digitale come
strumento comunicativo (Ragone, 2008)
– Conservare il dato informativo veicolato dal
documento (Buzzetti, 2006)
– Preservare il documento attraverso il
tempo
Metodo
• Programmi per la preservazione
– Conservano oggetti digitali secondo 4 punti di
vista, come:
• Oggetti fisici - sequenze di bit conservate entro un certo
medium (deterioramento supporti)
• Oggetti logici - codici leggibili dalla macchina senza
legami col supporto fisico (obsolescenza delle
tecnologie)
• Oggetti concettuali - un contenuto, quindi un significato
comprensibile dal lettore umano
• Collezioni di elementi - contribuiscono a determinare il
contenuto dell’oggetto digitale
Diverse sfaccettature dello stesso oggetto
Metodo 1
• Mantenimento
– Conservare software e hardware obsoleti
ma in grado di leggere determinati oggetti
digitali
– Costi elevati e poche garanzie
Metodo 2
• Refreshing
– Copiare i dati da un medium ad un altro
– Risolve il problema dell’obsolescenza
dell’hardware momentaneamente
Metodo 3
• Utilizzare formati standard
– Passare gli oggetti digitali dal loro formato
originario ad uno standard
• Non è detto che lo standard sia inalterato nel
tempo
Metodo 4
• Migrazione
– Trasferimento oggetti digitali su nuova
piattaforma prima che diventi obsoleta
• Refreshing + ricodifica degli oggetti digitali
• Non sempre si può migrare senza perdita di
informazioni
Metodo 5
• Emulazione
– Emulare sistemi obsoleti su nuovi sistemi
• In qualsiasi sistema operativo è possibile
richiamare l’oggetto digitale assieme al
software necessario per leggerlo e
all’emulatore della nuova piattaforma hardware
Linguaggi standard
<text>
<body>
<head>Linguaggi di marcatura</head>
<list>
<line n=“1”>XML eXtensible Markup
Language</line>
</list>
</body>
</text>
Linguaggi di programmazione
• Procedurali:
Descrivono la procedura che la macchina
deve seguire per individuare o compiere
una determinata azione o procedimento
• Dichiarativi:
Dichiarano quali sono le caratteristiche di
porzioni informazioni contenute
all’interno del linguaggio stesso
Linguaggi dichiarativi o di
markup
Metalinguaggi per la definizione di tipi di
documento da gestire in maniera
automatica
• SGML
Standard Generalysed Markup Language
• HTML
Hiper Text Markup Language
• XML
eXtensible Markup Language
SGML
• Sviluppato per permettere lo scambio di documenti
machine-readable (leggibili da un computer) in
progetti governativi, legali e industriali, che devono
rimanere leggibili per diverse decadi
• Inizialmente usato per pubblicazione di testo e basi di
dati, una delle sue maggiori applicazioni fu la seconda
edizione dell'Oxford English Dictionary (OED), che
era ed è interamente formattato usando un linguaggio
SGML.
• Estensione del file: .sgml
HTML
• È il linguaggio di markup solitamente usato
per i documenti ipertestuali disponibili nel
World Wide Web
• descrive le modalità di impaginazione,
formattazione o visualizzazione grafica
(layout) del contenuto, testuale e non, di una
pagina web
• Estensione del file: .html o .htm
HTML e W3C
• L'HTML è un linguaggio di pubblico dominio
la cui sintassi è stabilita dal World Wide Web
Consortium (W3C), e che è basato su un altro
linguaggio avente scopi più generici, l'SGML.
• È stato sviluppato alla fine degli anni ottanta
da Tim Berners-Lee al CERN di Ginevra
assieme al noto protocollo HTTP che
supporta invece il trasferimento di documenti
in tale formato. Verso il 1994 ha avuto una
forte diffusione in seguito ai primi utilizzi
commerciali del web.
Revisioni di HTML
• Seguendo lo sviluppo di Internet ha subito molte
– revisioni,
– ampliamenti
– miglioramenti
indicati secondo la classica numerazione usata per
descrivere le versioni dei software.
• L'ultima versione disponibile è la versione 4.01 (24 dicembre
1999).
• Periodo di sospensione, il W3C ha lavorato su
– XHTML (applicazione a HTML di regole e sintassi in stile
XML)
– fogli di stile (CSS)
• 2007: è ricominciata l'attività con la definizione, ancora in
corso, di HTML5, attualmente allo stato di bozza (draft).
XML
• Extensible Markup Language (XML) is a
simple, very flexible text format derived
from SGML (ISO 8879). Originally
designed to meet the challenges of
large-scale electronic publishing, XML is
also playing an increasingly important
role in the exchange of a wide variety of
data on the Web and elsewhere.
• W3Consortium
Scarica

lezione5