Informatica Umanistica LM - Scienze del Testo Docente Alessia Scacchi Analisi automatica di un testo. Metodi e strumenti Lezione 5 Digital texts http://www.youtube.com/watch?v=NLlGopyXT_g La differenza si fa sostanza Rappresentare un testo significa interpretare i suoi significati tessuti nella trama, nell’ordito, veicolati dal significante e dal significato Con quale metodo? Obiettivo 1 • Conservazione del documento – Conservare la memoria digitale come strumento comunicativo (Ragone, 2008) – Conservare il dato informativo veicolato dal documento (Buzzetti, 2006) – Preservare il documento attraverso il tempo Metodo • Programmi per la preservazione – Conservano oggetti digitali secondo 4 punti di vista, come: • Oggetti fisici - sequenze di bit conservate entro un certo medium (deterioramento supporti) • Oggetti logici - codici leggibili dalla macchina senza legami col supporto fisico (obsolescenza delle tecnologie) • Oggetti concettuali - un contenuto, quindi un significato comprensibile dal lettore umano • Collezioni di elementi - contribuiscono a determinare il contenuto dell’oggetto digitale Diverse sfaccettature dello stesso oggetto Metodo 1 • Mantenimento – Conservare software e hardware obsoleti ma in grado di leggere determinati oggetti digitali – Costi elevati e poche garanzie Metodo 2 • Refreshing – Copiare i dati da un medium ad un altro – Risolve il problema dell’obsolescenza dell’hardware momentaneamente Metodo 3 • Utilizzare formati standard – Passare gli oggetti digitali dal loro formato originario ad uno standard • Non è detto che lo standard sia inalterato nel tempo Metodo 4 • Migrazione – Trasferimento oggetti digitali su nuova piattaforma prima che diventi obsoleta • Refreshing + ricodifica degli oggetti digitali • Non sempre si può migrare senza perdita di informazioni Metodo 5 • Emulazione – Emulare sistemi obsoleti su nuovi sistemi • In qualsiasi sistema operativo è possibile richiamare l’oggetto digitale assieme al software necessario per leggerlo e all’emulatore della nuova piattaforma hardware Linguaggi standard <text> <body> <head>Linguaggi di marcatura</head> <list> <line n=“1”>XML eXtensible Markup Language</line> </list> </body> </text> Linguaggi di programmazione • Procedurali: Descrivono la procedura che la macchina deve seguire per individuare o compiere una determinata azione o procedimento • Dichiarativi: Dichiarano quali sono le caratteristiche di porzioni informazioni contenute all’interno del linguaggio stesso Linguaggi dichiarativi o di markup Metalinguaggi per la definizione di tipi di documento da gestire in maniera automatica • SGML Standard Generalysed Markup Language • HTML Hiper Text Markup Language • XML eXtensible Markup Language SGML • Sviluppato per permettere lo scambio di documenti machine-readable (leggibili da un computer) in progetti governativi, legali e industriali, che devono rimanere leggibili per diverse decadi • Inizialmente usato per pubblicazione di testo e basi di dati, una delle sue maggiori applicazioni fu la seconda edizione dell'Oxford English Dictionary (OED), che era ed è interamente formattato usando un linguaggio SGML. • Estensione del file: .sgml HTML • È il linguaggio di markup solitamente usato per i documenti ipertestuali disponibili nel World Wide Web • descrive le modalità di impaginazione, formattazione o visualizzazione grafica (layout) del contenuto, testuale e non, di una pagina web • Estensione del file: .html o .htm HTML e W3C • L'HTML è un linguaggio di pubblico dominio la cui sintassi è stabilita dal World Wide Web Consortium (W3C), e che è basato su un altro linguaggio avente scopi più generici, l'SGML. • È stato sviluppato alla fine degli anni ottanta da Tim Berners-Lee al CERN di Ginevra assieme al noto protocollo HTTP che supporta invece il trasferimento di documenti in tale formato. Verso il 1994 ha avuto una forte diffusione in seguito ai primi utilizzi commerciali del web. Revisioni di HTML • Seguendo lo sviluppo di Internet ha subito molte – revisioni, – ampliamenti – miglioramenti indicati secondo la classica numerazione usata per descrivere le versioni dei software. • L'ultima versione disponibile è la versione 4.01 (24 dicembre 1999). • Periodo di sospensione, il W3C ha lavorato su – XHTML (applicazione a HTML di regole e sintassi in stile XML) – fogli di stile (CSS) • 2007: è ricominciata l'attività con la definizione, ancora in corso, di HTML5, attualmente allo stato di bozza (draft). XML • Extensible Markup Language (XML) is a simple, very flexible text format derived from SGML (ISO 8879). Originally designed to meet the challenges of large-scale electronic publishing, XML is also playing an increasingly important role in the exchange of a wide variety of data on the Web and elsewhere. • W3Consortium