LA CONSERVAZIONE DEI DOCUMENTI
INFORMATICI
- stato dell’arte e prospettive generali
- le criticità organizzative e tecniche
- da dove cominciare
Maria Guercio
Università degli studi di Urbino
maggio 2005
I TEMI





Conservare oggetti digitali: stato dell’arte e prospettive generali
Le criticità tecniche: ricerca e formazione
Le criticità organizzative nella normativa di settore
Da che parte cominciare…
Studi di casi:
 1. Il progetto ERA (Electronic Records Archives Program) sviluppato
dall’amministrazione archivistica degli Stati Uniti
 2. Il progetto SDSC-Uniurb-Agenzia delle entrate
CONSERVARE OGGETTI DIGITALI: STATO
DELL’ARTE E PROSPETTIVE GENERALI
L’EMERGENZA E’ DIGITALE. QUALCHE
DATO SIGNIFICATIVO



Secondo una ricerca dell’Università di Berkeley nel 2000 si sono prodotti 250 megabyte
(194 riguardano documentazione d’archivio) per abitante della terra di informazione digitale
di cui solo lo 0,003% su supporto cartaceo
Il mezzo predominante è quello magnetico anche se l’informazione su carta continua ad
avere dovunque un ruolo qualitativo preminente
Il 55% dell’informazione su PC appartiene ai singoli individui (anche se operano all’interno
delle organizzazioni): è a rischio la memoria stessa delle organizzazioni: vedi Studio di caso
ERPANET sull’archivio dell’AIPA, www.erpanet.org
PERCHÉ LA CONSERVAZIONE È UN
PROBLEMA URGENTE ED EMERGENTE

La conservazione in ambiente digitale richiede un cambiamento significativo di natura
organizzativa per numerose ragioni:
 non è compatibile con la trascuratezza che ha caratterizzato il sistema conservativo
tradizionale
 è di necessità una funzione attiva e continua nel tempo per la quale non ci sono ancora
esperienza e consapevolezza sufficienti oltre a un’adeguata analisi concettuale.
 i tempi degli interventi per il mantenimento della memoria si sono accorciati.
 la diversificazione dei prodotti non consente soluzioni univoche
 le responsabilità specifiche sono di necessità molteplici, condivise, integrate e precoci
.
CRESCITA DEL DIGITAL DIVIDE SE LE
MEMORIE SONO A RISCHIO


Il processo di “democratizzazione” apparente dell’informazione non
implica necessariamente condivisione di informazione rilevante (in
particolare dei documenti archivistici, records in quanto testimonianze
stabili di eventi e atti giuridicamente rilevanti) né, quindi, crescita di
conoscenza.
L’assenza di criteri di qualità nella formazione, nella selezione e nel
recupero dei documenti a fronte dell’esplosione dell’informazione
disponibile producono
 ridondanza e confusione,
 impoverimento dei contenuti,
 perdita di riferimenti e, in prospettiva,
 impossibilità a identificare e quindi conservare le memorie e le
testimonianze significative del presente
CRESCITA DEL DIGITAL DIVIDE SE LE MEMORIE
SONO A RISCHIO: LE LINEE GUIDA UNESCO


L’Unesco ha sottolineato in un documento di raccomandazioni e definizione di priorità il
rischio crescente di digital divide connesso proprio sul problema della conservazione delle
memorie delle comunità (Charter on the Preservation of the Digital Heritage). In particolare
ha sottolineato la necessità di promuovere:
 attività di sensibilizzazione nel campo specifico
 formazione di specialisti
 sviluppo di progetti internazionali di cooperazione e ricerca
Le linee guida si rivolgono a tutti gli interlocutori interessati e prevedono due possibili
ambiti di iniziativa per affrontare la questione conservativa:
 la definizione di concetti base della conservazione digitale (definizioni di patrimonio
digitale, conservazione digitale, programmi di conservazione, responsabilità, gestione e
cooperazione)
 la descrizione delle procedure e delle decisioni relative alle diverse fasi del ciclo di
gestione dell’oggetto digitale
L’INIZIATIVA DELL’UNESCO. I PRINCIPI –1
(Corso ICCU – Paul Weston)
1. Non tutti i materiali digitali debbono essere conservati; soltanto quelli dei quali è
accertato un valore permanente costituiscono il patrimonio digitale
3. Non si possono ritenere conservati quei materiali digitali a cui non è più possibile
accedere. Lo scopo della conservazione è mantenere la capacità di presentare gli
elementi essenziali di materiali digitali autentici
4. La conservazione digitale deve contrastare ogni minaccia nei confronti di tutti i livelli
dell’oggetto digitale: fisico, logico, concettuale e sostanziale
5. La conservazione digitale ha successo soltanto se le istituzioni e gli individui se ne
assumono la responsabilità. Punto di inizio dell’azione è la decisione riguardante le
responsabilità
6. Nessuno deve fare tutto. Niente deve essere fatto in una sola volta
7. Programmi di conservazione affidabili ed esaustivi sono fortemente auspicabili, ma non
sempre possono essere realizzati quando vi sia una situazione critica. E’ opportuno
pertanto procedere gradualmente, in modo limitato, piuttosto che non procedere affatto
L’INIZIATIVA DELL’UNESCO. I PRINCIPI –2
(Corso ICCU – Paul Weston)
8. Nell’agire gli amministratori debbono essere consapevoli della complessità delle
questioni. Poiché è fondamentale non provocare danni, essi dovrebbero adoperarsi a
comprendere l’intero processo e i suoi obiettivi, evitando le decisioni che potrebbero
compromettere futuri interventi per la conservazione
15. I programmi di conservazione debbono esplicitare il diritto di raccogliere, copiare,
denominare, modificare, archiviare e fornire l’accesso ai materiali digitali dei quali si
assumono la responsabilità
24. L’autenticità è protetta meglio da misure che assicurino che l’integrità dei dati non sia
compromessa e da documentazione che dimostri chiaramente l’identità del materiale
26. L’obiettivo di garantire l’accessibilità consiste nel trovare modalità economiche di
fornire l’accesso in qualunque momento sia necessario, sia nel breve, che nel lungo
termine
27. Gli standard sono un fondamento della conservazione digitale, ma occorre trovare il
modo di conservare anche materiali poco aderenti agli standard, in un ambiente di
standard in costante cambiamento
28. La conservazione non deve essere procrastinata in attesa dello “standard della
conservazione digitale”
L’INIZIATIVA DELL’UNESCO. I PRINCIPI –3
(Corso ICCU – Paul Weston)
29. I dati digitali dipendono sempre da una combinazione di hardware e software. Dalla
proporzione tra le due componenti dipendono le strategie fra le quali scegliere ai fini
della conservazione
30. E’ buona norma che si diversifichino le strategie per la conservazione, specialmente
nel caso di collezioni eterogenee
32. I programmi di conservazione debbono talvolta definire un livello accettabile di
perdita in termini di oggetti, elementi e bisogni degli utenti
33. Attendere la disponibilità di soluzioni affidabili e omnicomprensive prima di
intraprendere qualunque tipo di intervento probabilmente comporta che del materiale
vada perso
34. I programmi di conservazione richiedono buone capacità gestionali, le quali implicano
una conoscenza delle questioni connesse al trattamento del materiale digitale adeguata
alle decisioni da prendere al momento giusto
35. La conservazione digitale implica l’individuazione e la gestione dei rischi
39. Sebbene i service provider spesso prevedano una limitata funzione di conservazione, la
responsabilità principale ricade sui programmi di conservazione specificamente
realizzati e su coloro che li sovrintendono e li supportano
CHE COSA NON E’ LA CONSERVAZIONE DIGITALE




Non consiste nella semplice conservazione
del flusso di bit originario:
 implica infatti anche il mantenimento
di informazioni in grado di assicurare
la possibilità di interpretazione futura
del flusso medesimo (contenuto
strutturato, configurazione degli
elementi, contesti multipli,
comportamenti)
Non è riducibile a procedure e
comportamenti omologati all’ambiente
tradizionale
Non è riducibile a procedure uniformi
Non si identifica con la conversione su
supporti ottici o, comunque, su supporti di
maggiore durata e affidabilità, che consiste
solo di uno dei tanti possibili strumenti o
metodi al servizio della conservazione.
LA CONSERVAZIONE DIGITALE E’ UN
PROCESSO COMPLESSO


Per conservare i documenti digitali non è sufficiente mantenerne il contenuto
poiché contenuto e struttura sono ormai del tutto separati e il contesto
dell’informazione è vitale alla sua comprensione
Il paradosso riguarda la duplicità contraddittoria delle richieste degli utenti:
 il mantenimento della forma originaria, dell’integrità e dell’affidabilità
 ma anche la garanzia di un accesso dinamico e interattivo che inevitabilmente
introduce cambiamenti nei documenti, nella loro struttura e nelle relative
informazioni descrittive.
CHE COS’E’ LA CONSERVAZIONE
DIGITALE

L’insieme delle attività e degli strumenti che assicurano che i documenti
informatici siano mantenuti accessibili, utilizzabili (leggibili e intelligibili)
e autentici (univocamente identificabili e integri) nel medio e nel lungo
periodo, in un ambiente tecnologico presumibilmente diverso da quello
originario.
SI RICHIEDONO NUOVI PARADIGMI DI
INTERVENTO CONSERVATIVO….

E’ necessario (per contenere i costi e garantire i risultati) intervenire precocemente sin
dalla formazione dei documenti e sulle modalità di conservazione e accesso e sulla
documentazione dei programmi: gran parte delle informazioni che garantiscono
l’accesso all’archivio e la verifica dell’autenticità sono disponibili solo nella fase
attiva della gestione documentaria, ad esempio i dati e le informazioni:
 sulle responsabilità amministrative,
 sull’organizzazione del sistema documentario e dell’archivio e sui criteri di
classificazione e acquisizione dei documenti,
 sul contesto tecnologico, incluse le informazioni sui formati e la documentazione
di gestione e modifica dei sistemi (schemi logici dei db, documentazione sulle
applicazioni).
… E SOPRATTUTTO RESPONSABILITA’
PRECOCI



La progettazione dei sistemi informatici documentari deve essere affidata sempre a
personale esperto e consapevole: (comunque in stretto rapporto con il personale
interno alle strutture)
Nel caso dei sistemi documentari pubblici il responsabile del servizio per la gestione
dei documenti previsto nel dpr 445/2000 deve coincidere o comunque integrare il suo
operato e le sue procedure con il responsabile per la conservazione previsto dalla
delibera 11/2004 (al quale anche devono essere riconosciute competenze tecniche
adeguate)
In ogni caso le responsabilità devono essere sempre individuate con chiarezza e
rispondere a esigenze di qualità anche in caso di esternalizzazione
QUALCHE INDICAZIONE DI MERITO. IL NODO
DELL’AUTENTICITÀ


La produzione di documenti informatici si traduce nella conservazione a lungo
termine esclusivamente di copie autentiche di componenti digitali in grado di
riprodurre (a richiesta dell’utente) copie autentiche di documenti informatici
Il problema dell’autenticità è centrale ma implica scelte organizzative distinte:
 per i documenti attivi oggetto di migrazione tecnologica nell’archivio
corrente
 per il mantenimento dei documenti versati negli istituti di conservazione:
le condizioni di autenticità devono essere verificabili
 per i documenti nella fase critica di trasferimento dall’ambiente di
produzione originario a quello di conservazione e consultazione a fini di
ricerca
QUALCHE INDICAZIONE DI MERITO. GLI STRUMENTI DI
VERIFICA

La verifica dell’autenticità di un documento è possibile solo ricostruendo la
storia (anche gestionale) del documento medesimo a condizione, quindi, che il
documento ne abbia mantenuto le tracce (come avviene nel caso di documenti
cartacei durevoli e stabili). E’ indispensabile perciò
 mantenere anche la documentazione (ad esempio parti consistenti del
manuale di gestione) relativa agli interventi di migrazione effettuati nel
tempo e ai trattamenti subiti e
 stabilire quali componenti del documento e del contesto siano essenziali
per la conservazione di documenti autentici (audit trail, backup, copie
conservate altrove, ecc.).
QUALCHE INDICAZIONE DI MERITO. LA
GARANZIA DELL’ACCESSIBILITÀ




Mantenere, a costi accettabili, la possibilità di accesso e la fruizione efficiente
implica la definizione di metodi per affrontare l’evoluzione delle tecnologie
Non ci sono metodi oggi accettati e fattibili che non implichino (sia pure con
frequenza diversificata) modifiche al flusso di bit dei documenti
Diversi approcci sono possibili e spesso complementari nelle diverse fasi di
tenuta di una risorsa digitale: emulazione, incapsulamento, virtual machine
software, migrazione evolutiva o in formati standard persistenti (es. XML)
La fattibilità della tenuta delle fonti digitali nel tempo costituisce un parametro
molto significativo e di difficile valutazione (in tempi utili). E’ indispensabile;
 preparare per tempo la transizione
 utilizzare gli standard per gestire formati dei dati compatibili con
l’interoperabilità e la conservazione, escludendo formati binari, formati
proprietari, formati orientati all’applicazione
AUTENTICITA' E CONTROLLO DEL
PROCESSO DI FORMAZIONE DEL
DOCUMENTO


L’autenticità di un documento non è mai limitata all’entità documentaria,
ma si estende al sistema documentario e si collega quindi al concetto di
affidabilità, cioè al controllo sul processo di formazione del documento.
Per verificare l’autenticità di un documento, è necessario verificare sia
l’integrità del documento che la sua identità: se il sistema documentario è
affidabile, l’autenticità potrà essere accertata con maggiore certezza e
minore impegno.
AUTENTICITA' vs VALIDAZIONE


L’autenticità è una caratteristica del documento che ha mantenuto intatta
la sua identità e integrità. E’ il risultato di procedure, tra cui riveste
importanza anche l’inserimento del documento nello specifico contesto
archivistico: classificazione, fascicolazione, annotazioni (Consiglio di
Stato, sezione IV, sentenze 4.2.1907, n. 89 e 26.1.1998, n. 66: rilevanza
dei documenti precedenti per integrare il difetto di motivazione dell’atto
amministrativo)
La validazione è uno degli strumenti utilizzati per provare l’autenticità e
consiste, in genere, nell’aggiunta al documento di un elemento (es. firma
digitale) o di una dichiarazione (autenticazione notarile). E’ disciplinata da
norme comunitarie e nazionali.
SOTTOSCRIZIONE DIGITALE E AUTENTICITA’
DEI DOCUMENTI


La firma digitale/elettronica è uno strumento di validazione del
documento in time, ma non consente a costi accettabili la verifica
dell’autenticità dell’archivio over time (se non come strumento utilizzato
dall’organizzazione e dai suoi dipendenti in termini di assunzione certa di
responsabilità):
 gli elementi per la verifica (la coppia di chiavi e il registro dei
certificati) hanno durata limitata (3 e 10 anni)
 la sottoscrizione non assicura il mantenimento dei dati di contesto
 in caso di migrazioni che modifichino il flusso di bit dei documenti, è
necessario rinnovare la firma (non più dell’autore del documento, ma
del responsabile della tenuta)
È uno strumento che produce complessità e superfetazioni nel caso di
documenti dinamici (ad esempio gli atti di stato civile)
CONSIDERAZIONI PRELIMINARI ALLA
DEFINIZIONE DI UN METODO






I controlli possono essere realizzati tecnologicamente, ma devono essere
determinati sulla base di principi e criteri definiti in base alla natura dei
documenti medesimi
E’ impossibile mantenere letteralmente inalterato un documento elettronico
L’unico modo di provare che un documento elettronico è autentico è quello di
assicurare la riproduzione di una copia autentica (conservando quindi le
componenti digitali che la costituiscono e la capacità di riprodurre il documento
in forme leggibili e intelligibili)
La tecnologia non è quindi autosufficiente nell’individuare la soluzione al
problema della conservazione permanente dei documenti elettronici
Le esigenze determinate dalla natura degli oggetti digitali trattati (funzioni e
caratteristiche) definiscono il problema e i principi per valutare la correttezza e
adeguatezza di ogni soluzione tecnica
Le soluzioni al problema della conservazione sono inevitabilmente dinamiche:
implicano ricerca continua, competenze aggiornate, responsabilità e depositi
qualificati.
LE CRITICITA’ TECNICHE. RICERCA E
FORMAZIONE
LO STATO DELLA RICERCA



La cooperazione internazionale è un requisito per sviluppare e diffondere
linee guida, raccomandazioni e soluzioni tecniche idonee (vedi indicazioni
dell’Unesco)
Le ricerche e le sperimentazioni in corso non hanno dato ancora risultati
univoci e operativi con alcune promettenti eccezioni (l’analisi concettuale
di InterPARES, lo standard OAIS, il progetto Persistent Digital Object del
SDSC e il progetto US ERA PROGRAM)
L’Italia è sostanzialmente estranea ai progetti di maggior rilievo per
mancanza di risorse, ma ancor più per la disattenzione delle istituzioni
pubbliche competenti (inclusi importanti istituti di ricerca universitari)
LA RICERCA INTERNAZIONALE IN
PARTICOLARE



La letteratura di riferimento è sovrabbondante, ma di difficile valutazione e quindi
dispersiva
Le ricerche e le sperimentazioni promettenti fanno fatica a tradursi in indicazioni
chiare per chi opera oppure si limitano a qualche elementare indicazione pratica
sul monitoraggio dei supporti, dei depositi digitali, del livello di obsolescenza.
E’ ormai riconosciuta (per contenere i costi e mantenere la qualità degli oggetti)
la necessità di una approfondita e continua riflessione concettuale dei principi,
degli strumenti e dei metodi per il trattamento documentario, ma anche di
un’analisi critica degli interventi e dei metodi di conservazione finora proposti
(emulazione, migrazione in formati standard, ecc.)
I FILONI IN CORSO DI SVILUPPO




Discussione e approfondimento delle basi teoriche e metodologiche per la formazione e
conservazione permanente dei documenti informatici (ad esempio, il progetto InterPARES,
<www.interpares.org> )
Ricerca e sperimentazione (in ambiente cooperativo) di metodi avanzati (ad esempio, il
progetto del Supercomputer Center di S.Diego (SDSC) in collaborazione con US NARA:
<www.npaci.edu.DICE/Pubs> che sta sperimentando un’ipotesi proposta di laboratorio
virtuale di sperimentazione per gli Archivi nazionali di Washington). Ma anche il progetto
relativo alla conservazione dei siti web che ha recentemente portato alla creazione
dell’International Internet Preservation Consortium (Biblioteche nazionali di Australia,
Canada, Danimarca, Finlandia, Islanda, Italia, Norvegia, Svezia, UK, Library of Congress e
Internet Archive:http://netpreserve.org, vedi appendice 3)
Analisi, valutazione e comunicazione delle fonti informative, degli standard e dei risultati
utili ai responsabili per la conservazione (ad esempio, il progetto ERPANET
<www.erpanet.org>)
Una rete di istituzioni per la ricerca nel campo delle digital libraries (DELOS, workpackage
6 e in prospettiva la creazione di una rete di istituzioni europee di ricerca)
I NODI DELLA RICERCA DI SETTORE

E’ indispensabile promuovere:
 lo sviluppo di metodi scientifici rigorosi
 la identificazione di soluzioni innovative basate sul coordinamento e
sull’integrazione
 programmi di formazione/riqualificazione
 la creazione di infrastrutture adeguate, che includano in particolare:
• risorse dedicate,
• laboratori permanenti e centri di competenza di livello internazionale al
fine di promuovere una reale e concreta sperimentazione,
• strumenti per la condivisione delle esperienze di ricerca e delle soluzioni
applicative,
• la continuità degli investimenti,
• strategie di ricerca capaci di adattarsi all’evoluzione tecnologica
ALCUNI RISCHI DA EVITARE



la duplicazione/ridondanza delle iniziative di ricerca
la sottovalutazione delle conoscenze acquisite dalle comunità scientifiche
tradizionali, che tuttavia devono essere opportunamente valorizzate
la dispersione dei risultati per l’incapacità/l’impossibilità di convogliare
soluzioni e materiali in canali di comunicazione efficaci che implicano un
uso avanzato della rete e di e-services
DELOS-NOE (NETWORK OF EXCELLENCE
FOR DIGITAL LIBRARIES): UN PROGETTO
PER LA RICERCA

La rete (finanziata nell’ambito dei progetti IST-FP5) nasce con la finalità generale
di promuovere la ricerca e lo sviluppo nel settore delle digital library in Europa.
Obiettivi specifici sono:






contribuire all’efficacia della ricerca in questo settore emergente
fornire un forum dove ricercatori, operatori e comunità di
professionisti e di imprese possano scambiare idee ed esperienze e
dove si possano presentare e discutere progetti di cooperazione
formare giovani ricercatori
contribuire alla definizione di politiche europee per la ricerca
cooperare nelle attività di normalizzazione in corso
favorire la cooperazione europea, nazionale e internazionale
ERPANET: un’infrastruttura per la comunicazione e
l’apprendimento per la conservazione digitale
“Learning by monitoring”





Electronic
Resource
Preservation and
Access
NETwork
www.erpanet.org
LE FINALITÀ DI ERPANET



superare l’isolamento (soprattutto delle istituzioni di piccole
dimensioni) e garantire la multidisciplinarietà delle iniziative
coinvolgere come nodi di una rete europea:
• i centri di ricerca
• le istituzioni che conservano il patrimonio culturale digitale
• le società di informatica
• il mondo economico
• la pubblica amministrazione
promuovere lo sviluppo e l’uso di standard e best practice
I CONTENUTI CONCRETI DI ERPANET
rendere disponibili documenti di ricerca, linee guida, standard significativi mediante schede
descrittive anche di sintesi
individuare i nuovi sviluppi del settore informatico utili ai fini della conservazione digitale
sviluppare e mettere a disposizione 60 studi di casi di best practice
sviluppare schemi di metadati e insiemi di requisiti funzionali
sviluppare strumenti e linee guida per almeno quattro aspetti principali: gestione del rischio, analisi
dei costi, selezione di tecnologie e metodi, definizione di politiche generali e istituzionali
organizzare workshop per esperti e seminari di aggiornamento, tra cui:
Toledo (22-23 giugno 2002) sulla digitalizzazione,
Urbino (9-11 ottobre 2002) sui metodi per la conservazione di documenti
Kerkira (maggio 2003) sulla conservazione di documenti dinamici e interattivi con particolare
riferimento al web-archiving,
Roma (17-19 novembre 2003) sui depositi certificati per la conservazione digitale
IL RUOLO DELL’UNIONE EUROPEA

Nel rapporto conclusivo del meeting di esperti della conservazione digitale (Bruxelles, 1
marzo 2002) poi ripreso dal Consiglio dei ministri della cultura (giugno 2002) si ritengono
centrali:
 la definizione di piattaforme di coordinamento (gruppi di lavoro, procedure)
 lo sviluppo o la creazione di strumenti di coordinamento e di reti per sostenere la
partecipazione ai progetti di ricerca internazionale
 lo scambio di informazioni e di esperienze
 la promozione di competenze specialistiche adeguate (aggiornamento,
sensibilizzazione, programmi di scambio)
 l’identificazione di requisiti professionali emergenti e lo sviluppo di programmi di
formazione
 il sostegno alla realizzazione e condivisione di best practice
LE PROSPETTIVE E INIZIATIVE CONCRETE A LIVELLO
EUROPEO



Conferenza di Firenze (12-13 ottobre 2003) per la creazione di una rete di istituzioni e per il
coordinamento dei progetti di ricerca e di sensibilizzazione e formazione (alla Firenze
Agenda hanno aderito i progetti europei DELOS, ERPANET E PRESTOSPACE)
Identificazione di una linea di finanziamento europeo: “Access to and preservation of
cultural and scientific resources' in the 5th IST call (May-September 2005)”
Necessità di costruire una rete europea di ricerca integrata con obiettivi di:
 sensibilizzare e coinvolgere i centri di eccellenza nel campo della ricerca avanzata
(tecnologica e documentaria) e dei produttori di risorse digitali nelle diverse comunità
di appartenenza
 promuovere investimenti nel campo:
• della ricerca di base e avanzata (modelli concettuali e quadro teorico condivisi a
livello internazionale e interdisciplinare)
• degli sviluppi applicativi
 favorire la formazione di tecnici specialisti nel campo della conservazione
LE CRITICITA’ ORGANIZZATIVE NELLA
NORMATIVA DI SETTORE
LE NORME NAZIONALI PER CONSERVARE I
DOCUMENTI PER L’E-GOVERNMENT
Dpr 445/2000
Dpcm 31 0ttobre 2000
Delibera Cnipa 11/2004
Codice dell’amministrazione digitale, marzo
2005 (vedi osservazioni ANAI)
IL DPR 445/2000: CRITICITÀ POSITIVE - 1

Definizione in un testo di riferimento normativo generale (adatto a qualunque tipo di
archivio e in grado di gestire anche sistemi documentari ibridi) e autorevole di
responsabilità chiare e ben definite dal punto di vista delle competenze tecniche
(archivistiche e informatiche):
 istituzione di una struttura dedicata e responsabile, oltre che competente sul piano
tecnico, il Servizio per la gestione informatica dei documenti e degli archivi
 definizione di compiti organizzativi e di governo del sistema documentario in grado di
gestire con coerenza e correttezza l’intero ciclo di vita del documento e del sistema
IL DPR 445/2000 – CRITICITA’ POSITIVE - 2

Abrogazione delle norme sugli archivi contenute nel rd 35/1900 e definizione
di principi generali per la gestione del ciclo di vita dei documenti (orientati
alla loro corretta formazione e tenuta anche di lungo periodo): negli articoli
67-69 si prevede
• il versamento periodico (su base annuale) della documentazione e degli
strumenti di ricerca e indicizzazione relativi (dati di protocollazione,
classificazione, ecc.) non più corrente negli archivi di deposito e poi negli
archivi storici
• il mantenimento (naturalmente nelle forme consentite dai processi
inevitabili di migrazione) della struttura originaria degli archivi
• il controllo della movimentazione che in ambienti digitali implica un
serio e mirato controllo degli accessi
IL DPR 445/2000 – CRITICITA’ NEGATIVE



Il problema della conservazione è accennato brevemente e non risolto
Si mantiene il doppio binario tra archiviazione e conservazione
Non si stabiliscono collegamenti tra il responsabile del Servizio
documentario e il responsabile della conservazione
LE REGOLE TECNICHE DEL DPCM 31.10.2000 - 1




E’ prevista l’approvazione di un manuale di gestione del sistema
documentario che include un capitolo dedicato agli aspetti conservativi
Sono previste operazioni di salvataggio periodiche su supporti
removibili che devono essere conservati in duplice copia in luoghi remoti
e sicuri;
Le informazioni rimosse dal sistema devono essere sempre leggibili
Nel caso della conservazione sostitutiva le informazioni relative alla
gestione informatica dei documenti costituiscono parte integrante del
sistema di indicizzazione e di organizzazione dei documenti oggetto delle
procedure di conservazione sostitutiva
LE REGOLE TECNICHE DEL DPCM 31.10.2000 - 2



E’ obbligatorio il log di sistema (registrazione e verifica retroattiva degli
utenti e di tutti gli interventi effettuati) oltre alla gestione conservativa
delle informazioni con riferimento alle modifiche effettuate sui singoli
campi del database relativo alla registrazione di protocollo
Deve essere garantita la leggibilità nel tempo (senza limiti? con quali
garanzie di integrità?) di tutti i documenti trasmessi con specifico
riferimento agli allegati
I dati della segnatura di protocollo sono contenuti nel messaggio stesso in
un file conforme allo standard XML
LA DELIBERA 11/2004 SULLA RIPRODUZIONE
SOSTITUTIVA – CRITICITA’ - 1



Il sistema di conservazione sembra fondarsi (in realtà esistono
indicazioni più complesse, ma non coordinate) sulla definizione di
responsabilità senza ulteriori vincoli.
Le definizioni di documento e, soprattutto di documento originale
unico e non unico sono ambigue e inutili, quindi fuorvianti
Si prevede la possibilità di delega e di esternalizzazione senza
LA DELIBERA 11/2004 SULLA RIPRODUZIONE
SOSTITUTIVA – CRITICITA’ - 2
eccesso di ruolo del responsabile della conservazione non identificato sul piano tecnico



Definisce le caratteristiche e i requisiti del
sistema di conservazione in funzione
della tipologia dei documenti (analogici o
digitali)
Gestisce le procedure di sicurezza e
tracciabilità anche per garantire
l’esibizione dei documenti
Archivia e rende disponibili:
 la descrizione del contenuto
dell’insieme (quale?) dei documenti
 gli estremi identificativi del
responsabile della conservazione
 l’indicazione delle copie di sicurezza






Mantiene e rende accessibile un archivio
del software dei programmi (a che scopo
dato che la migrazione è un processo
inevitabile?)
Verifica la corretta funzionalità del
sistema
Adotta le misure necessarie per la
sicurezza fisica e logica del sistema
Richiede la presenza di un pubblico
ufficiale
Definisce e documenta le procedure di
sicurezza
Verifica periodicamente con cadenza non
superiore ai 5 anni l’effettiva leggibilità
dei documenti conservati
CRITICITA’ COMPLESSIVE DELLA
NORMATIVA NAZIONALE



Ambiguità e insufficienza della distinzione tra archiviazione (conservazione di
breve-medio periodo?) e conservazione: la mancanza di chiarezza rischia di
determinare confusione nelle soluzioni organizzative e tecnologiche, ma ancor
prima negli stessi principi della produzione documentaria
Assenza di un efficace sforzo di coordinamento tra le norme in materia di gestione
dei documenti e quelle specifiche dedicate alla riproduzione
sostitutiva/archiviazione/conservazione (che il codice accentua non governando la
gestione di sistemi ibridi)
L’incertezza che ne deriva ha implicato:
 che le amministrazioni abbiano optato per la ridondanza (cartaceo-digitale)
 che siano mancate soluzioni infrastrutturali di livello adeguato (almeno
regionale)
 che si siano scarsamente sviluppati processi formativi specifici
 che l’amministrazione archivistica abbia sollevato dubbi sulla incapacità di
garantire l’integrità nel lungo periodo
DA CHE PARTE COMINCIARE…
LE DIFFICOLTÀ



Non siamo sufficientemente preparati, nonostante gli obblighi (o auspici?)
del legislatore) a questa nuova realtà che a sua volta muta in
continuazione proponendoci sfide sempre più impegnative.
La tentazione alla rinuncia è fortissima e il ritardo di molte istituzioni è un
segno di difficoltà, certamente non di disinteresse.
La cooperazione interdisciplinare presenta costi notevoli, richiede tempi
adeguati (al fine di integrare le diverse competenze ma soprattutto è
scarsamente riconosciuta come un fattore critico di successo)
I NODI DA SCIOGLIERE



Il ritardo nel riconoscimento della centralità del problema è grave in tutti
gli ambienti
Il legislatore nazionale ha emanato disposizioni che mancano di coerenza
interna e comunque non affrontano il problema nella sua reale dimensione
tecnica e organizzativa
E’ indispensabile definire presto linee d’azione e infrastrutture
commisurate alle dimensioni e ai mezzi delle diverse istituzioni di
conservazione e delle diverse della produzione documentaria
DA CHE PARTE COMINCIARE
…SUL PIANO TEORICO:

Dall’analisi della natura e dalla funzione dei documenti, dalla identificazione degli elementi
che ne garantiscono l’autenticità, cioè identità e integrità (ad esempio nel caso degli archivi
dal progetto InterPARES: www.interpares.org)

dai metodi e dalle architetture già sviluppati in ambienti di mercato o in altri progetti
internazionali per assicurare, gestire e recuperare (nonostante l’obsolescenza e la
frammentazione delle soluzioni applicative) contenuti, strutture formali, relazioni
documentarie e di contesto che assicurano alle fonti documentarie significato e valore di
testimonianza senza rinunciare all’efficiente ed efficace gestione e uso delle risorse digitali
nell’attività corrente di chi le produce e le utilizza (ad esempio il progetto ERA sviluppato
dagli Archivi nazionali di Washington: http://www.npaci.edu/DICE/Pubs, vedi studio di caso
in appendice)
…SUL PIANO NORMATIVO


dall’applicazione mirata della normativa di riferimento con attenzione ad alcune importanti
indicazioni generali e di principio che esistono (manuale di gestione inclusivo di parti
dedicate alla conservazione, figure tecniche di riferimento e strutture dedicate: il Servizio
per il sistema documentario, regole per l’interoperabilità nello spazio) ma che il legislatore
ha annegato all’interno di una serie complessa di disposizioni tecniche orientate
all’informatizzazione e poco propense a sottolineare e risolvere criticità specifiche
(organizzative) in materia di conservazione.
dalla revisione delle norme esistenti:
 integrando e qualificando ulteriormente (contrariamente a quanto propone
irresponsabilmente il Codice per l’amministrazione digitale) le responsabilità previste
(responsabile per il Servizio documentario e responsabile per la conservazione)
 anticipando i tempi del versamento nell’archivio storico (di Stato e della Sezione
separata d’archivio), creando perciò archivi intermedi nella forma di depositi digitali
certificati adeguati nelle risorse umane e finanziarie, quindi
 rivisitando l’attuale modello nazionale (frammentario e dispersivo) e favorendo la
costruzione di consorzi pubblici finalizzati a condividere soluzioni e strumenti anche in
contesti nazionali, europei e internazionali
…SUL PIANO ORGANIZZATIVO E
POLITICO:




da iniziative “politiche” di sensibilizzazione indirizzate al legislatore medesimo, ai
produttori, all’opinione pubblica,che si traducano in raccomandazioni, in linee
guida, in normativa oltre che in consapevolezza diffusa
dal riconoscimento da parte degli istituti di produzione e conservazione delle
risorse digitali della centralità dei problemi organizzativi:
 adozione di procedure adeguate e di standard
 definizione di regole condivise
 individuazione di responsabilità certe e riconosciute
dalla valutazione, analisi e contenimento dei costi in relazione agli obiettivi e ai
metodi possibili o necessari
dalla riqualificazione “di massa” del personale tecnico mediante programmi di
formazione permanente a distanza che includano aggiornamento dei contenuti e
della didattica

La conservazione digitale lungi dal caratterizzarsi come un processo ad
esclusivo carattere tecnico dimostra sempre più la sua natura politica:
 La misura e l’attenzione con cui una comunità saprà e vorrà investire
nella conservazione delle memorie (digitali) del presente costituiranno
un segno rilevante di civiltà o un’altra significativa prova di
inconsapevolezza e ignoranza di cui faremo mostra nei decenni (e,
ancor prima, nei mesi e negli anni) che abbiamo di fronte.
QUALCHE INDIRIZZO

http://www.si.umich.edu/CAMILEON/
Camileon (Creative archiving at Michigan and Leeds emulating the old on
the new)
http://www.interpares.org (progetto InterPARES)

http://ccsds.org/RP9905/RP9905.html (standard OAIS)

http://www.sdsc.edu/NARA http://www.npaci.edu/DICE/Pubs
(progetto del National Archives di Washington e del Supercomputer Center
di S.Diego)
http://www.erpanet.org (Erpanet)
http ://www.dpconline.org (Digital preservation coalition, UK)
http://www.digitaleduurwaamheid.nl (Digital preservation testbed, NL)




INDICAZIONI BIBLIOGRAFICHE DI
APPROFONDIMENTO - 1






“Archivi per la storia”, 1999, n. 1-2, Gli archivi del futuro. Il futuro degli archivi.
Cagliari, 1998 (numero monografico)
Day M., Issues and Approaches to Preservation Metadata: Joint RLG and NPO
Preservation Conference: Guidelines for Digital Imaging, Coventry (USA), Scarman
House, University of Warwick, 28-30 September 1998,
<http://www.ukoln.ac.uk/metadata/presentations/rlg-npo/warwick.html>
Friedlander A., The National Digital Information Infrastructure Preservation Program:
expectations, realities, choices and progress to date, in “D-Lib Magazine”, 2002, 4,
<www.dlib.org/dlib/april02/firedlander/04firedlander.html>
Guercio M., La conservazione a lungo termine di documenti elettronici: la
partecipazione italiana al progetto InterPARES, in XXVI Congresso internazionale
ANAI. Trento, 24-26 novembre 1999 , 2000, 1-2
Guercio M., Archivistica informatica, Roma, Carocci, 2002, capitolo 3
Guercio M.- Lograno L., Normative e linee d’azione per la conservazione delle memorie
digitali. Un’indagine conoscitiva. (Legislation, rules and policies for the preservation of
digital resources: A survey), Firenze, Istituto centrale per il catalogo unico, Università
degli studi di Urbino-ERPANET, 2003
INDICAZIONI BIBLIOGRAFICHE DI
APPROFONDIMENTO - 2







Guerrini M., Gambari S., Sardo L. (a cura di), Le risorse elettroniche. Definizione.
Selezione e catalogazione. Atti del convegno internazionale, Roma 26-28 novembre
2001, Milano, Editrice bibliografica, 2002, http://w3.uniroma.it/ssab/er/.
Interpares, Rapporto dell’Authenticity task force, traduzione a cura di Monica Grossi, in
“Archivi & Computer”, 2002, 3
Interpares, Rapporto dell’Appraisal task force, traduzione a cura di Maria Guercio, in
“Archivi & Computer”, 2003, 1-2
Interpares, Rapporto della Preservation task force, traduzione a cura di Maria Guercio,
in “Archivi & Computer”, 2003, 1-2
MacNeil H., Trusting Records. Legal, historical and diplomatic perspectives,
Dordrecht, Kluwer Academic Publishers, 2000.
Metadata in preservation. Selected papers from an Erpanet Seminar. Archives School
Marburg. 3-5 September 2003, Marburg 2004
Michetti G., Standard e metadati: concetti nuovi per l’archivistica?, in “Nuovi Annali
della Scuola Speciale per Archivisti e Bibliotecari”, XIV (2000), pp. 229-253
INDICAZIONI BIBLIOGRAFICHE DI
APPROFONDIMENTO - 3






Moore R., Baru C., Rajasekar A., Ludaescher B., Marciano R., Wan M., Schroeder W. e
Gupta A., Collection-Based Persistent Digital Archives. Part I, in "D-Lib Magazine", 6
(2000), n. 3, http://www.dlib.org/march00/moore
Olivia M.a. Madison, Conservazione delle risorse elettroniche per garantire il pubblico
accesso, in Guerrini M., Gambari S., Sardo L. (a cura di), Le risorse elettroniche.
Definizione. Selezione e catalogazione. Atti del convegno internazionale, Roma 26-28
novembre 2001, Milano, Editrice bibliografica, 2002,
http://w3.uniroma.it/ssab/er/relazioni/madison_eng.pdf
Rosenzweig, Scarcity or abundance? Preserving the past in a digital era, in “Te
American historical review”, 108 (2003), 3, pp. 735-762 (anche online:
<http://www.historycooperative.org/journals/ahr/108.3/rosenzweig.html>)
Ross S., A. Gow, Digital archaeology: rescuing neglected or damaged data resources,
London 1999.
Rothenberg J., Preservation of the Times, in “The Information Management”, 2
(March/April 2002), p. 38
Thibodeau K., Building the Archives of the future: advances in preserving electronic
records at the NARA, in “D-Lib” 2001, 2,
http://www.dlib.org/dlib/february01/thibodeay/02thibodeay.html
STUDI DI CASI
IL PROGRAMMA ERA-ELECTRONIC
RECORDS ARCHIVES PROGRAM (US
NARA)
QUANTO COSTA FARE SUL SERIO
XML PER LA CONSERVAZIONE DEGLI ARCHIVI
INFORMATICI: LE PREMESSE


Il progetto avviato nella primavera 2000 (con una prima fase relativa agli
anni 1996-1999) e finanziato dal NHPRC statunitense (300.000 dollari) è
fondato sui risultati ottenuti nel corso delle precedenti indagini condotte
dalla Università della California relative a sistemi di wrapper-mediator
(cioè componenti software che operano come traduttori tra i formati nativi
di una fonte informativa e un protocollo comune) anch'essi basati su
XML.
All’origine dei notevoli investimenti la consapevolezza che:
 “Il governo federale sta perdendo ogni giorni preziose informazioni
digitali”
 Non esistono per ora sistemi in grado di conservare i documenti
digitali nel lungo periodo”
XML PER LA CONSERVAZIONE DEGLI ARCHIVI
INFORMATICI: LA TEMPISTICA
1996-1999: le premesse
 partecipazione al progetto InterPARES 1 per la definizione di un quadro
teorico chiaro e condiviso sul piano internazionale
 progetto di ricerca SDSC per la creazione di “persistent archives”
2000-2011: il progetto ERA (Electronic Records Archives)
 2000-2006: partecipazione al progetto interPARES 2 per la conservazione
degli archivi dinamici e interattivi
 2004: sostegno a due progetti alternativi affidati alla Harris Corporation e alla
Lockeed) per lo sviluppo del disegno di sistema e di un prototipo operativo
per la conservazione permanente degli archivi digitali
 2005: selezione del disegno di sistema più convincente e sviluppo del team
incaricato della fase realizzativa e di produzione
 2006: sviluppo di una versione di prova
 2007-2011: sviluppo graduale di tutte le funzionalità previste
(implementazioni su base annuale)
XML PER LA CONSERVAZIONE DEGLI ARCHIVI
INFORMATICI: IL PROGETTO NARA-SDSC

Il progetto si è occupato di tre grandi classi di documenti elettronici (documenti
testuali, documenti composti, documenti GIS) il cui accesso richieda l'uso di
strumenti software. Il nodo centrale della ricerca, che corrisponde alla questione di
fondo della conservazione delle memorie digitali, è quello di:


definire un meccanismo per la creazione parzialmente automatica
della rappresentazione digitale dei documenti in forme indipendenti
dal software e sostitutive di originali,
predisporre un prototipo di strumento software indipendente dalle
piattaforme, sufficientemente robusto, flessibile e scalabile basato
sull'utilizzo di XML in quanto standard emergente (e promettente) per
la rappresentazione e lo scambio informatico sul web. La scalabilità
dei prodotti riguarda la capacità di rispondere anche alle esigenze di
depositi archivistici di medie e piccole dimensioni.
IL PROGETTO NARA-SDSC. I
PRESUPPOSTI TEORICI E TECNOLOGICI
DELLA RICERCA


All'origine c'è la convinzione che i documenti elettronici possano essere considerati come
fonti distribuite di informazione semi-strutturata, costituite da uno schema definito di
componenti informative interne ed esterne al documento e da una serie di elementi passibili
di variazione (il supporto, il contesto tecnologico, ecc.).
Il progetto americano si basa su una serie di presupposti e pre-condizioni:
•
la codifica ASCII o Unicode per le informazioni testuali e la codifica bitmap per le
immagini sOno indipendenti da infrastrutture tecnologiche,

la rappresentazione di informazione strutturata mediante linguaggi di marcatura (XML)
è indipendente, di facile accesso e consente l'auto-descrizione di docc.,

la definizione di una metodologia per la creazione di fonti informative sostitutive degli
originali è basata sullo sviluppo di "contenitori" (wrapper) di prodotti software
strutturati in modo che:
 tutti i metadati che descrivono i contesti documentari abbiano la forma di
documenti XML forniti di specifiche DTD,
 tutte le informazioni testuali siano convertite in documenti XML e le immagini in
bitmap,
•
tutti i riferimenti a immagini e ad altri documenti all'interno di un documento
archivistico siano convertiti in collegamenti permanenti a loro volta rappresentati in un
formato XML compatibile.
GLI OBIETTIVI DELLA RICERCA

Identificare gli attributi/metadati relativi al documento e alle aggregazioni
archivistiche e definire i pacchetti per il loro trattamento

Descrivere i metadati per ciascun oggetto digitale (tipologia, formati,
protocolli di acquisizione, metadati specifici di dominio, informazioni di
presentazione), a livello di sistema (caratteristiche del sistema di
memorizzazione, controlli di accesso e di audit, localizzazione, autenticazioni
e cifrature)
LE FASI DELLA RICERCA



Procedura di acquisizione: definizione di schemi di metadati (XML/DTD) per oggetto
digitale (documento, serie, archivio), per le interrelazioni tra oggetti, per la creazione di
contenitori che incapsulino i metadati negli oggetti digitali
Procedura per la generazione automatica di interventi di conservazione: creazione di DTD,
verifica delle DTD in relazione agli attributi standard, produzione di strumenti e modalità
di ricerca
Dalla conservazione basata su XML (Collection based persistent archive) alla
conservazione basata sulla conoscenza archivistica (utilizzo e sviluppo del modello OAIS
utilizzando linguaggi avanzati di marcatura quali XTM) (Knowledge based persistent
archive): si definiscono relazioni tra gli attributi di diversa natura (procedurali/temporali,
strutturali/spaziali, concettuali/semantici)
UTILIZZO DI STANDARD DI MARKUP




Rappresentazione XML degli attributi dei metadati (DTD)
Rappresentazione XML della struttura delle aggregazioni archivistiche
Database XML (Excelon, Tamino, Oracle8i)
XML Topic Map (XTM) (ISO/IEC 13222250, gen. 2000): standard basato sull’uso di XML
con lo scopo di
 rappresentare le relazioni fra concetti e attributi
 associarle con fonti informative (documenti, archivi)
 individuare soluzioni per organizzare (accedere e navigare anche a distanza di tempo e
senza interventi espliciti) quantità sempre maggiori di informazioni, documenti, archivi
sulla base di un’analisi semantica che identifichi in modo complesso la natura degli
oggetti, modelli concettuali, relazioni logiche
IL PROGETTO ERA (US): RISULTATI E SVILUPPI

Il progetto ha finora identificato almeno tre nuclei di elementi che devono essere mantenuti
nel sistema (simultaneamente alle singole entità documentarie) secondo il modello dati
basato sullo standard OAIS e implementato dal Supercomputer Centre nella forma di un
Extensible Metadata Catalog che include lo schema logico che organizza gli attributi
essenziali (definiti secondo il progetto InterPARES 1 e 2), ovvero
 metadati relativi ai documenti singoli (digital object representation) che ne definiscono
la struttura, il contesto fisico e la provenienza,
 metadati relativi alla organizzazione dell'archivio e includono diverse informazioni di
contesto (data collection representation), organizzate in sotto-insiemi,
 metadati di presentazione (presentation representation), che consentono la
conservazione di interfaccia utente, in particolare dell'interfaccia originaria,
 la descrizione fisica degli attributi all'interno del database del deposito archivistico,
 un
dizionario dei dati per le definizioni semantiche degli attributi.
IL PROGETTO ERA (US): I REQUISITI DI UN PERSISTENT ARCHIVE






Con riferimento ai requisiti funzionali si sono individuate cinque funzionalità
necessarie a garantire nel lungo periodo l’interoperabilità tra sistema eterogenei ad
accesso distribuito e trasparenza:
name transparency: possibilità di recuperare una risorsa senza conoscerne la
denominazione identificativa
location transparency: possibilità di recuperare una risorsa senza conoscerne la
collocazione
platform implementation transparency: possibilità di recuperare una risorsa a
prescindere dalla piattaforma e dal deposito in cui è archiviata
encoding standard transparency. Possibilità di recuperare una risorsa mediante lo
standard di codifica e il modello dati
authentication transparency: possibilità di assicurare un accreditamento unico
anche in domini diversamente amministrati mediante l’utilizzo di GSI Grid
Security Infrastructure
IL PROGETTO ERA (US): IL PROTOTIPO SUL PIANO TECNICO




Il prototipo in corso di sviluppo si avvale di tecnologie abilitanti (software middleware) in
grado di garantire l’interoperabilità interna al sistema anche nel caso di componenti
eterogenee.
Il sistema prevede anche l’utilizzo di prodotti di mercato in grado di assicurare la qualità, la
scalabilità e la rapidità delle funzioni di archiviazione
Dal punto di vista operativo, i complessi documentari sono acquisiti nel deposito digitale
attraverso un primo spazio di lavoro virtuale (accessioning workbench), cui segue una
seconda fase identificata come il vero e proprio archival repository finalizzato alla
conservazione a lungo termine delle risorse. Il terzo ambito è quello destinato a trattare le
attività di ricerca e assicurare la fruizione, il reference workbench.
Per ciascun ambito il modello identifica specifiche attività ricorrenti. Il sistema deve tra
l’altro:
 verificare che i soggetti che depositano i materiali documentari siano autorizzati a farlo
(verify)
 preparare i materiali e presentarli nel rispetto della struttura originaria anche con
riferimento alle aggregazioni di cui ciascuna risorsa è parte (rebuild)
IL PROGETTO ERA (US): PROBLEMI APERTI


Nel corso del progetto sono emerse una serie di osservazioni basate sulla considerazione
della insufficienza – ai fini di una corretta ed esaustiva procedura di conservazione a lungo
termine – del semplice trattamento XML che si limita a includere:
–
la separazione del contenuto informativo dalla sua presentazione
–
la marcatura dei dati (definendo una gerarchia)
–
l’utilizzo di un formato di dati semi-strutturato e auto-descrittivo,
mentre a fini di conservazione permanente di risorse digitali complesse si richiedono
ulteriori elementi che sembrano garantiti dall’utilizzo a fianco di XML di strumenti di XTM
con particolare riferimento alla necessità di includere almeno:
– informazioni di natura concettuale rilevanti per la conservazione
– vincoli di integrità
– regole di descrizione integrativa e utilizzo di linguaggi di rappresentazione (fogli stile per
la presentazione).
IL PROGETTO ERA (US): PRIME CONCLUSIONI




Utilizzando le tecnologie di data grid i ricercatori hanno elaborato un modello che in
relazione alle specifiche attività di archiviazione e conservazione individua le componenti
descrittive specifiche, a loro volta collegate alle funzioni OAIS: Si tratta di elementi ancora
di fase di analisi e prototipazione
Si sottolinea che le operazioni e manipolazioni necessarie in ogni processo di conservazione
permanente debbano essere effettuate senza incidere – possibilmente – sull’entità digitale
che viene perciò mantenuta nel formato originario, con particolare attenzione all’esigenza di
garantirne l’integrità e l’autenticità.
Si agisce cioè sulle relazioni e sugli elementi dell’ontologia con particolare riferimento al
sistema di metadati che vengono importati ed esportati tramite file XML.
Il processo consiste nella trasformazione dell’oggetto da conservare in una forma persistente
identificando innanzi tutte le proprietà significative che devono essere mantenute e che
vengono perciò espresse in modelli formali XML
FINALITÀ IMPLICITE

Mantenere gli oggetti digitali e gli strumenti di ricerca

Fornire la capacità di utilizzare l’archivio in nuovi ambienti tecnologici

Conservare per sempre l’archivio nell’istituto di conservazione e garantire
l’accesso in qualunque momento
LA SPERIMENTAZIONE SUI DOCUMENTI DEL
SENATO


E’ un progetto finalizzato allo sviluppo di strumenti applicativi basati sullo standard XML
per la migrazione di documenti informatici e alla definizione dei metadati necessari a
garantirne l'accessibilità e a provarne l'integrità nel lungo periodo
Una delle sperimentazioni di maggior rilievo è stata condotta sui documenti normativi del
Senato US e ha avuto l’obiettivo specifico di:
 definire
un meccanismo per la creazione parzialmente automatica della
rappresentazione digitale dei documenti in forme indipendenti dal software e sostitutive
di originali che non possono essere conservati a lungo termine per ragioni di
obsolescenza,
 predisporre un prototipo di strumento software indipendente dalle piattaforme,
sufficientemente robusto, flessibile e scalabile (Archivists' Workbench Software
Package), basato sull'utilizzo di XML in quanto standard emergente (e promettente) per
la rappresentazione e lo scambio informatico sul web e fondato sui risultati ottenuti nel
corso delle precedenti indagini condotte dalla Università della California relative a
sistemi di wrapper-mediator (cioè componenti software che operano come traduttori tra
i formati nativi di una fonte informativa e un protocollo comune), anch'essi basati su
XML.
UNO STUDIO DI CASI: LA SERIE DEGLI ATTI NORMATIVI DEL
SENATO USA

Quel che vediamo (in ambiente word):
**** S. 345
DATE INTRODUCED: 02/03/1999
SPONSOR: Allard
OFFICIAL TITLE
A bill to amend the Animal Welfare Act to remove the limitation
that permits interstate movement of live birds, for the purpose
of fighting, to States in which animal fighting is lawful.
LATEST STATUS
Feb 3, 1999 Read twice and referred to the Committee on
Agriculture.
… forse non corrisponde a quel che otteniamo (in un formato non adeguato: RTF):
^@^@y^K^@^@\206^K^@^@Ê^K^@^@Ô^K^@^@^@^L^@^@^N^L^@^@u^L^@^@\202^L^@^@È^L^@^@Ò^L^@^@ÿ\
^L^@^@^M^M^@^@j^M^@^@w^M^@^@»^M^@^@Æ^M^@^@ô^M^@^@^B^N^@^@\203^N^@^@÷ëßÓëßǹ¹®¨®Â\
Â\230Â\230 Â\230Â\230®¨®Â Â\230Â\230 Â\230Â\230 Â\230Â\230 Â\230Â\230 Â\230Â\
^N6^H\201OJ^C^@QJ^C^@]^H\201^@^N5^H\201OJ^C^@QJ^C^@\^H\201^@^K^B^H\201OJ^C^@QJ^C^@^\
...
^
ction sent to the House.^M^M**** S. 345^MDATE INTRODUCED: 02/03/1999^MSPONSOR: Alla\
rd^MOFFICIAL TITLE^MA bill to amend the Animal Welfare Act to remove the limitation\
that permits interstate movement of live birds, for the purpose of fighting, to St\
ates in which animal fighting is lawful.^MLATEST STATUS^MFeb 3, 1999 Read twice \
and referred to the Committee on Agriculture.^M^M**** S. 387^MDATE INTRODUCED: 02/0\
8/1999^MSPONSOR: McConnell^MOFFICIAL TITLE^MA bill to amend the Internal Revenue Co\
d
L’ESEMPIO DEL SENATO

Rich Text Format (un formato Microsoft documentato)
:
\pard\par^M
\pard\b **** S. 345\b0\par^M
\pard\qr DATE INTRODUCED: 02/03/1999\par^M
\pard SPONSOR: Allard\par^M
\i\qc OFFICIAL TITLE\i0\par^M
\pard A bill to amend the Animal Welfare Act to remove the limitation that permits \
interstate movement of live birds, for the purpose of fighting, to States in which \
animal fighting is lawful.\par^M
\i\qc LATEST STATUS\i0\par\pard^M
\pard\plain \fi-1900\li1900\nowidctlpar\adjustright{Feb 3, 1999\tab Read twice and\
referred to the Committee on Agriculture.\par}^M
\pard^M
…può essere imbustato in un formato XML:
<p bold="off">**** S. 345</p>
<p align="right" bold="off">DATE INTRODUCED: 02/03/1999</p>
<p bold="off">SPONSOR: Allard</p>
<p align="center" bold="off" italic="off">OFFICIAL TITLE</p>
<p bold="off" italic="off">A bill to amend the Animal Welfare Act to remove the lim\
itation that permits interstate movement of live birds, for the purpose of fighting\
, to States in which animal fighting is lawful.</p>
<p align="center" bold="off" italic="off">LATEST STATUS</p>
<p><string>Feb 3, 1999&tab;Read twice and referred to the Committee on Agriculture\
.</string></p>
<p></p>
… L’ESEMPIO DEL SENATO

…il formato XML può essere spostato dal livello di presentazione:
<p bold="off">**** S. 345</p>
<p align="right" bold="off">DATE INTRODUCED: 02/03/1999</p>
<p bold="off">SPONSOR: Allard</p>
<p align="center" bold="off" italic="off">OFFICIAL TITLE</p>
<p bold="off" italic="off">A bill to amend the Animal Welfare Act to remove the lim\
itation that permits interstate movement of live birds, for the purpose of fighting\
, to States in which animal fighting is lawful.</p>
<p align="center" bold="off" italic="off">LATEST STATUS</p>
<p><string>Feb 3, 1999&tab;Read twice and referred to the Committee on Agriculture\
.</string></p>
<p></p>
…al livello di informazione
<bill name="S.345">
<committees>
<committee>SENATE: AGRICULTURE</committee>
</committees>
<date_introduced>02/03/1999</date_introduced>
<latest_status_list>
<latest_status> <ls_date>Feb 3, 1999</ls_date>
<ls_txt>Read twice and referred to the Committee on Agriculture</ls_txt>
</latest_status>
</latest_status_list>
<official_title>A bill to amend the Animal Welfare Act to remove the limitation that permits interstate movement of live birds, for
the purpose of fighting, to States in which animal fighting is lawful.</official_title>
<sponsor>Allard, Wayne [CO]</sponsor>
</bill>
XML COME UN FORMATO DI CONSERVAZIONE

Tradurre lo schema in una DTD XML:
<?xml version="1.0" encoding="UTF-8"?>
<!ELEMENT bills (bill*)>
<!ELEMENT bill ( abstract?, committees?, congressional_record?, cosponsors?, date_introduced?,
digest?, latest_status_list?, official_title?, sponsor?, statement_of_purpose?,
submitted_by?, submitted_for?)>
<!ATTLIST bill_name CDATA #REQUIRED>
<!ELEMENT committees (committee*)>
<!ELEMENT cosponsors (cosponsor*)>
<!ELEMENT digest (#PCDATA)>
<!ELEMENT latest_status_list (latest_status*)>
<!ELEMENT latest_status (ls_date, ls_txt)>
<!ELEMENT abstract (#PCDATA)>
<!ELEMENT committee (#PCDATA)>
<!ELEMENT congressional_record (#PCDATA)>
<!ELEMENT cosponsor (co_name)>
<!ELEMENT co_name (#PCDATA)>
<!ATTLIST co_name a-date CDATA #IMPLIED>
<!ELEMENT date_introduced (#PCDATA)>
…
<!ELEMENT statement_of_purpose (#PCDATA)>
<!ELEMENT submitted_by (#PCDATA)>
<!ELEMENT submitted_for (#PCDATA)>
UTILIZZARE IL MODELLO OAIS (come XTM)
Un AIP (archival information package) contiene


content information (CI) (rappresentato come info_objects), and
preservation description information (PDI)
(A)IP (archival) information package =
[DI descriptive information
[PI packaging information (ISO-9660 for CD directories)
[ CI content information
PDI preservation description information =
[ PR provenance (origin, processing history)
CON context (relation to external information)
REF reference (identifies the CI, e.g., ISBN, URI)
FIX fixity (e.g., checksum over CI)
]]]]
L’ESEMPIO DEL SENATO: l’acquisizione
.TM
S7
generate
generate
.XML
S2
S6
.HTML
save-as
save-as
.DOC
consolidate
S5
archive
Perl
OmniMark
.RTF
.XML
.XML
.OAV
decompose
S0
S1
S3
Legend (stages):
S4
SIP
DIP
AIP
IL PASSO SUCCESSIVO. DAL TRATTAMENTO XML ALL’USO DI XTM

Il semplice trattamento XML implica:




la separazione del contenuto informativo dalla sua presentazione
la marcatura dei dati (definendo una gerarchia)
l’utilizzo di un formato di dati semistrutturato e auto-descrittivo
Il trattamento che impiega XTM aggiunge:
 informazioni di natura concettuale rilevanti per la conservazione
 vincoli di integrità
 regole di descrizione integrativa e utilizzo di linguaggi di rappresentazione (fogli stile
per la presentazione)
IL PROGETTO SDSC-UNIURB-AGENZIA DELLE ENTRATE
IL PROGETTO DELL’UNIVERSITA’ DI URBINO IN RELAZIONE ALLA
RICERCA NARA-SDSC (2001-2002)

Nell’ambito di una partnership internazionale con il Supercomputer center di
S.Diego in relazione alla ricerca sulla conservazione della memoria digitale
condotta con il NARA, il progetto finanziato ha avuto l’obiettivo di:




approfondire l’analisi della struttura dei metadati (attributi, relazioni
tra attributi, vincoli e regole di integrità)
discutere il progetto e i suoi risultati nella comunità nazionale (4-5
giugno 2001: seminario ristretto per la definizione delle modalità di
cooperazione)
sperimentare il prototipo SRB utilizzando un campione delle
denunce dei redditi 1995 (formato VSAM)
Realizzare un workshop sul ruolo di XML per la conservazione
digitale (9-11 ottobre 2002)
CHE COSA È IL VSAM (M.RENDINA)

VSAM - Virtual Storage Access Method è un sistema di gestione dei dati
introdotto dall’IBM nel 1970 come parte dei sistemi operativi OS/VS1 e
OS/VS2

VSAM definisce modalità specifiche di organizzazione e accesso ai dati
oltre che di mantenimento delle informazioni relative.

I set di dati VSAM possono essere utilizzati mediante applicazioni scritte in
COBOL o Assembler
IL GRUPPO DI DATI VSAM SELEZIONATI
(M.RENDINA)



Dati codificati in EBCDIC
Struttura dei dati espressa
in COBOL (copybook)
Complessità significativa
della struttura (gerarchie,
tipi di dati, ridefinizioni)
2. CREARE UNA RAPPRESENTAZIONE XML DEI
DATI (M.RENDINA)
• Definire uno schema XML dal manuale COBOL
• Convertire i dati EBCDIC in dati ASCII utilizzando le
informazioni del manuale
• Trasformare i dati ASCII in dati marcati XML
(validati dallo schema predefinito)
COBOL copybook
XML Schema (M.Rendina)
EBCDIC data
ASCII data (M.Rendina)
ASCII data
XML marked data (M.Rendina)
3. INSERIRE I DATI XML NEL SISTEMA SRB
(M.RENDINA)
• Generare una struttura dei dati relazionale a partire
dallo schema XML
• Inserire i dati XML nel database relazionale SDSC
• Preparare un’interfaccia specifica per la ricerca e la
presentazione dei dati contenuti nel sistema SRB nelle
forme desiderate (in corso)
…IL RISULTATO (M.RENDINA)
QUEL CHE MANCA (M.RENDINA)
Le relazioni di conoscenza
• logiche (relazioni con le altre fonti di dati)
• funzionali e algoritmiche (analisi dei dati ed
elaborazioni)
• procedurali (workflow)
ALCUNE QUESTIONI APERTE
• A quale livello si deve fermare la conservazione? E’
necessario conservare la conoscenza di un sistema?
• A quali costi?
• XML è in grado di sostenere il processo di definizione
e rappresentazione delle relazioni di conoscenza? Sono
necessari altri prodotti e soluzioni (non ancora maturi
come standard)?
Scarica

PPT - Cnipa