Requisiti e standard dei formati elettronici
per la produzione di documenti informatici
di Stefano Allegrezza
Febbraio 2010
1.
I formati elettronici ................................................................................................................................................... 1
Che cosa è un formato elettronico ................................................................................................................... 2
1.1
Formati e famiglie di formati ........................................................................................................................... 3
1.2
La classificazione dei formati .......................................................................................................................... 3
1.3
L’identificazione dei formati ........................................................................................................................... 5
1.4
I registri dei formati ......................................................................................................................................... 9
1.5
Osservazioni conclusive ................................................................................................................................ 11
1.6
I formati elettronici in rapporto alle esigenze della conservazione digitale ............................................................ 11
2.
I requisiti generali di primo livello ................................................................................................................ 13
2.1
Alcuni esempi ................................................................................................................................................ 18
2.2
I requisiti generali di secondo livello ............................................................................................................. 18
2.3
I requisiti specifici ......................................................................................................................................... 27
2.4
L’importanza dei requisiti ....................................................................................................................................... 28
3.
Conclusioni ............................................................................................................................................................. 32
4.
1. I formati elettronici
La scelta del formato elettronico (o, più semplicemente, formato) rappresenta uno degli
aspetti più importanti tra quelli da prendere in considerazione in qualunque strategia di
conservazione digitale. L’esperienza insegna, infatti, che molti dei formati che erano
particolarmente in auge nel passato sono ormai pressoché scomparsi, e chi possiede ancora
contenuti digitali codificati secondo quei formati oggi incontra sicuramente serie difficoltà
ad accedervi. È tristemente noto il caso delle sonde Viking che furono lanciate su Marte nel
1975 dall’Agenzia Spaziale Americana (NASA) per verificare se sul pianeta rosso potessero
esistere forme di vita 1 . All’epoca gli scienziati erano assolutamente certi del fatto che i dati
scientifici da loro raccolti durante la spedizione, codificati secondo il formato allora in uso e
memorizzati su nastri magnetici, sarebbero rimasti disponibili per le future generazioni
senza alcun tipo di intervento. Invece, quando tentarono di riutilizzare alcuni di quei dati
alla fine degli anni ’90, si accorsero che, nonostante tutti gli sforzi messi in atto
dall’Agenzia Spaziale per conservare i nastri in ambienti dotati delle migliori condizioni,
molti di essi erano ormai talmente deteriorati da rendere quasi illeggibili i dati memorizzati.
Ma il problema più grave si presentò quando gli scienziati tentarono di riutilizzare i dati
ancora leggibili: scoprirono infatti che, nonostante fossero trascorsi solamente venti anni,
non erano più in grado di decodificare il formato secondo il quale quei dati erano stati
prodotti. Fortunatamente, erano ancora disponibili delle vecchie stampe su carta dei dati e fu
possibile ricostruire le preziose informazioni, anche se fu necessario ridigitare tutto.
Questo episodio fa comprendere l’importanza di stabilire dei criteri oggettivi per la scelta di
formati che assicurino la loro leggibilità a distanza di venti, cinquanta o più anni. È
importante quindi identificare quali sono i requisiti che devono essere presi in
considerazione nella scelta di un formato compatibile con un processo di conservazione
digitale.
1
Si veda MARTIN WALLER, ROBERT SHARPE, Mind the gap. Assessing digital preservation needs in the UK,
Digital Preservation Coalition, The Digital Preservation Coalition Innovation Centre, York Science Park,
Heslington, YORK YO10 5D, 2006, disponibile all’indirizzo <http://www.dpconline.org/docs/reports/
uknamindthegap.pdf>.
1
1.1 Che cosa è un formato elettronico
Prima di entrare nel vivo dell’argomento è bene premettere alcuni concetti che serviranno
per conoscere meglio il mondo dei formati elettronici e comprendere meglio il seguito.
Un concetto che è importante avere subito ben chiaro è il fatto che qualsiasi contenuto
digitale (od oggetto digitale) viene memorizzato come file, ovvero come una sequenza di bit
“0” od “1” (bitstream), considerati come un’entità unica dal punto di vista logico e fissati
con una certa organizzazione fisica su una memoria. Per fare un esempio, un documento di
Microsoft Word della dimensione di 30 KiB 2 è equivalente ad una sequenza di ben 245.760
bit, memorizzati su una certa memoria digitale (si veda la Figura 1).
Figura 1. La sequenza di bit che costituisce un oggetto digitale
Purtroppo, tale sequenza di bit non avrebbe alcun significato e non sarebbe in alcun modo
intelligibile se non se ne conoscesse il relativo formato, ovvero “l’insieme di codici e regole
che, a partire dalla sequenza di bit che costituisce un oggetto digitale, permettono di
riprodurre mediante un software (a video, a stampa o su altri dispositivi di output) il relativo
oggetto informativo con lo stesso contenuto e nella stessa forma che gli sono stati conferiti
dall’autore” 3 . In altre parole, il formato specifica la corrispondenza fra la rappresentazione
binaria dell’oggetto digitale e i contenuti in esso presenti stabilendo le regole con le quali i
bit che lo costituiscono devono essere interpretati; è proprio grazie ad esso che un sistema
informatico è in grado di interpretare quei bit e restituire l’oggetto digitale nella stessa
forma e con i contenuti che sono stati stabiliti dal suo creatore, decodificando in porzioni di
testo, immagini, grafici, etc. le sequenze di bit che lo compongono (si veda la Figura 2)
Figura 2. Senza il relativo formato qualsiasi file altro non è che una sequenza di bit priva di significato
2
Si fa qui uso dei nuovi simboli Ki, Mi, Gi, Ti, Pi, Ei, Zi e Yi (corrispondenti ai prefissi binari kibi-, mebi-,
gibi-, tebi-, pebi-, exbi- zebi- e yobi-) previsti dall’appendice alla norma IEC 60027-2 “Letter symbols to be
used in electrical technology” e dalla norma ISO/IEC 80000 “Quantities and units” e che devono essere
ormai utilizzati per indicare le grandezze in gioco nel campo informatico in sostituzione dei corrispondenti
prefissi decimali k, M, G, T, P, E, Z e Y.
3
Cfr. STEFANO PIGLIAPOCO, La memoria digitale delle amministrazioni pubbliche. Requisiti, metodi e
sistemi per la produzione, archiviazione e conservazione dei documenti informatici, Santarcangelo di
Romagna (RN), Maggioli editore, 2005.
2
Le informazioni relative alle modalità secondo le quali tale sequenza di bit debba essere
interpretata sono fornite da uno più documenti tecnici che nel loro complesso vengono
denominati specifiche del formato.
1.2 Formati e famiglie di formati
Occorre fare attenzione al fatto che gli acronimi spesso utilizzati per denominare i formati
dei file non identificano un singolo formato ma, il più delle volte, una famiglia di formati.
Consideriamo, ad esempio, il formato DOC prodotto con il diffusissimo programma di
videoscrittura Microsoft Word. La Tabella 1 riporta l’elenco delle principali versioni del
programma, con riferimento alle edizioni per il sistema operativo Microsoft Windows4 , e le
denominazioni tecniche delle corrispondenti versioni del formato DOC che si sono
succedute negli ultimi venti anni. Si può osservare come siano state rilasciate nel tempo
quattro versioni: DOC1, DOC2, DOC 6.0/95 e DOC97/2003; con Microsoft Word 2007 è
stato introdotto un formato nuovo e completamente diverso, denominato DOCX 5 .
Rimanendo nell’ambito del formato DOC, chiunque abbia avuto la necessità di salvare un
documento di testo codificandolo secondo versioni differenti del formato avrà notato che
l’estensione rimane la stessa (.doc); ma se si va ad analizzare il flusso di bit che costituisce
il file, si nota, invece, che i dati sono codificati in maniera differente: ciò significa che i
formati sono diversi. Il DOC non è quindi un formato ma una famiglia di formati 6 . Questo è
un discorso del tutto generale: la maggior parte dei formati oggi esistenti sono, in realtà,
famiglie, spesso piuttosto numerose, di differenti versioni dello stesso formato,
tecnicamente diverse e, a volte, non compatibili tra di loro.
Versione di Word
Word 1.0 for Windows
Word 2.0 for Windows
Word 6.0 for Windows
Word 95
Word 97
Word 2000
Word 2002/XP
Word 2003
Word 2007
Anno di rilascio
Versione del formato
(denominazione tecnica)
1989
1991
1993
1995
1997
1999
2001
2003
2007
DOC1
DOC2
DOC6.0/95
DOC6.0/95
DOC97/2003
DOC97/2003
DOC97/2003
DOC97/2003
DOCX (OOXML)
Tabella 1. Versioni di Micorsoft Word e corrispondenti versioni del formato DOC
1.3 La classificazione dei formati
Ai fini di una migliore comprensione dei requisiti di conservabilità dei formati è utile
procedere ad una loro classificazione raggruppandoli in categorie omogenee. Sono state
4
Escludendo, quindi, quelle per altri sistemi operativi, come l’MS-DOS, MacOS, OS/2. Per completezza di
informazione, si ricorda che Microsoft, oltre alle versioni per Macintosh, ha prodotto anche alcune versioni
per MS-DOS (Word 3.x, Word 4.0, Word 5.0 e Word 5.5) ed una per OS/2 (Word for OS/2).
5
Il DOCX, successore del formato DOC e formato di default dei documenti di testo prodotti con le suite di
automazione d’ufficio Microsoft Office 2007 e Office 2010, può essere adoperato anche in alcune delle
precedenti versioni di Microsoft Word se si provvede all’installazione del Microsoft Office Compatibility
Pack.
6
Per cui, in realtà, sarebbe più corretto parlare di “famiglia di formati DOC” anziché di “formato DOC”. È
importante comprendere che il formato DOC utilizzato da Microsoft Word 2003 è diverso dal formato DOC
utilizzato da Microsoft Word 6.0 e da quello utilizzato da Microsoft Word 2.0 e così via. L’esistenza di
diversi formati all’interno di una stessa famiglia va ricondotta al fatto che le successive versioni di Microsoft
Word hanno aggiunnto via via nuove funzionalità, per supportare le quali il formato ha dovuto essere
modificato più volte.
3
proposte diverse classificazioni, alcune delle quali ufficiali ed altre suggerite da siti web o
da registri dei formati. La prima classificazione ufficiale che storicamente è stata adottata è
quella basata sui tipi MIME (MIME type) 7 . Non esiste una lista esaustiva di tutti i tipi
MIME in uso ma un lungo elenco si può trovare sul sito dello IANA 8 , che fornisce anche la
classificazione ufficiale dei formati di file basata sul tipo MIME e che prevede attualmente
nove categorie (si veda la Figura 3).
Figura 3. Classificazione secondo i tipi MIME
È importante notare che l’associazione tra estensione e tipo MIME non è univoca: esistono
alcune estensioni che sono associate a più tipi MIME 9 . Inoltre, le categorie dei formati
secondo i tipi MIME non sono mutuamente esclusive ma presentano, in alcuni casi, delle
sovrapposizioni. Il formato TXT, per esempio, è presente sia nella categoria application che
nella categoria text. Per questo motivo sono state proposte altre classificazioni nelle quali
ciascun formato può rientrare in una sola delle categorie. Ad esempio, R.L. Clausen 10
propone la classificazione rappresentata in Figura 4 11 .
Figura 4. Classificazione dei formati secondo R.L. Clausen
Esistono diverse altre classificazioni, alcune delle quali sono più dettagliate e prevedono
quindi un maggior numero di categorie. Ad esempio, il sito FileInfo 12 propone una
classificazione basata su 18 categorie (cfr. Figura 5).
7
Il tipo MIME (Multipart Internet Mail Extension) di un file è un’informazione che rende possibile la sua
univoca identificazione. Viene solitamente utilizzato nella trasmissione di file via Internet (ad esempio, le
pagine HTML richieste tramite un browser, i messaggi di posta elettronica e i loro allegati, gli articoli dei
newsgroup) ed è indicata nel campo “Content-Type:” dell’intestazione di tali file. Si veda anche il paragrafo
1.4.
8
Si veda all’indirizzo <http://www.iana.org/assignments/media-types>.
9
Ad esempio, l’estensione .doc è associata ai seguenti tipi MIME: application/msword; application/doc;
appl/text; application/vnd.msword; application/vnd.ms-word; application/winword; application/word;
application/x-msw6; application/x-msword; zz-application/zz-winassoc-doc. Cfr. <http://filext.com/fileextension/doc>.
10
Cfr. LARS R. CLAUSEN, Handling file formats, The State and University Library, Arhus, e The Royal
Library, Copenhagen, Danimarca, maggio 2004, disponibile all’indirizzo <http://netarchive.dk/publikationer/
FileFormats-2004.pdf>. Seguono alcuni esempi di formati che, secondo l’autore, rientrano nelle categorie
proposte: PDF, DOC, PS, DVI, HTML (document-like); GIF, PNG, JPG (image formats); MP3, OGG (sound
formats); MPG, AVI (movie formats); dati grezzi (data formats); CAD, VSD, QXD (structured graphics
format); XSL (spreadsheets); DBF, DDF (databases); TAR, ZIP (collection); CSS (configuration and
metadata); program-supporting formats (TTF, game saves); Javascript, Java, SWF (program file formats).
11
Si noti che, al contrario di quanto accade con la classificazione basata sui tipi MIME, in questa non è
necessario definire la categoria application.
12
Cfr. <http://www.fileinfo.net>, già citato nel paragrafo 1.5.
4
Figura 5. Classifcazione secondo “FileInfo”
Il sito File.extensions 13 effettua una classificazione ancora più dettagliata, individuando ben
33 categorie (che raccolgono complessivamente oltre ventimila estensioni diverse), tra cui la
categoria residuale “miscellaneous” che comprende tutti quei formati elettronici che non
sono rientrano in nessun’altra classe (cfr. Figura 6).
3D graphics, CAD-CAM-CAE
archive and compressed
audio and music or song
backup
binary
bitmap images, picture, photo
configuration
dangerous and malicious
database
disk image (ISO) binary
document
email attachment blocked
email related data
emulator
encoded and encrypted
font
Categorie di
formati
game
graphic
Internet related
mobile ringtone
movie, film, video and multimedia
Office 2007 document
plugin, addon
program executable
settings, option, thems or skins
source code and script
system
temporary
text
unknown
various data
vector graphic
miscellaneous
Figura 6. Le categorie di formati secondo “File extensions”
1.4 L’identificazione dei formati
Sicuramente uno delle prime questioni che si trova ad affrontare chi si occupa di
conservazione digitale è quella dell’identificazione corretta del formato dei file. A questo
proposito è importante notare che non è sufficiente identificare solo il formato, ma occorre
anche identificarne anche la versione 14 .
Assai comunemente il formato di un file è identificato attraverso la sua estensione 15 . Il
sistema operativo Windows utilizza, ad esempio, una tecnica denominata file association
per associare ad ogni estensione un determinato programma e stabilire quale applicativo può
“aprire” un determinato file 16 . Si noti che, nel sistema operativo Windows, è consentito
13
Cfr. <http://www.file-extensions.org/filetypes>.
Ad esempio, non è sufficiente sapere che un certo file è nel formato DOC, ma occorre identificarne anche
la versione precisa (DOC1, DOC2, DOC 6.0/95, DOC 97/2003, etc.).
15
L’identificazione del formato attraverso l’estensione del nome del file è una tecnica utilizzata da diversi
sistemi operativi, quali il CP/M, l’MS-DOS, il VMS, il VM/CMS, Windows e Mac OS X.
16
Una file association è un’associazione tra l’estensione del file e il programma che il sistema operativo
utilizza per aprire o visualizzare quel file. Per esempio, i documenti creati con Microsoft Word di solito
14
5
associare una determinata estensione di file a più di una applicazione 17 . Ad esempio,
all’estensione .doc possono essere associati, oltre a Microsoft Word, anche programmi quali
Writer (incluso in OpenOffice.org), StarWriter (incluso in StarOffice), AbiWord (incluso in
GNOME Office), KWord (incluso in KOffice) 18 . È anche possibile associare ad una
estensione programmi diversi a seconda dell’azione che si intende avviare (ad esempio, un
programma per l’apertura, un altro per la modifica, e così via). Si noti, infine, che il
programma che è associato ad una determinata estensione potrebbe anche non essere in
relazione con essa, magari perchè è stata modificata, volontariamente o per errore, la
corretta associazione. Ad esempio, è possibile, modificando la file association, associare
l’estensione .doc (di Microsoft Word) al programma Microsoft Excel. In questo caso, il
sistema operativo tenterà, inutilmente, di “aprire” i file che presentano estensione .doc con
Microsoft Excel ottenendo risultati imprevedibili.
Il metodo d’identificazione tramite l’estensione del nome dei file non è privo di difficoltà.
Innanzitutto, se l’estensione di un file viene modificata, volontariamente o
involontariamente, ad esempio a causa di una ridenominazione accidentale o per
l’intervento di un virus 19 , non risulta più possibile identificare il suo formato solo attraverso
di essa. In secondo luogo, una determinata estensione può essere associata a più di un
formato 20 ; questa evenienza è tutt’altro che rara: basta considerare l’esempio, già citato,
dell’estensione .doc, utilizzata per i documenti di testo creati con Microsoft Word, e, nel
passato, anche per i documenti di testo prodotti con WordPerfect 21 . In terzo luogo occorre
tener presente che, in relazione alle impostazioni di alcuni sistemi operativi (quali Windows
e Mac OS X) 22 , le estensioni dei file potrebbero non essere visualizzate (si ved la Figura
terminano con l’estensione .doc. Se l’utente fa “doppio clic” su un file con estensione .doc in Esplora
Risorse (o in Risorse del computer), viene avviato Microsoft Word (ovviamente ipotizzando che i file .doc
siano correttamente associati con Microsoft Word nell’ambiente operativo dell’utente). Per gestire la file
association nei sistemi operativi Windows è sufficiente aprire Esplora Risorse e seguire il percorso
Strumenti  Opzioni cartella…  Tipi di file.
17
Infatti, cliccando con il tasto destro del mouse sull’icona di un file e scegliendo la voce “apri con”, viene
visualizzata una finestra nella quale è possibile scegliere il programma da utilizzare per “aprire” quel
determinato file.
18
Viceversa, un programma può “gestire” file di diversi formati. Ad esempio, un word processor potrebbe
gestire i formati DOC o ODT, un programma di grafica i formati GIF, JPG e PNG, un foglio elettronico i
formati XLS, CSV e ODS, etc.
19
Vale la pena far osservare che, cambiando l’estensione, il formato del file non cambia, in quanto la
sequenza di bit di cui è formato non subisce alcun mutamento.
20
Ciò dipende principalmente dal fatto che non vi è alcuna autorità centrale che controlla l’assegnazione
delle estensioni ai formati di file, anche se alcuni sviluppatori hanno preso l’abitudine, già nelle fasi iniziali
dello sviluppo di un nuovo software, di inviare a The File Extension Source (un sito web, più semplicemente
conosciuto come FILExt e raggiungibile all’indirizzo <http://www.filext.com>, che costituisce un
riferimento autorevole, seppur non ufficiale, sui formati e le relative estensioni; si veda anche il paragrafo
1.5) l’estensione che intendono utilizzare per i loro formati, nella speranza che gli altri produttori di software
effettuino una ricerca sul sito ed evitino di utilizzare estensioni che sono già state, per così dire, “impegnate”.
21
Allo stesso modo, i fogli elettronici prodotti con Microsoft Works hanno estensione .wks, che è la stessa
utilizzata dal foglio elettronico Lotus 1-2-3. Si noti che è anche possibile che due file che hanno la stessa
estensione abbiano in realtà contenuti completamente differenti (il primo potrebbe essere, ad esempio, un
documento di testo e il secondo un’immagine).
22
Con i sistemi operativi Microsoft Windows XP, Windows Vista e Windows 7 la procedura per ripristinare
la visualizzazione delle estensioni dei file (che è disabilitata di default) è pressoché identica: occorre aprire
Esplora risorse (o in alternativa Risorse del computer) e scegliere Strumenti  Opzioni cartella 
Visualizzazione; tra le varie opzioni che si presentano, occorre deselezionare la voce “Nascondi le estensioni
per i tipi di file conosciuti”. In questo modo Windows visualizzerà tutte le estensioni dei file e non solamente
quelle dei file “sconosciuti”, ovvero quelli che non sono associati ad alcun programma all’interno del
sistema. Il cambiamento operato su questa opzione si rifletterà anche sugli altri programmi, come, ad
6
7) 23 . In questo modo i vari file presenti sul computer vengono identificati solo attraverso
l’icona che il sistema operativo associa loro e che non identifica il formato ma
semplicemente il programma utilizzato di default per aprirli.
Figura 7. L’icona di un documento di testo creato con Microsoft Word 2003, con e senza estensione
Inoltre, non tutti i sistemi operativi utilizzano le estensioni per identificare i tipi di file. Se si
scambiano file tra ambienti operativi che non utilizzano le estensioni (ad esempio, i
computer Macintosh con sistemi operativi precedenti a Mac OS X) ed ambienti che invece
le utilizzano (ad esempio, i sistemi Windows), potrebbe verificarsi una non corretta
assegnazione delle estensioni24 .
Occorre, infine, notare che, tramite l’estensione, è possibile identificare al più la famiglia di
formati a cui appartiene un determinato file (si veda il paragrafo 1.2), mentre si è già fatto
osservare che è necessario identificare la versione precisa del formato. In alcuni casi la
situazione è ancora più complessa. Ad esempio, l’estensione dei file PDF (.pdf) identifica
non soltanto le varie versioni del formato PDF, ma anche le varie versioni dei profili del
formato PDF 25 .
In conclusione, l’esame dell’estensione permette di identificare al più la famiglia a cui
appartiene il formato ma non fornisce alcuna indicazione utile a risalire alla specifica
versione o profilo.
Oltre a quello basato sull’estensione, esistono altri metodi per identificare il formato di un
file. In molti casi esso può essere identificato tramite particolari sequenze di byte che si
trovano in determinate posizioni all’interno del file (il più delle volte all’inizio). Tale
sequenza viene comunemente definita magic number od anche file signature (firma).
Quando un programma di identificazione rileva questi magic number all’interno del file,
può comprendere di quale formato si tratti anche in assenza della sua estensione. Questo
metodo, sebbene applicabile solo ai formati che utilizzano i magic number, risulta
esempio, Microsoft Outlook Express. Si noti, tuttavia, che anche dopo aver correttamente impostato queste
opzioni, ci possono essere alcuni casi speciali in cui Windows non visualizza comunque l’estensione del file.
Uno di questi casi è rappresentato dai documenti ritaglio di Windows, creati copiando del testo da
un’applicazione (ad esempio, da un documento di testo di Microsoft Word) ed incollandolo all’interno della
finestra di Esplora risorse. Questa caratteristica può essere utilizzata dai programmatori per la creazione di
codice maligno.
23
Questo fatto viene spesso sfruttato dai creatori di virus per diffondere virus per computer ed altre categorie
di malware. Ad esempio, essi possono creare del codice maligno nel linguaggio di programmazione
VBScript e denominare il relativo file come LOVE-LETTER-FOR-YOU.TXT.vbs; questo file verrà visualizzato
come LOVE-LETTER-FOR-YOU.TXT se colui che lo apre ha la visualizzazione delle estensioni disabilitata (che è
l’impostazione predefinita dei sistemi operativi Microsoft) e apparirà come un innocuo documento di testo
nel formato TXT anziché un programma dannoso.
24
Si consideri anche il fatto che alcuni sistemi operativi, come Unix, sono case sensitive (cioè distinguono
tra maiuscole e minuscole nei nomi di file), mentre altri, come Microsoft Windows, sono case insensitive. I
tre file “Lettera.doc”, “lettera.doc” e “LeTtErA.doc” sono diversi nel file system di Unix ma diventano uguali
se trasferiti nel file system di Windows, causando non pochi problemi.
25
Sulla base del formato PDF sono stati sviluppati diversi “sottoformati” (denominati, con terminologia
tecnica, profili) ciascuno dei quali è fondamentalmente una versione “limitata” del formato PDF, ovvero una
versione che implementa deliberatamente solo un determinato sottoinsieme dei costrutti del PDF. Esempi di
profili sono il PDF/A, il PDF/X, il PDF/E, etc.
7
particolarmente utile qualora, per i motivi più disparati (ad esempio a seguito di una
ridenominazione accidentale), si sia persa l’estensione corretta di un file e si abbia la
necessità di capire di quale formato si tratti 26 .
Un altro metodo per identificare il formato di un file è tramite l’utilizzo di metadati espliciti
contenuti all’interno del file stesso o nel file system utilizzato dal sistema. Ad esempio, il file
system HFS utilizzato sui computer Macintosh fino alla versione Mac OS X, associa ad ogni
file, oltre alle tradizionali indicazioni (nome file, data di creazione, data dell’ultima
modifica, etc.), anche delle informazioni dettagliate sul suo formato e sul programma che lo
aveva creato. Da queste informazioni è possibile risalire al tipo di formato.
Un approccio simile viene impiegato con i tipi MIME, adoperati per identificare il formato
dei file trasferiti tramite Internet. Nella rete, infatti, non può essere utilizzata la modalità di
identificazione del formato mediante l’estensione del nome del file, dal momento che essa
può essere alterata, può variare in base ai programmi presenti sull’elaboratore, può essere
variamente interpretata su sistemi operativi diversi. Quindi, occorre utilizzare un’altra
tecnica. Molti tipi di trasmissione di dati, tra cui la posta elettronica e il protocollo HTTP
usato per il World Wide Web, prevedono che il contenuto vero e proprio del file sia
preceduto, all’interno delle righe di intestazione, da una indicazione del tipo MIME. I tipi
MIME sono composti da due parti: un identificatore di tipo seguito da un identificatore di
sottotipo separati dal carattere slash inversa (“/”):
MIME type: tipo/sottotipo
dove al posto di tipo vi è una parola chiave che specifica il tipo di oggetto (es. text, image,
audio,...) e al posto di sottotipo vi è una parola chiave che specifica il formato (ad esempio,
se il tipo è testo: plain, html...). L’identificatore del tipo è pensato per fornire indicazioni
sulla categoria del file, mentre l’identificatore di sottotipo è pensato per identificare con
precisione il formato del file. Ogni coppia tipo/sottotipo costituisce un tipo MIME. Ad
esempio, nel tipo MIME image/jpeg, l’identificatore di tipo è image, mentre l’identificatore
di sottotipo è jpeg. Altri esempi sono riportati nella Tabella 2.
Tipo MIME
text/plain
text/html
audio/midi
image/tiff
image/jpeg
image/gif
Tipo
text
text
audio
image
image
image
Sottotipo
plain
html
midi
tiff
jpeg
gif
Descrizione
file di solo testo non formattato
file di testo HTML
file suono midi
file immagine tiff
file immagine jpeg
file immagine gif
Tabella 2. Esempi di tipi e sottotipi MIME
Si noti che i tipi MIME sono registrati presso lo IANA (Internet Assigned Numbers
Authority) 27 ed è quindi necessario utilizzare solo i nomi registrati; tuttavia è ammesso
26
Riportiamo alcuni esempi di magic number: i file PDF iniziano con la sequenza “%PDF” (0x25504446, in
notazione esadecimale); i file PostScript cominciano con la stringa “%!” (0x2521); le immagini GIF sono
identificate dalla stringa ASCII “GIF87a” (0x474946383761) o “GIF89a” (0x474946383961), a seconda
della versione; le immagini JPG (o JPEG) cominciano con la stringa esadecimale 0xFFD8FF; le immagini
JPEG/JFIF contengono la stringa 0x4A464946 (equivalente a “JFIF” in ASCII); le immagini JPEG/EXIF
contengono la stringa 0x45786966 (equivalente a ‘Exif’ in ASCII) collocata a partire dal sesto byte e seguita
dai metadati riguardanti il file; le immagini TIFF cominciano con la stringa ASCII “II” o “MM” a seconda
del byte order utilizzato (II per Intel, o little endian, MM per Motorola, o big endian), seguita dal numero
“42” (“0x2A00” o “0x002A” in notazione esadecimale, rispettivamente nella convenzione little endian o big
endian).
8
l’utilizzo di tipi MIME non ancora registrati e proposti in via sperimentale, purché il
relativo identificatore di sottotipo inizi con le due lettere “x-” 28 .
Esistono anche altri sistemi che possono essere utilizzati per l’identificazione (anche
automatica) dei formati di file, anche se spesso si tratta di metodi utilizzabili in ambiti
circoscritti. Tra questi, segnaliamo: Microsoft FOURCC, un identificatore composto da
quattro caratteri (da cui il nome: Four Characters Code) utilizzato per l’identificazione di
codec video ed altri elementi, impiegati all’interno dei formati video Microsoft 29 ; Microsoft
WAVE format registry, un identificatore utilizzato nei formati audio Microsoft; ASF GUID
(Globally Unique IDentifier), un identificatore utilizzato nei file video in formato ASF (di
proprietà Microsoft); Apple Video Sample Description, un identificatore composto da
quattro caratteri per l’identificazione dei codec video utilizzati nei filmati QuickTime 30 ;
Apple Sound Codec four-character codes, utilizzato per identificare i codec audio utilizzati
nei file QuickTime.
1.5 I registri dei formati
Per molte delle attività che riguardano la conservazione digitale sono necessarie conoscenze
approfondite sui formati dei file. Nel passato queste conoscenze erano per lo più raccolte in
registri privati e non condivisi (quali quelli mantenuti presso ogni azienda produttrice di
software per i formati di propria competenza) ed anche le informazioni presenti presso i
pochi registri di tipo pubblico (come il registro dei tipi MIME mantenuto presso lo IANA)
erano caratterizzate da una certa incompletezza e da una carenza nell’organizzazione delle
informazioni, presentate spesso in maniera poco chiara e non standardizzata. Tuttavia,
recentemente sono stati portati a termine numerosi progetti per la creazione di registri dei
formati, constituiti da banche dati complete e liberamente accessibili contenenti
informazioni tecniche sui formati. Questi registri possono essere utilizzati per rispondere a
numerose questioni relative ai formati, riguardanti, ad esempio, l’identificazione (qual è il
formato di un oggetto digitale sconosciuto?), la validazione (l’oggetto digitale è conforme
alla specifica di un determinato formato?), la caratterizzazione (quali sono le caratteristiche
significative del formato?), la valutazione del rischio (il formato è a rischio di
obsolescenza?), la rappresentazione (con quale piattaforma hardware e software è possibile
rappresentare quel determinato formato?).
Si segnalano, per la loro completezza e rilevanza a livello internazionale, i seguenti registri
dei formati mantenuti da enti e strutture di ricerca:
27
Si veda all’indirizzo <http://www.iana.org/assignments/media-types>.
Per poter essere utilizzato, un tipo MIME deve prima essere proposto in via sperimentale (questi tipi si
riconoscono in quanto l’oggetto e/o il formato iniziano per “x-”) e poi registrato seguendo una procedura
standardizzata. Per esempio, anche se si tratta di un formato di larga diffusione, non è registrato il tipo
MIME per il formato TEX, per il quale si usa normalmente il tipo MIME application/x-tex.
29
Si veda, per questo e per il successivo identificatore, il documento “Registered FOURCC Codes and
WAVE Formats”, che contiene l’elenco completo di tutti i codici FOURCC e i WAVE format GUID. È
disponibile all’indirizzo <http://msdn2.microsoft.com/en-us/library/ms867195.aspx>.
30
Si vedano, per questo e per il successivo identificatore, le specifiche del formato QuickTime all’indirizzo
<http://developer.apple.com/documentation/QuickTime/QTFF/qtff.pdf>.
28
9
- PRONOM (PRactical ONline cOMpendium of file formats Technical registry) 31 . È un
registro di informazioni tecniche che acquisisce e rende disponibili on-line informazioni sui
formati di file, sui prodotti software con i quali un file in un determinato formato può essere
letto e prodotto, sui requisiti necessari in termini di hardware e software, sui requisiti tecnici
e su altre questioni necessarie per garantirne l’accesso nel lungo periodo. È stato realizzato
dal Digital Preservation Department in seno a The National Archives of U.K.. Inizialmente
sviluppato per supportare l’accesso e la conservazione a lungo termine degli archivi digitali
presso The National Archives, è stato reso successivamente disponibile a chiunque necessiti
di una fonte di informazioni autorevole ed imparziale. In tal senso esso risulta uno
strumento utile per determinare se esiste un percorso di migrazione da un vecchio formato
ad una versione più recente o se esiste un tool di conversione specializzato. È possibile
contribuire allo sviluppo del database PRONOM inviando nuove informazioni attraverso
una submission form on-line. Nei suoi progetti futuri PRONOM intende svilupparsi
ulteriormente per fornire informazioni tecniche riguardo alle singole versioni dei formati di
file.
- TOM (Typed Object Model) 32 . È un sistema di gestione dei formati dei dati (DFMS, Data
Format Management System) che descrive la struttura ed il comportamento di una grande
varietà di formati e fornisce servizi informativi. Sviluppato nel 2004 dalla University of
Pennsylvania Library, TOM può essere utilizzato per acquisire documentazione sui formati
e per ottenere assistenza sia riguardo il processo di migrazione da un formato ad un altro che
riguardo altri tipi di conversioni. La piattaforma software su cui si basa TOM è rilasciata
con licenza open source e può quindi essere liberamente utilizzata da chiunque.
- GDFR (Global Digital Format Registry) 33 . È un sistema, mantenuto presso la Harvard
University Library, che consente di fornire informazioni affidabili e autorevoli sui formati
di file. GDFR è un progetto internazionale, sponsorizzato dalla Digital Library Federation e
sviluppato sin dall’inizio del 2002; il gruppo di lavoro del progetto è composto da membri
delle biblioteche e degli archivi nazionali ed accademici.
- FRED (Format REgistry Demonstration) 34 . È un sistema, basato su TOM e sviluppato
presso la University of Pennsylvania Library, che mostra il funzionamento di un semplice
registro dei formati. In questo senso FRED è una dimostrazione di un GDFR e coloro che
sono interessati alla creazione di un registro dei formati possono utilizzarlo per
comprendere, ad esempio, quali sono le informazioni che è utile inserire in tale registro.
- Digital Formats for Library of Congress Collections. La Library of Congress (U.S.) 35
mantiene sul proprio sito web una ricca raccolta di informazioni (compresa un’analisi dei
requisiti per la loro conservabilità) sui formati più rilevanti per le proprie collezioni digitali,
classificati per categoria.
Esistono anche numerosi altri siti, non istituzionali, che consentono di ottenere informazioni
utili all’identificazione del formato di un file a partire dalla sua estensione, oltre ad
informazioni importanti per la sua gestione. Tra questi segnaliamo:
31
Sito web <http://www.nationalarchives.gov.uk/pronom>. Il registro si avvale del PRONOM Unique
Identifier (PUID), un sistema espandibile capace di fornire un identificatore persistente, unico e non ambiguo
dei record contenuti nel registro. Per ulteriori informazioni si veda <http://www.nationalarchives.gov.uk/
aboutapps/pronom/puid.htm>.
32
Sito web <http://tom.library.upenn.edu>.
33
Sito web <http://hul.harvard.edu/gdfr>.
34
Sito web <http://tom.library.upenn.edu/fred>.
35
Si veda all’indirizzo <http://www.digitalpreservation.gov/formats/index.shtml>.
10
- The File Extension Source 36 . Più semplicemente conosciuto con il nome di FILExt, è
un’eccellente fonte di informazioni relative ai formati associati ad una determinata
estensione. Rende disponibile un database on-line su cui è possibile effettuare interrogazioni
per avere informazioni sul formato di un file, compresi gli eventuali applicativi che possono
leggere e/o scrivere quel formato.
- FileInfo.net 37 . Si definisce come “The definitive resource for file extension information”
ed è un’altra ottima fonte di informazioni sulle estensioni dei formati.
- File.extensions 38 . Su questo sito è possibile ricercare migliaia di estensioni, incluse quelle
che iniziano con un numero o con caratteri speciali.
- Wotsit Formats 39 . Si definisce come “the programmer’s file and data format resource”;
contiene informazioni su centinaia di differenti tipi di file, tipi di dati, dettagli su interfacce
hardware e su ogni sorta di altre informazioni utili per i programmatori (algoritmi, codici
sorgenti, specifiche, etc.).
- File extension’s list 40 . Sito gestito dalla Foundations Network & Data Services Inc.;
contiene una lista di migliaia di estensioni di file, insieme ad altre utilità di uso comune.
- Gary Kessler’s File Signature Page 41 , un’eccellente fonte di informazioni sui magic
number utilizzati in molti dei formati.
1.6 Osservazioni conclusive
Sebbene l’identificazione del corretto formato di un oggetto digitale sia una questione
prioritaria ai fini della sua conservazione, non esiste, ad oggi, un metodo applicabile
universalmente. Infatti, l’utilizzo dell’estensione del nome del file, adoperata soprattutto nei
sistemi MS-DOS e Windows, non è una metodologia standardizzata né univoca, e può
essere interpretata in modo diverso in ambienti tecnologici diversi. I magic number possono
anch’essi essere utilizzati per identificare il formato, ma non sono sempre presenti
all’interno di un file. Lo schema dei tipi MIME curati da IANA non offre né una sufficiente
granularità né una completa copertura per soddisfare i requisiti tipici degli identificatori
univoci. Ci si auspica che vengano realizzati in futuro progetti, come il PRONOM PUID
Scheme 42 elaborato da The National Archives of U.K., che consentano di sviluppare un
metodo univoco di identificazione dei formati dei file.
2. I formati elettronici in rapporto alle esigenze della conservazione digitale
I requisiti desiderabili per i formati elettronici sono stati oggetto di un’intensa attività di
studio e ricerca da parte di numerosi enti ed organizzazioni. Tra questi risultano di
particolare interesse quelli condotti presso la Library of Congress 43 , The National Archives
36
Sito web <http://www.filext.com>.
Sito web <http://www.fileinfo.net>.
38
Sito web <http://www.file-extensions.org>.
39
Sito web <http://www.wotsit.org>.
40
Sito web <http://www.fnds.net/ext/j.html>.
41
Sito web <www.garykessler.net/library/file_sigs.html>.
42
Si veda la nota 31.
43
Si vedano le pagine del sito Sustainability of Digital Formats, Planning for Library of Congress
Collections - Sustainability Factors, curato da The Library of Congress e disponibile all’indirizzo
<http://www.digitalpreservation. gov/formats/sustain/sustain.shtml>. Si vedano, inoltre: CAROLINE R. ARMS,
CARL FLEISCHHAUER, Digital Formats: Factors for Sustainability, Functionality, and Quality, in occasione
della IS&T Archiving 2005 Conference, Washington, D.C, 24 aprile 2005, disponibile all’indirizzo
<http://www.digitalpreservation.gov/formats/intro/ papers.shtml> e CAROLINE R. ARMS, CARL
FLEISCHHAUER, Digital formats for library of congress collections: factors to consider when choosing
digital formats, disponibile sul sito della Library of Congress all’indirizzo <http://memory.loc.gov/ammem/
techdocs/digform/ DigForm_Intro _v04.pdf>.
37
11
of England, Wales and the United Kingdom 44 , l’Istituto di studi per la tutela dei beni
archivistici e librari (ISTBAL) di Urbino nell’ambito del progetto DELOS 45 , The Royal
Library, Copenhagen, Denmark 46 , il progetto InterPARES 2 47 e The National Library of the
Netherlands 48 .
È utile classificare tali requisiti distinguendo tra requisiti generali, applicabili a tutte le
tipologie di formati, e requisiti specifici, relativi ad una particolare categoria di formati,
quali, ad esempio, i documenti di testo, le immagini, i contenuti audio, etc. (si veda la
Figura 8). Alcune tipologie di requisiti, infatti, sono applicabili solo ad una certa categoria
di formati: si pensi, ad esempio, alla risoluzione di un’immagine, requisito questo
certamente applicabile ai formati immagine ma non, ad esempio, ai formati per i documenti
di testo.
Figura 8. Classificazione dei requisiti dei formati
44
Si veda: ADRIAN BROWN, Automatic Format Identification Using Pronom and DROID, The National
Archives of U.K., Regno Unito, ottobre 2005 <http://www.nationalarchives.gov.uk/aboutapps/fileformat/pdf/
automatic_format _identification.pdf> e ADRIAN BROWN, Digital Preservation Guidance Note 1: Selecting
File Formats for Long-Term Preservation, The National Archives of U.K, Regno Unito, giugno 2003
(aggiornato: aprile 2008), <http://www. nationalarchives.gov.uk/documents/selecting-file-formats.pdf>.
45
Si veda DELOS, File Formats Typology and Registries for Digital Preservation, Università di Urbino,
Istituto di studi per la tutela dei beni archivistici e librari (ISTBAL), Italia, dicembre 2004, disponibile
all’indirizzo <http://www.dpc.delos.info/private/output/ DELOS_WP6_d631_finalv2(5)_urbino.pdf>.
46
Si veda LARS R. CLAUSEN, Handling File Formats, The State and University Library, Arhus, Denmark;
The Royal Library, Copenhagen, Denmark, Danimarca, maggio 2004, disponibile all’indirizzo
<http://netarchive.dk/ publikationer/FileFormats-2004.pdf>, e STEEN S. CHRISTENSEN, Archival Data
Format Requirements, The Royal Library, Copenhagen, Danimarca, luglio 2004, disponibile all’indirizzo
<http://netarchive.dk/ publikationer/ Archival_format_requirements-2004.pdf>. Il sito <http://netarchive.dk>
ha l’ambizioso obiettivo di raccogliere e conservare “la porzione danese di Internet”.
47
Si veda la ricerca, condotta nell’ambito del progetto InterPARES 2, sui requisiti che un certo numero di
istituzioni archivistiche di primaria importanza hanno stabilito per i formati destinati alla conservazione
digitale. Cfr. EVELYN PETERS MCLELLAN, Selecting Digital File Formats for Long-Term Preservation,
InterPARES 2 General Study 11 Final report, 2006, disponibile all’indirizzo <http://www.interpares.org/
display_file.cfm?doc=ip2_file_formats(complete) .pdf>
48
Si veda JUDITH ROG, CAROLINE VAN WIJK, Evaluating File Formats for Long Term Preservation, The
National Library of the Netherlands; The Hague, Paesi Bassi, febbraio 2008, disponibile all’indirizzo
<http://www.kb.nl/hrd/dd/dd_links_en_publicaties/publicaties/KB_file_format_evaluation_method_
27022008.pdf>.
12
Tra i requisiti generali è possibile operare un’ulteriore distinzione tra quelli di primo livello
(non proprietà, apertura, standardizzazione e trasparenza), ovvero quei requisiti che vanno
presi in considerazione in prima battuta per operare una selezione iniziale, e quelli di
secondo livello, non meno importanti dei primi ma che vanno presi in esame
successivamente dopo aver selezionato i formati sulla base dei requisiti di primo livello.
2.1 I requisiti generali di primo livello
Il primo requisito generale di primo livello da prendere in considerazione è la non proprietà.
Ricordiamo che un formato si dice proprietario quando è stato creato da una organizzazione privata
(ad esempio, una software house), che ne detiene i diritti di proprietà intellettuale; di conseguenza le
sue specifiche vengono gestite esclusivamente da tale organizzazione. Un formato si dice, invece,
non proprietario (o libero) quando la gestione delle sue specifiche non è prerogativa di
un’organizzazione privata ma è affidata ad una comunità di sviluppatori che cooperano per la
gestione condivisa delle stesse, o ad un organismo di standardizzazione. Ad esempio, sono
proprietari (di proprietà Microsoft) i ben noti formati DOC, XLS e PPT (prodotti, rispettivamente,
con Microsoft Word, Microsoft Excel e Microsoft PowerPoint), mentre è non proprietario il
formato ODF (prodotto con la suite di office automation OpenOffice.org).
Ai fini della conservazione digitale è preferibile utilizzare formati non proprietari in quanto
non sono legati all’esistenza di una specifica azienda che ne detiene la proprietà e che
potrebbe, in qualsiasi momento, modificarne le specifiche, renderle inaccessibili, o imporre
restrizioni sul loro utilizzo.
Un secondo requisito da considerare è l’apertura. Un formato è aperto (o pubblico) quando
le sue specifiche sono pubbliche e liberamente accessibili (ad esempio perché sono state
pubblicate sul web) eventualmente anche dietro il pagamento di un compenso, ed utilizzabili
senza che coloro che intendono implementarle nelle loro applicazioni debbano
corrispondere alcun onere 49 . Spesso i formati aperti sono gestiti da organismi di
standardizzazione e non prevedono restrizioni sul loro utilizzo né richiedono il pagamento
di diritti (ovvero sono royalty-free). Viceversa, un formato è chiuso (o segreto) quando le
sue specifiche non sono state rese pubbliche. Si noti che il fatto che un formato sia aperto è
indipendente dal fatto che sia proprietario o meno50 .
Il requisito dell’apertura prende in considerazione due aspetti: a) la divulgazione, intesa
come possibilità di accedere alle specifiche e al fatto che queste siano pubblicate in una
forma corredata di tutti quegli strumenti necessari per la validazione tecnica dei file nei
confronti delle specifiche; b) l’assenza di diritti, intesa come possibilità di utilizzare le
specifiche liberamente e senza alcun onere (royalty-free).
Per fare alcuni esempi, il formato DOC della Microsoft (così come l’XLS e il PPT), oltre ad
essere proprietario, è stato, per diversi anni, anche chiuso perché le sue specifiche non erano
mai state rese note 51 ; invece il DOCX è aperto, dal momento che Microsoft ne ha pubblicato
49
Cfr. il sito della Library of Congress, già cit.: «Disclosure refers to the degree to which complete
specifications and tools for validating technical integrity exist and are accessible to those creating and
sustaining digital content».
50
Secondo alcuni autori il termine “aperto” si contrappone non solo a “chiuso” ma anche a “proprietario”.
Per costoro un formato è aperto se, oltre ad essere pubblicamente documentato, non è di proprietà di un
singolo soggetto. Sulla base di tali considerazioni, un “formato aperto” può essere anche definito come la
“modalità di rappresentazione dei dati in forma elettronica, deliberatamente resa pubblica, completamente
documentata ed utilizzabile da chiunque”. Cfr. MINISTERO PER L’INNOVAZIONE E LE TECNOLOGIE, Indagine
conoscitiva sul software a codice sorgente aperto nella Pubblica Amministrazione. Rapporto della
Commissione, Roma, maggio 2003.
51
Le specifiche di questi formati sono state pubblicate da Microsoft il 15 febbraio 2008, dopo quasi venti
anni dalla loro creazione.
13
fin dall’inizio le specifiche complete; il formato PDF, pur essendo stato per molti anni
proprietario, è sempre rimasto aperto in quando le sue specifiche erano liberamente
accessibili 52 .
Il requisito dell’apertura è di importanza fondamentale in quanto solo se le specifiche sono
note è possibile la realizzazione di software in grado di interpretare correttamente la
sequenza di bit che costituisce l’oggetto digitale. Tuttavia da solo non è sufficiente se non è
affiancato dal requisito della completa documentazione: in altre parole le specifiche devono
descrivere in maniera completa ed esaustiva il formato 53 . Se un formato è completamente
documentato, chiunque voglia implementare applicazioni che siano in grado di leggere,
produrre o modificare file in quel formato potrà trovare nelle specifiche tutte le informazioni
necessarie 54 . Ovviamente si può parlare di formati completamente documentati solo per
quelli aperti: per i formati chiusi, non essendo liberamente disponibili le specifiche, si tratta
di un requisito non applicabile.
Di solito, i formati non proprietari e aperti sono meglio documentati rispetto ai formati
proprietari. Allo stesso modo, i formati standard sono meglio documentati dei formati non
standard. In particolare, i formati standard aperti sono documentati in maniera più
completa, dal momento che, affinché un formato venga approvato come standard, le sue
specifiche devono essere esaustivamente documentate. Tuttavia, ciò che è più significativo
non è tanto l’approvazione, ancorché importante, del formato da parte di un organismo di
standardizzazione riconosciuto, quanto l’esistenza e la disponibilità di una documentazione
completa e possibilmente soggetta alla valutazione di esperti esterni. L’esistenza di tool di
validazione, preferibilmente creati da più aziende anziché da una sola, è anch’esso un
elemento positivo ed indicativo del fatto che le specifiche sono adeguatamente documentate.
Un esempio di formato pienamente documentato è il PDF/A, le cui specifiche sono state
riconosciute come standard ISO 19005-1:2005.
Va poi considerato il requisito della standardizzazione. Un formato è standard quando le
sue specifiche sono state definite o approvate da un organismo di standardizzazione (quali
l’ISO, l’ANSI, l’ECMA, il W3C, etc.) e quindi ha ottenuto un riconoscimento ufficiale (in
questo caso si parla di standard de jure) oppure quando le sue specifiche non sono state
ratificate da nessun organismo di normazione, ma è diventato, di fatto, uno standard grazie
alla sua ampia diffusione (in questo caso si parla di standard de facto) 55 .
I formati che hanno ottenuto un riconoscimento come standard da parte di un organismo di
standardizzazione sono meno soggetti ad obsolescenza 56 . Ai fini della conservazione, è,
quindi, importante scegliere formati che siano standard; gli standard de jure sono, inoltre, da
52
Altri esempi di formati aperti sono il TXT, l’RTF, l’ODF, l’XML, l’HTML e l’XHTML, il JPEG e il PNG
per le immagini raster; l’SVG per le immagini vettoriali; il FLAC per l’audio con compressione lossless, il
Musepack e l’Ogg Vorbis per l’audio con compressione lossy; l’Ogg Theora e l’XviD per il video con
compressione lossy.
53
Relativamente al grado di documentazione, i formati si classificano in poco documentati, parzialmente
documentati, completamente documentati.
54
Ciò permette ad altre aziende, oltre quella che ha sviluppato il formato, di produrre software in grado di
interpretarlo, eliminando così la dipendenza dal produttore originale.
55
Ad esempio, sono standard de facto i formati DOC, XLS e RTF; sono, invece, standard de jure l’HTML
(W3C Recommendation e ISO 15445), l’XML (W3C Recommendation), l’ODF (ISO 26300), il TIFF (ISO
12639), il JPEG (ISO 10918-1), il JPEG2000 (ISO 15444), il PNG (ISO 15948), il PDF (ISO 32000) e alcuni
suoi profili quali il PDF/A, il PDF/E e il PDF/X.
56
È il caso di ricordare che, quando un formato viene riconosciuto come standard, perde la caratteristica di
proprietà ed il mantenimento delle sue specifiche spetta ad un apposito organo (solitamente un working
group) istituito presso l’organismo di standardizzazione.
14
preferire agli standard de facto, dal momento che solo il processo ufficiale di
standardizzazione garantisce che non vi siano interessi di parte nella definizione delle
specifiche di un formato e nella sua implementazione.
Strettamente connesso al requisito della standardizzazione è quello dell’ampia adozione,
che fa riferimento al grado di utilizzo di un formato. Questo requisito è molto importante in
quanto l’ampia adozione costituisce uno dei principali “deterrenti” contro i rischi legati
all’obsolescenza tecnologica. È evidente che, se un formato è ampiamente adottato, esso
sarà meno soggetto ad essere abbandonato dalle aziende produttrici di software, le quali
saranno in grado di sviluppare tool più semplici per la migrazione e l’emulazione, senza
necessità di specifici investimenti da parte delle istituzioni archivistiche57 . Se il formato è
ampiamente adottato, con ogni probabilità verrà utilizzato più a lungo e verranno sviluppati
numerosi programmi per la creazione e la fruizione di file codificati secondo quel formato.
È importante anche considerare da quanto tempo il formato è ampiamente adottato: deve
trattarsi di un periodo di tempo “adeguato” (tenendo conto di quanto si dirà più avanti circa
il requisito della stabilità). Si tenga, inoltre, presente che l’esistenza di brevetti sul formato
può inibirne l’adozione, soprattutto se i termini di licenza includono delle royalty sul suo
utilizzo.
Vi sono alcuni “segnali” che mostrano che un formato è ampiamente adottato. Uno di questi
è costituito dal fatto che nel software che viene normalmente fornito all’acquisto di un
computer 58 vengano inclusi in bundle i programmi per la gestione di quel formato. Un
secondo segnale è rappresentato dal supporto che viene fornito dai browser web o dagli
strumenti di creazione dei contenuti leader di mercato, compresi quelli per utilizzo
professionale, a quel formato. Un terzo indicatore è costituito dalla presnza sul mercato di
parecchie applicazioni che sono in grado di visualizzare, creare o modificare file in quel
formato 59 . Infine, un’ulteriore evidenza del requisito dell’ampia adozione è costituita
dall’accettazione di quel formato da parte di importanti istituzioni archivistiche.
L’ultimo requisito generale di primo livello è quello della trasparenza, che tiene conto del
grado di semplicità con cui è possibile ottenere la fruizione di un file 60 . Un formato è
trasparente se è possibile la fruizione dei contenuti digitali codificati secondo quel formato
utilizzando semplici strumenti di base (ad esempio, mediante un editor di testo 61 nel caso
57
Cfr. il sito della Library of Congress, già cit.: «If a format is widely adopted, it is less likely to become
obsolete rapidly, and tools for migration and emulation are more likely to emerge from industry without
specific investment by archival institutions». Si veda anche Frequently Asked Questions (FAQs) ISO 190051:2005 PDF/A-1, luglio 2006, disponibile sul sito dell’AIIM all’indirizzo <http://www.aiim.org/documents/
standards/19005-1_FAQ.pdf>: «Adoption - widespread use may be the best deterrent against preservation
risk».
58
Come avviene nel caso del formato PDF con il visualizzatore Adobe Reader.
59
Il formato PDF, ad esempio, presenta una perfetta rispondenza a tutte queste caratteristiche: il software di
fruizione, l’Adobe Reader, viene ormai sempre fornito insieme all’acquisito di un computer (di solito
preinstallato sulla macchina); tutti i browser web hanno integrato il plug-in per visualizzare file PDF;
esistono ormai centinaia di software per la creazione, la modifica o la semplice fruizione di file in questo
formato.
60
Il sito della Library of Congress, già citato, definisce la trasparenza come “the degree to which the digital
representation is open to direct analysis with basic tools, including human readability using a text-only
editor”. Si veda anche PDF/A, The Development of a Digital Preservation Standard, 69th Annual Meeting
of SAA (Society of American Archivists), New Orleans, August 14-21, 2005, disponibile all’indirizzo
<http://www.aiim.org/documents/ standards/ PDFA69thSAA805.pdf>.
61
Si ritiene utile ricordare la differenza tra un editor di testo (text editor) e un word processor e,
corrispondentemente, tra plain text e rich text. Un text editor (ad esempio, Blocco Note di Windows, ma ne
15
dei documenti di tipo testuale). In realtà il requisito della trasparenza non è assoluto, nel
senso che non esistono formati elettronici completamente trasparenti, essendo sempre
necessaria l’intermediazione di un sistema informatico per la fruizione di un contenuto
digitale; tuttavia esistono formati più trasparenti ed altri meno trasparenti.
Figura 9. L'incipit della Divina commedia codificato nei formati TXT, RTF e DOC
Cerchiamo di chiarire meglio il requisito della trasparenza, forse di non immediata
comprensione, attraverso un esempio. Si consideri l’incipit della Divina Commedia e si
supponga di volerne creare una versione in formato elettronico. Per fare ciò abbiamo a
disposizione diversi formati: il TXT, l’RTF (Rich Text Format), il DOC, il DOCX solo per
citarne alcuni. Supponiamo di scegliere i tre formati TXT, RTF e DOC e di generare i
esistono anche altri più sofisticati) è un programma per l’elaborazione di testi che consente di inserire il testo
ed, eventualmente, la sua formattazione, ma solo facendo uso di “comandi” interpretabili come sequenze di
caratteri (come i tag nei linguaggi di marcatura). Un file prodotto con un text editor è salvato come file di
testo (ad esempio, nel ben noto formato TXT) e codificato, di solito, in ASCII; se non contiene alcuna
informazione relativa alla formattazione si parla di file di puro testo (plain text). Al contrario, un word
processor (ad esempio, Microsoft Word, Microsoft WordPad, OpenOffice.org Writer, etc.) è un programma
di elaborazione testi che permette di inserire il testo, la relativa formattazione facendo uso di istruzioni
binarie, altre tipologie di oggetti (immagini, audio, etc.) e, a volte, anche i metadati, ottenendo quello che
viene denominato un rich text. Spesso dispone anche di funzionalità di tipo WYSIWYG (What You See Is
What You Get), grazie alle quali ciò che viene rappresentato a video verrà anche riprodotto su carta con lo
stesso identico aspetto. Ai fini della conservazione digitale è importante sapere che i file prodotti con un
determinato word processor contengono molti caratteri non ASCII che vengono utilizzati per fornire vari tipi
di informazioni (quali quelle sulla formattazione di carattere, di paragrafo e di pagina) ma che sono specifici
del programma con cui sono stati generati. Quindi potranno essere “compresi” correttamente solo dal
medesimo word processor con cui sono stati prodotti (anzi, spesso solo dalla medesima versione), a meno
che il formato non sia aperto (nel qual caso potrebbero esistere altri software che, basandosi sulle specifiche
pubbliche di quel formato, siano in grado di interpretarlo correttamente). È noto il caso del formato DOC che
viene interpretato correttamene soltanto dal word processor Microsoft Word: poiché le specifiche del
formato sono rimaste chiuse per lunghi anni, altri programmi (ad esempio, il Writer della suite
OpenOffice.org), riescono ad aprire i file in formato DOC, ma non ad interpretarli in maniera del tutto
corretta: di solito ne risultano modificati i margini, le intestazioni, i piè di pagina, le dimensioni delle
colonne, etc. Cfr. <http://www.gnu.org/philosophy/papadopoulos-response.it.html>.
16
corrispondenti file (Incipit.txt, Incipit.rtf e Incipit.doc) che hanno tutti lo stesso identico
contenuto testuale. Se si prova a visualizzare il contenuto di ciascuno di questi tre file
utilizzando un semplice editor di testo (quale Blocco Note di Windows) si può verificare
quanto segue: nel caso del formato TXT il contenuto del file è perfettamente intelligibile;
nel caso del formato RTF il contenuto è ancora intelligibile, ma in maniera inferiore rispetto
al primo caso per la presenza dei tag che indicano la formattazione del testo e che possono
rendere non di immediata comprensione le informazioni contenute; infine, nel caso del
formato DOC il testo è ancora leggibile ma le complicazioni aumentano a causa delle
numerose informazioni “non trasparenti” che il programma di videoscrittura Microsoft
Word inserisce (si veda la Figura 9).
Ciò è sufficiente per concludere che tra i tre formati, il TXT (che permette di inserire il testo
sotto forma di caratteri ASCII ma non prevede alcuna formattazione) è in assoluto quello
più trasparente; l’RTF è meno trasparente del TXT ma più trasparente del DOC (essendo
possibile, in linea di principio e con un po’ di buona volontà, interpretare senza l’ausilio di
un computer anche i tag utilizzati dal formato); il formato DOC, infine, risulta il meno
trasparente tra tutti.
Per altre categorie di formati, si tenga presente che, in generale, i formati basati su codifiche
standard e/o di base sono più trasparenti di quelli ottimizzati per ottenere una maggiore
efficienza. Ad esempio, per quanto riguarda i formati immagine sono trasparenti le
immagini di tipo raster; nel campo dei formati audio il PCM (Pulse Code Modulation) è più
trasparente del formato MP3.
Si tenga anche presente che la compressione può ridurre la trasparenza 62 . Nel caso sia
necessario utilizzarla, è opportuno scegliere algoritmi di compressione che siano aperti, non
proprietari, ampiamente documentati, non soggetti ad alcuna licenza e possibilmente
standard.
Grazie alla loro semplicità, la maggior parte dei programmi riesce ad interpretare facilmente
i formati trasparenti, ed è prevedibile che ciò sarà possibile anche in futuro nel caso in cui il
formato dovesse diventare obsoleto o dovessero andare smarrite le sue specifiche; mentre
solamente pochi programmi sono in grado di comprendere ed utilizzare il contenuto di un
file codificato in un formato non trasparente. Inoltre, i formati trasparenti permettono di
codificare l’informazione in maniera semplice e diretta e quindi lo sviluppo di software che
consenta la loro fruizione in nuovi ambienti tecnologici risulta più rapido e meno costoso; di
conseguenza sono anche più facilmente migrabili. I formati trasparenti forniscono, quindi, le
maggiori garanzie sul fatto che il loro contenuto rimarrà fruibile correttamente tra dieci,
venti, cinquanta o più anni. Nella prospettiva della conservazione digitale, tutto ciò fa
propendere verso l’utilizzo di formati che siano il più possibile trasparenti.
L’importanza del requisito della trasparenza risulta evidente anche dai casi, ormai numerosi,
di perdita di dati digitali che si sono verificati nel corso dell’ultimo cinquantennio. Valga
per tutti l’esempio, già citato, dei dati raccolti dalle sonde Viking. È ragionevole ipotizzare
che, pur in assenza di informazioni sul formato, gli scienziati avrebbero avuto sicuramente
più probabilità di riuscire ad estrarre almeno buona parte dei contenuti se questi fossero stati
codificati secondo formati trasparenti.
62
Cfr. il sito della Library of Congress, già cit.: “compression inhibits transparency... Archival repositories
must certainly accept content compressed using publicly disclosed and widely adopted algorithms that are
either lossless or have a degree of lossy compression that is acceptable”.
17
2.2 Alcuni esempi
È importante, prima di procedere oltre, chiarire i concetti fin qui esposti proponendo, a
titolo di esempio, la classificazione di alcuni formati di uso comune nell’ambito dell’office
automation:
- il formato DOC è proprietario (di proprietà della Microsoft), aperto (le sue specifiche sono
state recentemente rese pubbliche), non trasparente (è binario) e standard de facto (nessun
organismo di standardizzazione ha mai ratificato le sue specifiche);
- il formato RTF è proprietario (di proprietà della Microsoft), aperto (le sue specifiche sono
note), trasparente (sia il testo che la formattazione vengono specificati mediante caratteri
ASCII) e standard de facto (ha una diffusione universale).
- il formato DOCX è non proprietario (era di proprietà Microsoft ma all’inizio del 2008 è
stato riconosciuto standard ISO 29500:2008 e di conseguenza ha perso il requisito di
proprietà), aperto (le sue specifiche sono liberamente accessibili sul sito dell’Ecma
International e, a pagamento, su quello dell’ISO), trasparente (è basato sull’XML) e
standard de jure.
Analoghe classificazioni si possono fare per tutte le altre categorie di formati (formati
immagine, formati per i contenuti audio, formati per i contenuti video, etc.).
2.3 I requisiti generali di secondo livello
Oltre ai requisiti generali di primo livello appena analizzati vanno presi in considerazione
altri requisiti, denominati di secondo livello ma non meno importanti dei primi (si veda
ancora la Figura 8). Non è questa la sede per una trattazione approfondita di tutti i requisiti
e degli aspetti ad essi connessi 63 ; ci si soffermerà pertanto solo su alcuni aspetti salienti per
far comprendere l’importanza di un attento esame delle caratteristiche di un formato ai fini
della sua compatibilità con un processo di conservazione digitale.
Un primo requisito che occorre tenere in debita considerazione è quello della robustezza. Un
formato è robusto quando, in caso di corruzione 64 del file, consente il recupero, totale o
parziale, dei suoi contenuti. Esistono vari gradi di robustezza: vi sono, infatti, formati nei
quali la corruzione anche di pochi bit del file conduce alla perdita dell’intero contenuto
informativo; altri, invece, sono più robusti e consentono di recuperare il contenuto del file
anche se ne viene corrotta una parte considerevole. Solitamente i formati compressi sono i
meno robusti, dal momento che è sufficiente, a volte, anche la corruzione di un solo bit per
rendere illeggibile tutto il file.
Nel campo dei documenti di testo, i formati di tipo plain text sono i più robusti; infatti, la
corruzione di alcuni bit comporta solitamente solo la perdita della parte di informazione
interessata (per esempio, alcuni caratteri), rimanendo leggibile tutto il resto. I formati che
codificano le informazioni utilizzando più oggetti digitali all’interno di un unico contenitore
(package) compresso, quali l’ODF e l’OOXML, presentano un grado di robustezza medio
dal momento che, solitamente, la corruzione di uno degli oggetti comporta solo la sua
perdita, rimanendo leggibile tutto il resto.
63
Per una trattazione più completa si rimanda al volume STEFANO PIGLIAPOCO, STEFANO ALLEGREZZA,
Produzione e conservazione del documento digitale. Requisiti e standard per i formati elettronici. Volume I,
Edizioni EUM, Macerata, 2008.
64
Per “corruzione” si intende la perdita, di solito accidentale, di uno o più bit (o di uno o più byte); può
trattarsi sia di una eliminazione di bit (alcuni dei bit che costituiscono il file vengono eliminati, per cui il file
risultante viene ad avere una dimensione minore rispetto all’originale) che di una modifica (alcuni dei bit dal
valore “0” vengono modificati ed assumono il valore “1” o viceversa). Nei casi più gravi possono verificarsi
entrambe le situazioni (eliminazione e modifica).
18
Il requisito della robustezza riveste particolare importanza perché occorre sempre ipotizzare
la possibilità che, a seguito dei diversi processi di riversamento che vengono effettuati nel
tempo, possa verificarsi la corruzione dei file.
Presso il Laboratorio di Informatica Documentale dell’Università degli Studi di Macerata 65
sono stati realizzati alcuni esperimenti allo scopo di valutare gli effetti che la corruzione di
alcune sequenze di bit di un file potevano produrre sulla sua riproducibilità. Tra i risultati
ottenuti sui vari formati che sono stati sottoposti a test, si ritiene particolarmente
significativo riportare quelli di un esperimento che ha riguardato i formati immagine.
Durante tale prova una stessa immagine, codificata secondo diversi formati, è stata
sottoposta ad un processo di corruzione dei bit utilizzando un particolare software
predisposto a questo scopo; i risultati ottenuti sono stati poi confrontati a parità di intensità
del processo di corruzione.
La Figura 10 mostra uno dei risultati: a sinistra è riportata l’immagine originale prodotta in
formato TIFF non compresso e a destra l’immagine che si ottiene dopo averla sottoposta al
suddetto processo di corruzione; come si può osservare la differenza, visibile solo ad un
esame ravvicinato, non è tale da inficiare la riproducibilità dell’immagine che risulta
comunque visualizzabile con un certo grado di dettaglio.
Figura 10. Un'immagine codificata in formato TIFF, prima e dopo la corruzione di alcune sequenze di bit
Se si ripete l’esperimento nelle stesse condizioni (ovvero sottoponendo il file dell’immagine
ad un processo di corruzione della stessa intensità), ma questa volta a partire dall’immagine
precedente codificata in formato JPEG anziché in TIFF, si ottiene un’immagine che è quasi
completamente degradata ed addirittura in alcune parti quasi completamente cancellata (si
veda la in Figura 11) 66 . Tutto ciò è riconducibile principalmente al fatto che il formato
JPEG è compresso. Questo esperimento permette di concludere che il formato TIFF risulta
più robusto, e quindi preferibile, rispetto al formato JPEG. Analoghi esperimenti possono
65
Il Laboratorio di Informatica Documentale (LID), istituito presso il Dipartimento di Istituzioni
Economiche e Finanziarie dell'Università degli Studi di Macerata, ha come finalità lo studio, la ricerca e
l'applicazione delle tecnologie dell'informazione e della comunicazione nelle aziende private e nella Pubblica
Amministrazione. È diretto dal Prof. Stefano Pigliapoco.
66
Nell’esperienza comune questo fatto può verificarsi quando si ricevono delle foto in formato JPEG come
allegati di posta elettronica. Se per qualsiasi motivo (ad esempio, un disturbo nella trasmissione) il file risulta
corrotto, la foto risulta spesso visualizzabile solo in parte (mentre per il resto risulta oscurata da artefatti più
o meno evidenti, come, ad esempio, delle bande nere).
19
essere condotti sulle altre categorie di formati per determinare quali sono i più robusti
all’interno di ciascuna categoria.
Figura 11. La stessa immagine della figura precedente codificata in formato JPEG, prima e dopo la
corruzione di alcune sequenze di bit
Quando si valuta un formato è bene considerare anche il requisito della stabilità. Esistono
formati che subiscono continue e spesso sostanziali modifiche nel corso degli anni, a volte
anche ad intervalli di tempo molto ravvicinati.
Si consideri, ad esempio, il BIFF (Binary Interchange File Format), il formato proprietario
sviluppato da Microsoft per il suo noto foglio di calcolo Microsoft Excel e comunemente
conosciuto come “formato XLS”. Microsoft ne ha sviluppato diverse versioni 67 . La prima,
denominata BIFF1, fu rilasciata nel 1985 contemporaneamente al rilascio della prima
versione di Excel per sistemi Macintosh; fino ad oggi, questo formato rimane non
documentato. Nel 1987 fu rilasciato il formato BIFF2, usato nativamente da Excel 2. Nel
1990 fu rilasciato Excel 3, che introduceva il formato BIFF3. Due anni più tardi, nel 1992,
Excel 4 introduceva il formato BIFF4 e, nel 1993, dopo solo un anno, fu rilasciato Excel 5
con il formato BIFF5. Nel 1995, Excel 7 (Excel 95) proponeva il formato BIFF7 e,
finalmente, nel 1997, veniva introdotto il nuovo formato BIFF8 che è stato utilizzato
nativamente da Excel 8 (Excel 97), Excel 9 (Excel 2000), Excel 10 (Excel 2002) ed Excel
11 (Excel 2003). Nel 2007, la nuova versione Excel 2007 ha introdotto un nuovo formato,
con caratteristiche completamente diverse rispetto ai precedenti, denominato XSLX. La
Tabella 3 mostra sinteticamente le varie versioni del formato che si sono succedute in
questi due decenni.
Come si può osservare, la vita media delle versioni del formato BIFF si attesta intorno ai
due anni nel primo decennio (periodo compreso tra il BIFF1 del 1985 e il BIFF7 del 1995),
mentre cresce notevolmente nel secondo decennio (periodo compreso tra il BIFF8 del 1997
e il nuovo formato XLSX del 2007), arrivando fino ad una decina di anni. Ciò significa che
il BIFF, dopo un primo periodo in cui gli sviluppatori aggiungevano, con una certa
67
Le informazioni qui proposte sono dedotte da C.C.H. CHOU, Action Plan Background: BIFF8, Florida
Center for Library Automation (FCLA), marzo 2008, disponibile all’indirizzo <http://www.fcla.edu/
digitalArchive/formatInfo.htm> e dalla voce relativa ad Excel presente su Wikipedia.
20
regolarità, nuove funzionalità al formato (e ciò ha comportato il continuo rilascio di nuove
versioni), con la versione BIFF8 ha raggiunto, nel secondo decennio di vita, una piena
maturità dal punto di vista della completezza delle funzionalità e ha potuto
conseguentemente godere di una buona stabilità.
Versione di Excel
Anno di rilascio
Excel 1
Excel 2
Excel 3
Excel 4
Excel 5
Excel 7 (Excel 95)
Excel 8 (Eexcel 97)
Excel 9 (Excel 2000)
Excel 10 (Excel XP)
Excel 11 (Excel 2003)
Excel 12 (Excel 2007)
1985
1987
1990
1992
1993
1995
1997
1999
2001
2003
2007
Versione del formato
(denominazione tecnica)
BIFF1
BIFF2
BIFF3
BIFF4
BIFF5
BIFF7
BIFF8
BIFF8
BIFF8
BIFF8
XLSX (OOXML)
Tabella 3. Versioni di Microsoft Excel e corrispondenti versioni del formato
Altri formati sono invece molto più stabili. Il formato TIFF è uno di questi: Adobe ha
acquistato la specifica del formato nel 1994, al momento dell’acquisizione della software
house Aldus che lo aveva creato. Da allora Adobe ha apportato solo qualche piccola
modifica alla specifica del formato, che è rimasto, ad oggi, pressoché invariato rispetto alla
versione 6.0 lanciata nel 1992.
Quello della stabilità è un aspetto molto importante dal punto di vista della conservazione.
Infatti, l’instabilità e la continua evoluzione dei formati porta alla necessità di sottoporre a
continue migrazioni i file codificati secondo quei formati, aumentando il rischio di possibili
errori e richiedendo un’attenzione ed una vigilanza costante. Ai fini della conservazione
digitale è, quindi, preferibile che un formato sia stabile e non soggetto a continue e/o
sostanziali modifiche nel tempo.
Il concetto di stabilità è strettamente collegato con quelli di compatibilità in avanti (forward
compatibility) e compatibilità all’indietro (backward compatibility) 68 . Per comprendere
meglio quanto si andrà ad esporre, è bene riprendere un concetto che è già stato discusso nel
paragrafo 1.2: quando si parla di formato di file si ha a che fare il più delle volte non con
una sola versione ma con versioni differenti dello stesso formato (nonostante l’estensione
del nome del file rimanga la stessa), le quali sono, spesso, tra loro incompatibili. Ad
esempio, se si prova ad “aprire” con Microsoft Word 95 un documento di testo creato con
Microsoft Word 2003 e salvato nel formato DOC di Microsoft Word 2003 (ovvero, nel
formato che è tecnicamente denominato DOC97/2003, si veda la Tabella 1), l’operazione
non riesce, proprio perché i due formati, pur avendo la stessa estensione e appartenendo, se
così vogliamo dire, alla stessa “famiglia”, sono in realtà diversi ed incompatibili.
Questo è un principio del tutto generale: non è assolutamente scontato che un file codificato
secondo una determinata versione di un formato sia “compatibile” con un’altra versione
dello stesso formato.
68
In letteratura si fa riferimento alla compatibilità in avanti e all’indietro anche con le locuzioni “upwards
compatibility” e “downwards compatibility”. Cfr. NICOLAS LORMANT, CLAUDE HUC, DANIÈLE BOUCON,
CHRISTINE MIQUEL, How to Evaluate the Ability of a File Format to Ensure Long-Term Preservation for
Digital Information?, PV 2005, 21-23, The Royal Society, Edinburgh, Regno Unito, novembre 2005,
disponibile all’indirizzo <http://www.ukoln.ac.uk/events/pv-2005/pv-2005-final-papers/003.pdf>.
21
Sulla base di queste osservazioni, è possibile adottare le seguenti definizioni: un formato si
dice compatibile in avanti, quando è possibile utilizzarlo con una delle versioni del software
successive a quella con cui è stato prodotto; si dice, invece, compatibile all’indietro se è
possibile utilizzarlo con una delle versioni precedenti dell’applicativo che lo ha prodotto.
Un formato è, infine, compatibile in avanti e all’indietro quando è possibile utilizzarlo sia
con le versioni successive a quella dell’applicativo che lo ha prodotto, sia con quelle
precedenti 69 .
Riprendendo l’esempio precedente, la versione del formato DOC denominata DOC97/2003
non è compatibile all’indietro dal momento che né Microsoft Word 2.0 né Microsoft Word
6.0 sono in grado di gestirlo, mentre è compatibile in avanti, dal momento che Microsoft
Word 2007 è in grado di gestirlo 70 . Tuttavia, a partire dal 2007, anche la compatibilità in
avanti di alcune versioni del formato DOC è stata fortemente limitata. Infatti, a seguito
dell’installazione del Service Pack 3 per Microsoft Office 2003 (il cui rilascio è avvenuto il
17 settembre 2007 per la versione italiana), i programmi della suite Microsoft Office 2003
non risultano più in grado di aprire e/o salvare diversi formati di file, tra cui i documenti di
Word creati con le versioni precedenti alla 6.0. Se si prova, ad esempio, ad aprire un
documento di testo creato con Microsoft Word 2.0 71 si ottiene il messaggio di errore
riportato in Figura 12 e di fatto quel documento è divenuto inutilizzabile 72 .
Figura 12. Il messaggio di errore che si ottiene al momento di aprire con Microsoft Word 2003 un
documento di testo creato con Microsoft Word 2.0
Ai fini della conservazione dei documenti informatici, è di fondamentale importanza la
compatibilità in avanti e normalmente tutti i formati la assicurano (anche se spesso solo
riguardo un limitato numero di versioni precedenti del software); ma anche la compatibilità
all’indietro ha un suo peso: infatti, se quest’ultima non viene garantita, obbliga all’acquisto
di nuove versioni del software creando una non auspicabile dipendenza da una determinata
software house 73 . Purtroppo, è abbastanza raro incontrare formati che garantiscano la
69
Sono rari i formati che rientrano in questa categoria. Uno di questi è il PNG, un formato immagine aperto,
non proprietario, standard de jure che, nelle intenzioni dei suoi creatori, è destinato a rimpiazzare il formato
GIF.
70
Infatti, se si prova ad aprire un documento nel formato DOC97/2003 (creato con Microsoft Word 2003)
con Microsoft Word 2.0 o Microsoft Word 6.0 si ottiene un messaggio di errore (quindi non è assicurata la
compatibilità all’indietro), mentre se se si prova ad aprire lo stesso documento di testo con Word 2007 esso
viene aperto correttamente (ed è così assicurata la compatibilità in avanti).
71
Ricordiamo che la versione 2.0 del famoso programma di videoscrittura di casa Microsoft è stata rilasciata
nel 1991; tuttavia il programma è stato utilizzato anche ben oltre il rilascio della successiva versione del
programma, Microsoft Word 6.0, avvenuta nel 1993, per cui non è raro trovare documenti prodotti con
Microsoft Word 2.0 negli anni 1994-95 (risalenti quindi a solo una quindicina di anni fa) che oggi possono
risultare non più leggibili.
72
Il motivo di queste limitazioni è spiegato nell’articolo n. 938810 della Knowledge Base Microsoft dedicato
a questo argomento: questi vecchi formati sono stati “bloccati” per evitare che venga attivato codice
potenzialmente non sicuro. E questo è anche il motivo per il quale gli stessi tipi di file non possono essere
aperti e salvati di default neanche con Office 2007. Occorre precisare, tuttavia, che è possibile, con opportuni
interventi tecnici sul Registro di sistema, fare in modo che venga ripristinata la possibilità di gestire questi
vecchi formati.
73
Ad esempio, se si dispone di Microsoft Word 2003 e si ricevono documenti di testo nel nuovo formato
DOCX si è “costretti” ad acquistare la successiva versione del software di videoscrittura Microsoft Word
22
compatibilità all’indietro, ed è ancora più raro incontrare formati che garantiscano la
compatibilità sia in avanti che all’indietro.
Una soluzione intermedia a problemi di questo genere può essere rappresentata dalla
compatibilità all’indietro di tipo parziale: essa si verifica quando un file codificato secondo
un certo formato è utilizzabile con una versione precedente dell’applicativo che lo prodotto
ma in maniera parziale, nel senso che alcune delle funzionalità specifiche di quella versione
del formato non sono disponibili o non vengono correttamente gestite.
È questo il caso del formato PDF: ad esempio Adobe Reader 6.0 (associato alla versione 1.5
del formato) è in grado di visualizzare non solo i file codificati nel formato PDF 1.5 e nelle
versioni precedenti del formato (come la 1.4, 1.3 etc.), ma anche quelli codificati nelle
versioni successive (la 1.6 e 1.7). Ovviamente le caratteristiche non supportate nella
versione 1.5 non possono essere gestite e di ciò viene dato avviso all’utente, con un apposito
messaggio, in fase di apertura del file (si veda la Figura 13).
Figura 13. L'alert box che avvisa l’utente delle limitazioni alle funzionalità.
Dal punto di vista terminologico occorre precisare che le questioni relative alla
compatibilità vengono, a volte, viste dalla parte del software anziché da quella dei formati.
In tal caso deve essere utilizzata una terminologia complementare: un software è
“compatibile all’indietro” quando è in grado di gestire correttamente i file codificati nelle
versioni precedenti dei formati. È invece “compatibile in avanti” quando è in grado di
gestire correttamente i file codificati nelle versioni successive. Solitamente quella che viene
assicurata nel caso del software è la compatibilità all’indietro. Al contrario, la compatibilità
in avanti non è quasi mai garantita, neanche nel caso in cui il software è creato e mantenuto
della stessa software house.
Un altro requisito di fondamentale importanza è l’auto-contenimento (o auto-inclusione).
Un formato è auto-contenuto (o auto-incluso) quando permette di includere tutte le risorse
necessarie per la sua rappresentazione. Ad esempio, se si tratta di un documento di testo,
esso deve includere i font utilizzati nel file, anche se sono di larga diffusione (come Times
New Roman, Arial, Tahoma, Verdana, etc.) e non devono essere presenti oggetti incorporati
(che richiederebbero l’uso di programmi esterni) o collegamenti verso oggetti esterni al file
(come le immagini reperibili sul web) 74 . Si tratta di un requisito indispensabile per garantire
che il file venga rappresentato sempre nella stessa maniera.
2007 o 2010, o quantomeno ad utilizzare il Microsoft Word Viewer 2007 (o la successiva versione 2010), un
visualizzatore di documenti di testo nel formato DOCX scaricabile gratuitamente dal sito Microsoft.
74
Tradizionalmente, i riferimenti ai contenuti web sono stati realizzati utilizzando collegamenti ipertestuali
ai cosiddetti URL (Uniform Resource Locator). Tuttavia, quando tali contenuti vengono spostati su un’altra
posizione, i collegamenti che puntano verso di essi non sono più risolti (e, quindi, risultano broken). Per
questo motivo un sistema di riferimento basato su URL è intrinsecamente instabile e pone dei seri rischi per
23
Anche in questo caso un esempio servirà a rendere più chiaro il concetto. Si consideri il
contratto di compravendita riportato in Figura 14; in esso l’immagine dell’immobile in
vendita non è “incorporata” all’interno del documento ma è una risorsa esterna alla quale il
documento fa riferimento attraverso un collegamento (link) presente all’interno del
documento stesso.
Figura 14. Esempio di documento non auto-contenuto
Nel momento in cui il contratto viene visualizzato, il sistema si attiva per recuperare la
risorsa dalla sua posizione e visualizzarla all’interno della pagina. Cosa succede, tuttavia, se
per qualsiasi motivo il collegamento ipertestuale dovesse interrompersi, ad esempio perché
la risorsa viene inavvertitamente cancellata oppure perché la cartella in cui è contenuta
viene spostata, o ancora, perché semplicemente il file dell’immagine viene ridenominato? In
questo caso al posto dell’immagine compare il ben noto “segnaposto per immagini” (si veda
l’immagine a destra della Figura 14) 75 rendendo di fatto il documento non più conforme
rispetto all’originale. Questo esempio fa ben comprendere che è assolutamente necessario
orientare la scelta verso formati che siano auto-contenuti.
È importante anche considerare il requisito dell’auto-documentazione, che si riferisce alla
capacità di un formato di supportare l’inclusione di metadati. Alcuni formati sono in grado
di contenere metadati che ne descrivono il contenuto, documentano le fasi della loro
produzione e forniscono dettagli tecnici per facilitarne la rappresentazione negli ambienti
tecnologici futuri. Questi formati auto-documentati sono più facilmente conservabili nel
tempo e meno vulnerabili al rischio di obsolescenza rispetto a quelli che prevedono la
la garanzia della continuità di accesso alle risorse. Per creare un sistema di riferimento al materiale
pubblicato sul web che risulti più affidabile, da metà degli anni ’90, sono state proposte diverse soluzioni:
Handles, Digital Object Identifiers (DOIs), Archival Resource Keys (ARKs), Persistent Uniform Resource
Locators (PURLs), Uniform Resource Names (URNs), National Bibliography Numbers (NBNs), e Open
URL. Sull’argomento si veda HANS-WERNER HILSE, JOCHEN KOTHE Implementing Persistent Identifiers.
Overview of concepts, guidelines and recommendations, (ECPA-report; 18), 2006, reperibile anche in
formato PDF all’indirizzo <http://www.knaw.nl/ecpa/publ/pdf/2732.pdf>, che spiega il principio di
funzionamento degli identificatori persistenti. Si veda anche MARIO SEBASTIANI, Identificatori persistenti
per gli oggetti digitali, Digitalia, Rivista del digitale nei beni culturali, Numero 0, 2005, ICCU, Roma.
75
Ovvero il quadratino con la “x” che tante volte capita di vedere nelle pagine web in cui risulta assente
l’immagine a cui un determinato link si riferisce.
24
memorizzazione separata dei metadati 76 . Esempi di formati che permettono l’inclusione dei
metadati sono il TIFF/EP, il JPEG2000, l’ODF, l’OOXML, l’MP3.
Il requisito dell’indipendenza dal dispositivo 77 o portabilità, fa riferimento alla capacità di
un file, codificato in un determinato formato, di essere rappresentabile in maniera attendibile
e allo stesso modo indipendentemente dalla piattaforma hardware e dal software 78 . Ad
esempio, alcuni formati sono fruibili solo su computer con sistemi operativi Windows, altri
solo su macchine con architettura Intel e non sono quindi portabili. Esistono invece formati,
come l’ODF, che sono fruibili su macchine con sistemi operativi diversi (Windows, Linux,
Mac, Solaris, FreeBSD, Symbian, OpenBSD, AIX, React OS) e basate su architetture
diverse (Intel, Sparc, PowerPC, etc.). Questo requisito viene misurato da due indicatori
principali: a) il numero di ambienti operativi (in termini di hardware e software) che sono
capaci di gestire un determinato formato (qualora esso sia associabile a programmi software
diversi); b) la possibilità di eseguire il programma che gestisce un certo formato su
piattaforme diverse (qualora esso sia associabile solo ad uno specifico programma
software.) Ai fini della conservazione digitale è importante che un formato sia indipendente
dal dispositivo, anche se questo requisito è particolarmente arduo da soddisfare, soprattutto
per determinate categorie di contenuti digitali.
Un requisito spesso sottovalutato ma che deve essere, invece, tenuto in adeguata
considerazione è l’assenza di meccanismi tecnici di protezione. Per conservare i documenti
informatici e garantirne la fruibilità nel lungo periodo, si deve avere la possibilità di
replicarne il contenuto su nuovi supporti, effettuare normalizzazioni e migrazioni, renderli
disponibili per la diffusione. Tuttavia, alcuni formati consentono di stabilire delle
limitazioni alla fruzione dei file codificati secondo tali formati, solitamente per motivi di
protezione della proprietà intellettuale. Ad esempio, permettono di limitare la fruizione di
un file ad un certo intervallo temporale, ad un computer dotato di una connessione di rete
attiva o di un dispositivo hardware connesso ad una delle sue porte 79 . Altri formati
permettono di cifrare il file e di renderlo così illeggibile; la sua fruizione può avvenire solo
se viene riportato in chiaro (decifrato), solitamente a seguito dell’inserimento di una
password. Altri formati consentono, infine, di definire limitazioni sulla possibilità di
visualizzazione a schermo o sulla possibilità e qualità di stampa. Si tenga presente che
nessun formato dotato di questi ed altri meccanismi tecnici di protezione o che sia legato in
maniera indissolubile a un particolare supporto fisico o ad un particolare dispositivo è adatto
alla conservazione80 . Nella maggior parte dei casi l’utilizzo di meccanismi di protezione
tecnici è opzionale e va evitato 81 .
76
Cfr. il sito della Library of Congress, già cit.: «Digital objects that are self-documenting are likely to be
easier to sustain over the long term and less vulnerable to catastrophe than data objects that are stored
separately from all the metadata needed to render the data as usable information or understand its context».
L’importanza di utilizzare formati elettronici che includono metadati con elevata capacità informativa è stata
riconosciuta da tutte le comunità che creano, scambiano e conservano contenuti digitali.
77
Un formato indipendente dal dispositivo viene detto anche cross-platform. In letteratura questo requisito è
talora denominato indipendenza dall’esterno, non senza una certa confusione con il requisito dell’autocontenimento.
78
Cfr. il sito della Library of Congress, già cit.: «External dependencies refers to the degree to which a
particular format depends on particular hardware, operating system, or software for rendering or use»”.
79
Un esempio è costituito da quei file che possono essere visualizzati e stampati solo disponendo della
“chiave hardware” ad essi associata (tipicamente un dispositivo USB) da inserire in una porta USB del
computer in uso.
80
Per esempio, un file cifrato e che può essere portato “in chiaro” solamente se si è in possesso dell’apposita
chiave di decifratura è doppiamente a rischio, poichè al rischio di obsolescenza, che riguarda tutti i formati,
25
Allo stesso modo, per un formato compatibile con un processo di conservazione digitale è
importante l’assenza di limitazioni sull’utilizzo. L’esistenza di brevetti (patent) su un
formato digitale o la richiesta del pagamento di royalty per il suo utilizzo incide
negativamente sulla possibilità di conservare i file codificati secondo quel formato. Infatti,
anche quando i costi delle licenze sono bassi, la loro presenza può frenare lo sviluppo del
software, sia open source che commerciale, necessario per la gestione o per la migrazione
dei file archiviati 82 . Quando, poi, i termini della licenza includono royalty basate
sull’utilizzo (ad esempio, un pagamento ogni volta che un file viene letto), i costi possono
diventare elevati ed imprevedibili. In generale, il problema maggiore non è rappresentato
dall’esistenza di brevetti, ma dalle condizioni che i detentori dei brevetti decidono di
applicare 83 .
E’ importante che un formato soddisfi anche il requisito dell’accessibilità, che si riferisce
alla capacità di un formato di essere facilmente fruibile anche da persone diversamente abili.
Ciò implica, da una parte, che il formato deve consentire la fruibilità mediante tecnologie
assistive (ad esempio, gli screen-reader); dall’altra, che le specifiche del formato devono
essere disponibili e completamente documentate per rendere possibile lo sviluppo del
software necessario. Si tratta di un requisito strettamente collegato con quelli di apertura,
non proprietà, completa documentazione e assenza di limitazioni sull’utilizzo. In generale i
formati aperti e standard risultano più accessibili rispetto a quelli proprietari, dal momento
che vengono sottoposti a processi di revisione pubblici e hanno, quindi, una maggiore
possibilità di essere verificati nei confronti dell’accessibilità.
Un formato adatto alla conservazione digitale dovrebbe rispettare anche il requisito della
non modificabilità 84 . In questo caso vi è, tuttavia, un sottile conflitto tra due necessità
contrapposte. Infatti, dal punto di vista della riusabilità, sarebbe opportuno che i contenuti
digitali venissero mantenuti in una forma modificabile, in maniera tale da rendere agevole
operazioni di estrazione dei dati e riutilizzo delle informazioni. Dal punto di vista della
conservazione, invece, è necessario che siano archiviati in un formato non modificabile per
assicurarne l’integrità e la stabilità nel tempo. In alcuni casi si possono conciliare queste due
opposte esigenze soltanto utilizzando due diversi formati.
È importante anche il requisito della sicurezza: un formato adatto alla conservazione digitale
deve essere sicuro, ovvero non suscettibile di attacchi da parte di virus ed altre forme di
codice maligno, che potrebbero modificare il contenuto di un file codificato secondo quel
si aggiunge anche il pericolo della perdita della chiave di decifratura (che renderebbe del tutto inutilizzabile
il file). Cfr. LARS R. CLAUSEN, Handling File Formats, op. cit.
81
Cfr. il sito della Library of Congress, già cit.: «Content for which a trusted repository takes long-term
responsibility must not be protected by technical mechanisms such as encryption, implemented in ways that
prevent custodians from taking appropriate steps to preserve the digital content and make it accessible to
future generations».
82
Cfr. il sito della Library of Congress, già cit.: «Patents related to a digital format may inhibit the ability of
archival institutions to sustain content in that format» e «In some cases, the existence and exploitation of
underlying patents may inhibit adoption, particularly if license terms include royalties».
83
Ad esempio, il formato PDF è coperto da numerosi brevetti, ma Adobe Systems ha deciso di non
richiedere il pagamento di alcun diritto per l’utilizzo del formato.
84
Ovviamente il concetto di “non modificabilità” è relativo. Infatti, non esiste alcun formato elettronico che
può garantire, in senso stretto, la non modificabilità dei contenuti codificati secondo quel formato; tuttavia
esistono delle tecnologie che consentono di rilevare anche la minima modifica apportate ad un file. Una di
queste è l’utilizzo di checksum o di firme elettroniche.
26
formato all’insaputa dell’utente pur lasciandolo leggibile, corromperne alcune parti
rendendolo inutilizzabile o, nei casi estremi, eliminarlo completamente. Sono quindi
preferibili quei formati che, per loro natura, non possono essere soggetti all’attacco di
alcuna forma di malware 85 , Ad esempio, il formato TIFF non può contenere virus, mentre il
formato DOC può essere “infettato” da virus nascosti nelle macroistruzioni.
Infine, dal momento che la quantità di informazioni che vengono archiviate è in continuo e
costante aumento, è importante considerare i formati anche dal punto di vista dell’efficienza,
un requisito che prende in considerazione la dimensione dei file che vengono prodotti.
Esistono formati che, a parità di contenuto informativo, riescono a contenere maggiormente
le dimensioni del file risultante e quindi sono più efficienti. Ad esempio, esistono formati
per immagini che, a parità di qualità dell’immagine, consentono una minore occupazione di
memoria, e quindi sono più efficienti, rispetto agli altri. La riduzione delle dimensioni
consente anche un potenziale risparmio dei costi perché riduce la quantità di spazio richiesto
per la memorizzazione nei sistemi di storage e diminuisce la larghezza di banda necessaria
al trasporto dei file attraverso la posta elettronica, la rete e il web. Di solito, i file in formato
non binario hanno dimensioni minori dei corrispondenti binari, per cui, per ridurre la loro
dimensione, si utilizzano delle tecniche di compressione. Ad esempio, un documento di
testo salvato nel formato binario DOC ha solitamente una dimensione inferiore rispetto a
quella che avrebbe se fosse prodotto nel formato non binario DOCX, ed è proprio per
ridurre la sua dimensione che quest’ultimo formato utilizza la compressione (mediante
l’algoritmo ZIP).
2.4 I requisiti specifici
Accanto ai requisiti di tipo generale analizzati nel paragrafo precedente, esistono requisiti
specifici del particolare formato o della particolare categoria a cui quel formato appartiene
(ad esempio: formati di testo, formati immagine, formati audio, etc.) e che prendono in
considerazione le proprietà che si ritengono importanti per quei formati ai fini della migliore
conservazione nel tempo. Ad esempio, per i formati immagine è possibile prendere in
considerazione requisiti relativi alla risoluzione, alla profondità di colore, alla possibilità di
ingrandimento e riduzione, etc. Per i formati audio i requisiti possono riguardare la
frequenza di campionamento, la dimensione dei campioni, il numero di canali, il bitrate, e
così via.
Limitandoci a considerare i formati utilizzati per file con prevalente contenuto testuale, si
possono elencare i seguenti requisiti 86 :
- funzionalità di base: sono le funzionalità minime che il formato deve possedere per
assicurane una corretta fruizione. Comprendono la possibilità di lettura a schermo, di
stampa su carta, di ricerca del testo, di formattazione di carattere, paragrafo e pagina, etc.
- integrità della struttura: prende in considerazione le funzionalità che un formato possiede
grazie alla capacità di conservazione della struttura logica, quali, ad esempio, la possibilità
di navigazione e di analisi automatizzata. Ciò risulta di estrema importanza per le
enciclopedie, gli annuari, gli elenchi e tutti quei documenti di testo che fanno un ampio uso
di una struttura formale.
85
Si definisce malware un qualsiasi software creato con lo scopo di causare danni al computer su cui viene
eseguito. Il termine deriva dalla contrazione delle parole inglesi malicious e software e ha dunque il
significato letterale di “programma maligno”; in italiano è detto anche codice maligno.
86
Si veda la pagina web della Library of Congress dedicata alla valutazione delle caratteristiche dei formati:
Formats, Evaluation Factors, and Relationships, disponibile all’indirizzo <http://www.digitalpreservation.
gov/formats/content/text_quality.shtml>.
27
- integrità del layout: considera la capacità del formato di garantire la conservazione
dell’aspetto (ad esempio, con gli stessi font, lo stesso layout, la stessa disposizione degli
elementi all’interno della pagina).
- altre funzionalità di livello avanzato: sono le ulteriori funzionalità che possono essere
presenti (quali, ad esempio, quelle relative all’accessibilità).
È utile osservare che per alcuni formati, come il PDF e l’XPS, è di fondamentale
importanza garantire un’accurata conservazione dell’aspetto, mentre per altri, come
l’HTML 87 , assume una maggiore importanza la conservazione della struttura logica.
3. L’importanza dei requisiti
Da quanto fin qui esposto appare evidente che un processo di conservazione digitale deve
iniziare con la scelta dei formati che forniscano le maggiori garanzie. È preferibile dirigere
la propria attenzione verso formati che soddisfino, innanzitutto, i requisiti generali di primo
livello (non proprietà, apertura, trasparenza e standardizzazione, possibilmente de jure) e
poi quelli di secondo livello (robustezza, stabilità, auto-contenimento, auto-documentazione,
etc.); infine, vanno presi in esame i requisiti specifici della particolare categoria di formato
che si sta considerando.
L’importanza di avere formati che soddisfino questi requisiti è tale che tutte le più grandi
aziende produttrici di software (che sono anche i principali produttori di formati) si stanno
muovendo versa questa direzione, scatenando una vera e propria “guerra dei formati” nella
quale ciascuno è in qualche modo coinvolto. Se, ad esempio, si prende in esame il panorama
dei formati più utilizzati la produzione di contenuti nel settore dell’office automation, ci si
rende conto di come ci si stia muovendo verso la creazione di formati che cercano di
rispettare il più possibile tali requisiti; la situazione, schematicamente rappresentata in
Figura 15, vede ormai uno scontro aperto tra la comunità open source OpenOffice.org, che
ha sviluppato la famiglia di formati Open Document Format (ODF) utilizzati dall’omonima
suite di automazione d’ufficio OpenOffice.org, e Microsoft, che ha creato la famiglia di
formati Office Open XML Format (OOXML) utilizzati dalle ultime versioni della sua ben
nota suite, Office 2007 e Office 2010.
87
Infatti, la rappresentazione delle pagine web, codificate nel formato HTML, varia a seconda del dispositivo
su cui avviene, potendo assumere forme differenti a seconda che la pagina venga visualizzato sul display di
un computer o sullo schermo di un palmare.
28
Figura 15. La guerra dei formati per l'office automation
La famiglia di formati Open Document Format 88 soddisfa in pieno tutti i requisiti
precedentemente analizzati: si tratta di formati non proprietari (la loro gestione appartiene
alla comunità open source di OpenOffice.org e non sono controllati da alcuna azienda
privata), aperti (le loro specifiche sono liberamente accessibili sul sito dell’OASIS e, a
pagamento, su quello dell’ISO), completamente documentati (le loro specifiche sono
costituite da un documento di circa 700 pagine in cui i formati vengono descritti in maniera
esauriente e dettagliata), trasparenti (sono basati sull’XML ed i tag utilizzati sono stati
disegnati specificamente per consentire la massima leggibilità, anche in maniera diretta da
parte dell’uomo utilizzando un semplice editor di testo; risultano quindi non binari,
eccezion fatta per i contenuti multimediali in essi eventualmente presenti); standard de jure
(i formati sono stati riconosciuti come standard prima dall’OASIS e poi dall’ISO con la
denominazione di ISO/IEC 26300:2006), ampiamente adottati (sono i formati di default per
molte applicazioni89 ed inoltre molti Stati li hanno scelti come formati obbligatori per
l’acquisizione nei depositi digitali.
Nei confronti dei requisiti generali di secondo livello, l’ODF si presenta robusto (è stato
concepito per essere più robusto dei formati binari)90 , auto-contenuto (tutti gli elementi che
88
L’ODF è il formato dei file prodotti con la nota suite di office automation OpenOffice.org, nonché da altre
suite compatibili. Più precisamente si tratta di una famiglia dei formati alla quale appartengono l’ODT per i
documenti di testo, l’ODS per i fogli di calcolo, l’ODP per le presentazioni e l’ODG per i grafici, solo per
citare i più conosciuti.
89
L’ODF è il formato predefinito per le suite di office automation OpenOffice.org 2.0, KOffice 1.5,
StarOffice 8, IBM Lotus Symphony e per altre applicazioni. Altre suite di ampia diffusione, compreso
Microsoft Office 2007, consentono di salvare nel formato ODF mediante appositi add-in.
90
Dal momento che esso memorizza separatamente i singoli componenti del file, il rischio di perdita di dati a
causa di file danneggiati o corrotti viene ridotto e migliorano le possibilità di recupero. Infatti, anche se una
delle parti che compongono il file fosse corrotta, è possibile “ignorarla” e estrarre le informazioni dalle
rimanenti parti non corrotte. Inoltre, poiché il formato è ben documentato ed aperto, chiunque può creare
strumenti per recuperare parti del file, per correggere le parti XML che non sono ben formate o per
aggiungere eventuali elementi necessari che non sono presenti. Nel formato ODF la compressione, fattore
che riduce la trasparenza, è opzionale. Nel caso si scelga di utilizzarla, l’algoritmo di compressione adottato
29
compongono il file possono essere inclusi all’interno del file in maniera da evitare qualsiasi
tipo di riferimento verso l’esterno), auto-documentato (il formato permette di includere i
metadati), indipendente dal dispositivo (essendo stato progettato proprio per essere
indipendente dalla piattaforma tecnologica), privo di meccanismi tecnici di protezione (per
impostazione predefinita i file ODF non vengono cifrati), privo di limitazioni sull’utilizzo
(non è soggetto a restrizioni di alcun tipo, dovute a brevetti o licenze, non richiede il
pagamento di diritti per l’utilizzo del formato e può essere adottato liberamente da qualsiasi
produttore di software), accessibile (essendo esaustivamente e pubblicamente documentato,
chiunque può creare il software necessario per la fruizione da parte di utenti diversamente
abili), stabile (è uno standard internazionale ISO e nessun produttore di software ha la
possibilità di apportare autonomamente modifiche alla specifica del formato; inoltre, ogni
successiva versione del formato deve essere il frutto di un accordo unanime e sottoposto a
revisione da parte della comunità open source), sicuro (se si fa attenzione all’utilizzo delle
macro che, in quanto codice eseguibile, rendono il formato vulnerabile all’attacco di virus),
efficiente (la compressione, opzionale, impiega un valido algoritmo di compressione
standard e di tipo lossless).
Per tutta risposta Microsoft, già sviluppatrice dei vecchi formati proprietari DOC, XLS e
PPT utilizzati dalla sua suite di office automation Microsoft Office fino alla versione 2003,
con la versione Office 2007 ha definitivamente abbandonato quei formati ed ha introdotto
una nuova famiglia di formati, l’Office Open XML Format (OOXML) 91 . Si tratta di formati
non proprietari (sono stati sviluppati da Microsoft ed erano, quindi, proprietari fino a
quando, all’inizio del 2008, hanno ottenuto il riconoscimento come standard ISO, perdendo,
quindi, la caratteristica di proprietà), aperti (le loro specifiche sono liberamente accessibili
sul sito Microsoft, dell’Ecma International e, a pagamento, su quello dell’ISO),
completamente documentati (i formati sono esaustivamente descritti in una specifica di oltre
6000 pagine), trasparenti (sono basati sull’utilizzo di un file “contenitore” in formato ZIP al
cui interno trovano posto, come nel caso dell’ODF, i contenuti testuali in formato XML ed
eventuali contenuti binari, come le immagini) 92 , standard de jure (sono stati riconosciuti
come standard prima dall’Ecma International con la norma ECMA-376 e poi dall’ISO con
la norma ISO/IEC 29500:2008, sebbene con due anni di ritardo rispetto all’ODF),
ampiamente adottati (essendo i formati predefiniti delle suite Microsoft Office 2007 e
Office 2010, le quali godono di un’ampia diffusione).
Per quanto riguarda i requisiti generali di secondo livello, i formati della famiglia OOXML
sono robusti (a differenza dei formati delle precedenti release di Microsoft Office sono di
tipo non binario, eccezion fatta, ovviamente, per la presenza di eventuali contenuti grafici,
audio e video), auto-contenuti (tutti gli oggetti necessari alla rappresentazione di un file in
formato OOXML possono essere inclusi all’interno del file), auto-documentati (i metadati
è lo ZIP, di tipo lossless, aperto, completamente documentato, non soggetto a licenze ed ampiamente
adottato.
91
La famiglia di formati OOXML è composta da diversi formati: i più conosciuti sono il DOCX per i
documenti di testo, l’XLSX per i fogli di calcolo e il PPTX per le presentazioni.
92
Tuttavia l’OOXML risulta meno trasparente rispetto all’ODF. Da un confronto tra i due formati pubblicato
sul sito della ODF Alliance (<http.//www.odfalliance.org>), l’organizzazione che supporta lo sviluppo del
formato ODF, si evince che l’ODF, concepito per essere il più possibile comprensibile, appare più human
readable rispetto all’OOXML. Dal canto suo Microsoft ha affermato che il fatto che il suo formato sia più
“criptico” rispetto all’ODF consente di ottenere una maggiore riduzione delle dimensioni. Cfr. PETER
O’KELLY, GUY CREESE, What’s Up, .DOC? ODF, OOXML, and the Revolutionary Implications of XML in
Productivity Applications, Burton Grop, 2008, disponibile all’indirizzo <http://www.burtongroup.com/
Guest/Ccs/ WhatsUpDoc.aspx>.
30
sono inclusi anch’essi nel file “contenitore”), indipendenti dal dispositivo (essendo basati
sull’XML, è possibile sviluppare applicazioni che siano in grado di gestire tali formati
indipendentemente dalla piattaforma tecnologica utilizzata), privi di meccanismi tecnici di
protezione (per impostazione predefinita, i file OOXML non vengono cifrati), privi di
limitazioni sull’utilizzo (i formati sono esenti da diritti sull’utilizzo), accessibili (essendo
basati sull’XML è possibile produrre file che, facendo un uso corretto dei tag, risultino
accessibili), stabili (il fatto che sia stato riconosciuto come standard ISO fornisce ampie
garanzie sul fatto che non subirà trasformazioni dettate da interessi privati) 93 , sicuri (come
impostazione predefinita, i nuovi formati DOCX, XLSX e PPTX non possono contenere
codice eseguibile – e quindi risultano immuni agli attacchi da parte dei virus da macro) 94 ,
efficienti (un file in formato OOXML è un “contenitore” di file XML e di altri oggetti
digitali – immagini, audio, etc. – compresso mediante la tecnologia ZIP; poiché l’XML è un
formato basato sul normale testo e può essere compresso con molta efficacia, è possibile
ottenere significative riduzioni nella dimensione del file rispetto ad un analogo file binario
con lo stesso contenuto).
Un’analoga situazione si presenta se si prendono in esame i formati di descrizione di pagina,
quali il PDF (con il suo profilo PDF/A) e il suo concorrente XPS.
Limitandoci ai soli requisiti generali di primo livello, è possibile osservare come il formato
PDF (Portable Document Format), che gode attualmente di una diffusione pressoché
universale, sia non proprietario (era di proprietà di Adobe Systems, ma dopo il
riconoscimento come standard ISO 32000-1:2008 è diventato non proprietario), aperto (le
sue specifiche sono liberamente accessibili), non trasparente (è generalmente compresso),
standard de facto e, dall’inizio del 2008, a seguito del riconoscimento come standard ISO,
anche standard de jure.
Allo stesso modo il formato PDF/A (PDF/Archiving) 95 , la versione “limitata” del formato
PDF nata per rispondere al bisogno crescente di conservazione a lungo termine dei
documenti elettronici, è aperto (le sue specifiche sono liberamente accessibili), non
proprietario (anch’esso era di proprietà di Adobe Systems, ma dopo il riconoscimento come
standard ISO 19005-1:2005 è diventato non proprietario), non trasparente (è compresso) e
standard de jure.
L’XPS (acronimo di XML Paper Specification Document Format), sviluppato da Microsoft
ed introdotto con il sistema operativo Microsoft Windows Vista come diretto concorrente
del PDF, è un formato proprietario (ma è in corso il processo di standardizzazione, a seguito
del quale, se giungerà a conclusione, anche l’XPS diventerà non proprietario), aperto (le sue
specifiche sono pubbliche), trasparente (è completamente basato sull’XML), non standard
(anche se potrebbe presto diventare per lo meno standard de facto, grazie alla potenza
commerciale di Microsoft che lo ha integrato all’interno di due applicazioni di grande
diffusione, i sistemi operativi Microsoft Windows Vista e Windows 7 e le suite di office
automation Microsoft Office 2007 o Office 2010).
93
Inoltre, Microsoft Office 2007 garantisce la compatibilità all’indietro con alcune delle precedenti versioni
della suite: Microsoft Office 2003, Microsoft Office XP e Microsoft Office 2000. Gli utenti di queste
versioni possono, pertanto, continuare ad utilizzare i vecchi formati binari DOC, XLS e PPT, che rimangono
completamente compatibili con Microsoft Office 2007. Se, invece, intendono passare al nuovo formato non
devono far altro che scaricare un add-in gratuito che permette loro di aprire e modificare i file nel formato
OOXML pur continuando ad utilizzare le vecchie versioni della suite.
94
Se si desidera abilitare le macro, occorre esplicitamente utilizzare i formati macro-enabled, che vengono
identificati da una particolare estensione e possono così essere facilmente individuati.
95
La “/A” presente nel nome del formato, sebbene non venga formalmente definita in alcun documento
tecnico, fa evidentemente riferimento ai termini inglesi “Archiving” o “Archive”.
31
4. Conclusioni
Come si può intuire, il quadro che si sta prospettando è abbastanza variegato e non è
assolutamente semplice fare previsioni su quali saranno i formati che riusciranno ad
imporsi. Appare, invece, evidente l’importanza di scegliere formati che cerchino di
soddisfare al massimo grado anzitutto i requisiti generali di primo livello (non proprietà,
apertura, standardizzazione e trasparenza) e poi il maggior numero possibile di requisiti
generali di secondo livello. Ed è proprio questa la direzione verso la quale si stanno
muovendo tutte le maggiori aziende e le comunità produttrici di software, come dimostrano
gli esempi dei formati ODF, OOXML, PDF (con il suo profilo PDF/A) e XPS appena presi
in esame e quelli di numerosi altri formati di grande adozione.
È fondamentale, quindi, che nella scelta di un formato compatibile con un processo di
conservazione digitale ci si orienti verso quei formati che soddisfano al massimo livello
questi requisiti in maniera da fondare su basi solide il processo di conservazione digitale.
32
Scarica

Non solo PDF/A: la famiglia di formati basati sul PDF