Requisiti e standard dei formati elettronici per la produzione di documenti informatici di Stefano Allegrezza Febbraio 2010 1. I formati elettronici ................................................................................................................................................... 1 Che cosa è un formato elettronico ................................................................................................................... 2 1.1 Formati e famiglie di formati ........................................................................................................................... 3 1.2 La classificazione dei formati .......................................................................................................................... 3 1.3 L’identificazione dei formati ........................................................................................................................... 5 1.4 I registri dei formati ......................................................................................................................................... 9 1.5 Osservazioni conclusive ................................................................................................................................ 11 1.6 I formati elettronici in rapporto alle esigenze della conservazione digitale ............................................................ 11 2. I requisiti generali di primo livello ................................................................................................................ 13 2.1 Alcuni esempi ................................................................................................................................................ 18 2.2 I requisiti generali di secondo livello ............................................................................................................. 18 2.3 I requisiti specifici ......................................................................................................................................... 27 2.4 L’importanza dei requisiti ....................................................................................................................................... 28 3. Conclusioni ............................................................................................................................................................. 32 4. 1. I formati elettronici La scelta del formato elettronico (o, più semplicemente, formato) rappresenta uno degli aspetti più importanti tra quelli da prendere in considerazione in qualunque strategia di conservazione digitale. L’esperienza insegna, infatti, che molti dei formati che erano particolarmente in auge nel passato sono ormai pressoché scomparsi, e chi possiede ancora contenuti digitali codificati secondo quei formati oggi incontra sicuramente serie difficoltà ad accedervi. È tristemente noto il caso delle sonde Viking che furono lanciate su Marte nel 1975 dall’Agenzia Spaziale Americana (NASA) per verificare se sul pianeta rosso potessero esistere forme di vita 1 . All’epoca gli scienziati erano assolutamente certi del fatto che i dati scientifici da loro raccolti durante la spedizione, codificati secondo il formato allora in uso e memorizzati su nastri magnetici, sarebbero rimasti disponibili per le future generazioni senza alcun tipo di intervento. Invece, quando tentarono di riutilizzare alcuni di quei dati alla fine degli anni ’90, si accorsero che, nonostante tutti gli sforzi messi in atto dall’Agenzia Spaziale per conservare i nastri in ambienti dotati delle migliori condizioni, molti di essi erano ormai talmente deteriorati da rendere quasi illeggibili i dati memorizzati. Ma il problema più grave si presentò quando gli scienziati tentarono di riutilizzare i dati ancora leggibili: scoprirono infatti che, nonostante fossero trascorsi solamente venti anni, non erano più in grado di decodificare il formato secondo il quale quei dati erano stati prodotti. Fortunatamente, erano ancora disponibili delle vecchie stampe su carta dei dati e fu possibile ricostruire le preziose informazioni, anche se fu necessario ridigitare tutto. Questo episodio fa comprendere l’importanza di stabilire dei criteri oggettivi per la scelta di formati che assicurino la loro leggibilità a distanza di venti, cinquanta o più anni. È importante quindi identificare quali sono i requisiti che devono essere presi in considerazione nella scelta di un formato compatibile con un processo di conservazione digitale. 1 Si veda MARTIN WALLER, ROBERT SHARPE, Mind the gap. Assessing digital preservation needs in the UK, Digital Preservation Coalition, The Digital Preservation Coalition Innovation Centre, York Science Park, Heslington, YORK YO10 5D, 2006, disponibile all’indirizzo <http://www.dpconline.org/docs/reports/ uknamindthegap.pdf>. 1 1.1 Che cosa è un formato elettronico Prima di entrare nel vivo dell’argomento è bene premettere alcuni concetti che serviranno per conoscere meglio il mondo dei formati elettronici e comprendere meglio il seguito. Un concetto che è importante avere subito ben chiaro è il fatto che qualsiasi contenuto digitale (od oggetto digitale) viene memorizzato come file, ovvero come una sequenza di bit “0” od “1” (bitstream), considerati come un’entità unica dal punto di vista logico e fissati con una certa organizzazione fisica su una memoria. Per fare un esempio, un documento di Microsoft Word della dimensione di 30 KiB 2 è equivalente ad una sequenza di ben 245.760 bit, memorizzati su una certa memoria digitale (si veda la Figura 1). Figura 1. La sequenza di bit che costituisce un oggetto digitale Purtroppo, tale sequenza di bit non avrebbe alcun significato e non sarebbe in alcun modo intelligibile se non se ne conoscesse il relativo formato, ovvero “l’insieme di codici e regole che, a partire dalla sequenza di bit che costituisce un oggetto digitale, permettono di riprodurre mediante un software (a video, a stampa o su altri dispositivi di output) il relativo oggetto informativo con lo stesso contenuto e nella stessa forma che gli sono stati conferiti dall’autore” 3 . In altre parole, il formato specifica la corrispondenza fra la rappresentazione binaria dell’oggetto digitale e i contenuti in esso presenti stabilendo le regole con le quali i bit che lo costituiscono devono essere interpretati; è proprio grazie ad esso che un sistema informatico è in grado di interpretare quei bit e restituire l’oggetto digitale nella stessa forma e con i contenuti che sono stati stabiliti dal suo creatore, decodificando in porzioni di testo, immagini, grafici, etc. le sequenze di bit che lo compongono (si veda la Figura 2) Figura 2. Senza il relativo formato qualsiasi file altro non è che una sequenza di bit priva di significato 2 Si fa qui uso dei nuovi simboli Ki, Mi, Gi, Ti, Pi, Ei, Zi e Yi (corrispondenti ai prefissi binari kibi-, mebi-, gibi-, tebi-, pebi-, exbi- zebi- e yobi-) previsti dall’appendice alla norma IEC 60027-2 “Letter symbols to be used in electrical technology” e dalla norma ISO/IEC 80000 “Quantities and units” e che devono essere ormai utilizzati per indicare le grandezze in gioco nel campo informatico in sostituzione dei corrispondenti prefissi decimali k, M, G, T, P, E, Z e Y. 3 Cfr. STEFANO PIGLIAPOCO, La memoria digitale delle amministrazioni pubbliche. Requisiti, metodi e sistemi per la produzione, archiviazione e conservazione dei documenti informatici, Santarcangelo di Romagna (RN), Maggioli editore, 2005. 2 Le informazioni relative alle modalità secondo le quali tale sequenza di bit debba essere interpretata sono fornite da uno più documenti tecnici che nel loro complesso vengono denominati specifiche del formato. 1.2 Formati e famiglie di formati Occorre fare attenzione al fatto che gli acronimi spesso utilizzati per denominare i formati dei file non identificano un singolo formato ma, il più delle volte, una famiglia di formati. Consideriamo, ad esempio, il formato DOC prodotto con il diffusissimo programma di videoscrittura Microsoft Word. La Tabella 1 riporta l’elenco delle principali versioni del programma, con riferimento alle edizioni per il sistema operativo Microsoft Windows4 , e le denominazioni tecniche delle corrispondenti versioni del formato DOC che si sono succedute negli ultimi venti anni. Si può osservare come siano state rilasciate nel tempo quattro versioni: DOC1, DOC2, DOC 6.0/95 e DOC97/2003; con Microsoft Word 2007 è stato introdotto un formato nuovo e completamente diverso, denominato DOCX 5 . Rimanendo nell’ambito del formato DOC, chiunque abbia avuto la necessità di salvare un documento di testo codificandolo secondo versioni differenti del formato avrà notato che l’estensione rimane la stessa (.doc); ma se si va ad analizzare il flusso di bit che costituisce il file, si nota, invece, che i dati sono codificati in maniera differente: ciò significa che i formati sono diversi. Il DOC non è quindi un formato ma una famiglia di formati 6 . Questo è un discorso del tutto generale: la maggior parte dei formati oggi esistenti sono, in realtà, famiglie, spesso piuttosto numerose, di differenti versioni dello stesso formato, tecnicamente diverse e, a volte, non compatibili tra di loro. Versione di Word Word 1.0 for Windows Word 2.0 for Windows Word 6.0 for Windows Word 95 Word 97 Word 2000 Word 2002/XP Word 2003 Word 2007 Anno di rilascio Versione del formato (denominazione tecnica) 1989 1991 1993 1995 1997 1999 2001 2003 2007 DOC1 DOC2 DOC6.0/95 DOC6.0/95 DOC97/2003 DOC97/2003 DOC97/2003 DOC97/2003 DOCX (OOXML) Tabella 1. Versioni di Micorsoft Word e corrispondenti versioni del formato DOC 1.3 La classificazione dei formati Ai fini di una migliore comprensione dei requisiti di conservabilità dei formati è utile procedere ad una loro classificazione raggruppandoli in categorie omogenee. Sono state 4 Escludendo, quindi, quelle per altri sistemi operativi, come l’MS-DOS, MacOS, OS/2. Per completezza di informazione, si ricorda che Microsoft, oltre alle versioni per Macintosh, ha prodotto anche alcune versioni per MS-DOS (Word 3.x, Word 4.0, Word 5.0 e Word 5.5) ed una per OS/2 (Word for OS/2). 5 Il DOCX, successore del formato DOC e formato di default dei documenti di testo prodotti con le suite di automazione d’ufficio Microsoft Office 2007 e Office 2010, può essere adoperato anche in alcune delle precedenti versioni di Microsoft Word se si provvede all’installazione del Microsoft Office Compatibility Pack. 6 Per cui, in realtà, sarebbe più corretto parlare di “famiglia di formati DOC” anziché di “formato DOC”. È importante comprendere che il formato DOC utilizzato da Microsoft Word 2003 è diverso dal formato DOC utilizzato da Microsoft Word 6.0 e da quello utilizzato da Microsoft Word 2.0 e così via. L’esistenza di diversi formati all’interno di una stessa famiglia va ricondotta al fatto che le successive versioni di Microsoft Word hanno aggiunnto via via nuove funzionalità, per supportare le quali il formato ha dovuto essere modificato più volte. 3 proposte diverse classificazioni, alcune delle quali ufficiali ed altre suggerite da siti web o da registri dei formati. La prima classificazione ufficiale che storicamente è stata adottata è quella basata sui tipi MIME (MIME type) 7 . Non esiste una lista esaustiva di tutti i tipi MIME in uso ma un lungo elenco si può trovare sul sito dello IANA 8 , che fornisce anche la classificazione ufficiale dei formati di file basata sul tipo MIME e che prevede attualmente nove categorie (si veda la Figura 3). Figura 3. Classificazione secondo i tipi MIME È importante notare che l’associazione tra estensione e tipo MIME non è univoca: esistono alcune estensioni che sono associate a più tipi MIME 9 . Inoltre, le categorie dei formati secondo i tipi MIME non sono mutuamente esclusive ma presentano, in alcuni casi, delle sovrapposizioni. Il formato TXT, per esempio, è presente sia nella categoria application che nella categoria text. Per questo motivo sono state proposte altre classificazioni nelle quali ciascun formato può rientrare in una sola delle categorie. Ad esempio, R.L. Clausen 10 propone la classificazione rappresentata in Figura 4 11 . Figura 4. Classificazione dei formati secondo R.L. Clausen Esistono diverse altre classificazioni, alcune delle quali sono più dettagliate e prevedono quindi un maggior numero di categorie. Ad esempio, il sito FileInfo 12 propone una classificazione basata su 18 categorie (cfr. Figura 5). 7 Il tipo MIME (Multipart Internet Mail Extension) di un file è un’informazione che rende possibile la sua univoca identificazione. Viene solitamente utilizzato nella trasmissione di file via Internet (ad esempio, le pagine HTML richieste tramite un browser, i messaggi di posta elettronica e i loro allegati, gli articoli dei newsgroup) ed è indicata nel campo “Content-Type:” dell’intestazione di tali file. Si veda anche il paragrafo 1.4. 8 Si veda all’indirizzo <http://www.iana.org/assignments/media-types>. 9 Ad esempio, l’estensione .doc è associata ai seguenti tipi MIME: application/msword; application/doc; appl/text; application/vnd.msword; application/vnd.ms-word; application/winword; application/word; application/x-msw6; application/x-msword; zz-application/zz-winassoc-doc. Cfr. <http://filext.com/fileextension/doc>. 10 Cfr. LARS R. CLAUSEN, Handling file formats, The State and University Library, Arhus, e The Royal Library, Copenhagen, Danimarca, maggio 2004, disponibile all’indirizzo <http://netarchive.dk/publikationer/ FileFormats-2004.pdf>. Seguono alcuni esempi di formati che, secondo l’autore, rientrano nelle categorie proposte: PDF, DOC, PS, DVI, HTML (document-like); GIF, PNG, JPG (image formats); MP3, OGG (sound formats); MPG, AVI (movie formats); dati grezzi (data formats); CAD, VSD, QXD (structured graphics format); XSL (spreadsheets); DBF, DDF (databases); TAR, ZIP (collection); CSS (configuration and metadata); program-supporting formats (TTF, game saves); Javascript, Java, SWF (program file formats). 11 Si noti che, al contrario di quanto accade con la classificazione basata sui tipi MIME, in questa non è necessario definire la categoria application. 12 Cfr. <http://www.fileinfo.net>, già citato nel paragrafo 1.5. 4 Figura 5. Classifcazione secondo “FileInfo” Il sito File.extensions 13 effettua una classificazione ancora più dettagliata, individuando ben 33 categorie (che raccolgono complessivamente oltre ventimila estensioni diverse), tra cui la categoria residuale “miscellaneous” che comprende tutti quei formati elettronici che non sono rientrano in nessun’altra classe (cfr. Figura 6). 3D graphics, CAD-CAM-CAE archive and compressed audio and music or song backup binary bitmap images, picture, photo configuration dangerous and malicious database disk image (ISO) binary document email attachment blocked email related data emulator encoded and encrypted font Categorie di formati game graphic Internet related mobile ringtone movie, film, video and multimedia Office 2007 document plugin, addon program executable settings, option, thems or skins source code and script system temporary text unknown various data vector graphic miscellaneous Figura 6. Le categorie di formati secondo “File extensions” 1.4 L’identificazione dei formati Sicuramente uno delle prime questioni che si trova ad affrontare chi si occupa di conservazione digitale è quella dell’identificazione corretta del formato dei file. A questo proposito è importante notare che non è sufficiente identificare solo il formato, ma occorre anche identificarne anche la versione 14 . Assai comunemente il formato di un file è identificato attraverso la sua estensione 15 . Il sistema operativo Windows utilizza, ad esempio, una tecnica denominata file association per associare ad ogni estensione un determinato programma e stabilire quale applicativo può “aprire” un determinato file 16 . Si noti che, nel sistema operativo Windows, è consentito 13 Cfr. <http://www.file-extensions.org/filetypes>. Ad esempio, non è sufficiente sapere che un certo file è nel formato DOC, ma occorre identificarne anche la versione precisa (DOC1, DOC2, DOC 6.0/95, DOC 97/2003, etc.). 15 L’identificazione del formato attraverso l’estensione del nome del file è una tecnica utilizzata da diversi sistemi operativi, quali il CP/M, l’MS-DOS, il VMS, il VM/CMS, Windows e Mac OS X. 16 Una file association è un’associazione tra l’estensione del file e il programma che il sistema operativo utilizza per aprire o visualizzare quel file. Per esempio, i documenti creati con Microsoft Word di solito 14 5 associare una determinata estensione di file a più di una applicazione 17 . Ad esempio, all’estensione .doc possono essere associati, oltre a Microsoft Word, anche programmi quali Writer (incluso in OpenOffice.org), StarWriter (incluso in StarOffice), AbiWord (incluso in GNOME Office), KWord (incluso in KOffice) 18 . È anche possibile associare ad una estensione programmi diversi a seconda dell’azione che si intende avviare (ad esempio, un programma per l’apertura, un altro per la modifica, e così via). Si noti, infine, che il programma che è associato ad una determinata estensione potrebbe anche non essere in relazione con essa, magari perchè è stata modificata, volontariamente o per errore, la corretta associazione. Ad esempio, è possibile, modificando la file association, associare l’estensione .doc (di Microsoft Word) al programma Microsoft Excel. In questo caso, il sistema operativo tenterà, inutilmente, di “aprire” i file che presentano estensione .doc con Microsoft Excel ottenendo risultati imprevedibili. Il metodo d’identificazione tramite l’estensione del nome dei file non è privo di difficoltà. Innanzitutto, se l’estensione di un file viene modificata, volontariamente o involontariamente, ad esempio a causa di una ridenominazione accidentale o per l’intervento di un virus 19 , non risulta più possibile identificare il suo formato solo attraverso di essa. In secondo luogo, una determinata estensione può essere associata a più di un formato 20 ; questa evenienza è tutt’altro che rara: basta considerare l’esempio, già citato, dell’estensione .doc, utilizzata per i documenti di testo creati con Microsoft Word, e, nel passato, anche per i documenti di testo prodotti con WordPerfect 21 . In terzo luogo occorre tener presente che, in relazione alle impostazioni di alcuni sistemi operativi (quali Windows e Mac OS X) 22 , le estensioni dei file potrebbero non essere visualizzate (si ved la Figura terminano con l’estensione .doc. Se l’utente fa “doppio clic” su un file con estensione .doc in Esplora Risorse (o in Risorse del computer), viene avviato Microsoft Word (ovviamente ipotizzando che i file .doc siano correttamente associati con Microsoft Word nell’ambiente operativo dell’utente). Per gestire la file association nei sistemi operativi Windows è sufficiente aprire Esplora Risorse e seguire il percorso Strumenti Opzioni cartella… Tipi di file. 17 Infatti, cliccando con il tasto destro del mouse sull’icona di un file e scegliendo la voce “apri con”, viene visualizzata una finestra nella quale è possibile scegliere il programma da utilizzare per “aprire” quel determinato file. 18 Viceversa, un programma può “gestire” file di diversi formati. Ad esempio, un word processor potrebbe gestire i formati DOC o ODT, un programma di grafica i formati GIF, JPG e PNG, un foglio elettronico i formati XLS, CSV e ODS, etc. 19 Vale la pena far osservare che, cambiando l’estensione, il formato del file non cambia, in quanto la sequenza di bit di cui è formato non subisce alcun mutamento. 20 Ciò dipende principalmente dal fatto che non vi è alcuna autorità centrale che controlla l’assegnazione delle estensioni ai formati di file, anche se alcuni sviluppatori hanno preso l’abitudine, già nelle fasi iniziali dello sviluppo di un nuovo software, di inviare a The File Extension Source (un sito web, più semplicemente conosciuto come FILExt e raggiungibile all’indirizzo <http://www.filext.com>, che costituisce un riferimento autorevole, seppur non ufficiale, sui formati e le relative estensioni; si veda anche il paragrafo 1.5) l’estensione che intendono utilizzare per i loro formati, nella speranza che gli altri produttori di software effettuino una ricerca sul sito ed evitino di utilizzare estensioni che sono già state, per così dire, “impegnate”. 21 Allo stesso modo, i fogli elettronici prodotti con Microsoft Works hanno estensione .wks, che è la stessa utilizzata dal foglio elettronico Lotus 1-2-3. Si noti che è anche possibile che due file che hanno la stessa estensione abbiano in realtà contenuti completamente differenti (il primo potrebbe essere, ad esempio, un documento di testo e il secondo un’immagine). 22 Con i sistemi operativi Microsoft Windows XP, Windows Vista e Windows 7 la procedura per ripristinare la visualizzazione delle estensioni dei file (che è disabilitata di default) è pressoché identica: occorre aprire Esplora risorse (o in alternativa Risorse del computer) e scegliere Strumenti Opzioni cartella Visualizzazione; tra le varie opzioni che si presentano, occorre deselezionare la voce “Nascondi le estensioni per i tipi di file conosciuti”. In questo modo Windows visualizzerà tutte le estensioni dei file e non solamente quelle dei file “sconosciuti”, ovvero quelli che non sono associati ad alcun programma all’interno del sistema. Il cambiamento operato su questa opzione si rifletterà anche sugli altri programmi, come, ad 6 7) 23 . In questo modo i vari file presenti sul computer vengono identificati solo attraverso l’icona che il sistema operativo associa loro e che non identifica il formato ma semplicemente il programma utilizzato di default per aprirli. Figura 7. L’icona di un documento di testo creato con Microsoft Word 2003, con e senza estensione Inoltre, non tutti i sistemi operativi utilizzano le estensioni per identificare i tipi di file. Se si scambiano file tra ambienti operativi che non utilizzano le estensioni (ad esempio, i computer Macintosh con sistemi operativi precedenti a Mac OS X) ed ambienti che invece le utilizzano (ad esempio, i sistemi Windows), potrebbe verificarsi una non corretta assegnazione delle estensioni24 . Occorre, infine, notare che, tramite l’estensione, è possibile identificare al più la famiglia di formati a cui appartiene un determinato file (si veda il paragrafo 1.2), mentre si è già fatto osservare che è necessario identificare la versione precisa del formato. In alcuni casi la situazione è ancora più complessa. Ad esempio, l’estensione dei file PDF (.pdf) identifica non soltanto le varie versioni del formato PDF, ma anche le varie versioni dei profili del formato PDF 25 . In conclusione, l’esame dell’estensione permette di identificare al più la famiglia a cui appartiene il formato ma non fornisce alcuna indicazione utile a risalire alla specifica versione o profilo. Oltre a quello basato sull’estensione, esistono altri metodi per identificare il formato di un file. In molti casi esso può essere identificato tramite particolari sequenze di byte che si trovano in determinate posizioni all’interno del file (il più delle volte all’inizio). Tale sequenza viene comunemente definita magic number od anche file signature (firma). Quando un programma di identificazione rileva questi magic number all’interno del file, può comprendere di quale formato si tratti anche in assenza della sua estensione. Questo metodo, sebbene applicabile solo ai formati che utilizzano i magic number, risulta esempio, Microsoft Outlook Express. Si noti, tuttavia, che anche dopo aver correttamente impostato queste opzioni, ci possono essere alcuni casi speciali in cui Windows non visualizza comunque l’estensione del file. Uno di questi casi è rappresentato dai documenti ritaglio di Windows, creati copiando del testo da un’applicazione (ad esempio, da un documento di testo di Microsoft Word) ed incollandolo all’interno della finestra di Esplora risorse. Questa caratteristica può essere utilizzata dai programmatori per la creazione di codice maligno. 23 Questo fatto viene spesso sfruttato dai creatori di virus per diffondere virus per computer ed altre categorie di malware. Ad esempio, essi possono creare del codice maligno nel linguaggio di programmazione VBScript e denominare il relativo file come LOVE-LETTER-FOR-YOU.TXT.vbs; questo file verrà visualizzato come LOVE-LETTER-FOR-YOU.TXT se colui che lo apre ha la visualizzazione delle estensioni disabilitata (che è l’impostazione predefinita dei sistemi operativi Microsoft) e apparirà come un innocuo documento di testo nel formato TXT anziché un programma dannoso. 24 Si consideri anche il fatto che alcuni sistemi operativi, come Unix, sono case sensitive (cioè distinguono tra maiuscole e minuscole nei nomi di file), mentre altri, come Microsoft Windows, sono case insensitive. I tre file “Lettera.doc”, “lettera.doc” e “LeTtErA.doc” sono diversi nel file system di Unix ma diventano uguali se trasferiti nel file system di Windows, causando non pochi problemi. 25 Sulla base del formato PDF sono stati sviluppati diversi “sottoformati” (denominati, con terminologia tecnica, profili) ciascuno dei quali è fondamentalmente una versione “limitata” del formato PDF, ovvero una versione che implementa deliberatamente solo un determinato sottoinsieme dei costrutti del PDF. Esempi di profili sono il PDF/A, il PDF/X, il PDF/E, etc. 7 particolarmente utile qualora, per i motivi più disparati (ad esempio a seguito di una ridenominazione accidentale), si sia persa l’estensione corretta di un file e si abbia la necessità di capire di quale formato si tratti 26 . Un altro metodo per identificare il formato di un file è tramite l’utilizzo di metadati espliciti contenuti all’interno del file stesso o nel file system utilizzato dal sistema. Ad esempio, il file system HFS utilizzato sui computer Macintosh fino alla versione Mac OS X, associa ad ogni file, oltre alle tradizionali indicazioni (nome file, data di creazione, data dell’ultima modifica, etc.), anche delle informazioni dettagliate sul suo formato e sul programma che lo aveva creato. Da queste informazioni è possibile risalire al tipo di formato. Un approccio simile viene impiegato con i tipi MIME, adoperati per identificare il formato dei file trasferiti tramite Internet. Nella rete, infatti, non può essere utilizzata la modalità di identificazione del formato mediante l’estensione del nome del file, dal momento che essa può essere alterata, può variare in base ai programmi presenti sull’elaboratore, può essere variamente interpretata su sistemi operativi diversi. Quindi, occorre utilizzare un’altra tecnica. Molti tipi di trasmissione di dati, tra cui la posta elettronica e il protocollo HTTP usato per il World Wide Web, prevedono che il contenuto vero e proprio del file sia preceduto, all’interno delle righe di intestazione, da una indicazione del tipo MIME. I tipi MIME sono composti da due parti: un identificatore di tipo seguito da un identificatore di sottotipo separati dal carattere slash inversa (“/”): MIME type: tipo/sottotipo dove al posto di tipo vi è una parola chiave che specifica il tipo di oggetto (es. text, image, audio,...) e al posto di sottotipo vi è una parola chiave che specifica il formato (ad esempio, se il tipo è testo: plain, html...). L’identificatore del tipo è pensato per fornire indicazioni sulla categoria del file, mentre l’identificatore di sottotipo è pensato per identificare con precisione il formato del file. Ogni coppia tipo/sottotipo costituisce un tipo MIME. Ad esempio, nel tipo MIME image/jpeg, l’identificatore di tipo è image, mentre l’identificatore di sottotipo è jpeg. Altri esempi sono riportati nella Tabella 2. Tipo MIME text/plain text/html audio/midi image/tiff image/jpeg image/gif Tipo text text audio image image image Sottotipo plain html midi tiff jpeg gif Descrizione file di solo testo non formattato file di testo HTML file suono midi file immagine tiff file immagine jpeg file immagine gif Tabella 2. Esempi di tipi e sottotipi MIME Si noti che i tipi MIME sono registrati presso lo IANA (Internet Assigned Numbers Authority) 27 ed è quindi necessario utilizzare solo i nomi registrati; tuttavia è ammesso 26 Riportiamo alcuni esempi di magic number: i file PDF iniziano con la sequenza “%PDF” (0x25504446, in notazione esadecimale); i file PostScript cominciano con la stringa “%!” (0x2521); le immagini GIF sono identificate dalla stringa ASCII “GIF87a” (0x474946383761) o “GIF89a” (0x474946383961), a seconda della versione; le immagini JPG (o JPEG) cominciano con la stringa esadecimale 0xFFD8FF; le immagini JPEG/JFIF contengono la stringa 0x4A464946 (equivalente a “JFIF” in ASCII); le immagini JPEG/EXIF contengono la stringa 0x45786966 (equivalente a ‘Exif’ in ASCII) collocata a partire dal sesto byte e seguita dai metadati riguardanti il file; le immagini TIFF cominciano con la stringa ASCII “II” o “MM” a seconda del byte order utilizzato (II per Intel, o little endian, MM per Motorola, o big endian), seguita dal numero “42” (“0x2A00” o “0x002A” in notazione esadecimale, rispettivamente nella convenzione little endian o big endian). 8 l’utilizzo di tipi MIME non ancora registrati e proposti in via sperimentale, purché il relativo identificatore di sottotipo inizi con le due lettere “x-” 28 . Esistono anche altri sistemi che possono essere utilizzati per l’identificazione (anche automatica) dei formati di file, anche se spesso si tratta di metodi utilizzabili in ambiti circoscritti. Tra questi, segnaliamo: Microsoft FOURCC, un identificatore composto da quattro caratteri (da cui il nome: Four Characters Code) utilizzato per l’identificazione di codec video ed altri elementi, impiegati all’interno dei formati video Microsoft 29 ; Microsoft WAVE format registry, un identificatore utilizzato nei formati audio Microsoft; ASF GUID (Globally Unique IDentifier), un identificatore utilizzato nei file video in formato ASF (di proprietà Microsoft); Apple Video Sample Description, un identificatore composto da quattro caratteri per l’identificazione dei codec video utilizzati nei filmati QuickTime 30 ; Apple Sound Codec four-character codes, utilizzato per identificare i codec audio utilizzati nei file QuickTime. 1.5 I registri dei formati Per molte delle attività che riguardano la conservazione digitale sono necessarie conoscenze approfondite sui formati dei file. Nel passato queste conoscenze erano per lo più raccolte in registri privati e non condivisi (quali quelli mantenuti presso ogni azienda produttrice di software per i formati di propria competenza) ed anche le informazioni presenti presso i pochi registri di tipo pubblico (come il registro dei tipi MIME mantenuto presso lo IANA) erano caratterizzate da una certa incompletezza e da una carenza nell’organizzazione delle informazioni, presentate spesso in maniera poco chiara e non standardizzata. Tuttavia, recentemente sono stati portati a termine numerosi progetti per la creazione di registri dei formati, constituiti da banche dati complete e liberamente accessibili contenenti informazioni tecniche sui formati. Questi registri possono essere utilizzati per rispondere a numerose questioni relative ai formati, riguardanti, ad esempio, l’identificazione (qual è il formato di un oggetto digitale sconosciuto?), la validazione (l’oggetto digitale è conforme alla specifica di un determinato formato?), la caratterizzazione (quali sono le caratteristiche significative del formato?), la valutazione del rischio (il formato è a rischio di obsolescenza?), la rappresentazione (con quale piattaforma hardware e software è possibile rappresentare quel determinato formato?). Si segnalano, per la loro completezza e rilevanza a livello internazionale, i seguenti registri dei formati mantenuti da enti e strutture di ricerca: 27 Si veda all’indirizzo <http://www.iana.org/assignments/media-types>. Per poter essere utilizzato, un tipo MIME deve prima essere proposto in via sperimentale (questi tipi si riconoscono in quanto l’oggetto e/o il formato iniziano per “x-”) e poi registrato seguendo una procedura standardizzata. Per esempio, anche se si tratta di un formato di larga diffusione, non è registrato il tipo MIME per il formato TEX, per il quale si usa normalmente il tipo MIME application/x-tex. 29 Si veda, per questo e per il successivo identificatore, il documento “Registered FOURCC Codes and WAVE Formats”, che contiene l’elenco completo di tutti i codici FOURCC e i WAVE format GUID. È disponibile all’indirizzo <http://msdn2.microsoft.com/en-us/library/ms867195.aspx>. 30 Si vedano, per questo e per il successivo identificatore, le specifiche del formato QuickTime all’indirizzo <http://developer.apple.com/documentation/QuickTime/QTFF/qtff.pdf>. 28 9 - PRONOM (PRactical ONline cOMpendium of file formats Technical registry) 31 . È un registro di informazioni tecniche che acquisisce e rende disponibili on-line informazioni sui formati di file, sui prodotti software con i quali un file in un determinato formato può essere letto e prodotto, sui requisiti necessari in termini di hardware e software, sui requisiti tecnici e su altre questioni necessarie per garantirne l’accesso nel lungo periodo. È stato realizzato dal Digital Preservation Department in seno a The National Archives of U.K.. Inizialmente sviluppato per supportare l’accesso e la conservazione a lungo termine degli archivi digitali presso The National Archives, è stato reso successivamente disponibile a chiunque necessiti di una fonte di informazioni autorevole ed imparziale. In tal senso esso risulta uno strumento utile per determinare se esiste un percorso di migrazione da un vecchio formato ad una versione più recente o se esiste un tool di conversione specializzato. È possibile contribuire allo sviluppo del database PRONOM inviando nuove informazioni attraverso una submission form on-line. Nei suoi progetti futuri PRONOM intende svilupparsi ulteriormente per fornire informazioni tecniche riguardo alle singole versioni dei formati di file. - TOM (Typed Object Model) 32 . È un sistema di gestione dei formati dei dati (DFMS, Data Format Management System) che descrive la struttura ed il comportamento di una grande varietà di formati e fornisce servizi informativi. Sviluppato nel 2004 dalla University of Pennsylvania Library, TOM può essere utilizzato per acquisire documentazione sui formati e per ottenere assistenza sia riguardo il processo di migrazione da un formato ad un altro che riguardo altri tipi di conversioni. La piattaforma software su cui si basa TOM è rilasciata con licenza open source e può quindi essere liberamente utilizzata da chiunque. - GDFR (Global Digital Format Registry) 33 . È un sistema, mantenuto presso la Harvard University Library, che consente di fornire informazioni affidabili e autorevoli sui formati di file. GDFR è un progetto internazionale, sponsorizzato dalla Digital Library Federation e sviluppato sin dall’inizio del 2002; il gruppo di lavoro del progetto è composto da membri delle biblioteche e degli archivi nazionali ed accademici. - FRED (Format REgistry Demonstration) 34 . È un sistema, basato su TOM e sviluppato presso la University of Pennsylvania Library, che mostra il funzionamento di un semplice registro dei formati. In questo senso FRED è una dimostrazione di un GDFR e coloro che sono interessati alla creazione di un registro dei formati possono utilizzarlo per comprendere, ad esempio, quali sono le informazioni che è utile inserire in tale registro. - Digital Formats for Library of Congress Collections. La Library of Congress (U.S.) 35 mantiene sul proprio sito web una ricca raccolta di informazioni (compresa un’analisi dei requisiti per la loro conservabilità) sui formati più rilevanti per le proprie collezioni digitali, classificati per categoria. Esistono anche numerosi altri siti, non istituzionali, che consentono di ottenere informazioni utili all’identificazione del formato di un file a partire dalla sua estensione, oltre ad informazioni importanti per la sua gestione. Tra questi segnaliamo: 31 Sito web <http://www.nationalarchives.gov.uk/pronom>. Il registro si avvale del PRONOM Unique Identifier (PUID), un sistema espandibile capace di fornire un identificatore persistente, unico e non ambiguo dei record contenuti nel registro. Per ulteriori informazioni si veda <http://www.nationalarchives.gov.uk/ aboutapps/pronom/puid.htm>. 32 Sito web <http://tom.library.upenn.edu>. 33 Sito web <http://hul.harvard.edu/gdfr>. 34 Sito web <http://tom.library.upenn.edu/fred>. 35 Si veda all’indirizzo <http://www.digitalpreservation.gov/formats/index.shtml>. 10 - The File Extension Source 36 . Più semplicemente conosciuto con il nome di FILExt, è un’eccellente fonte di informazioni relative ai formati associati ad una determinata estensione. Rende disponibile un database on-line su cui è possibile effettuare interrogazioni per avere informazioni sul formato di un file, compresi gli eventuali applicativi che possono leggere e/o scrivere quel formato. - FileInfo.net 37 . Si definisce come “The definitive resource for file extension information” ed è un’altra ottima fonte di informazioni sulle estensioni dei formati. - File.extensions 38 . Su questo sito è possibile ricercare migliaia di estensioni, incluse quelle che iniziano con un numero o con caratteri speciali. - Wotsit Formats 39 . Si definisce come “the programmer’s file and data format resource”; contiene informazioni su centinaia di differenti tipi di file, tipi di dati, dettagli su interfacce hardware e su ogni sorta di altre informazioni utili per i programmatori (algoritmi, codici sorgenti, specifiche, etc.). - File extension’s list 40 . Sito gestito dalla Foundations Network & Data Services Inc.; contiene una lista di migliaia di estensioni di file, insieme ad altre utilità di uso comune. - Gary Kessler’s File Signature Page 41 , un’eccellente fonte di informazioni sui magic number utilizzati in molti dei formati. 1.6 Osservazioni conclusive Sebbene l’identificazione del corretto formato di un oggetto digitale sia una questione prioritaria ai fini della sua conservazione, non esiste, ad oggi, un metodo applicabile universalmente. Infatti, l’utilizzo dell’estensione del nome del file, adoperata soprattutto nei sistemi MS-DOS e Windows, non è una metodologia standardizzata né univoca, e può essere interpretata in modo diverso in ambienti tecnologici diversi. I magic number possono anch’essi essere utilizzati per identificare il formato, ma non sono sempre presenti all’interno di un file. Lo schema dei tipi MIME curati da IANA non offre né una sufficiente granularità né una completa copertura per soddisfare i requisiti tipici degli identificatori univoci. Ci si auspica che vengano realizzati in futuro progetti, come il PRONOM PUID Scheme 42 elaborato da The National Archives of U.K., che consentano di sviluppare un metodo univoco di identificazione dei formati dei file. 2. I formati elettronici in rapporto alle esigenze della conservazione digitale I requisiti desiderabili per i formati elettronici sono stati oggetto di un’intensa attività di studio e ricerca da parte di numerosi enti ed organizzazioni. Tra questi risultano di particolare interesse quelli condotti presso la Library of Congress 43 , The National Archives 36 Sito web <http://www.filext.com>. Sito web <http://www.fileinfo.net>. 38 Sito web <http://www.file-extensions.org>. 39 Sito web <http://www.wotsit.org>. 40 Sito web <http://www.fnds.net/ext/j.html>. 41 Sito web <www.garykessler.net/library/file_sigs.html>. 42 Si veda la nota 31. 43 Si vedano le pagine del sito Sustainability of Digital Formats, Planning for Library of Congress Collections - Sustainability Factors, curato da The Library of Congress e disponibile all’indirizzo <http://www.digitalpreservation. gov/formats/sustain/sustain.shtml>. Si vedano, inoltre: CAROLINE R. ARMS, CARL FLEISCHHAUER, Digital Formats: Factors for Sustainability, Functionality, and Quality, in occasione della IS&T Archiving 2005 Conference, Washington, D.C, 24 aprile 2005, disponibile all’indirizzo <http://www.digitalpreservation.gov/formats/intro/ papers.shtml> e CAROLINE R. ARMS, CARL FLEISCHHAUER, Digital formats for library of congress collections: factors to consider when choosing digital formats, disponibile sul sito della Library of Congress all’indirizzo <http://memory.loc.gov/ammem/ techdocs/digform/ DigForm_Intro _v04.pdf>. 37 11 of England, Wales and the United Kingdom 44 , l’Istituto di studi per la tutela dei beni archivistici e librari (ISTBAL) di Urbino nell’ambito del progetto DELOS 45 , The Royal Library, Copenhagen, Denmark 46 , il progetto InterPARES 2 47 e The National Library of the Netherlands 48 . È utile classificare tali requisiti distinguendo tra requisiti generali, applicabili a tutte le tipologie di formati, e requisiti specifici, relativi ad una particolare categoria di formati, quali, ad esempio, i documenti di testo, le immagini, i contenuti audio, etc. (si veda la Figura 8). Alcune tipologie di requisiti, infatti, sono applicabili solo ad una certa categoria di formati: si pensi, ad esempio, alla risoluzione di un’immagine, requisito questo certamente applicabile ai formati immagine ma non, ad esempio, ai formati per i documenti di testo. Figura 8. Classificazione dei requisiti dei formati 44 Si veda: ADRIAN BROWN, Automatic Format Identification Using Pronom and DROID, The National Archives of U.K., Regno Unito, ottobre 2005 <http://www.nationalarchives.gov.uk/aboutapps/fileformat/pdf/ automatic_format _identification.pdf> e ADRIAN BROWN, Digital Preservation Guidance Note 1: Selecting File Formats for Long-Term Preservation, The National Archives of U.K, Regno Unito, giugno 2003 (aggiornato: aprile 2008), <http://www. nationalarchives.gov.uk/documents/selecting-file-formats.pdf>. 45 Si veda DELOS, File Formats Typology and Registries for Digital Preservation, Università di Urbino, Istituto di studi per la tutela dei beni archivistici e librari (ISTBAL), Italia, dicembre 2004, disponibile all’indirizzo <http://www.dpc.delos.info/private/output/ DELOS_WP6_d631_finalv2(5)_urbino.pdf>. 46 Si veda LARS R. CLAUSEN, Handling File Formats, The State and University Library, Arhus, Denmark; The Royal Library, Copenhagen, Denmark, Danimarca, maggio 2004, disponibile all’indirizzo <http://netarchive.dk/ publikationer/FileFormats-2004.pdf>, e STEEN S. CHRISTENSEN, Archival Data Format Requirements, The Royal Library, Copenhagen, Danimarca, luglio 2004, disponibile all’indirizzo <http://netarchive.dk/ publikationer/ Archival_format_requirements-2004.pdf>. Il sito <http://netarchive.dk> ha l’ambizioso obiettivo di raccogliere e conservare “la porzione danese di Internet”. 47 Si veda la ricerca, condotta nell’ambito del progetto InterPARES 2, sui requisiti che un certo numero di istituzioni archivistiche di primaria importanza hanno stabilito per i formati destinati alla conservazione digitale. Cfr. EVELYN PETERS MCLELLAN, Selecting Digital File Formats for Long-Term Preservation, InterPARES 2 General Study 11 Final report, 2006, disponibile all’indirizzo <http://www.interpares.org/ display_file.cfm?doc=ip2_file_formats(complete) .pdf> 48 Si veda JUDITH ROG, CAROLINE VAN WIJK, Evaluating File Formats for Long Term Preservation, The National Library of the Netherlands; The Hague, Paesi Bassi, febbraio 2008, disponibile all’indirizzo <http://www.kb.nl/hrd/dd/dd_links_en_publicaties/publicaties/KB_file_format_evaluation_method_ 27022008.pdf>. 12 Tra i requisiti generali è possibile operare un’ulteriore distinzione tra quelli di primo livello (non proprietà, apertura, standardizzazione e trasparenza), ovvero quei requisiti che vanno presi in considerazione in prima battuta per operare una selezione iniziale, e quelli di secondo livello, non meno importanti dei primi ma che vanno presi in esame successivamente dopo aver selezionato i formati sulla base dei requisiti di primo livello. 2.1 I requisiti generali di primo livello Il primo requisito generale di primo livello da prendere in considerazione è la non proprietà. Ricordiamo che un formato si dice proprietario quando è stato creato da una organizzazione privata (ad esempio, una software house), che ne detiene i diritti di proprietà intellettuale; di conseguenza le sue specifiche vengono gestite esclusivamente da tale organizzazione. Un formato si dice, invece, non proprietario (o libero) quando la gestione delle sue specifiche non è prerogativa di un’organizzazione privata ma è affidata ad una comunità di sviluppatori che cooperano per la gestione condivisa delle stesse, o ad un organismo di standardizzazione. Ad esempio, sono proprietari (di proprietà Microsoft) i ben noti formati DOC, XLS e PPT (prodotti, rispettivamente, con Microsoft Word, Microsoft Excel e Microsoft PowerPoint), mentre è non proprietario il formato ODF (prodotto con la suite di office automation OpenOffice.org). Ai fini della conservazione digitale è preferibile utilizzare formati non proprietari in quanto non sono legati all’esistenza di una specifica azienda che ne detiene la proprietà e che potrebbe, in qualsiasi momento, modificarne le specifiche, renderle inaccessibili, o imporre restrizioni sul loro utilizzo. Un secondo requisito da considerare è l’apertura. Un formato è aperto (o pubblico) quando le sue specifiche sono pubbliche e liberamente accessibili (ad esempio perché sono state pubblicate sul web) eventualmente anche dietro il pagamento di un compenso, ed utilizzabili senza che coloro che intendono implementarle nelle loro applicazioni debbano corrispondere alcun onere 49 . Spesso i formati aperti sono gestiti da organismi di standardizzazione e non prevedono restrizioni sul loro utilizzo né richiedono il pagamento di diritti (ovvero sono royalty-free). Viceversa, un formato è chiuso (o segreto) quando le sue specifiche non sono state rese pubbliche. Si noti che il fatto che un formato sia aperto è indipendente dal fatto che sia proprietario o meno50 . Il requisito dell’apertura prende in considerazione due aspetti: a) la divulgazione, intesa come possibilità di accedere alle specifiche e al fatto che queste siano pubblicate in una forma corredata di tutti quegli strumenti necessari per la validazione tecnica dei file nei confronti delle specifiche; b) l’assenza di diritti, intesa come possibilità di utilizzare le specifiche liberamente e senza alcun onere (royalty-free). Per fare alcuni esempi, il formato DOC della Microsoft (così come l’XLS e il PPT), oltre ad essere proprietario, è stato, per diversi anni, anche chiuso perché le sue specifiche non erano mai state rese note 51 ; invece il DOCX è aperto, dal momento che Microsoft ne ha pubblicato 49 Cfr. il sito della Library of Congress, già cit.: «Disclosure refers to the degree to which complete specifications and tools for validating technical integrity exist and are accessible to those creating and sustaining digital content». 50 Secondo alcuni autori il termine “aperto” si contrappone non solo a “chiuso” ma anche a “proprietario”. Per costoro un formato è aperto se, oltre ad essere pubblicamente documentato, non è di proprietà di un singolo soggetto. Sulla base di tali considerazioni, un “formato aperto” può essere anche definito come la “modalità di rappresentazione dei dati in forma elettronica, deliberatamente resa pubblica, completamente documentata ed utilizzabile da chiunque”. Cfr. MINISTERO PER L’INNOVAZIONE E LE TECNOLOGIE, Indagine conoscitiva sul software a codice sorgente aperto nella Pubblica Amministrazione. Rapporto della Commissione, Roma, maggio 2003. 51 Le specifiche di questi formati sono state pubblicate da Microsoft il 15 febbraio 2008, dopo quasi venti anni dalla loro creazione. 13 fin dall’inizio le specifiche complete; il formato PDF, pur essendo stato per molti anni proprietario, è sempre rimasto aperto in quando le sue specifiche erano liberamente accessibili 52 . Il requisito dell’apertura è di importanza fondamentale in quanto solo se le specifiche sono note è possibile la realizzazione di software in grado di interpretare correttamente la sequenza di bit che costituisce l’oggetto digitale. Tuttavia da solo non è sufficiente se non è affiancato dal requisito della completa documentazione: in altre parole le specifiche devono descrivere in maniera completa ed esaustiva il formato 53 . Se un formato è completamente documentato, chiunque voglia implementare applicazioni che siano in grado di leggere, produrre o modificare file in quel formato potrà trovare nelle specifiche tutte le informazioni necessarie 54 . Ovviamente si può parlare di formati completamente documentati solo per quelli aperti: per i formati chiusi, non essendo liberamente disponibili le specifiche, si tratta di un requisito non applicabile. Di solito, i formati non proprietari e aperti sono meglio documentati rispetto ai formati proprietari. Allo stesso modo, i formati standard sono meglio documentati dei formati non standard. In particolare, i formati standard aperti sono documentati in maniera più completa, dal momento che, affinché un formato venga approvato come standard, le sue specifiche devono essere esaustivamente documentate. Tuttavia, ciò che è più significativo non è tanto l’approvazione, ancorché importante, del formato da parte di un organismo di standardizzazione riconosciuto, quanto l’esistenza e la disponibilità di una documentazione completa e possibilmente soggetta alla valutazione di esperti esterni. L’esistenza di tool di validazione, preferibilmente creati da più aziende anziché da una sola, è anch’esso un elemento positivo ed indicativo del fatto che le specifiche sono adeguatamente documentate. Un esempio di formato pienamente documentato è il PDF/A, le cui specifiche sono state riconosciute come standard ISO 19005-1:2005. Va poi considerato il requisito della standardizzazione. Un formato è standard quando le sue specifiche sono state definite o approvate da un organismo di standardizzazione (quali l’ISO, l’ANSI, l’ECMA, il W3C, etc.) e quindi ha ottenuto un riconoscimento ufficiale (in questo caso si parla di standard de jure) oppure quando le sue specifiche non sono state ratificate da nessun organismo di normazione, ma è diventato, di fatto, uno standard grazie alla sua ampia diffusione (in questo caso si parla di standard de facto) 55 . I formati che hanno ottenuto un riconoscimento come standard da parte di un organismo di standardizzazione sono meno soggetti ad obsolescenza 56 . Ai fini della conservazione, è, quindi, importante scegliere formati che siano standard; gli standard de jure sono, inoltre, da 52 Altri esempi di formati aperti sono il TXT, l’RTF, l’ODF, l’XML, l’HTML e l’XHTML, il JPEG e il PNG per le immagini raster; l’SVG per le immagini vettoriali; il FLAC per l’audio con compressione lossless, il Musepack e l’Ogg Vorbis per l’audio con compressione lossy; l’Ogg Theora e l’XviD per il video con compressione lossy. 53 Relativamente al grado di documentazione, i formati si classificano in poco documentati, parzialmente documentati, completamente documentati. 54 Ciò permette ad altre aziende, oltre quella che ha sviluppato il formato, di produrre software in grado di interpretarlo, eliminando così la dipendenza dal produttore originale. 55 Ad esempio, sono standard de facto i formati DOC, XLS e RTF; sono, invece, standard de jure l’HTML (W3C Recommendation e ISO 15445), l’XML (W3C Recommendation), l’ODF (ISO 26300), il TIFF (ISO 12639), il JPEG (ISO 10918-1), il JPEG2000 (ISO 15444), il PNG (ISO 15948), il PDF (ISO 32000) e alcuni suoi profili quali il PDF/A, il PDF/E e il PDF/X. 56 È il caso di ricordare che, quando un formato viene riconosciuto come standard, perde la caratteristica di proprietà ed il mantenimento delle sue specifiche spetta ad un apposito organo (solitamente un working group) istituito presso l’organismo di standardizzazione. 14 preferire agli standard de facto, dal momento che solo il processo ufficiale di standardizzazione garantisce che non vi siano interessi di parte nella definizione delle specifiche di un formato e nella sua implementazione. Strettamente connesso al requisito della standardizzazione è quello dell’ampia adozione, che fa riferimento al grado di utilizzo di un formato. Questo requisito è molto importante in quanto l’ampia adozione costituisce uno dei principali “deterrenti” contro i rischi legati all’obsolescenza tecnologica. È evidente che, se un formato è ampiamente adottato, esso sarà meno soggetto ad essere abbandonato dalle aziende produttrici di software, le quali saranno in grado di sviluppare tool più semplici per la migrazione e l’emulazione, senza necessità di specifici investimenti da parte delle istituzioni archivistiche57 . Se il formato è ampiamente adottato, con ogni probabilità verrà utilizzato più a lungo e verranno sviluppati numerosi programmi per la creazione e la fruizione di file codificati secondo quel formato. È importante anche considerare da quanto tempo il formato è ampiamente adottato: deve trattarsi di un periodo di tempo “adeguato” (tenendo conto di quanto si dirà più avanti circa il requisito della stabilità). Si tenga, inoltre, presente che l’esistenza di brevetti sul formato può inibirne l’adozione, soprattutto se i termini di licenza includono delle royalty sul suo utilizzo. Vi sono alcuni “segnali” che mostrano che un formato è ampiamente adottato. Uno di questi è costituito dal fatto che nel software che viene normalmente fornito all’acquisto di un computer 58 vengano inclusi in bundle i programmi per la gestione di quel formato. Un secondo segnale è rappresentato dal supporto che viene fornito dai browser web o dagli strumenti di creazione dei contenuti leader di mercato, compresi quelli per utilizzo professionale, a quel formato. Un terzo indicatore è costituito dalla presnza sul mercato di parecchie applicazioni che sono in grado di visualizzare, creare o modificare file in quel formato 59 . Infine, un’ulteriore evidenza del requisito dell’ampia adozione è costituita dall’accettazione di quel formato da parte di importanti istituzioni archivistiche. L’ultimo requisito generale di primo livello è quello della trasparenza, che tiene conto del grado di semplicità con cui è possibile ottenere la fruizione di un file 60 . Un formato è trasparente se è possibile la fruizione dei contenuti digitali codificati secondo quel formato utilizzando semplici strumenti di base (ad esempio, mediante un editor di testo 61 nel caso 57 Cfr. il sito della Library of Congress, già cit.: «If a format is widely adopted, it is less likely to become obsolete rapidly, and tools for migration and emulation are more likely to emerge from industry without specific investment by archival institutions». Si veda anche Frequently Asked Questions (FAQs) ISO 190051:2005 PDF/A-1, luglio 2006, disponibile sul sito dell’AIIM all’indirizzo <http://www.aiim.org/documents/ standards/19005-1_FAQ.pdf>: «Adoption - widespread use may be the best deterrent against preservation risk». 58 Come avviene nel caso del formato PDF con il visualizzatore Adobe Reader. 59 Il formato PDF, ad esempio, presenta una perfetta rispondenza a tutte queste caratteristiche: il software di fruizione, l’Adobe Reader, viene ormai sempre fornito insieme all’acquisito di un computer (di solito preinstallato sulla macchina); tutti i browser web hanno integrato il plug-in per visualizzare file PDF; esistono ormai centinaia di software per la creazione, la modifica o la semplice fruizione di file in questo formato. 60 Il sito della Library of Congress, già citato, definisce la trasparenza come “the degree to which the digital representation is open to direct analysis with basic tools, including human readability using a text-only editor”. Si veda anche PDF/A, The Development of a Digital Preservation Standard, 69th Annual Meeting of SAA (Society of American Archivists), New Orleans, August 14-21, 2005, disponibile all’indirizzo <http://www.aiim.org/documents/ standards/ PDFA69thSAA805.pdf>. 61 Si ritiene utile ricordare la differenza tra un editor di testo (text editor) e un word processor e, corrispondentemente, tra plain text e rich text. Un text editor (ad esempio, Blocco Note di Windows, ma ne 15 dei documenti di tipo testuale). In realtà il requisito della trasparenza non è assoluto, nel senso che non esistono formati elettronici completamente trasparenti, essendo sempre necessaria l’intermediazione di un sistema informatico per la fruizione di un contenuto digitale; tuttavia esistono formati più trasparenti ed altri meno trasparenti. Figura 9. L'incipit della Divina commedia codificato nei formati TXT, RTF e DOC Cerchiamo di chiarire meglio il requisito della trasparenza, forse di non immediata comprensione, attraverso un esempio. Si consideri l’incipit della Divina Commedia e si supponga di volerne creare una versione in formato elettronico. Per fare ciò abbiamo a disposizione diversi formati: il TXT, l’RTF (Rich Text Format), il DOC, il DOCX solo per citarne alcuni. Supponiamo di scegliere i tre formati TXT, RTF e DOC e di generare i esistono anche altri più sofisticati) è un programma per l’elaborazione di testi che consente di inserire il testo ed, eventualmente, la sua formattazione, ma solo facendo uso di “comandi” interpretabili come sequenze di caratteri (come i tag nei linguaggi di marcatura). Un file prodotto con un text editor è salvato come file di testo (ad esempio, nel ben noto formato TXT) e codificato, di solito, in ASCII; se non contiene alcuna informazione relativa alla formattazione si parla di file di puro testo (plain text). Al contrario, un word processor (ad esempio, Microsoft Word, Microsoft WordPad, OpenOffice.org Writer, etc.) è un programma di elaborazione testi che permette di inserire il testo, la relativa formattazione facendo uso di istruzioni binarie, altre tipologie di oggetti (immagini, audio, etc.) e, a volte, anche i metadati, ottenendo quello che viene denominato un rich text. Spesso dispone anche di funzionalità di tipo WYSIWYG (What You See Is What You Get), grazie alle quali ciò che viene rappresentato a video verrà anche riprodotto su carta con lo stesso identico aspetto. Ai fini della conservazione digitale è importante sapere che i file prodotti con un determinato word processor contengono molti caratteri non ASCII che vengono utilizzati per fornire vari tipi di informazioni (quali quelle sulla formattazione di carattere, di paragrafo e di pagina) ma che sono specifici del programma con cui sono stati generati. Quindi potranno essere “compresi” correttamente solo dal medesimo word processor con cui sono stati prodotti (anzi, spesso solo dalla medesima versione), a meno che il formato non sia aperto (nel qual caso potrebbero esistere altri software che, basandosi sulle specifiche pubbliche di quel formato, siano in grado di interpretarlo correttamente). È noto il caso del formato DOC che viene interpretato correttamene soltanto dal word processor Microsoft Word: poiché le specifiche del formato sono rimaste chiuse per lunghi anni, altri programmi (ad esempio, il Writer della suite OpenOffice.org), riescono ad aprire i file in formato DOC, ma non ad interpretarli in maniera del tutto corretta: di solito ne risultano modificati i margini, le intestazioni, i piè di pagina, le dimensioni delle colonne, etc. Cfr. <http://www.gnu.org/philosophy/papadopoulos-response.it.html>. 16 corrispondenti file (Incipit.txt, Incipit.rtf e Incipit.doc) che hanno tutti lo stesso identico contenuto testuale. Se si prova a visualizzare il contenuto di ciascuno di questi tre file utilizzando un semplice editor di testo (quale Blocco Note di Windows) si può verificare quanto segue: nel caso del formato TXT il contenuto del file è perfettamente intelligibile; nel caso del formato RTF il contenuto è ancora intelligibile, ma in maniera inferiore rispetto al primo caso per la presenza dei tag che indicano la formattazione del testo e che possono rendere non di immediata comprensione le informazioni contenute; infine, nel caso del formato DOC il testo è ancora leggibile ma le complicazioni aumentano a causa delle numerose informazioni “non trasparenti” che il programma di videoscrittura Microsoft Word inserisce (si veda la Figura 9). Ciò è sufficiente per concludere che tra i tre formati, il TXT (che permette di inserire il testo sotto forma di caratteri ASCII ma non prevede alcuna formattazione) è in assoluto quello più trasparente; l’RTF è meno trasparente del TXT ma più trasparente del DOC (essendo possibile, in linea di principio e con un po’ di buona volontà, interpretare senza l’ausilio di un computer anche i tag utilizzati dal formato); il formato DOC, infine, risulta il meno trasparente tra tutti. Per altre categorie di formati, si tenga presente che, in generale, i formati basati su codifiche standard e/o di base sono più trasparenti di quelli ottimizzati per ottenere una maggiore efficienza. Ad esempio, per quanto riguarda i formati immagine sono trasparenti le immagini di tipo raster; nel campo dei formati audio il PCM (Pulse Code Modulation) è più trasparente del formato MP3. Si tenga anche presente che la compressione può ridurre la trasparenza 62 . Nel caso sia necessario utilizzarla, è opportuno scegliere algoritmi di compressione che siano aperti, non proprietari, ampiamente documentati, non soggetti ad alcuna licenza e possibilmente standard. Grazie alla loro semplicità, la maggior parte dei programmi riesce ad interpretare facilmente i formati trasparenti, ed è prevedibile che ciò sarà possibile anche in futuro nel caso in cui il formato dovesse diventare obsoleto o dovessero andare smarrite le sue specifiche; mentre solamente pochi programmi sono in grado di comprendere ed utilizzare il contenuto di un file codificato in un formato non trasparente. Inoltre, i formati trasparenti permettono di codificare l’informazione in maniera semplice e diretta e quindi lo sviluppo di software che consenta la loro fruizione in nuovi ambienti tecnologici risulta più rapido e meno costoso; di conseguenza sono anche più facilmente migrabili. I formati trasparenti forniscono, quindi, le maggiori garanzie sul fatto che il loro contenuto rimarrà fruibile correttamente tra dieci, venti, cinquanta o più anni. Nella prospettiva della conservazione digitale, tutto ciò fa propendere verso l’utilizzo di formati che siano il più possibile trasparenti. L’importanza del requisito della trasparenza risulta evidente anche dai casi, ormai numerosi, di perdita di dati digitali che si sono verificati nel corso dell’ultimo cinquantennio. Valga per tutti l’esempio, già citato, dei dati raccolti dalle sonde Viking. È ragionevole ipotizzare che, pur in assenza di informazioni sul formato, gli scienziati avrebbero avuto sicuramente più probabilità di riuscire ad estrarre almeno buona parte dei contenuti se questi fossero stati codificati secondo formati trasparenti. 62 Cfr. il sito della Library of Congress, già cit.: “compression inhibits transparency... Archival repositories must certainly accept content compressed using publicly disclosed and widely adopted algorithms that are either lossless or have a degree of lossy compression that is acceptable”. 17 2.2 Alcuni esempi È importante, prima di procedere oltre, chiarire i concetti fin qui esposti proponendo, a titolo di esempio, la classificazione di alcuni formati di uso comune nell’ambito dell’office automation: - il formato DOC è proprietario (di proprietà della Microsoft), aperto (le sue specifiche sono state recentemente rese pubbliche), non trasparente (è binario) e standard de facto (nessun organismo di standardizzazione ha mai ratificato le sue specifiche); - il formato RTF è proprietario (di proprietà della Microsoft), aperto (le sue specifiche sono note), trasparente (sia il testo che la formattazione vengono specificati mediante caratteri ASCII) e standard de facto (ha una diffusione universale). - il formato DOCX è non proprietario (era di proprietà Microsoft ma all’inizio del 2008 è stato riconosciuto standard ISO 29500:2008 e di conseguenza ha perso il requisito di proprietà), aperto (le sue specifiche sono liberamente accessibili sul sito dell’Ecma International e, a pagamento, su quello dell’ISO), trasparente (è basato sull’XML) e standard de jure. Analoghe classificazioni si possono fare per tutte le altre categorie di formati (formati immagine, formati per i contenuti audio, formati per i contenuti video, etc.). 2.3 I requisiti generali di secondo livello Oltre ai requisiti generali di primo livello appena analizzati vanno presi in considerazione altri requisiti, denominati di secondo livello ma non meno importanti dei primi (si veda ancora la Figura 8). Non è questa la sede per una trattazione approfondita di tutti i requisiti e degli aspetti ad essi connessi 63 ; ci si soffermerà pertanto solo su alcuni aspetti salienti per far comprendere l’importanza di un attento esame delle caratteristiche di un formato ai fini della sua compatibilità con un processo di conservazione digitale. Un primo requisito che occorre tenere in debita considerazione è quello della robustezza. Un formato è robusto quando, in caso di corruzione 64 del file, consente il recupero, totale o parziale, dei suoi contenuti. Esistono vari gradi di robustezza: vi sono, infatti, formati nei quali la corruzione anche di pochi bit del file conduce alla perdita dell’intero contenuto informativo; altri, invece, sono più robusti e consentono di recuperare il contenuto del file anche se ne viene corrotta una parte considerevole. Solitamente i formati compressi sono i meno robusti, dal momento che è sufficiente, a volte, anche la corruzione di un solo bit per rendere illeggibile tutto il file. Nel campo dei documenti di testo, i formati di tipo plain text sono i più robusti; infatti, la corruzione di alcuni bit comporta solitamente solo la perdita della parte di informazione interessata (per esempio, alcuni caratteri), rimanendo leggibile tutto il resto. I formati che codificano le informazioni utilizzando più oggetti digitali all’interno di un unico contenitore (package) compresso, quali l’ODF e l’OOXML, presentano un grado di robustezza medio dal momento che, solitamente, la corruzione di uno degli oggetti comporta solo la sua perdita, rimanendo leggibile tutto il resto. 63 Per una trattazione più completa si rimanda al volume STEFANO PIGLIAPOCO, STEFANO ALLEGREZZA, Produzione e conservazione del documento digitale. Requisiti e standard per i formati elettronici. Volume I, Edizioni EUM, Macerata, 2008. 64 Per “corruzione” si intende la perdita, di solito accidentale, di uno o più bit (o di uno o più byte); può trattarsi sia di una eliminazione di bit (alcuni dei bit che costituiscono il file vengono eliminati, per cui il file risultante viene ad avere una dimensione minore rispetto all’originale) che di una modifica (alcuni dei bit dal valore “0” vengono modificati ed assumono il valore “1” o viceversa). Nei casi più gravi possono verificarsi entrambe le situazioni (eliminazione e modifica). 18 Il requisito della robustezza riveste particolare importanza perché occorre sempre ipotizzare la possibilità che, a seguito dei diversi processi di riversamento che vengono effettuati nel tempo, possa verificarsi la corruzione dei file. Presso il Laboratorio di Informatica Documentale dell’Università degli Studi di Macerata 65 sono stati realizzati alcuni esperimenti allo scopo di valutare gli effetti che la corruzione di alcune sequenze di bit di un file potevano produrre sulla sua riproducibilità. Tra i risultati ottenuti sui vari formati che sono stati sottoposti a test, si ritiene particolarmente significativo riportare quelli di un esperimento che ha riguardato i formati immagine. Durante tale prova una stessa immagine, codificata secondo diversi formati, è stata sottoposta ad un processo di corruzione dei bit utilizzando un particolare software predisposto a questo scopo; i risultati ottenuti sono stati poi confrontati a parità di intensità del processo di corruzione. La Figura 10 mostra uno dei risultati: a sinistra è riportata l’immagine originale prodotta in formato TIFF non compresso e a destra l’immagine che si ottiene dopo averla sottoposta al suddetto processo di corruzione; come si può osservare la differenza, visibile solo ad un esame ravvicinato, non è tale da inficiare la riproducibilità dell’immagine che risulta comunque visualizzabile con un certo grado di dettaglio. Figura 10. Un'immagine codificata in formato TIFF, prima e dopo la corruzione di alcune sequenze di bit Se si ripete l’esperimento nelle stesse condizioni (ovvero sottoponendo il file dell’immagine ad un processo di corruzione della stessa intensità), ma questa volta a partire dall’immagine precedente codificata in formato JPEG anziché in TIFF, si ottiene un’immagine che è quasi completamente degradata ed addirittura in alcune parti quasi completamente cancellata (si veda la in Figura 11) 66 . Tutto ciò è riconducibile principalmente al fatto che il formato JPEG è compresso. Questo esperimento permette di concludere che il formato TIFF risulta più robusto, e quindi preferibile, rispetto al formato JPEG. Analoghi esperimenti possono 65 Il Laboratorio di Informatica Documentale (LID), istituito presso il Dipartimento di Istituzioni Economiche e Finanziarie dell'Università degli Studi di Macerata, ha come finalità lo studio, la ricerca e l'applicazione delle tecnologie dell'informazione e della comunicazione nelle aziende private e nella Pubblica Amministrazione. È diretto dal Prof. Stefano Pigliapoco. 66 Nell’esperienza comune questo fatto può verificarsi quando si ricevono delle foto in formato JPEG come allegati di posta elettronica. Se per qualsiasi motivo (ad esempio, un disturbo nella trasmissione) il file risulta corrotto, la foto risulta spesso visualizzabile solo in parte (mentre per il resto risulta oscurata da artefatti più o meno evidenti, come, ad esempio, delle bande nere). 19 essere condotti sulle altre categorie di formati per determinare quali sono i più robusti all’interno di ciascuna categoria. Figura 11. La stessa immagine della figura precedente codificata in formato JPEG, prima e dopo la corruzione di alcune sequenze di bit Quando si valuta un formato è bene considerare anche il requisito della stabilità. Esistono formati che subiscono continue e spesso sostanziali modifiche nel corso degli anni, a volte anche ad intervalli di tempo molto ravvicinati. Si consideri, ad esempio, il BIFF (Binary Interchange File Format), il formato proprietario sviluppato da Microsoft per il suo noto foglio di calcolo Microsoft Excel e comunemente conosciuto come “formato XLS”. Microsoft ne ha sviluppato diverse versioni 67 . La prima, denominata BIFF1, fu rilasciata nel 1985 contemporaneamente al rilascio della prima versione di Excel per sistemi Macintosh; fino ad oggi, questo formato rimane non documentato. Nel 1987 fu rilasciato il formato BIFF2, usato nativamente da Excel 2. Nel 1990 fu rilasciato Excel 3, che introduceva il formato BIFF3. Due anni più tardi, nel 1992, Excel 4 introduceva il formato BIFF4 e, nel 1993, dopo solo un anno, fu rilasciato Excel 5 con il formato BIFF5. Nel 1995, Excel 7 (Excel 95) proponeva il formato BIFF7 e, finalmente, nel 1997, veniva introdotto il nuovo formato BIFF8 che è stato utilizzato nativamente da Excel 8 (Excel 97), Excel 9 (Excel 2000), Excel 10 (Excel 2002) ed Excel 11 (Excel 2003). Nel 2007, la nuova versione Excel 2007 ha introdotto un nuovo formato, con caratteristiche completamente diverse rispetto ai precedenti, denominato XSLX. La Tabella 3 mostra sinteticamente le varie versioni del formato che si sono succedute in questi due decenni. Come si può osservare, la vita media delle versioni del formato BIFF si attesta intorno ai due anni nel primo decennio (periodo compreso tra il BIFF1 del 1985 e il BIFF7 del 1995), mentre cresce notevolmente nel secondo decennio (periodo compreso tra il BIFF8 del 1997 e il nuovo formato XLSX del 2007), arrivando fino ad una decina di anni. Ciò significa che il BIFF, dopo un primo periodo in cui gli sviluppatori aggiungevano, con una certa 67 Le informazioni qui proposte sono dedotte da C.C.H. CHOU, Action Plan Background: BIFF8, Florida Center for Library Automation (FCLA), marzo 2008, disponibile all’indirizzo <http://www.fcla.edu/ digitalArchive/formatInfo.htm> e dalla voce relativa ad Excel presente su Wikipedia. 20 regolarità, nuove funzionalità al formato (e ciò ha comportato il continuo rilascio di nuove versioni), con la versione BIFF8 ha raggiunto, nel secondo decennio di vita, una piena maturità dal punto di vista della completezza delle funzionalità e ha potuto conseguentemente godere di una buona stabilità. Versione di Excel Anno di rilascio Excel 1 Excel 2 Excel 3 Excel 4 Excel 5 Excel 7 (Excel 95) Excel 8 (Eexcel 97) Excel 9 (Excel 2000) Excel 10 (Excel XP) Excel 11 (Excel 2003) Excel 12 (Excel 2007) 1985 1987 1990 1992 1993 1995 1997 1999 2001 2003 2007 Versione del formato (denominazione tecnica) BIFF1 BIFF2 BIFF3 BIFF4 BIFF5 BIFF7 BIFF8 BIFF8 BIFF8 BIFF8 XLSX (OOXML) Tabella 3. Versioni di Microsoft Excel e corrispondenti versioni del formato Altri formati sono invece molto più stabili. Il formato TIFF è uno di questi: Adobe ha acquistato la specifica del formato nel 1994, al momento dell’acquisizione della software house Aldus che lo aveva creato. Da allora Adobe ha apportato solo qualche piccola modifica alla specifica del formato, che è rimasto, ad oggi, pressoché invariato rispetto alla versione 6.0 lanciata nel 1992. Quello della stabilità è un aspetto molto importante dal punto di vista della conservazione. Infatti, l’instabilità e la continua evoluzione dei formati porta alla necessità di sottoporre a continue migrazioni i file codificati secondo quei formati, aumentando il rischio di possibili errori e richiedendo un’attenzione ed una vigilanza costante. Ai fini della conservazione digitale è, quindi, preferibile che un formato sia stabile e non soggetto a continue e/o sostanziali modifiche nel tempo. Il concetto di stabilità è strettamente collegato con quelli di compatibilità in avanti (forward compatibility) e compatibilità all’indietro (backward compatibility) 68 . Per comprendere meglio quanto si andrà ad esporre, è bene riprendere un concetto che è già stato discusso nel paragrafo 1.2: quando si parla di formato di file si ha a che fare il più delle volte non con una sola versione ma con versioni differenti dello stesso formato (nonostante l’estensione del nome del file rimanga la stessa), le quali sono, spesso, tra loro incompatibili. Ad esempio, se si prova ad “aprire” con Microsoft Word 95 un documento di testo creato con Microsoft Word 2003 e salvato nel formato DOC di Microsoft Word 2003 (ovvero, nel formato che è tecnicamente denominato DOC97/2003, si veda la Tabella 1), l’operazione non riesce, proprio perché i due formati, pur avendo la stessa estensione e appartenendo, se così vogliamo dire, alla stessa “famiglia”, sono in realtà diversi ed incompatibili. Questo è un principio del tutto generale: non è assolutamente scontato che un file codificato secondo una determinata versione di un formato sia “compatibile” con un’altra versione dello stesso formato. 68 In letteratura si fa riferimento alla compatibilità in avanti e all’indietro anche con le locuzioni “upwards compatibility” e “downwards compatibility”. Cfr. NICOLAS LORMANT, CLAUDE HUC, DANIÈLE BOUCON, CHRISTINE MIQUEL, How to Evaluate the Ability of a File Format to Ensure Long-Term Preservation for Digital Information?, PV 2005, 21-23, The Royal Society, Edinburgh, Regno Unito, novembre 2005, disponibile all’indirizzo <http://www.ukoln.ac.uk/events/pv-2005/pv-2005-final-papers/003.pdf>. 21 Sulla base di queste osservazioni, è possibile adottare le seguenti definizioni: un formato si dice compatibile in avanti, quando è possibile utilizzarlo con una delle versioni del software successive a quella con cui è stato prodotto; si dice, invece, compatibile all’indietro se è possibile utilizzarlo con una delle versioni precedenti dell’applicativo che lo ha prodotto. Un formato è, infine, compatibile in avanti e all’indietro quando è possibile utilizzarlo sia con le versioni successive a quella dell’applicativo che lo ha prodotto, sia con quelle precedenti 69 . Riprendendo l’esempio precedente, la versione del formato DOC denominata DOC97/2003 non è compatibile all’indietro dal momento che né Microsoft Word 2.0 né Microsoft Word 6.0 sono in grado di gestirlo, mentre è compatibile in avanti, dal momento che Microsoft Word 2007 è in grado di gestirlo 70 . Tuttavia, a partire dal 2007, anche la compatibilità in avanti di alcune versioni del formato DOC è stata fortemente limitata. Infatti, a seguito dell’installazione del Service Pack 3 per Microsoft Office 2003 (il cui rilascio è avvenuto il 17 settembre 2007 per la versione italiana), i programmi della suite Microsoft Office 2003 non risultano più in grado di aprire e/o salvare diversi formati di file, tra cui i documenti di Word creati con le versioni precedenti alla 6.0. Se si prova, ad esempio, ad aprire un documento di testo creato con Microsoft Word 2.0 71 si ottiene il messaggio di errore riportato in Figura 12 e di fatto quel documento è divenuto inutilizzabile 72 . Figura 12. Il messaggio di errore che si ottiene al momento di aprire con Microsoft Word 2003 un documento di testo creato con Microsoft Word 2.0 Ai fini della conservazione dei documenti informatici, è di fondamentale importanza la compatibilità in avanti e normalmente tutti i formati la assicurano (anche se spesso solo riguardo un limitato numero di versioni precedenti del software); ma anche la compatibilità all’indietro ha un suo peso: infatti, se quest’ultima non viene garantita, obbliga all’acquisto di nuove versioni del software creando una non auspicabile dipendenza da una determinata software house 73 . Purtroppo, è abbastanza raro incontrare formati che garantiscano la 69 Sono rari i formati che rientrano in questa categoria. Uno di questi è il PNG, un formato immagine aperto, non proprietario, standard de jure che, nelle intenzioni dei suoi creatori, è destinato a rimpiazzare il formato GIF. 70 Infatti, se si prova ad aprire un documento nel formato DOC97/2003 (creato con Microsoft Word 2003) con Microsoft Word 2.0 o Microsoft Word 6.0 si ottiene un messaggio di errore (quindi non è assicurata la compatibilità all’indietro), mentre se se si prova ad aprire lo stesso documento di testo con Word 2007 esso viene aperto correttamente (ed è così assicurata la compatibilità in avanti). 71 Ricordiamo che la versione 2.0 del famoso programma di videoscrittura di casa Microsoft è stata rilasciata nel 1991; tuttavia il programma è stato utilizzato anche ben oltre il rilascio della successiva versione del programma, Microsoft Word 6.0, avvenuta nel 1993, per cui non è raro trovare documenti prodotti con Microsoft Word 2.0 negli anni 1994-95 (risalenti quindi a solo una quindicina di anni fa) che oggi possono risultare non più leggibili. 72 Il motivo di queste limitazioni è spiegato nell’articolo n. 938810 della Knowledge Base Microsoft dedicato a questo argomento: questi vecchi formati sono stati “bloccati” per evitare che venga attivato codice potenzialmente non sicuro. E questo è anche il motivo per il quale gli stessi tipi di file non possono essere aperti e salvati di default neanche con Office 2007. Occorre precisare, tuttavia, che è possibile, con opportuni interventi tecnici sul Registro di sistema, fare in modo che venga ripristinata la possibilità di gestire questi vecchi formati. 73 Ad esempio, se si dispone di Microsoft Word 2003 e si ricevono documenti di testo nel nuovo formato DOCX si è “costretti” ad acquistare la successiva versione del software di videoscrittura Microsoft Word 22 compatibilità all’indietro, ed è ancora più raro incontrare formati che garantiscano la compatibilità sia in avanti che all’indietro. Una soluzione intermedia a problemi di questo genere può essere rappresentata dalla compatibilità all’indietro di tipo parziale: essa si verifica quando un file codificato secondo un certo formato è utilizzabile con una versione precedente dell’applicativo che lo prodotto ma in maniera parziale, nel senso che alcune delle funzionalità specifiche di quella versione del formato non sono disponibili o non vengono correttamente gestite. È questo il caso del formato PDF: ad esempio Adobe Reader 6.0 (associato alla versione 1.5 del formato) è in grado di visualizzare non solo i file codificati nel formato PDF 1.5 e nelle versioni precedenti del formato (come la 1.4, 1.3 etc.), ma anche quelli codificati nelle versioni successive (la 1.6 e 1.7). Ovviamente le caratteristiche non supportate nella versione 1.5 non possono essere gestite e di ciò viene dato avviso all’utente, con un apposito messaggio, in fase di apertura del file (si veda la Figura 13). Figura 13. L'alert box che avvisa l’utente delle limitazioni alle funzionalità. Dal punto di vista terminologico occorre precisare che le questioni relative alla compatibilità vengono, a volte, viste dalla parte del software anziché da quella dei formati. In tal caso deve essere utilizzata una terminologia complementare: un software è “compatibile all’indietro” quando è in grado di gestire correttamente i file codificati nelle versioni precedenti dei formati. È invece “compatibile in avanti” quando è in grado di gestire correttamente i file codificati nelle versioni successive. Solitamente quella che viene assicurata nel caso del software è la compatibilità all’indietro. Al contrario, la compatibilità in avanti non è quasi mai garantita, neanche nel caso in cui il software è creato e mantenuto della stessa software house. Un altro requisito di fondamentale importanza è l’auto-contenimento (o auto-inclusione). Un formato è auto-contenuto (o auto-incluso) quando permette di includere tutte le risorse necessarie per la sua rappresentazione. Ad esempio, se si tratta di un documento di testo, esso deve includere i font utilizzati nel file, anche se sono di larga diffusione (come Times New Roman, Arial, Tahoma, Verdana, etc.) e non devono essere presenti oggetti incorporati (che richiederebbero l’uso di programmi esterni) o collegamenti verso oggetti esterni al file (come le immagini reperibili sul web) 74 . Si tratta di un requisito indispensabile per garantire che il file venga rappresentato sempre nella stessa maniera. 2007 o 2010, o quantomeno ad utilizzare il Microsoft Word Viewer 2007 (o la successiva versione 2010), un visualizzatore di documenti di testo nel formato DOCX scaricabile gratuitamente dal sito Microsoft. 74 Tradizionalmente, i riferimenti ai contenuti web sono stati realizzati utilizzando collegamenti ipertestuali ai cosiddetti URL (Uniform Resource Locator). Tuttavia, quando tali contenuti vengono spostati su un’altra posizione, i collegamenti che puntano verso di essi non sono più risolti (e, quindi, risultano broken). Per questo motivo un sistema di riferimento basato su URL è intrinsecamente instabile e pone dei seri rischi per 23 Anche in questo caso un esempio servirà a rendere più chiaro il concetto. Si consideri il contratto di compravendita riportato in Figura 14; in esso l’immagine dell’immobile in vendita non è “incorporata” all’interno del documento ma è una risorsa esterna alla quale il documento fa riferimento attraverso un collegamento (link) presente all’interno del documento stesso. Figura 14. Esempio di documento non auto-contenuto Nel momento in cui il contratto viene visualizzato, il sistema si attiva per recuperare la risorsa dalla sua posizione e visualizzarla all’interno della pagina. Cosa succede, tuttavia, se per qualsiasi motivo il collegamento ipertestuale dovesse interrompersi, ad esempio perché la risorsa viene inavvertitamente cancellata oppure perché la cartella in cui è contenuta viene spostata, o ancora, perché semplicemente il file dell’immagine viene ridenominato? In questo caso al posto dell’immagine compare il ben noto “segnaposto per immagini” (si veda l’immagine a destra della Figura 14) 75 rendendo di fatto il documento non più conforme rispetto all’originale. Questo esempio fa ben comprendere che è assolutamente necessario orientare la scelta verso formati che siano auto-contenuti. È importante anche considerare il requisito dell’auto-documentazione, che si riferisce alla capacità di un formato di supportare l’inclusione di metadati. Alcuni formati sono in grado di contenere metadati che ne descrivono il contenuto, documentano le fasi della loro produzione e forniscono dettagli tecnici per facilitarne la rappresentazione negli ambienti tecnologici futuri. Questi formati auto-documentati sono più facilmente conservabili nel tempo e meno vulnerabili al rischio di obsolescenza rispetto a quelli che prevedono la la garanzia della continuità di accesso alle risorse. Per creare un sistema di riferimento al materiale pubblicato sul web che risulti più affidabile, da metà degli anni ’90, sono state proposte diverse soluzioni: Handles, Digital Object Identifiers (DOIs), Archival Resource Keys (ARKs), Persistent Uniform Resource Locators (PURLs), Uniform Resource Names (URNs), National Bibliography Numbers (NBNs), e Open URL. Sull’argomento si veda HANS-WERNER HILSE, JOCHEN KOTHE Implementing Persistent Identifiers. Overview of concepts, guidelines and recommendations, (ECPA-report; 18), 2006, reperibile anche in formato PDF all’indirizzo <http://www.knaw.nl/ecpa/publ/pdf/2732.pdf>, che spiega il principio di funzionamento degli identificatori persistenti. Si veda anche MARIO SEBASTIANI, Identificatori persistenti per gli oggetti digitali, Digitalia, Rivista del digitale nei beni culturali, Numero 0, 2005, ICCU, Roma. 75 Ovvero il quadratino con la “x” che tante volte capita di vedere nelle pagine web in cui risulta assente l’immagine a cui un determinato link si riferisce. 24 memorizzazione separata dei metadati 76 . Esempi di formati che permettono l’inclusione dei metadati sono il TIFF/EP, il JPEG2000, l’ODF, l’OOXML, l’MP3. Il requisito dell’indipendenza dal dispositivo 77 o portabilità, fa riferimento alla capacità di un file, codificato in un determinato formato, di essere rappresentabile in maniera attendibile e allo stesso modo indipendentemente dalla piattaforma hardware e dal software 78 . Ad esempio, alcuni formati sono fruibili solo su computer con sistemi operativi Windows, altri solo su macchine con architettura Intel e non sono quindi portabili. Esistono invece formati, come l’ODF, che sono fruibili su macchine con sistemi operativi diversi (Windows, Linux, Mac, Solaris, FreeBSD, Symbian, OpenBSD, AIX, React OS) e basate su architetture diverse (Intel, Sparc, PowerPC, etc.). Questo requisito viene misurato da due indicatori principali: a) il numero di ambienti operativi (in termini di hardware e software) che sono capaci di gestire un determinato formato (qualora esso sia associabile a programmi software diversi); b) la possibilità di eseguire il programma che gestisce un certo formato su piattaforme diverse (qualora esso sia associabile solo ad uno specifico programma software.) Ai fini della conservazione digitale è importante che un formato sia indipendente dal dispositivo, anche se questo requisito è particolarmente arduo da soddisfare, soprattutto per determinate categorie di contenuti digitali. Un requisito spesso sottovalutato ma che deve essere, invece, tenuto in adeguata considerazione è l’assenza di meccanismi tecnici di protezione. Per conservare i documenti informatici e garantirne la fruibilità nel lungo periodo, si deve avere la possibilità di replicarne il contenuto su nuovi supporti, effettuare normalizzazioni e migrazioni, renderli disponibili per la diffusione. Tuttavia, alcuni formati consentono di stabilire delle limitazioni alla fruzione dei file codificati secondo tali formati, solitamente per motivi di protezione della proprietà intellettuale. Ad esempio, permettono di limitare la fruizione di un file ad un certo intervallo temporale, ad un computer dotato di una connessione di rete attiva o di un dispositivo hardware connesso ad una delle sue porte 79 . Altri formati permettono di cifrare il file e di renderlo così illeggibile; la sua fruizione può avvenire solo se viene riportato in chiaro (decifrato), solitamente a seguito dell’inserimento di una password. Altri formati consentono, infine, di definire limitazioni sulla possibilità di visualizzazione a schermo o sulla possibilità e qualità di stampa. Si tenga presente che nessun formato dotato di questi ed altri meccanismi tecnici di protezione o che sia legato in maniera indissolubile a un particolare supporto fisico o ad un particolare dispositivo è adatto alla conservazione80 . Nella maggior parte dei casi l’utilizzo di meccanismi di protezione tecnici è opzionale e va evitato 81 . 76 Cfr. il sito della Library of Congress, già cit.: «Digital objects that are self-documenting are likely to be easier to sustain over the long term and less vulnerable to catastrophe than data objects that are stored separately from all the metadata needed to render the data as usable information or understand its context». L’importanza di utilizzare formati elettronici che includono metadati con elevata capacità informativa è stata riconosciuta da tutte le comunità che creano, scambiano e conservano contenuti digitali. 77 Un formato indipendente dal dispositivo viene detto anche cross-platform. In letteratura questo requisito è talora denominato indipendenza dall’esterno, non senza una certa confusione con il requisito dell’autocontenimento. 78 Cfr. il sito della Library of Congress, già cit.: «External dependencies refers to the degree to which a particular format depends on particular hardware, operating system, or software for rendering or use»”. 79 Un esempio è costituito da quei file che possono essere visualizzati e stampati solo disponendo della “chiave hardware” ad essi associata (tipicamente un dispositivo USB) da inserire in una porta USB del computer in uso. 80 Per esempio, un file cifrato e che può essere portato “in chiaro” solamente se si è in possesso dell’apposita chiave di decifratura è doppiamente a rischio, poichè al rischio di obsolescenza, che riguarda tutti i formati, 25 Allo stesso modo, per un formato compatibile con un processo di conservazione digitale è importante l’assenza di limitazioni sull’utilizzo. L’esistenza di brevetti (patent) su un formato digitale o la richiesta del pagamento di royalty per il suo utilizzo incide negativamente sulla possibilità di conservare i file codificati secondo quel formato. Infatti, anche quando i costi delle licenze sono bassi, la loro presenza può frenare lo sviluppo del software, sia open source che commerciale, necessario per la gestione o per la migrazione dei file archiviati 82 . Quando, poi, i termini della licenza includono royalty basate sull’utilizzo (ad esempio, un pagamento ogni volta che un file viene letto), i costi possono diventare elevati ed imprevedibili. In generale, il problema maggiore non è rappresentato dall’esistenza di brevetti, ma dalle condizioni che i detentori dei brevetti decidono di applicare 83 . E’ importante che un formato soddisfi anche il requisito dell’accessibilità, che si riferisce alla capacità di un formato di essere facilmente fruibile anche da persone diversamente abili. Ciò implica, da una parte, che il formato deve consentire la fruibilità mediante tecnologie assistive (ad esempio, gli screen-reader); dall’altra, che le specifiche del formato devono essere disponibili e completamente documentate per rendere possibile lo sviluppo del software necessario. Si tratta di un requisito strettamente collegato con quelli di apertura, non proprietà, completa documentazione e assenza di limitazioni sull’utilizzo. In generale i formati aperti e standard risultano più accessibili rispetto a quelli proprietari, dal momento che vengono sottoposti a processi di revisione pubblici e hanno, quindi, una maggiore possibilità di essere verificati nei confronti dell’accessibilità. Un formato adatto alla conservazione digitale dovrebbe rispettare anche il requisito della non modificabilità 84 . In questo caso vi è, tuttavia, un sottile conflitto tra due necessità contrapposte. Infatti, dal punto di vista della riusabilità, sarebbe opportuno che i contenuti digitali venissero mantenuti in una forma modificabile, in maniera tale da rendere agevole operazioni di estrazione dei dati e riutilizzo delle informazioni. Dal punto di vista della conservazione, invece, è necessario che siano archiviati in un formato non modificabile per assicurarne l’integrità e la stabilità nel tempo. In alcuni casi si possono conciliare queste due opposte esigenze soltanto utilizzando due diversi formati. È importante anche il requisito della sicurezza: un formato adatto alla conservazione digitale deve essere sicuro, ovvero non suscettibile di attacchi da parte di virus ed altre forme di codice maligno, che potrebbero modificare il contenuto di un file codificato secondo quel si aggiunge anche il pericolo della perdita della chiave di decifratura (che renderebbe del tutto inutilizzabile il file). Cfr. LARS R. CLAUSEN, Handling File Formats, op. cit. 81 Cfr. il sito della Library of Congress, già cit.: «Content for which a trusted repository takes long-term responsibility must not be protected by technical mechanisms such as encryption, implemented in ways that prevent custodians from taking appropriate steps to preserve the digital content and make it accessible to future generations». 82 Cfr. il sito della Library of Congress, già cit.: «Patents related to a digital format may inhibit the ability of archival institutions to sustain content in that format» e «In some cases, the existence and exploitation of underlying patents may inhibit adoption, particularly if license terms include royalties». 83 Ad esempio, il formato PDF è coperto da numerosi brevetti, ma Adobe Systems ha deciso di non richiedere il pagamento di alcun diritto per l’utilizzo del formato. 84 Ovviamente il concetto di “non modificabilità” è relativo. Infatti, non esiste alcun formato elettronico che può garantire, in senso stretto, la non modificabilità dei contenuti codificati secondo quel formato; tuttavia esistono delle tecnologie che consentono di rilevare anche la minima modifica apportate ad un file. Una di queste è l’utilizzo di checksum o di firme elettroniche. 26 formato all’insaputa dell’utente pur lasciandolo leggibile, corromperne alcune parti rendendolo inutilizzabile o, nei casi estremi, eliminarlo completamente. Sono quindi preferibili quei formati che, per loro natura, non possono essere soggetti all’attacco di alcuna forma di malware 85 , Ad esempio, il formato TIFF non può contenere virus, mentre il formato DOC può essere “infettato” da virus nascosti nelle macroistruzioni. Infine, dal momento che la quantità di informazioni che vengono archiviate è in continuo e costante aumento, è importante considerare i formati anche dal punto di vista dell’efficienza, un requisito che prende in considerazione la dimensione dei file che vengono prodotti. Esistono formati che, a parità di contenuto informativo, riescono a contenere maggiormente le dimensioni del file risultante e quindi sono più efficienti. Ad esempio, esistono formati per immagini che, a parità di qualità dell’immagine, consentono una minore occupazione di memoria, e quindi sono più efficienti, rispetto agli altri. La riduzione delle dimensioni consente anche un potenziale risparmio dei costi perché riduce la quantità di spazio richiesto per la memorizzazione nei sistemi di storage e diminuisce la larghezza di banda necessaria al trasporto dei file attraverso la posta elettronica, la rete e il web. Di solito, i file in formato non binario hanno dimensioni minori dei corrispondenti binari, per cui, per ridurre la loro dimensione, si utilizzano delle tecniche di compressione. Ad esempio, un documento di testo salvato nel formato binario DOC ha solitamente una dimensione inferiore rispetto a quella che avrebbe se fosse prodotto nel formato non binario DOCX, ed è proprio per ridurre la sua dimensione che quest’ultimo formato utilizza la compressione (mediante l’algoritmo ZIP). 2.4 I requisiti specifici Accanto ai requisiti di tipo generale analizzati nel paragrafo precedente, esistono requisiti specifici del particolare formato o della particolare categoria a cui quel formato appartiene (ad esempio: formati di testo, formati immagine, formati audio, etc.) e che prendono in considerazione le proprietà che si ritengono importanti per quei formati ai fini della migliore conservazione nel tempo. Ad esempio, per i formati immagine è possibile prendere in considerazione requisiti relativi alla risoluzione, alla profondità di colore, alla possibilità di ingrandimento e riduzione, etc. Per i formati audio i requisiti possono riguardare la frequenza di campionamento, la dimensione dei campioni, il numero di canali, il bitrate, e così via. Limitandoci a considerare i formati utilizzati per file con prevalente contenuto testuale, si possono elencare i seguenti requisiti 86 : - funzionalità di base: sono le funzionalità minime che il formato deve possedere per assicurane una corretta fruizione. Comprendono la possibilità di lettura a schermo, di stampa su carta, di ricerca del testo, di formattazione di carattere, paragrafo e pagina, etc. - integrità della struttura: prende in considerazione le funzionalità che un formato possiede grazie alla capacità di conservazione della struttura logica, quali, ad esempio, la possibilità di navigazione e di analisi automatizzata. Ciò risulta di estrema importanza per le enciclopedie, gli annuari, gli elenchi e tutti quei documenti di testo che fanno un ampio uso di una struttura formale. 85 Si definisce malware un qualsiasi software creato con lo scopo di causare danni al computer su cui viene eseguito. Il termine deriva dalla contrazione delle parole inglesi malicious e software e ha dunque il significato letterale di “programma maligno”; in italiano è detto anche codice maligno. 86 Si veda la pagina web della Library of Congress dedicata alla valutazione delle caratteristiche dei formati: Formats, Evaluation Factors, and Relationships, disponibile all’indirizzo <http://www.digitalpreservation. gov/formats/content/text_quality.shtml>. 27 - integrità del layout: considera la capacità del formato di garantire la conservazione dell’aspetto (ad esempio, con gli stessi font, lo stesso layout, la stessa disposizione degli elementi all’interno della pagina). - altre funzionalità di livello avanzato: sono le ulteriori funzionalità che possono essere presenti (quali, ad esempio, quelle relative all’accessibilità). È utile osservare che per alcuni formati, come il PDF e l’XPS, è di fondamentale importanza garantire un’accurata conservazione dell’aspetto, mentre per altri, come l’HTML 87 , assume una maggiore importanza la conservazione della struttura logica. 3. L’importanza dei requisiti Da quanto fin qui esposto appare evidente che un processo di conservazione digitale deve iniziare con la scelta dei formati che forniscano le maggiori garanzie. È preferibile dirigere la propria attenzione verso formati che soddisfino, innanzitutto, i requisiti generali di primo livello (non proprietà, apertura, trasparenza e standardizzazione, possibilmente de jure) e poi quelli di secondo livello (robustezza, stabilità, auto-contenimento, auto-documentazione, etc.); infine, vanno presi in esame i requisiti specifici della particolare categoria di formato che si sta considerando. L’importanza di avere formati che soddisfino questi requisiti è tale che tutte le più grandi aziende produttrici di software (che sono anche i principali produttori di formati) si stanno muovendo versa questa direzione, scatenando una vera e propria “guerra dei formati” nella quale ciascuno è in qualche modo coinvolto. Se, ad esempio, si prende in esame il panorama dei formati più utilizzati la produzione di contenuti nel settore dell’office automation, ci si rende conto di come ci si stia muovendo verso la creazione di formati che cercano di rispettare il più possibile tali requisiti; la situazione, schematicamente rappresentata in Figura 15, vede ormai uno scontro aperto tra la comunità open source OpenOffice.org, che ha sviluppato la famiglia di formati Open Document Format (ODF) utilizzati dall’omonima suite di automazione d’ufficio OpenOffice.org, e Microsoft, che ha creato la famiglia di formati Office Open XML Format (OOXML) utilizzati dalle ultime versioni della sua ben nota suite, Office 2007 e Office 2010. 87 Infatti, la rappresentazione delle pagine web, codificate nel formato HTML, varia a seconda del dispositivo su cui avviene, potendo assumere forme differenti a seconda che la pagina venga visualizzato sul display di un computer o sullo schermo di un palmare. 28 Figura 15. La guerra dei formati per l'office automation La famiglia di formati Open Document Format 88 soddisfa in pieno tutti i requisiti precedentemente analizzati: si tratta di formati non proprietari (la loro gestione appartiene alla comunità open source di OpenOffice.org e non sono controllati da alcuna azienda privata), aperti (le loro specifiche sono liberamente accessibili sul sito dell’OASIS e, a pagamento, su quello dell’ISO), completamente documentati (le loro specifiche sono costituite da un documento di circa 700 pagine in cui i formati vengono descritti in maniera esauriente e dettagliata), trasparenti (sono basati sull’XML ed i tag utilizzati sono stati disegnati specificamente per consentire la massima leggibilità, anche in maniera diretta da parte dell’uomo utilizzando un semplice editor di testo; risultano quindi non binari, eccezion fatta per i contenuti multimediali in essi eventualmente presenti); standard de jure (i formati sono stati riconosciuti come standard prima dall’OASIS e poi dall’ISO con la denominazione di ISO/IEC 26300:2006), ampiamente adottati (sono i formati di default per molte applicazioni89 ed inoltre molti Stati li hanno scelti come formati obbligatori per l’acquisizione nei depositi digitali. Nei confronti dei requisiti generali di secondo livello, l’ODF si presenta robusto (è stato concepito per essere più robusto dei formati binari)90 , auto-contenuto (tutti gli elementi che 88 L’ODF è il formato dei file prodotti con la nota suite di office automation OpenOffice.org, nonché da altre suite compatibili. Più precisamente si tratta di una famiglia dei formati alla quale appartengono l’ODT per i documenti di testo, l’ODS per i fogli di calcolo, l’ODP per le presentazioni e l’ODG per i grafici, solo per citare i più conosciuti. 89 L’ODF è il formato predefinito per le suite di office automation OpenOffice.org 2.0, KOffice 1.5, StarOffice 8, IBM Lotus Symphony e per altre applicazioni. Altre suite di ampia diffusione, compreso Microsoft Office 2007, consentono di salvare nel formato ODF mediante appositi add-in. 90 Dal momento che esso memorizza separatamente i singoli componenti del file, il rischio di perdita di dati a causa di file danneggiati o corrotti viene ridotto e migliorano le possibilità di recupero. Infatti, anche se una delle parti che compongono il file fosse corrotta, è possibile “ignorarla” e estrarre le informazioni dalle rimanenti parti non corrotte. Inoltre, poiché il formato è ben documentato ed aperto, chiunque può creare strumenti per recuperare parti del file, per correggere le parti XML che non sono ben formate o per aggiungere eventuali elementi necessari che non sono presenti. Nel formato ODF la compressione, fattore che riduce la trasparenza, è opzionale. Nel caso si scelga di utilizzarla, l’algoritmo di compressione adottato 29 compongono il file possono essere inclusi all’interno del file in maniera da evitare qualsiasi tipo di riferimento verso l’esterno), auto-documentato (il formato permette di includere i metadati), indipendente dal dispositivo (essendo stato progettato proprio per essere indipendente dalla piattaforma tecnologica), privo di meccanismi tecnici di protezione (per impostazione predefinita i file ODF non vengono cifrati), privo di limitazioni sull’utilizzo (non è soggetto a restrizioni di alcun tipo, dovute a brevetti o licenze, non richiede il pagamento di diritti per l’utilizzo del formato e può essere adottato liberamente da qualsiasi produttore di software), accessibile (essendo esaustivamente e pubblicamente documentato, chiunque può creare il software necessario per la fruizione da parte di utenti diversamente abili), stabile (è uno standard internazionale ISO e nessun produttore di software ha la possibilità di apportare autonomamente modifiche alla specifica del formato; inoltre, ogni successiva versione del formato deve essere il frutto di un accordo unanime e sottoposto a revisione da parte della comunità open source), sicuro (se si fa attenzione all’utilizzo delle macro che, in quanto codice eseguibile, rendono il formato vulnerabile all’attacco di virus), efficiente (la compressione, opzionale, impiega un valido algoritmo di compressione standard e di tipo lossless). Per tutta risposta Microsoft, già sviluppatrice dei vecchi formati proprietari DOC, XLS e PPT utilizzati dalla sua suite di office automation Microsoft Office fino alla versione 2003, con la versione Office 2007 ha definitivamente abbandonato quei formati ed ha introdotto una nuova famiglia di formati, l’Office Open XML Format (OOXML) 91 . Si tratta di formati non proprietari (sono stati sviluppati da Microsoft ed erano, quindi, proprietari fino a quando, all’inizio del 2008, hanno ottenuto il riconoscimento come standard ISO, perdendo, quindi, la caratteristica di proprietà), aperti (le loro specifiche sono liberamente accessibili sul sito Microsoft, dell’Ecma International e, a pagamento, su quello dell’ISO), completamente documentati (i formati sono esaustivamente descritti in una specifica di oltre 6000 pagine), trasparenti (sono basati sull’utilizzo di un file “contenitore” in formato ZIP al cui interno trovano posto, come nel caso dell’ODF, i contenuti testuali in formato XML ed eventuali contenuti binari, come le immagini) 92 , standard de jure (sono stati riconosciuti come standard prima dall’Ecma International con la norma ECMA-376 e poi dall’ISO con la norma ISO/IEC 29500:2008, sebbene con due anni di ritardo rispetto all’ODF), ampiamente adottati (essendo i formati predefiniti delle suite Microsoft Office 2007 e Office 2010, le quali godono di un’ampia diffusione). Per quanto riguarda i requisiti generali di secondo livello, i formati della famiglia OOXML sono robusti (a differenza dei formati delle precedenti release di Microsoft Office sono di tipo non binario, eccezion fatta, ovviamente, per la presenza di eventuali contenuti grafici, audio e video), auto-contenuti (tutti gli oggetti necessari alla rappresentazione di un file in formato OOXML possono essere inclusi all’interno del file), auto-documentati (i metadati è lo ZIP, di tipo lossless, aperto, completamente documentato, non soggetto a licenze ed ampiamente adottato. 91 La famiglia di formati OOXML è composta da diversi formati: i più conosciuti sono il DOCX per i documenti di testo, l’XLSX per i fogli di calcolo e il PPTX per le presentazioni. 92 Tuttavia l’OOXML risulta meno trasparente rispetto all’ODF. Da un confronto tra i due formati pubblicato sul sito della ODF Alliance (<http.//www.odfalliance.org>), l’organizzazione che supporta lo sviluppo del formato ODF, si evince che l’ODF, concepito per essere il più possibile comprensibile, appare più human readable rispetto all’OOXML. Dal canto suo Microsoft ha affermato che il fatto che il suo formato sia più “criptico” rispetto all’ODF consente di ottenere una maggiore riduzione delle dimensioni. Cfr. PETER O’KELLY, GUY CREESE, What’s Up, .DOC? ODF, OOXML, and the Revolutionary Implications of XML in Productivity Applications, Burton Grop, 2008, disponibile all’indirizzo <http://www.burtongroup.com/ Guest/Ccs/ WhatsUpDoc.aspx>. 30 sono inclusi anch’essi nel file “contenitore”), indipendenti dal dispositivo (essendo basati sull’XML, è possibile sviluppare applicazioni che siano in grado di gestire tali formati indipendentemente dalla piattaforma tecnologica utilizzata), privi di meccanismi tecnici di protezione (per impostazione predefinita, i file OOXML non vengono cifrati), privi di limitazioni sull’utilizzo (i formati sono esenti da diritti sull’utilizzo), accessibili (essendo basati sull’XML è possibile produrre file che, facendo un uso corretto dei tag, risultino accessibili), stabili (il fatto che sia stato riconosciuto come standard ISO fornisce ampie garanzie sul fatto che non subirà trasformazioni dettate da interessi privati) 93 , sicuri (come impostazione predefinita, i nuovi formati DOCX, XLSX e PPTX non possono contenere codice eseguibile – e quindi risultano immuni agli attacchi da parte dei virus da macro) 94 , efficienti (un file in formato OOXML è un “contenitore” di file XML e di altri oggetti digitali – immagini, audio, etc. – compresso mediante la tecnologia ZIP; poiché l’XML è un formato basato sul normale testo e può essere compresso con molta efficacia, è possibile ottenere significative riduzioni nella dimensione del file rispetto ad un analogo file binario con lo stesso contenuto). Un’analoga situazione si presenta se si prendono in esame i formati di descrizione di pagina, quali il PDF (con il suo profilo PDF/A) e il suo concorrente XPS. Limitandoci ai soli requisiti generali di primo livello, è possibile osservare come il formato PDF (Portable Document Format), che gode attualmente di una diffusione pressoché universale, sia non proprietario (era di proprietà di Adobe Systems, ma dopo il riconoscimento come standard ISO 32000-1:2008 è diventato non proprietario), aperto (le sue specifiche sono liberamente accessibili), non trasparente (è generalmente compresso), standard de facto e, dall’inizio del 2008, a seguito del riconoscimento come standard ISO, anche standard de jure. Allo stesso modo il formato PDF/A (PDF/Archiving) 95 , la versione “limitata” del formato PDF nata per rispondere al bisogno crescente di conservazione a lungo termine dei documenti elettronici, è aperto (le sue specifiche sono liberamente accessibili), non proprietario (anch’esso era di proprietà di Adobe Systems, ma dopo il riconoscimento come standard ISO 19005-1:2005 è diventato non proprietario), non trasparente (è compresso) e standard de jure. L’XPS (acronimo di XML Paper Specification Document Format), sviluppato da Microsoft ed introdotto con il sistema operativo Microsoft Windows Vista come diretto concorrente del PDF, è un formato proprietario (ma è in corso il processo di standardizzazione, a seguito del quale, se giungerà a conclusione, anche l’XPS diventerà non proprietario), aperto (le sue specifiche sono pubbliche), trasparente (è completamente basato sull’XML), non standard (anche se potrebbe presto diventare per lo meno standard de facto, grazie alla potenza commerciale di Microsoft che lo ha integrato all’interno di due applicazioni di grande diffusione, i sistemi operativi Microsoft Windows Vista e Windows 7 e le suite di office automation Microsoft Office 2007 o Office 2010). 93 Inoltre, Microsoft Office 2007 garantisce la compatibilità all’indietro con alcune delle precedenti versioni della suite: Microsoft Office 2003, Microsoft Office XP e Microsoft Office 2000. Gli utenti di queste versioni possono, pertanto, continuare ad utilizzare i vecchi formati binari DOC, XLS e PPT, che rimangono completamente compatibili con Microsoft Office 2007. Se, invece, intendono passare al nuovo formato non devono far altro che scaricare un add-in gratuito che permette loro di aprire e modificare i file nel formato OOXML pur continuando ad utilizzare le vecchie versioni della suite. 94 Se si desidera abilitare le macro, occorre esplicitamente utilizzare i formati macro-enabled, che vengono identificati da una particolare estensione e possono così essere facilmente individuati. 95 La “/A” presente nel nome del formato, sebbene non venga formalmente definita in alcun documento tecnico, fa evidentemente riferimento ai termini inglesi “Archiving” o “Archive”. 31 4. Conclusioni Come si può intuire, il quadro che si sta prospettando è abbastanza variegato e non è assolutamente semplice fare previsioni su quali saranno i formati che riusciranno ad imporsi. Appare, invece, evidente l’importanza di scegliere formati che cerchino di soddisfare al massimo grado anzitutto i requisiti generali di primo livello (non proprietà, apertura, standardizzazione e trasparenza) e poi il maggior numero possibile di requisiti generali di secondo livello. Ed è proprio questa la direzione verso la quale si stanno muovendo tutte le maggiori aziende e le comunità produttrici di software, come dimostrano gli esempi dei formati ODF, OOXML, PDF (con il suo profilo PDF/A) e XPS appena presi in esame e quelli di numerosi altri formati di grande adozione. È fondamentale, quindi, che nella scelta di un formato compatibile con un processo di conservazione digitale ci si orienti verso quei formati che soddisfano al massimo livello questi requisiti in maniera da fondare su basi solide il processo di conservazione digitale. 32