UNIVERSITA' DEGLI STUDI DI MACERATA Facoltà di Lettere e Filosofia Facoltà di Economia Facoltà di Beni Culturali Master in "Formazione, gestione e conservazione di archivi digitali in ambito pubblico e privato" IIIª edizione Anno Accademico 2009-10 “Analisi del formato XMP come requisito obbligatorio dello standard ISO 19005-1:2005” Corsista : Luciano Pilla Relatore: Prof. Stefano Alleggrezza “The digital medium is replacing paper in a dramatic record-keeping revolution. But such documents may be lost unless we act now” Jeff Rothenberg Sommario INTRODUZIONE ................................................................................................................................................. 4 CAPITOLO I......................................................................................................................................................... 5 CHE COSA SONO I METADATI? ............................................................................................................................. 5 FORMATI DI FILE .................................................................................................................................................. 8 CAPITOLO II ....................................................................................................................................................... 9 PDF/A – PORTABLE DOCUMENT FORMAT FOR ARCHIVING .................................................................................. 9 Livelli di conformità ......................................................................................................... 11 CAPITOLO III.................................................................................................................................................... 16 XMP – EXTENSIBLE METADATA PLATFORM ..................................................................................................... 16 RDF - RESOURCE DESCRIPTION FRAMEWORK .................................................................................................. 16 PANORAMICA XMP........................................................................................................................................... 17 Il Framework XMP........................................................................................................... 21 INSERIMENTO DEI METADATI IN FILES PDF ....................................................................................................... 23 Info dictionary document.................................................................................................. 24 Metadata streams ............................................................................................................. 25 XMP Packet - pacchetto xmp ........................................................................................... 26 CONCLUSIONI .................................................................................................................................................. 27 Introduzione Con il passare degli anni si è avuta una sempre maggiore facilità di produzione delle informazioni, una sempre maggiore capacità di trasferirle, di renderle disponibili, di duplicarle e di integrarle. Di contro, la possibilità di perderle, o di veder alterata l’informazione originale è diventata sempre più probabile. Il problema della perdita e/o alterazione delle informazioni è certamente molto complesso. In tutto il mondo hanno preso corpo, con un’enorme impiego di risorse, importanti studi e progetti (InterPARES, PLANET, CASPAR, DELOS etc. etc.) per individuare come riuscire a conservare per decenni l’ ingente quantità di differenti tipologie di informazioni digitali che abbiamo generato e che genereremo. Sintetizzando il problema della conservazione digitale può essere espresso come il tentativo di rileggere correttamente i bit così come erano stati originariamente registrati, su di un supporto molto probabilmente differente da quello attuale (Bit Preservation) e di mantenere la comprensione e le modalità di impiego dei dati anche quando le attuali tecnologie impiegate per l’hardware, i sistemi operativi, i sistemi di data management e gli applicativi potrebbero non essere più disponibili (Logical Preservation). Appare evidente, la complessità di quanto dovrebbe essere messo in opera per garantire la corretta conservazione della memoria digitale. Ben conscio che il formato del file rappresenti solo uno degli aspetti che concerne il processo di conservazione digitale, in questa breve trattazione andremo ad analizzare i requisiti del formato PDF/A, come formato che ad oggi si è affermato come standard per la conservazione dei documenti digitali e in particolare approfondiremo i metadati in formato XMP che lo standard in oggetto (ISO 19005-1:2005) richiede come requisiti obbligatori (metadati in formato XMP) per la conformità del formato allo standard. Capitolo I Che cosa sono i metadati? Prima di entrare nel merito del formato di file occorre chiarire quale sia il ruolo dei metadati e l’importanza che rivestono nel mondo “binario”. Nel linguaggio corrente una risorsa viene anche detta “documento”, per mettere in evidenza il fatto che sia leggibile da un essere umano, o “oggetto”, per mettere in evidenza che è leggibile da una macchina. Qualunque sia il termine utilizzato, la risorsa non è una entità a sé, ma è accompagnata da informazioni che la descrivono. Le informazioni sulla risorsa vengono generalmente dette Metadati. Il termine metadata, normalmente associato alle risorse elettroniche, in realtà si riferisce ad una precisa attività: applicare ai documenti delle “etichette”, principalmente con lo scopo di renderne accessibile l'informazione. Per meglio comprendere cosa siano i metadati e quale importanza rivestano nel panorama dei contenuti digitali partiremo da un esempio fantasioso. Immaginiamo che, da questo momento tutte le etichette presenti sulle scatolette di cibo in un supermercato scomparirebbero. Senza etichette quello che prima poteva essere solo una noiosa attività (parlo per il sottoscritto, naturalmente) fatta di spostamenti veloci tra i vari corridoi e interminabili code, diventerebbe una impresa più che avventurosa, oltre che sorprendente. Infatti, non ci sorprenderemo affatto, se nel tornare a casa, anziché trovare all’interno delle scatolette dei legumi precotti, vi troveremo dell’ottimo cibo per gatti. Attraverso le etichette è dunque possibile orientarsi tra gli scaffali, localizzare le risorse, vedere se sono disponibili, guardare attentamente gli ingredienti di cui si compongono, conservare il prodotto in un ambiente consono, selezionare il prodotto che più risponde alle proprie esigenze etc. etc. Basta quindi la presenza delle etichette a mettere in moto tutta una serie di attività e di azioni che sarebbero impensabili senza la loro presenza. Va aggiunto, inoltre, che se alcune informazioni sono comprensibili direttamente dall’ utenza (human-understandble) altre come il codice a barre, sono comprensibili solo attraverso specifiche apparecchiature elettroniche, come i lettori di barcode (machine-understable) o una opportuna tabella di riferimento, come nel caso della tabella nutrizionale (cross-referencetable). Altre ancora sono così strutturate che ciascun elemento contenuto all’interno della tabella è composto da una categoria, un tipo di dati e un valore (es. tabella valori nutrizionali). Le informazioni presenti sulle scatolette sono pertanto così eterogenee da rendere impossibile un’unica categorizzazione. Oltre ciò, alle informazioni corrispondono cicli di vita e fasi differenti del prodotto, ad esempio. il prezzo appartiene alla fase della vendita, il codice di produzione alla omonima fase, le proprietà di conservazione alla fase di conservazione, la tabella nutrizionale potrebbe addirittura appartenere ad una fase ben precisa della vita, magari ad uno stato di debolezza dovuto ad un intervento operatorio così come venire incontro ad una persona che ha deciso di seguire un tipo particolare di alimentazione magari per perdere qualche kilo di troppo. Pertanto si può affermare con certezza che l’etichetta di un prodotto racchiude in sé un ampio ed eterogeneo raggruppamento di informazioni che la dicono lunga su quello che rappresenta il ciclo di vita del prodotto in questione. L’esempio del supermercato, seppur fantasioso, mette in scena ciò che potrebbe succedere se al posto delle scatolette avremmo a disposizione dei contenuti digitali privi di metadati. Per ribadire lo stretto legame che intercorre tra contenuti digitali e metadati vale la pena prendere in prestito una frase di Giovanni Bergamin che ben descrive il rapporto di necessarietà che si stabilisce tra le risorse digitali e i metadati: “Una sequenza (…) di bit è inutilizzabile senza metadati in grado di trasformarla in risorsa”. In sintesi, non esiste risorsa informativa digitale senza l’accoppiamento di una sequenza di bit con le informazioni sulla rappresentazione che ne è l’origine. Insomma il rapporto tra dati e metadati è inscindibile. Figura 1: rapporto di necessarietà tra dati e metadati Se, una delle verità informatiche, consiste nella normale scindibilità fisica dei bit dal supporto e nella conseguente trasferibilità fisiologica del contenuto del documento informatico da un supporto all’altro, è altrettanto vero che una risorsa digitale senza una dettagliata descrizione della stessa non esiste. Se volessimo tradurre questa dichiarazione attraverso una equazione matematica potremmo affermare che la carta sta al contenuto come i metadati stanno alla risorsa (Carta : contenuto = metadati : risorsa). Ad oggi, pertanto, accanto alla scindibilità del supporto dalla sequenza di bit rappresentativa del contenuto (informazione/dati/documenti), si afferma il principio dell’ inscindibilità dell’ informazione/dati/risorse dai metadati, ossia da una dettagliata descrizione degli stessi (vd. Figura 1). Figura 2: scindibilità dei bit dal supporto Formati di file Se l’unico modo per poter venir a conoscenza del contenuto di una scatoletta di legumi senza etichetta è quello di aprirla, è altrettanto vero che per poter accedere al contenuto di una risorsa digitale è necessario conoscere il formato con cui quel file è stato codificato. Un file, infatti, può essere codificato correttamente solo se viene identificato correttamente, ossia se si conosce il formato e la versione 1 con cui è stato generato. Questa non è l’unica limitazione imposta all’interpretazione di una risorsa digitale. Le specifiche di cui dicevamo, infatti, devono essere aperte, standardizzate, non proprietarie, completamente documentate etc, altrimenti si rischia di non trovare, all’interno della “scatoletta”, il contenuto che stavamo cercando, o più probabilmente, di trovare al suo interno del contenuto scaduto… Se, abbiamo la necessità di conservare la scatoletta di legumi per un periodo più lungo, magari aprirla qualche mese dopo, è necessario seguire alcune regole che ci permettano di preservarne il contenuto; andrà magari conservata a temperature consigliate, lontana da fonti di calore, evitando zone di umidità etc. Quando parliamo di conservazione dei documenti digitali è altrettanto necessario assicurarsi che i formati dei files siano in possesso di determinati requisiti 2 . Ad oggi, i formati dei files più o meno conformi a tali requisiti sono diversi anche se, “lo scenario che va delineandosi vede una sorta di competizione tra i formati OOXML, PDF, PDF/A e XPS” 3 . 1 Per esempio il fatto che un documento sia nel formato .doc non ci dice nulla riguardo la versione precisa del file. L’estensione .doc viene utilizzata, infatti, per indicare tutti i formati prodotti dalla suite Microsoft Office dal 1997 al 2003. Solo con le ultime release (office 2007, 2010, 2011 viene indicata una estensione differente .docx che si riferisce alla versione del formato rilasciata nel 2007). 2 Il professor Stefano Allegrezza in “Produzione e conservazione del documento digitale”, individua i requisiti cui “deontologicamente” (lì dove non sono richiesti nello specifico) i formati dei files devono possedere per essere adatti ad un processo di lunga conservazione. Tra questi troviamo: l’apertura, la completa documentazione, non proprietà, standardizzazione, ampia adozione (wide adoption), trasparenza (trasparency), robustezza (robustness), auto-contenimento (self-containment), auto-documentazione (self-documetation), indipendenza dal dispositivo (device-indipendence), assenza di meccanismi di protezione, assenza di limitazioni sull’utilizzo, accessibilità, stabilità (stability), non modificabilità (unmodificable), sicurezza, efficienza, compatibilità all’indietro e in avanti (backwprd/forword compatibility). 3 Stefano Allegrezza, Stefano Pigliapoco, Requisiti e standard per i formati elettronici, Volume I, Eum edizioni Università di Macerata, 2008 Tralasciando i formati OOXML e XPS la nostra analisi si incentra sul formato Pdf ed in particolare su un suo subset: il formato Pdf/a, come formato adatto ad un processo di lunga conservazione. Capitolo II PDF/A – portable document format for archiving Il formato PDF è diventato in questi anni lo standard de facto per la presentazione e divulgazione dei contenuti digitali a prevalente carattere testuale. Tuttavia “…nella sua forma standard non è adatto alla conservazione digitale poiché non può garantire la riproducibilità a lungo termine e neanche la conservazione dell’aspetto visivo 4 ”. Per queste ragioni e con l’obiettivo di risolvere queste difficoltà il 28 settembre 2005, la International Standards Organization (ISO) ha approvato un nuovo standard per l’archiviazione dei documenti elettronici: ISO-19005-1 – Document management – Electronic Document file format for long-term preservation. Questo standard definisce un nuovo formato (PDF/A-1) per l’archiviazione di documenti elettronici a lungo termine ed è basato sul PDF Reference Version 1.4 di Adobe Systems Inc. L’ obiettivo era quello di soddisfare la crescente necessità di archiviare elettronicamente i documenti in modo tale da assicurarne la conservazione del contenuto per periodi di tempo lunghi, nonché la possibilità di recuperarli e visualizzarli in futuro con risultati prevedibili e consistenti. Questo nuovo standard nasce quindi per rispondere al bisogno sempre più crescente di conservare a lungo i documenti elettronici. Lo standard non definisce un metodo di archiviazione o un obiettivo d’ archiviazione, identifica piuttosto un “profilo” per i documenti elettronici che assicura che i documenti possono essere riprodotti esattamente allo stesso modo negli anni a venire. L’obiettivo del PDF/A, come già più volte ripetuto, è la conservazione a lungo termine dei documenti elettronici e quindi un elemento chiave di questa riproducibilità è il requisito per PDF/A che i documenti siano completamente auto-contenuti (self-containemnt), auto documentati (self-documentation) e indipendenti dal dispositivo (device-indipendent). 4 Stefano Allegrezza, Stefano Pigliapoco, Requisiti e standard per i formati elettronici, Volume I, Eum edizioni Università di Macerata, 2008 Nelle specifiche inoltre, vengono espressamente definite quali caratteristiche del formato sono obbligatorie (required), quali raccomandate (recommended), quali limitate (restricted) e quali infine proibite (prohibited) . La tabella sottostante elenca nel dettaglio le caratteristiche citate: General Required - Recommended Conformance to 1.4 requiremnts Graphics Required - - Linearization hints should be ignored Recommended Device indipendent color Embedded color spaces Restricted - Restricted - Fonts Required - - Recommended Fonts legally embeddable for unlimited, universal rendering Embedded font programs Embedded CMap Consistent font metrics Unicode character map (for level A confermance only) Annotations Required Reader mechanism to expose the annotation dictionary Contents key Actions Required - - - Font subset Recommended Document information dictionary must be consistent with XMP metadata - Encryption LZW compression Embedded files Optional content Sound and movie media types - Referenxe X Objects PostScript X Object Non-PDF 1.4 defined operators Trasparency Proibhited Characters encoding Restricted - - Proibhited Image dictionaries Separation and DeviceN color spaces Form X Object Extended graphics state Rendering intents Restricted Annotations dictionaries Proibhited Non-PDF 1.4 defined types File attachment, sound, and movie types Recommended Restricted Proibhited Launch, sound, movie, ResetForm, ImportData and javascript actions Deprecated set-state and noop actions Named actions other than the 4 page navigation actions Widget annotation or Field dictionary AA key Recommended Restricted Proibhited Behaviour for NextPage, PrevPage, FirstPage and LastPage actions as defined in PDF 1.4 Reader mechanism to expose GoToR dictionary F and D keys, URI action dictionary key, and SubmitForm action dictionary F key MetaData Required Require use of extensible Metadata platform (XMP) Proprietary but open format Used for metadata creation, processing and interchange Based on Resource Description Framework (RDF) Open Word Wide Web Consortiun (W3C) standards Cornerstone of semantic web Pre-defined schema Base, DC, DRM, DAM, Workflow, EXIF, PDF, PSD Defined extension mechanism Embedding rules TIFF, JPEG, JPEG2000, HTML, AI, PSD, PDF Document level xmp metadata Equivalent XMP metadata for all appropriate Document Information Dictionary properties Embedded Extension Proibhited - File identifier File provenance Font metadata - XMP packet header bytes and econding attributes - Schema Version and conformance self-identification Da quanto si evince, il formato PDF/A richiede delle determinate funzionalità e ne proibisce delle altre. Ad esempio, per assicurare una riproduzione precisa del testo, tutti i font utilizzati devono essere embedded; per poter garantire la corretta riproduzione dei colori è necessario che tutti i colori vengano specificati in un formato indipendente dal sistema. I metadati devono essere integrati in formato XMP; la crittografia non deve essere utilizzata. Oltre a queste semplici prescrizioni, PDF/A richiede comunque numerose altre caratteristiche, come la presenza di specifiche informazioni nella struttura dei font, e non ammette alcune strutture critiche, ad esempio alcune combinazioni di font TrueType e di codifiche. Tra le caratteristiche espressamente proibite troviamo l’utilizzo di contenuti multimediali audio e video 5 , l’utilizzo di codice eseguibile (javascript), la cifratura del file, l’uso della trasparenza, l’uso dei collegamenti esterni (link), l’utilizzo di file incorporati e la compressione con l’algoritmo proprietario LZW. Livelli di conformità A secondo del grado di aderenza allo standard ISO 19005-1:2005 si possono stabilire due possibili livelli di conformità: – PDF/A-1a (ISO 19005-1 Level A Conformance in Part 1 6 ) – PDF/A-1b (ISO 19005-1 Level B Conformance in Part 1 7 ) Essi oltre a differire per il grado di conformità allo standard si differenziano per la presenza di informazioni sulla struttura del file oltre che per la possibilità di interpretare semanticamente il testo. Più precisamente, Il PDF/A-1a (conformità completa) non preserva soltanto l'aspetto 5 Per permettere l'integrazione delle nuove funzionalità stanno per essere apportate delle modifiche agli standard di archiviazione: PDF/A-2 (ISO 19005-2) contemplerà diverse nuove funzionalità attualmente non previste da PDF/A-1, tra le altre novità in questo ambito la compressione JPEG 2000, i contenuti opzionali (livelli), la trasparenza, il PDF Portfolio, ecc. Lo standard PDF/A-2 non renderà obsoleto il PDF/A-1 e non costringerà gli utenti a migrare alla nuova versione. Sarebbe un evidente controsenso per uno standard destinato a garantire la riproduzione affidabile nel lungo periodo! 6 ISO 19005-1A:2005, Document Management – Electronic document file format for long-term preservation – Part 1: Use of PDF 1.4 (PDF/A-1); specifies the use of the Portable Document Format (PDF) for the not only the visual representation but also semantic information and comprehensive metadata in compliance with all parts of the specification. del PDF nel lungo termine, ma interpreta anche il suo contenuto (semantica) rendendolo accessibile a tutti gli utenti anche su dispositivi palmari o altri apparati. A differenza del PDF/A-1a, il PDF/A-1b rappresenta i livello di conformità minima che garantisce la riproduzione affidabile dell’aspetto visivo del documento nel lungo periodo. PDF/A-1b fa sì che il documento conservi lo stesso aspetto anche quando verrà visualizzato o stampato in futuro, non garantendo, pertanto, che il suo contenuto potrà essere interpretato semanticamente. Oltre ciò il PDF/A-1b non richiede neppure l’inclusione di tutte le tipologie specificate per i metadati, così come espressamente menzionato dallo standard ISO 190051B:2005 8 . Figura 3: relazioni tra le varie versioni del formato PDF/A-1 Da quanto si evince dalla figura 1, è chiaro che un file conforme alle specifiche del PDF/A-1a sarà conforme anche a quelle del PDF/A-1b; ovviamente non varrà il contrario. 8 ISO 19005-1B:2005, Document Management – Electronic document file format for long-term preservation – Part 1: Use of PDF 1.4 (PDF/A-1); specifies the use of the Portable Document Format (PDF) for primarily visual representation and does not require the presence of semantic information or inclusion of all specified types of metadata PDF/A e metadati Come più volte ribadito, i metadati sono legati alla risorsa da un rapporto di necessarietà, ossia non esiste risorsa senza una sua appropriata descrizione. Per capire quanto questa definizione influenzi il mondo binario basti pensare al nome di un file. Questo costituisce il metadato più scontato ma anche il più efficace per legare una risorsa al suo contenuto. Ognuno di noi, infatti, nella gestione del proprio file system attribuisce ai files una nomenclatura più o meno esplicita ma indispensabile ai fini della sua “catalogazione”. Se abbandoniamo i confini del nostro desktop le problematiche aumentano. Tornando all’esempio dei generi alimentari, una domanda ci viene spontanea: se anziché trovarci in un supermercato Italiano ci fossimo trovati in un market Inglese saremmo stati ancora capaci di comprendere tutte le informazioni presenti sulla scatoletta dei legumi? La risposta è scontata. La conoscenza della lingua inglese sarebbe stata necessaria alla comprensione (understable) delle informazioni, e solo grazie ad essa saremmo potuti uscire dal market con la busta contenente i prodotti che stavamo cercando. Come ben sanno linguisti ed esperti di comunicazione alla base della comprensione c’è la condivisione di regole semantiche, sintattiche e grammaticali, in estrema sintesi, deve esserci un codice condiviso affinché due o più interlocutori possano dialogare e comprendersi. La mancanza di un codice condiviso, quindi di metadati comprensibili, emerse come un grave problema già all’inizio degli anni novanta, soprattutto nel web. Gli esseri umani possono ottenere molte informazioni da una pagina con i tag HTML in quanto il browser converte i dati in un linguaggio ordinario che la gente capisce. Tuttavia, per una macchina che non comprende il linguaggio umano, l’ HTML non aggiunge alcuna comprensione. Un file marcato solo con i tag HTML è comprensibile al computer come una scatoletta di legumi senza etichetta può esserlo per il suo possibile acquirente. Da qui, emerse la necessità di creare delle regole sintattiche, semantiche e grammaticali in grado di essere comprensibili sia alle macchine che alle persone. Fu in questo contesto che vennero sviluppati due nuovi “linguaggi”; il primo, RDF 9 (Resource Definition Framework), per la strutturazione delle “etichette”, il secondo XML 10 per facilitare la lettura delle “etichette” alle macchine. La piattaforma XMP, che come abbiamo visto costituisce una delle caratteristiche obbligatorie del formato PDF/A, si basa sia su RDF che su XML. MetaData Required - Require use of extensible Metadata platform - Proprietary but open format - Used for metadata creation, processing and Recommended Restricted Proibhited (XMP) interchange - Based on Resource Description Framework (RDF) - Open Word Wide Web Consortiun (W3C) - Cornerstone of semantic web - File identifier - Pre-defined schema - File provenance bytes and econding - Base, DC, DRM, DAM, Workflow, EXIF, PDF, PSD - Font metadata attributes - Defined extension mechanism - Embedding rules - TIFF, JPEG, JPEG2000, HTML, AI, PSD, PDF - Document level xmp metadata - Equivalent XMP metadata for all appropriate - Embedded Extension Schema - Version and conformance self-identification standards - XMP packet header Document Information Dictionary properties 9 Wikipedia: Il Resource Description Framework (RDF) è lo strumento base proposto da W3C per la codifica, lo scambio e il riutilizzo di metadati strutturati e consente l'interoperabilità tra applicazioni che si scambiano informazioni sul Web. 10 10 Wikipedia: Rispetto all'HTML, l'XML ha uno scopo ben diverso: mentre il primo definisce una grammatica per la descrizione e la formattazione di pagine web e, più in generale, di ipertesti, il secondo è un metalinguaggio utilizzato per creare nuovi linguaggi, atti a descrivere documenti strutturati. Mentre l'HTML ha un insieme ben definito e ristretto di tag, con l'XML è invece possibile definirne di propri a seconda delle esigenze. “Context is everything. Metadata brings context to data. XMP brings structure to metadata” Capitolo III XMP – Extensible Metadata Platform Se, parlando di generi alimentari l’ Rfid 11 sta rivoluzionando profondamente le tradizionali etichette e di conseguenza i processi e le attività che si costruiscono intorno ad esse, nel mondo del digitale Adobe ha riconosciuto la necessità di realizzare un formato comune per i metadati utilizzabile con tutte le applicazioni e i formati. È stata così implementata la Extensible Metadata Platform (XMP). Si tratta di un formato XML modellato sulla base di RDF (Resource Description Framework), la pietra fondante dell'iniziativa Semantic Web 12 , del W3C. RDF - Resource Description Framework Il Resource Description Framework (RDF) non descrive la semantica, ma fornisce una base comune per poterla esprimere, permettendo di definire la semantica dei tag XML necessaria a supportare i metadati. RDF è un’applicazione XML che permette di esprimere la semantica per la codifica, lo scambio e l’elaborazione automatica dei metadati. Inoltre, consente di rendere disponibili, in una forma comprensibile sia ad un lettore umano che ad una macchina, i vocabolari progettati per lo scambio, l’uso e l’estensione della semantica dei metadati tra comunità specialistiche 11 Le etichette intelligenti sono dei minuscoli chip a radiofrequenza basati sulla tecnologia RFID (Radio Frequency Identification) con circuiti in grado di contenere informazioni, di elaborarle e di trasmetterle. I chip si attivano quando entrano nel campo elettromagnetico generato da appositi apparecchi lettori in grado di comunicare con l’etichetta. Tramite le etichette RFID si possono avere immediate informazioni su un prodotto, come la data di confezionamento o la scadenza, seguire i percorsi di processo nella catena produttiva, conoscere in tempo reale le consistenze di un magazzino, facilitare l’accesso sui mezzi di trasporto o a determinati luoghi, effettuare l’inventario dei libri, identificare un bene dalla produzione allo smaltimento. I sistemi a pagamento automatici sulle autostrade si basano sulla tecnologia RFID 12 Con il termine web semantico, termine coniato dal suo ideatore, Tim Berners-Lee, si intende la trasformazione del World Wide Web in un ambiente dove i documenti pubblicati (pagine HTML, file, immagini, e così via) siano associati ad informazioni e dati (metadati) che ne specifichino il contesto semantico in un formato adatto all'interrogazione, all'interpretazione e, più in generale, all'elaborazione automatica. Con l'interpretazione del contenuto dei documenti che il Web semantico propugna, saranno possibili ricerche molto più evolute delle attuali, basate sulla presenza nel documento di parole chiave, e altre operazioni specialistiche come la costruzione di reti di relazioni e connessioni tra documenti secondo logiche più elaborate del semplice collegamento ipertestuale. diverse 13 . L’impatto dell’adozione di RDF su larga scala può essere ben descritto riportando quanto sostenuto da Ora Lassilla: Once the web has been sufficientl “populated” with rich metadata, what can we expect? First, searching on the web will become more easier as search engines have more information available, and thus searching can be more focused. Doors will also be opened for automated software agents to roam the web, looking for information for us transacting business on our behalf. The web of today, the vast unstructured mass of information, may in the future be transformed into something more manageable – and thus something far more useful 14 . Panoramica XMP Il Resource Definition Framework (RDF) è un componente chiave della piattaforma XMP. Come tale esso definisce la sintassi, i vocabolari, i concetti e la semantica, che sono fondamentali per utilizzare XML. Poiché i metadati XMP vengono scritti direttamente nei files in forma di pacchetti XML (XMP Packet), Adobe fornisce un modello di dati su come organizzare i metadati in modo da essere accessibili da applicazioni diverse da quelle che hanno generato il file. Oltre al modello di dati, Adobe fornisce un modello di serializzazione che descrive come il modello di dati è rappresentato in XML (RDF). I metadati XMP si muovono con il file stesso e possono essere integrati in numerosi file comuni tra i quali PDF, TIFF e JPEG. Le proprietà dei metadati vengono raggruppate nei 13 Il concetto di comunità di riferimento è un concetto cardine del modello OAIS. Il modello precisa una classe speciale di utenti indicata come la “comunità di riferimento”: il sottoinsieme degli utenti in grado di comprendere autonomamente l’informazione archiviata nella forma in cui è conservata e resa disponibile dall’OAIS. Infatti una delle responsabilità obbligatorie di un archivio OAIS è quella di conservare l’informazione in un modo che sia comprensibile agli utenti di riferimento. Ad esempio se l’OAIS contiene studi o insiemi di dati relativi a una determinata disciplina, allora la “comunità di riferimento” può consistere di tutti gli individui che possiedono un certo livello di conoscenze in quell’area, che potrebbero usare quanto è stato archiviato per ottenere informazioni o come punto di partenza per la ricerca di base o applicata. Così, se il contenuto di un archivio OAIS consiste in bilanci, dichiarazioni dei redditi o in altri documenti finanziari di imprese commerciali, la “comunità di riferimento” potrebbe essere identificata con gli enti di controllo governativi e con i professionisti del mondo finanziario e contabile in grado di offrire sintesi e interpretazioni di queste informazioni. In entrambi gli esempi, i contenuti dell’OAIS potrebbero essere liberamente accessibili da chiunque; in questo caso, gli utenti di un OAIS coinciderebbero con il pubblico in generale. Tuttavia solo chi possiede una conoscenza sufficientemente specializzata per usare le informazioni archiviate senza l’assistenza di un esperto fa parte della “comunità di riferimento” dell’OAIS. 14 Introduction to RDF Metadata, W3C NOTE 1997-11-13, Ora Lassilla, URL: http://www.w3.org/TR/NOTErdf-simple-intro cosiddetti schemi. Ogni schema viene identificato da un namespace URI univoco e contiene un numero arbitrario di proprietà. Le specificazioni includono più di dieci schemi predefiniti con centinaia di proprietà per le caratteristiche comuni di documenti e immagini. Lo schema XMP predefinito più diffuso è il Dublin Core, abbreviato dc 15 . Esso contiene delle proprietà generali come Titolo, Creato da, Oggetto e Descrizione. Oltre agli schemi predefiniti è possibile creare degli schemi personalizzati in modo tale da poter soddisfare le esigenze di una precisa comunità o di un settore in termini di metadati specifici. Lo schema XMP per documenti PDF è stato introdotto con la release 5 di Acrobat Professional basata sulla versione del PDF 1.4. Lo schema che ha preceduto i file XMP per i PDF era formato da semplici coppie chiave/valore, le cosiddette informazioni sul documento, l’ unica formula utilizzata per trasportare i metadati prima dell'introduzione di XMP (vedi figura ). 15 Il progetto del Dublin Core (nome completo: Dublin Core Metadata Initiative, in acronimo DCMI) si è sviluppato in ambito OCLC (On line Computer Library Center), la grande rete di servizi americana per le biblioteche. Nel marzo 1995 si è tenuta una conferenza nella città americana di Dublin (Ohio), alla quale i partecipanti hanno convenuto sulla necessità di creare un insieme di strumenti condivisi per l’accesso alle risorse digitali. Lo scopo era quello di stabilire un insieme base di elementi descrittivi che potessero essere forniti dall’autore o dall’editore dell’oggetto digitale, ed inclusi in esso, o da esso referenziati. Il consorzio di utenti che si è costituito ha incominciato così a sviluppare un’architettura per i metadata che venisse incontro alle necessità dei venditori e dei produttori di informazioni. Il set, proposto nel dicembre 1996, era costituito da quindici elementi di base: Titolo (Title) , Autore (Creator),Soggetto (Subject), Descrizione (Description), Editore (Publisher), Autore di contributo subordinato (Contributor), Data (Date), Tipo (Type), Formato (Format), Identificatore (Identifier), Fonte (Source), Lingua (Language), Relazione (Relation), Copertura (Coverage), Gestione dei diritti (Rights Management). Figura 4: document dictionary information Mentre le informazioni sul documento continuano ad essere supportate nei file PDF, i metadati XMP sono una soluzione molto più potente che permette sia di inserire i metadati direttamente nel file in formato xml, sia di poter essere comprese da applicazioni che non supportano il formato pdf. I metadati XMP possono essere visualizzati e modificati nel pannello proprietà documento in Acrobat, o sotto la voce di menu info per le altre applicazioni che compongono la suite publishing di adobe (Photoshop, InDesign, Illustrator). Sono diverse le imprese e le comunità specialistiche che utilizzano XMP per soddisfare le proprie esigenze in termini di metadati. Tra queste troviamo: Il consorzio AdsML crea specifiche e processi per lo scambio di informazioni e contenuti pubblicitari. La International Press Telecommunications Council (IPTC) è un Gruppo industriale fondato da agenzie di stampa. Sviluppa standard industriali per lo scambio di notizie. Ha pubblicato l' “IPTC Core” per XMP, uno schema largamente utilizzato per trasferire i metadati di immagini e di altri elementi delle notizie. Lo standard DICOM per lo scambio di immagini mediche supporta l’uso di PDF e specifica uno schema XMP personalizzato per memorizzare i dati dei pazienti, la descrizione dello studio, i dettagli sugli equipaggiamenti e altri metadati. Il Publishing Requirements for Industry Standard Metadata (PRISM) definisce un vocabolario di metadati per elaborare i contenuti di riviste, news, cataloghi, libri e giornali. Il Framework XMP Proprio come la “scatoletta di lenticchie” è un array di elementi stampati, rappresentativa di azioni ed eventi intercorsi nella filiera del prodotto alimentare (vedi figura 2) un’ “etichetta” XMP è una sequenza di metadati, o elementi di metadati rappresentativa degli eventi e degli agenti che sono intercorsi nel ciclo di vita del documento. Figura 5: ciclo di vita di un prodotto alimentare (scatoletta di legumi) I metadati, infatti, sono connessi con l’oggetto digitale attraverso eventi (evento di creazione, evento di spostamento, evento della pubblicazione, della copia, ecc..); ovviamente c’è un agente, un soggetto umano o software che agisce, che causa l’evento e provoca delle modifiche all’oggetto e conseguentemente marca, attraverso i metadati, queste informazioni. L’agente inoltre può agire o meno su un sistema di diritti. Anche i diritti e le opportunità, di imporre certe eventi ai dati, sono definiti da set di metadati appositi. La rivoluzione di Adobe e della piattaforma XMP sta proprio nella capacità di poter contenere in una sequenza di byte la descrizione di tutti gli eventi intercorsi nella produzione, gestione e scambio di una risorsa digitale. L’aspetto peculiare è che il framework XMP rispetta questa realtà: se un documento viene assemblato da sub-documenti, ciascuno dei quali contiene etichette di metadati differenti, l’etichetta sotto-documento viene nidificata nel documento master. Attraverso il framework XMP è possibile mappare ciascuna di queste azioni ed eventi, sia nel caso in cui vengono scaturiti da persone che da agenti software. Se c'è qualcosa che può essere identificata o che è stata descritta, esiste con molta probabilità una etichetta collegata ad essa. Figura 6: Semplice vs complesso incorporazione dei metadati in un documento Citando Pierluigi Feliciati “le relazioni tra risorse informative e metadati, dunque, appaiono anche solo ad uno sguardo veloce tanto cruciali quanto particolarmente dinamiche e articolate”. Tanto per rammentare alcune tra le proprietà di tali relazioni, basta dire che i metadati possono essere statici, dinamici, integrati nella risorsa (pensiamo alla proprietà di un file che è possibile visualizzare semplicemente aprendo la scheda proprietà del file, come ad es. la data di creazione, di modifica, il peso, il titolo, l’autore etc. ), che diversi schemi di metadati con diverse funzioni 16 possono essere associati allo stesso oggetto, che più oggetti possono essere 16 Le funzioni che i metadati hanno sulle risorse digitali sono diverse: Ricerca (individuare l’esistenza di un documento, di una risorsa digitale); localizzazione (dove si trova ed eventualmente dove è stata trasferita una risorsa digitale); selezione (utilizzo di informazioni aggiuntive per la distinzione dei files); gestione(ossia gestire le raccolte di documenti grazie all’intermediazione di banche dati e cataloghi;) disponibilità (vvero ottenere associati tra loro tramite metadati e infine che durante il ciclo di vita di una risorsa è necessario che l’intero corpus di metadati sia aggiornato, per documentare tutti gli eventi ad essa occorsi. Il tutto, ovviamente, deve anche essere utilizzabile con efficacia, vale a dire identificabile, databile, ricercabile, associabile, restituibile, sia al fine di garantire funzioni più spiccatamente gestionali che rispondere ad un uso appropriato da parte della “comunità designata”. Secondo Pierluigi Feliciati “il rapporto tra dati e metadati è reso ancor più complesso dalla varietà di schemi e modelli di metadati sviluppati nell’ambito di progetti anche molto diversi l’uno dall’altro che porta inevitabilmente ad una continua ricerca sulle attività di mapping, ossia attività che permette la comunicazione tra modelli e schemi differenti e che l’adozione del metalinguaggio XML sembra non riuscire completamente a colmare gli spazi di incomunicabilità tra un uno schema e l’altro”. La piattaforma XMP rappresenta uno sforzo da parte di Adobe in questa direzione, ossia fornire un formato comune per i metadati, utilizzabile con tutte le applicazioni e i formati. Inserimento dei metadati in files PDF I metadati possono essere memorizzati in un documento PDF in uno dei seguenti modi: In un vocabolario di informazioni associato al documento (info dictionary document) Nel flusso di metadati (metadata stream) che può essere associato al documento o ad un oggetto del documento informazioni sull’effettiva disponibilità del documento); gestione: (ossia gestire le raccolte di documenti grazie all’intermediazione di banche dati e cataloghi;) Info dictionary document La voce opzionale Info, contenuta all’interno del trailer 17 del documento pdf può contenere un vocabolario di informazioni al cui interno sono specificati i metadati del documento. Oltre alle voci richieste, indicate nella figura 7, è possibile inserire voci personalizzate basate sulla coppia soggetto – attributo come si può vedere dalla figura 8 che mostra l’inserimento di voci personalizzate nel document dictionary attraverso l’applicazione per la generazione di documenti PDF Adobe Acrobat Professional versione 9.2. VOCI CHE COMPONGONO IL DOCUMENT INFORMATION DICTIONARY key type value Title Text string Il titolo del documento Author Text string Il nome della persona che ha creato il documento Subject Text string L’argomento del documento Keywords Text string Parole chave associate al documento Se il documento è stato convertito in pdf da un altro formato, il nome dell’applicazione (per esempio adobe indesign) che ha creato il documento originale dal quale è stato convertito. Se il documento è stato convertito in pdf da un altro formato, il nome dell’applicazione che lo ha convertito in pdf Creator Text string Producer Text string CreationDate date La data e l’ora in cui il documento è stato creato, in un formato comprensibile ModDate date La data e l’ora in cui il documento ha avuto le modifiche più recenti sempre in un formato comprensibile 17 La struttura complessiva di un documento PDF è abbastanza semplice. Può essere suddivisa nelle seguenti componenti: header, body, cross-reference table, trailer. L’header contiene il numero della versione del file (magic number). Il corpo (body) comprende gli oggetti contenuti nel file come: testo, immagini e font. Il corpo può anche contenere oggetti streams, le quali contengono una sequenza di oggetti pdf. La cross reference table o la cross reference streams possono essere pensate come degli indici in quanto forniscono la posizione degli oggetti nel body. Il trailer fornisce la posizione della crossreference table così come degli altri oggetti. Uleriori dati posso seguire il trailer come le sezioni di aggiornamento che includono le modifiche apportate al file in seguito all’aggiornamento dello stesso Trapped name Il nome di un oggetto che indica se il documento è stato modificato per includere informazioni di trapping (vd 10.10.5 trapping support) True: il documento è stato completamente trapped, non c’è bisogno di un trapping ulteriore False: il documento non è ancora stato trapped, Unkown: non si conosce se il documento è stato trapped o se è stata trapped solo una piccola parte, comunque dovrebbero ancora essere aggiunte alcune trapping Figura 7: info dictionary doument Figura 8: inserimento metadati personalizzati nell’information document dictionary Metadata streams I metadati, sia se riferiti a tutto il documento, sia se riferiti a singoli oggetti all’interno del documento possono essere memorizzati in sequenze che prendono il nome di metadata streams. Le sequenze di metadati (metadata streams) hanno i seguenti vantaggi rispetto all’ information documentary dictionary: 1. flussi di lavoro basati sul pdf possono incorporare differenti oggetti, ad esempio una immagine prodotta con Photoshop, un logo creato con Illustrator. Le sequenze di metadati forniscono una modalità standard per tener traccia di tutti i metadati inseriti in ciascun oggetto, in modo che le applicazioni che supportano il pdf sono in grado di avere un lista contenente i metadati di tutti gli oggetti che costituiscono la risorsa digitale aggregata; 2. possono essere letti anche da applicazioni che non supportano il formato PDF. L’ esempio sottostante mostra come i metadati XMP, incorporati in un pacchetto XMP, vengono memorizzati come sequenze di metadati: 1152 0 obj << /Type /Metadata /Subtype /XML /Length 1706 >> stream <?xpacket begin='' id='W5M0MpCehiHzreSzNTczkc9d'?> <!-- The serialized RDF goes here. It has been removed for brevity. --> <?xpacket end='w'?> endstream endobj Questo è possibile poiché il contenuto delle sequenze dei metadati viene codificato in formato XML ed è leggibile a scansioni di agenti software sempre se il documento non è stato crittografato. XMP Packet - pacchetto xmp Il pacchetto xmp rappresenta il cuore dell’ Extensible Metadata Platform. I metadati XMP vengono serializzati in xml per essere memorizzati all’interno dei files. Questi dati serializzati sono conosciuti col nome di pacchetti xmp. Un pacchetto xmp è completamente autocontenuto e indipendente da qualsiasi formato di file. Questo significa che, indipendentemente dal formato in cui i metadati vengono serializzati, è possibile risalire ad essi attraverso la scansione di agenti software e operazioni di retrieving. Adobe è riuscita nell’ impresa specificando una struttura binaria, chiamata pacchetto XMP (Packet XMP). Questo pacchetto esiste come parte del file ed è simile a quanto rappresentato nella figura 6: Figura 9: Struttura semplificata di un pacchetto XMP Come possiamo vedere sono quattro gli elementi costitutivi del pacchetto ossia: 1. header 2. xml metadata 3. trailer 4. pudding di seguito presentiamo una versione dell’XMP Packet estratta dal modulo pdf che abbiamo predisposto per il project work: <?xpacket begin="■" id="W5M0MpCehiHzreSzNTczkc9d"?> <rdf:Description rdf:about ="" xmlns:pdfx="http://ns.adobe.com/pdfx/1.3/"> <pdfx:sesso>Maschio</pdfx:sesso> <pdfx:data_richiesta>12/06/2010</pdfx:data_richiesta> <pdfx:settore>gestione elettronica documenti</pdfx:settore> <pdfx:qualifica>responsabile di produzione</pdfx:qualifica> <pdfx:nome>luciano</pdfx:nome> <pdfx:cognome>pilla</pdfx:cognome> <pdfx:mail>[email protected]</pdfx:mail> <pdfx:telefono>3477010678</pdfx:telefono> <pdfx:tipo_documento>modulo di richiesta</pdfx:tipo_documento> <pdfx:RagioneSociale>MadeInMedia societa cooperativa</pdfx:RagioneSociale> <pdfx:username>pilla</pdfx:username> </rdf:Description> </rdf:RDF> </x:xmpmeta> <?xpacket end="w"?> Conclusioni Se riferendoci ancora una volta ai generi alimentari per conoscere il contenuto di una scatoletta senza etichetta avevamo bisogno di aprirla, parlando di risorse digitali grazie alla piattaforma XMP possiamo conoscere tutte le etichette presenti in un file pur non conoscendo il formato con il quale quel file è stato codificato. Come abbiamo visto, questo è dovuto al fatto che Adobe è riuscita ad integrare un flusso di metadati in formato xml direttamente nel file. I metadati in formato XMP, pertanto, sono visibili sia ad agenti software che direttamente all’ utenza (ad es. in Acrobat Professional è possibile visualizzare le proprietà dei metadati XMP attraverso l’apposito pannello). Sembra quindi risolto il paradigma che si era presentato all’inizio della stesura: etichette comprensibili sia alle macchine che a differenti comunità di utenze. Va da sé, infatti, che la strutturazione delle etichette potrebbe comportare un utilizzo differente delle risorse in base all’utenza finale di fruizione. Prendendo in prestito una frase di Giovanni Michetti: “sempre più spesso la rappresentazione di un documento” è “il risultato dell’aggregazione istantanea di componenti digitali distinte all’origine”, ne consegue che la piattaforma XMP permette di tenere traccia di tutti i metadati delle componenti aggregate fossero anch’esse vincoli solo virtuali. Per concludere, se l'esplosione dell'informazione digitale ha dato grande impulso alla ricerca di metodologie moltiplicando in maniera esponenziale standard (Dublin Core, MAG, MODS, METS, Premis, ) e profili applicativi 18 Adobe ha trovato il modo di farli convivere all’interno di un unico formato. 18 Pierluigi Feliciati, Atti convegno Università di Macerata Per Profilo applicativo si intende un assemblaggio di elementi selezionati da più schemi differenti, combinati in uno schema nuovo, in una sorta di pacchetto finalizzato a garantire per un determinato contesto applicativo piena modularità ed estensibilità per le funzioni previste, ma senza perdere l'opportunità di interoperare con altre applicazioni che adottano gli schemi di metadati origine. Bibliografia Automazione e Beni culturali, “Archivi & computer”, anno XVII, fascicolo 1/2007. Le tecnologie dell’informazione al servizio degli archivi: riflessioni e proposte per la conservazione a lungo termine, “Archivi & computer”, anno XVI, fascicolo 1/2006. STEFANO PIGLIAPOCO, La memoria digitale delle amministrazioni pubbliche. requisiti , metodi e sistemi per la produzione, archiviazione e conservazione dei documenti informatici, Rimini, Maggioli Editore, 2005. MARIA GUERCIO, Principi, metodi e procedure per la conservazione a lungo termine dei documenti informatici, Dicembre 2004. MARIA GUERCIO, La gestione elettronica dei documenti e la tenuta degli archivi. Principi generali e requisii archivistici, Roma. STEFANO PIGLIAPOCO, STEFANO ALLEGREZZA “Produzione e conservazione del documento digitale” Requisiti e standard per i formati elettronici – Eum edizioni Università di Macerata, 2008 P. FELICIATI, Gestione e conservazione di dati e metadati: quali standard?, in Atti del convegno Conservare il digitale, Riflessioni su modelli archivistici, figure professionali e soluzioni applicative, Macerata (Italy), May 7-8 2009 (In Press), e in EPRINTS; P. FELICIATI – M.T. NATALE (a cura di), Manuale per l’interazione con gli utenti del Web culturale, MINERVA eC WG5, Roma, aprile 2009, e in MINERVAeurope; Siti di riferimento: www.adobe.com/products/xmp/ partners.adobe.com/public/developer/xmp/topic.html www.aiim.org/documents/standards/xmpspecification.pdf www.adobe.com/devnet/xmp/pdfs/xmp_specification.pdf www.xmpopen.org www.w3.org/RDF/ http://www.pdfa.org/doku.php http://www.cnipa.gov.it/site/itIT/Attivit%c3%a0/Dematerializzazione/Attivit%c3%a0_del_set tore/Tavoli_tecnici/