UNIVERSITA' DEGLI STUDI DI MACERATA
Facoltà di Lettere e Filosofia Facoltà di Economia
Facoltà di Beni Culturali
Master in
"Formazione, gestione e conservazione di archivi digitali
in ambito pubblico e privato"
IIIª edizione Anno Accademico 2009-10
“Analisi del formato XMP come requisito obbligatorio dello standard ISO
19005-1:2005”
Corsista : Luciano Pilla
Relatore: Prof. Stefano Alleggrezza
“The digital medium is replacing paper in a
dramatic record-keeping revolution. But such
documents may be lost unless we act now”
Jeff Rothenberg
Sommario
INTRODUZIONE ................................................................................................................................................. 4
CAPITOLO I......................................................................................................................................................... 5
CHE COSA SONO I METADATI? ............................................................................................................................. 5
FORMATI DI FILE .................................................................................................................................................. 8
CAPITOLO II ....................................................................................................................................................... 9
PDF/A – PORTABLE DOCUMENT FORMAT FOR ARCHIVING .................................................................................. 9
Livelli di conformità ......................................................................................................... 11
CAPITOLO III.................................................................................................................................................... 16
XMP – EXTENSIBLE METADATA PLATFORM ..................................................................................................... 16
RDF - RESOURCE DESCRIPTION FRAMEWORK .................................................................................................. 16
PANORAMICA XMP........................................................................................................................................... 17
Il Framework XMP........................................................................................................... 21
INSERIMENTO DEI METADATI IN FILES PDF ....................................................................................................... 23
Info dictionary document.................................................................................................. 24
Metadata streams ............................................................................................................. 25
XMP Packet - pacchetto xmp ........................................................................................... 26
CONCLUSIONI .................................................................................................................................................. 27
Introduzione
Con il passare degli anni si è avuta una sempre maggiore facilità di produzione delle
informazioni, una sempre maggiore capacità di trasferirle, di renderle disponibili, di
duplicarle e di integrarle. Di contro, la possibilità di perderle, o di veder alterata
l’informazione originale è diventata sempre più probabile. Il problema della perdita e/o
alterazione delle informazioni è certamente molto complesso. In tutto il mondo hanno
preso corpo, con un’enorme impiego di risorse, importanti studi e progetti (InterPARES,
PLANET, CASPAR, DELOS etc. etc.) per individuare come riuscire a conservare per
decenni l’ ingente quantità di differenti tipologie di informazioni digitali che abbiamo
generato e che genereremo.
Sintetizzando il problema della conservazione digitale può essere espresso come il
tentativo di rileggere correttamente i bit così come erano stati originariamente registrati,
su di un supporto molto probabilmente differente da quello attuale (Bit Preservation) e di
mantenere la comprensione e le modalità di impiego dei dati anche quando le attuali
tecnologie impiegate per l’hardware, i sistemi operativi, i sistemi di data management e
gli applicativi potrebbero non essere più disponibili (Logical Preservation). Appare
evidente, la complessità di quanto dovrebbe essere messo in opera per garantire la corretta
conservazione della memoria digitale.
Ben conscio che il formato del file rappresenti solo uno degli aspetti che concerne il
processo di conservazione digitale, in questa breve trattazione andremo ad analizzare i
requisiti del formato PDF/A, come formato che ad oggi si è affermato come standard per
la conservazione dei documenti digitali e in particolare approfondiremo i metadati in
formato XMP che lo standard in oggetto (ISO 19005-1:2005) richiede come requisiti
obbligatori (metadati in formato XMP) per la conformità del formato allo standard.
Capitolo I
Che cosa sono i metadati?
Prima di entrare nel merito del formato di file occorre chiarire quale sia il ruolo dei metadati e
l’importanza che rivestono nel mondo “binario”.
Nel linguaggio corrente una risorsa viene anche detta “documento”, per mettere in evidenza il
fatto che sia leggibile da un essere umano, o “oggetto”, per mettere in evidenza che è leggibile
da una macchina. Qualunque sia il termine utilizzato, la risorsa non è una entità a sé, ma è
accompagnata da informazioni che la descrivono. Le informazioni sulla risorsa vengono
generalmente dette Metadati. Il termine metadata, normalmente associato alle risorse
elettroniche, in realtà si riferisce ad una precisa attività: applicare ai documenti delle
“etichette”, principalmente con lo scopo di renderne accessibile l'informazione.
Per meglio comprendere cosa siano i metadati e quale importanza rivestano nel panorama dei
contenuti digitali partiremo da un esempio fantasioso. Immaginiamo che, da questo momento
tutte le etichette presenti sulle scatolette di cibo in un supermercato scomparirebbero. Senza
etichette quello che prima poteva essere solo una noiosa attività (parlo per il sottoscritto,
naturalmente) fatta di spostamenti veloci tra i vari corridoi e interminabili code, diventerebbe
una impresa più che avventurosa, oltre che sorprendente. Infatti, non ci sorprenderemo
affatto, se nel tornare a casa, anziché trovare all’interno delle scatolette dei legumi precotti, vi
troveremo dell’ottimo cibo per gatti.
Attraverso le etichette è dunque possibile orientarsi tra gli scaffali, localizzare le risorse,
vedere se sono disponibili, guardare attentamente gli ingredienti di cui si compongono,
conservare il prodotto in un ambiente consono, selezionare il prodotto che più risponde alle
proprie esigenze etc. etc. Basta quindi la presenza delle etichette a mettere in moto tutta una
serie di attività e di azioni che sarebbero impensabili senza la loro presenza.
Va aggiunto, inoltre, che se alcune informazioni sono comprensibili direttamente dall’ utenza
(human-understandble) altre come il codice a barre, sono comprensibili solo attraverso
specifiche apparecchiature elettroniche, come i lettori di barcode (machine-understable) o una
opportuna tabella di riferimento, come nel caso della tabella nutrizionale (cross-referencetable). Altre ancora sono così strutturate che ciascun elemento contenuto all’interno della
tabella è composto da una categoria, un tipo di dati e un valore (es. tabella valori nutrizionali).
Le informazioni presenti sulle scatolette sono pertanto così eterogenee da rendere impossibile
un’unica categorizzazione.
Oltre ciò, alle informazioni corrispondono cicli di vita e fasi differenti del prodotto, ad
esempio. il prezzo appartiene alla fase della vendita, il codice di produzione alla omonima
fase, le proprietà di conservazione alla fase di conservazione, la tabella nutrizionale potrebbe
addirittura appartenere ad una fase ben precisa della vita, magari ad uno stato di debolezza
dovuto ad un intervento operatorio così come venire incontro ad una persona che ha deciso di
seguire un tipo particolare di alimentazione magari per perdere qualche kilo di troppo.
Pertanto si può affermare con certezza che l’etichetta di un prodotto racchiude in sé un ampio
ed eterogeneo raggruppamento di informazioni che la dicono lunga su quello che rappresenta
il ciclo di vita del prodotto in questione.
L’esempio del supermercato, seppur fantasioso, mette in scena ciò che potrebbe succedere se
al posto delle scatolette avremmo a disposizione dei contenuti digitali privi di metadati. Per
ribadire lo stretto legame che intercorre tra contenuti digitali e metadati vale la pena prendere
in prestito una frase di Giovanni Bergamin che ben descrive il rapporto di necessarietà che si
stabilisce tra le risorse digitali e i metadati: “Una sequenza (…) di bit è inutilizzabile senza
metadati in grado di trasformarla in risorsa”.
In sintesi, non esiste risorsa informativa digitale senza l’accoppiamento di una sequenza di bit
con le informazioni sulla rappresentazione che ne è l’origine. Insomma il rapporto tra dati e
metadati è inscindibile.
Figura 1: rapporto di necessarietà tra dati e metadati
Se, una delle verità informatiche, consiste nella normale scindibilità fisica dei bit dal supporto
e nella conseguente trasferibilità fisiologica del contenuto del documento informatico da un
supporto all’altro, è altrettanto vero che una risorsa digitale senza una dettagliata descrizione
della stessa non esiste. Se volessimo tradurre questa dichiarazione attraverso una equazione
matematica potremmo affermare che la carta sta al contenuto come i metadati stanno alla
risorsa (Carta : contenuto = metadati : risorsa).
Ad oggi, pertanto, accanto alla scindibilità del supporto dalla sequenza di bit rappresentativa
del contenuto (informazione/dati/documenti), si afferma il principio dell’ inscindibilità dell’
informazione/dati/risorse dai metadati, ossia da una dettagliata descrizione degli stessi (vd.
Figura 1).
Figura 2: scindibilità dei bit dal supporto
Formati di file
Se l’unico modo per poter venir a conoscenza del contenuto di una scatoletta di legumi senza
etichetta è quello di aprirla, è altrettanto vero che per poter accedere al contenuto di una
risorsa digitale è necessario conoscere il formato con cui quel file è stato codificato. Un file,
infatti, può essere codificato correttamente solo se viene identificato correttamente, ossia se si
conosce il formato e la versione 1 con cui è stato generato.
Questa non è l’unica limitazione imposta all’interpretazione di una risorsa digitale. Le
specifiche di cui dicevamo, infatti, devono essere aperte, standardizzate, non proprietarie,
completamente documentate etc, altrimenti si rischia di non trovare, all’interno della
“scatoletta”, il contenuto che stavamo cercando, o più probabilmente, di trovare al suo interno
del contenuto scaduto…
Se, abbiamo la necessità di conservare la scatoletta di legumi per un periodo più lungo,
magari aprirla qualche mese dopo, è necessario seguire alcune regole che ci permettano di
preservarne il contenuto; andrà magari conservata a temperature consigliate, lontana da fonti
di calore, evitando zone di umidità etc. Quando parliamo di conservazione dei documenti
digitali è altrettanto necessario assicurarsi che i formati dei files siano in possesso di
determinati requisiti 2 .
Ad oggi, i formati dei files più o meno conformi a tali requisiti sono diversi anche se, “lo
scenario che va delineandosi vede una sorta di competizione tra i formati OOXML, PDF,
PDF/A e XPS” 3 .
1
Per esempio il fatto che un documento sia nel formato .doc non ci dice nulla riguardo la versione precisa del
file. L’estensione .doc viene utilizzata, infatti, per indicare tutti i formati prodotti dalla suite Microsoft Office dal
1997 al 2003. Solo con le ultime release (office 2007, 2010, 2011 viene indicata una estensione differente .docx
che si riferisce alla versione del formato rilasciata nel 2007).
2
Il professor Stefano Allegrezza in “Produzione e conservazione del documento digitale”, individua i requisiti
cui “deontologicamente” (lì dove non sono richiesti nello specifico) i formati dei files devono possedere per
essere adatti ad un processo di lunga conservazione. Tra questi troviamo: l’apertura, la completa
documentazione, non proprietà, standardizzazione, ampia adozione (wide adoption), trasparenza (trasparency),
robustezza (robustness), auto-contenimento (self-containment), auto-documentazione (self-documetation),
indipendenza dal dispositivo (device-indipendence), assenza di meccanismi di protezione, assenza di limitazioni
sull’utilizzo, accessibilità, stabilità (stability), non modificabilità (unmodificable), sicurezza, efficienza,
compatibilità all’indietro e in avanti (backwprd/forword compatibility).
3
Stefano Allegrezza, Stefano Pigliapoco, Requisiti e standard per i formati elettronici, Volume I, Eum edizioni
Università di Macerata, 2008
Tralasciando i formati OOXML e XPS la nostra analisi si incentra sul formato Pdf ed in
particolare su un suo subset: il formato Pdf/a, come formato adatto ad un processo di lunga
conservazione.
Capitolo II
PDF/A – portable document format for archiving
Il formato PDF è diventato in questi anni lo standard de facto per la presentazione e
divulgazione dei contenuti digitali a prevalente carattere testuale. Tuttavia “…nella sua forma
standard non è adatto alla conservazione digitale poiché non può garantire la riproducibilità a
lungo termine e neanche la conservazione dell’aspetto visivo 4 ”. Per queste ragioni e con
l’obiettivo di risolvere queste difficoltà il 28 settembre 2005, la International Standards
Organization (ISO) ha approvato un nuovo standard per l’archiviazione dei documenti
elettronici: ISO-19005-1 – Document management – Electronic Document file format for
long-term preservation. Questo standard definisce un nuovo formato (PDF/A-1) per
l’archiviazione di documenti elettronici a lungo termine ed è basato sul PDF Reference
Version 1.4 di Adobe Systems Inc.
L’ obiettivo era quello di soddisfare la crescente necessità di archiviare elettronicamente i
documenti in modo tale da assicurarne la conservazione del contenuto per periodi di tempo
lunghi, nonché la possibilità di recuperarli e visualizzarli in futuro con risultati prevedibili e
consistenti. Questo nuovo standard nasce quindi per rispondere al bisogno sempre più
crescente di conservare a lungo i documenti elettronici.
Lo standard non definisce un metodo di archiviazione o un obiettivo d’ archiviazione,
identifica piuttosto un “profilo” per i documenti elettronici che assicura che i documenti
possono essere riprodotti esattamente allo stesso modo negli anni a venire.
L’obiettivo del PDF/A, come già più volte ripetuto, è la conservazione a lungo termine dei
documenti elettronici e quindi un elemento chiave di questa riproducibilità è il requisito per
PDF/A che i documenti siano completamente auto-contenuti (self-containemnt), auto
documentati (self-documentation) e indipendenti dal dispositivo (device-indipendent).
4
Stefano Allegrezza, Stefano Pigliapoco, Requisiti e standard per i formati elettronici, Volume I, Eum edizioni
Università di Macerata, 2008
Nelle specifiche inoltre, vengono espressamente definite quali caratteristiche del formato sono
obbligatorie (required), quali raccomandate (recommended), quali limitate (restricted) e quali
infine proibite (prohibited) . La tabella sottostante elenca nel dettaglio le caratteristiche citate:
General
Required
-
Recommended
Conformance to 1.4
requiremnts
Graphics
Required
-
-
Linearization
hints should be
ignored
Recommended
Device indipendent color
Embedded color spaces
Restricted
-
Restricted
-
Fonts
Required
-
-
Recommended
Fonts legally embeddable for
unlimited, universal
rendering
Embedded font programs
Embedded CMap
Consistent font metrics
Unicode character map (for
level A confermance only)
Annotations
Required
Reader mechanism to expose
the annotation dictionary
Contents key
Actions
Required
-
-
-
Font subset
Recommended
Document
information dictionary
must be consistent
with XMP metadata
-
Encryption
LZW compression
Embedded files
Optional content
Sound and movie media
types
-
Referenxe X Objects
PostScript X Object
Non-PDF 1.4 defined
operators
Trasparency
Proibhited
Characters encoding
Restricted
-
-
Proibhited
Image dictionaries
Separation and
DeviceN color spaces
Form X Object
Extended graphics
state
Rendering intents
Restricted
Annotations
dictionaries
Proibhited
Non-PDF 1.4 defined types
File attachment, sound, and
movie types
Recommended
Restricted
Proibhited
Launch, sound, movie,
ResetForm, ImportData and
javascript actions
Deprecated set-state and noop actions
Named actions other than the
4 page navigation actions
Widget annotation or Field
dictionary AA key
Recommended
Restricted
Proibhited
Behaviour for NextPage,
PrevPage, FirstPage and
LastPage actions as defined
in PDF 1.4
Reader mechanism to expose
GoToR dictionary F and D
keys, URI action dictionary
key, and SubmitForm action
dictionary F key
MetaData
Required
Require use of extensible
Metadata platform (XMP)
Proprietary but open format
Used for metadata creation,
processing and interchange
Based on Resource
Description Framework
(RDF)
Open Word Wide Web
Consortiun (W3C) standards
Cornerstone of semantic web
Pre-defined schema
Base, DC, DRM, DAM,
Workflow, EXIF, PDF, PSD
Defined extension
mechanism
Embedding rules
TIFF, JPEG, JPEG2000,
HTML, AI, PSD, PDF
Document level xmp
metadata
Equivalent XMP metadata
for all appropriate Document
Information Dictionary
properties
Embedded Extension
Proibhited
-
File identifier
File provenance
Font metadata
-
XMP packet header bytes
and econding attributes
-
Schema
Version and conformance
self-identification
Da quanto si evince, il formato PDF/A richiede delle determinate funzionalità e ne proibisce
delle altre. Ad esempio, per assicurare una riproduzione precisa del testo, tutti i font utilizzati
devono essere embedded; per poter garantire la corretta riproduzione dei colori è necessario
che tutti i colori vengano specificati in un formato indipendente dal sistema. I metadati
devono essere integrati in formato XMP; la crittografia non deve essere utilizzata. Oltre a
queste semplici prescrizioni, PDF/A richiede comunque numerose altre caratteristiche, come
la presenza di specifiche informazioni nella struttura dei font, e non ammette alcune strutture
critiche, ad esempio alcune combinazioni di font TrueType e di codifiche.
Tra le caratteristiche espressamente proibite troviamo l’utilizzo di contenuti multimediali
audio e video 5 , l’utilizzo di codice eseguibile (javascript), la cifratura del file, l’uso della
trasparenza, l’uso dei collegamenti esterni (link), l’utilizzo di file incorporati e la
compressione con l’algoritmo proprietario LZW.
Livelli di conformità
A secondo del grado di aderenza allo standard ISO 19005-1:2005 si possono stabilire due
possibili livelli di conformità:
–
PDF/A-1a (ISO 19005-1 Level A Conformance in Part 1 6 )
–
PDF/A-1b (ISO 19005-1 Level B Conformance in Part 1 7 )
Essi oltre a differire per il grado di conformità allo standard si differenziano per la presenza di
informazioni sulla struttura del file oltre che per la possibilità di interpretare semanticamente
il testo. Più precisamente, Il PDF/A-1a (conformità completa) non preserva soltanto l'aspetto
5
Per permettere l'integrazione delle nuove funzionalità stanno per essere apportate delle modifiche agli standard
di archiviazione: PDF/A-2 (ISO 19005-2) contemplerà diverse nuove funzionalità attualmente non previste da
PDF/A-1, tra le altre novità in questo ambito la compressione JPEG 2000, i contenuti opzionali (livelli), la
trasparenza, il PDF Portfolio, ecc. Lo standard PDF/A-2 non renderà obsoleto il PDF/A-1 e non costringerà gli
utenti a migrare alla nuova versione. Sarebbe un evidente controsenso per uno standard destinato a garantire la
riproduzione affidabile nel lungo periodo!
6
ISO 19005-1A:2005, Document Management – Electronic document file format for long-term preservation –
Part 1: Use of PDF 1.4 (PDF/A-1); specifies the use of the Portable Document Format (PDF) for the not only
the visual representation but also semantic information and comprehensive metadata in compliance with all
parts of the specification.
del PDF nel lungo termine, ma interpreta anche il suo contenuto (semantica) rendendolo
accessibile a tutti gli utenti anche su dispositivi palmari o altri apparati.
A differenza del PDF/A-1a, il PDF/A-1b rappresenta i livello di conformità minima che
garantisce la riproduzione affidabile dell’aspetto visivo del documento nel lungo periodo.
PDF/A-1b fa sì che il documento conservi lo stesso aspetto anche quando verrà visualizzato o
stampato in futuro, non garantendo, pertanto, che il suo contenuto potrà essere interpretato
semanticamente. Oltre ciò il PDF/A-1b non richiede neppure l’inclusione di tutte le tipologie
specificate per i metadati, così come espressamente menzionato dallo standard ISO 190051B:2005 8 .
Figura 3: relazioni tra le varie versioni del formato PDF/A-1
Da quanto si evince dalla figura 1, è chiaro che un file conforme alle specifiche del PDF/A-1a
sarà conforme anche a quelle del PDF/A-1b; ovviamente non varrà il contrario.
8
ISO 19005-1B:2005, Document Management – Electronic document file format for long-term preservation –
Part 1: Use of PDF 1.4 (PDF/A-1); specifies the use of the Portable Document Format (PDF) for primarily
visual representation and does not require the presence of semantic information or inclusion of all specified
types of metadata
PDF/A e metadati
Come più volte ribadito, i metadati sono legati alla risorsa da un rapporto di necessarietà,
ossia non esiste risorsa senza una sua appropriata descrizione. Per capire quanto questa
definizione influenzi il mondo binario basti pensare al nome di un file. Questo costituisce il
metadato più scontato ma anche il più efficace per legare una risorsa al suo contenuto.
Ognuno di noi, infatti, nella gestione del proprio file system attribuisce ai files una
nomenclatura più o meno esplicita ma indispensabile ai fini della sua “catalogazione”.
Se abbandoniamo i confini del nostro desktop le problematiche aumentano. Tornando
all’esempio dei generi alimentari, una domanda ci viene spontanea: se anziché trovarci in un
supermercato Italiano ci fossimo trovati in un market Inglese saremmo stati ancora capaci di
comprendere tutte le informazioni presenti sulla scatoletta dei legumi? La risposta è scontata.
La conoscenza della lingua inglese sarebbe stata necessaria alla comprensione (understable)
delle informazioni, e solo grazie ad essa saremmo potuti uscire dal market con la busta
contenente i prodotti che stavamo cercando.
Come ben sanno linguisti ed esperti di comunicazione alla base della comprensione c’è la
condivisione di regole semantiche, sintattiche e grammaticali, in estrema sintesi, deve esserci
un codice condiviso affinché due o più interlocutori possano dialogare e comprendersi.
La mancanza di un codice condiviso, quindi di metadati comprensibili, emerse come un grave
problema già all’inizio degli anni novanta, soprattutto nel web. Gli esseri umani possono
ottenere molte informazioni da una pagina con i tag HTML in quanto il browser converte i
dati in un linguaggio ordinario che la gente capisce. Tuttavia, per una macchina che non
comprende il linguaggio umano, l’ HTML non aggiunge alcuna comprensione. Un file
marcato solo con i tag HTML è comprensibile al computer come una scatoletta di legumi
senza etichetta può esserlo per il suo possibile acquirente.
Da qui, emerse la necessità di creare delle regole sintattiche, semantiche e grammaticali in
grado di essere comprensibili sia alle macchine che alle persone. Fu in questo contesto che
vennero sviluppati due nuovi “linguaggi”; il primo, RDF 9 (Resource Definition Framework),
per la strutturazione delle “etichette”, il secondo XML 10 per facilitare la lettura delle
“etichette” alle macchine.
La piattaforma XMP, che come abbiamo visto costituisce una delle caratteristiche
obbligatorie del formato PDF/A, si basa sia su RDF che su XML.
MetaData
Required
-
Require use of extensible Metadata platform
-
Proprietary but open format
-
Used for metadata creation, processing and
Recommended
Restricted
Proibhited
(XMP)
interchange
-
Based on Resource Description Framework (RDF)
-
Open Word Wide Web Consortiun (W3C)
-
Cornerstone of semantic web
-
File identifier
-
Pre-defined schema
-
File provenance
bytes and econding
-
Base, DC, DRM, DAM, Workflow, EXIF, PDF, PSD
-
Font metadata
attributes
-
Defined extension mechanism
-
Embedding rules
-
TIFF, JPEG, JPEG2000, HTML, AI, PSD, PDF
-
Document level xmp metadata
-
Equivalent XMP metadata for all appropriate
-
Embedded Extension Schema
-
Version and conformance self-identification
standards
-
XMP packet header
Document Information Dictionary properties
9
Wikipedia: Il Resource Description Framework (RDF) è lo strumento base proposto da W3C per la codifica,
lo scambio e il riutilizzo di metadati strutturati e consente l'interoperabilità tra applicazioni che si scambiano
informazioni sul Web.
10
10 Wikipedia: Rispetto all'HTML, l'XML ha uno scopo ben diverso: mentre il primo definisce una grammatica
per la descrizione e la formattazione di pagine web e, più in generale, di ipertesti, il secondo è un metalinguaggio
utilizzato per creare nuovi linguaggi, atti a descrivere documenti strutturati. Mentre l'HTML ha un insieme ben
definito e ristretto di tag, con l'XML è invece possibile definirne di propri a seconda delle esigenze.
“Context is everything.
Metadata brings context to data.
XMP brings structure to metadata”
Capitolo III
XMP – Extensible Metadata Platform
Se, parlando di generi alimentari l’ Rfid 11 sta rivoluzionando profondamente le tradizionali
etichette e di conseguenza i processi e le attività che si costruiscono intorno ad esse, nel
mondo del digitale Adobe ha riconosciuto la necessità di realizzare un formato comune per i
metadati utilizzabile con tutte le applicazioni e i formati. È stata così implementata la
Extensible Metadata Platform (XMP). Si tratta di un formato XML modellato sulla base di
RDF (Resource Description Framework), la pietra fondante dell'iniziativa Semantic Web 12 ,
del W3C.
RDF - Resource Description Framework
Il Resource Description Framework (RDF) non descrive la semantica, ma fornisce una base
comune per poterla esprimere, permettendo di definire la semantica dei tag XML necessaria a
supportare i metadati.
RDF è un’applicazione XML che permette di esprimere la semantica per la codifica, lo
scambio e l’elaborazione automatica dei metadati. Inoltre, consente di rendere disponibili, in
una forma comprensibile sia ad un lettore umano che ad una macchina, i vocabolari progettati
per lo scambio, l’uso e l’estensione della semantica dei metadati tra comunità specialistiche
11
Le etichette intelligenti sono dei minuscoli chip a radiofrequenza basati sulla tecnologia RFID (Radio
Frequency Identification) con circuiti in grado di contenere informazioni, di elaborarle e di trasmetterle. I chip si
attivano quando entrano nel campo elettromagnetico generato da appositi apparecchi lettori in grado di
comunicare con l’etichetta. Tramite le etichette RFID si possono avere immediate informazioni su un prodotto,
come la data di confezionamento o la scadenza, seguire i percorsi di processo nella catena produttiva, conoscere
in tempo reale le consistenze di un magazzino, facilitare l’accesso sui mezzi di trasporto o a determinati luoghi,
effettuare l’inventario dei libri, identificare un bene dalla produzione allo smaltimento. I sistemi a pagamento
automatici sulle autostrade si basano sulla tecnologia RFID
12
Con il termine web semantico, termine coniato dal suo ideatore, Tim Berners-Lee, si intende la
trasformazione del World Wide Web in un ambiente dove i documenti pubblicati (pagine HTML, file, immagini,
e così via) siano associati ad informazioni e dati (metadati) che ne specifichino il contesto semantico in un
formato adatto all'interrogazione, all'interpretazione e, più in generale, all'elaborazione automatica.
Con l'interpretazione del contenuto dei documenti che il Web semantico propugna, saranno possibili ricerche
molto più evolute delle attuali, basate sulla presenza nel documento di parole chiave, e altre operazioni
specialistiche come la costruzione di reti di relazioni e connessioni tra documenti secondo logiche più elaborate
del semplice collegamento ipertestuale.
diverse 13 . L’impatto dell’adozione di RDF su larga scala può essere ben descritto riportando
quanto sostenuto da Ora Lassilla:
Once the web has been sufficientl “populated” with rich metadata,
what can we expect? First, searching on the web will become more
easier as search engines have more information available, and thus
searching can be more focused. Doors will also be opened for
automated software agents to roam the web, looking for information
for us transacting business on our behalf. The web of today, the vast
unstructured mass of information, may in the future be transformed
into something more manageable – and thus something far more
useful 14 .
Panoramica XMP
Il Resource Definition Framework (RDF) è un componente chiave della piattaforma XMP.
Come tale esso definisce la sintassi, i vocabolari, i concetti e la semantica, che sono
fondamentali per utilizzare XML. Poiché i metadati XMP vengono scritti direttamente nei
files in forma di pacchetti XML (XMP Packet), Adobe fornisce un modello di dati su come
organizzare i metadati in modo da essere accessibili da applicazioni diverse da quelle che
hanno generato il file. Oltre al modello di dati, Adobe fornisce un modello di serializzazione
che descrive come il modello di dati è rappresentato in XML (RDF).
I metadati XMP si muovono con il file stesso e possono essere integrati in numerosi file
comuni tra i quali PDF, TIFF e JPEG. Le proprietà dei metadati vengono raggruppate nei
13
Il concetto di comunità di riferimento è un concetto cardine del modello OAIS. Il modello precisa una classe
speciale di utenti indicata come la “comunità di riferimento”: il sottoinsieme degli utenti in grado di
comprendere autonomamente l’informazione archiviata nella forma in cui è conservata e resa disponibile
dall’OAIS. Infatti una delle responsabilità obbligatorie di un archivio OAIS è quella di conservare
l’informazione in un modo che sia comprensibile agli utenti di riferimento. Ad esempio se l’OAIS contiene studi
o insiemi di dati relativi a una determinata disciplina, allora la “comunità di riferimento” può consistere di tutti
gli individui che possiedono un certo livello di conoscenze in quell’area, che potrebbero usare quanto è stato
archiviato per ottenere informazioni o come punto di partenza per la ricerca di base o applicata. Così, se il
contenuto di un archivio OAIS consiste in bilanci, dichiarazioni dei redditi o in altri documenti finanziari di
imprese commerciali, la “comunità di riferimento” potrebbe essere identificata con gli enti di controllo
governativi e con i professionisti del mondo finanziario e contabile in grado di offrire sintesi e interpretazioni di
queste informazioni. In entrambi gli esempi, i contenuti dell’OAIS potrebbero essere liberamente accessibili da
chiunque; in questo caso, gli utenti di un OAIS coinciderebbero con il pubblico in generale. Tuttavia solo chi
possiede una conoscenza sufficientemente specializzata per usare le informazioni archiviate senza l’assistenza di
un esperto fa parte della “comunità di riferimento” dell’OAIS.
14
Introduction to RDF Metadata, W3C NOTE 1997-11-13, Ora Lassilla, URL: http://www.w3.org/TR/NOTErdf-simple-intro
cosiddetti schemi. Ogni schema viene identificato da un namespace URI univoco e contiene
un numero arbitrario di proprietà. Le specificazioni includono più di dieci schemi predefiniti
con centinaia di proprietà per le caratteristiche comuni di documenti e immagini.
Lo schema XMP predefinito più diffuso è il Dublin Core, abbreviato dc 15 . Esso contiene delle
proprietà generali come Titolo, Creato da, Oggetto e Descrizione. Oltre agli schemi predefiniti
è possibile creare degli schemi personalizzati in modo tale da poter soddisfare le esigenze di
una precisa comunità o di un settore in termini di metadati specifici. Lo schema XMP per
documenti PDF è stato introdotto con la release 5 di Acrobat Professional basata sulla
versione del PDF 1.4.
Lo schema che ha preceduto i file XMP per i PDF era formato da semplici coppie
chiave/valore, le cosiddette informazioni sul documento, l’ unica formula utilizzata per
trasportare i metadati prima dell'introduzione di XMP (vedi figura ).
15
Il progetto del Dublin Core (nome completo: Dublin Core Metadata Initiative, in acronimo DCMI) si è sviluppato in
ambito OCLC (On line Computer Library Center), la grande rete di servizi americana per le biblioteche. Nel marzo 1995 si è
tenuta una conferenza nella città americana di Dublin (Ohio), alla quale i partecipanti hanno convenuto sulla necessità di creare
un insieme di strumenti condivisi per l’accesso alle risorse digitali. Lo scopo era quello di stabilire un insieme base di elementi
descrittivi che potessero essere forniti dall’autore o dall’editore dell’oggetto digitale, ed inclusi in esso, o da esso referenziati. Il
consorzio di utenti che si è costituito ha incominciato così a sviluppare un’architettura per i metadata che venisse incontro alle
necessità dei venditori e dei produttori di informazioni.
Il set, proposto nel dicembre 1996, era costituito da quindici elementi di base: Titolo (Title) , Autore (Creator),Soggetto (Subject),
Descrizione (Description), Editore (Publisher), Autore di contributo subordinato (Contributor), Data (Date), Tipo (Type),
Formato (Format), Identificatore (Identifier), Fonte (Source), Lingua (Language), Relazione (Relation), Copertura (Coverage),
Gestione dei diritti (Rights Management).
Figura 4: document dictionary information
Mentre le informazioni sul documento continuano ad essere supportate nei file PDF, i
metadati XMP sono una soluzione molto più potente che permette sia di inserire i metadati
direttamente nel file in formato xml, sia di poter essere comprese da applicazioni che non
supportano il formato pdf.
I metadati XMP possono essere visualizzati e modificati nel pannello proprietà documento in
Acrobat, o sotto la voce di menu info per le altre applicazioni che compongono la suite
publishing di adobe (Photoshop, InDesign, Illustrator).
Sono diverse le imprese e le comunità specialistiche che utilizzano XMP per soddisfare le
proprie esigenze in termini di metadati. Tra queste troviamo:
 Il consorzio AdsML crea specifiche e processi per lo scambio di informazioni e
contenuti pubblicitari.
 La International Press Telecommunications Council (IPTC) è un Gruppo industriale
fondato da agenzie di stampa. Sviluppa standard industriali per lo scambio di notizie.
Ha pubblicato l' “IPTC Core” per XMP, uno schema largamente utilizzato per
trasferire i metadati di immagini e di altri elementi delle notizie.
 Lo standard DICOM per lo scambio di immagini mediche supporta l’uso di PDF e
specifica uno schema XMP personalizzato per memorizzare i dati dei pazienti, la
descrizione dello studio, i dettagli sugli equipaggiamenti e altri metadati.
 Il Publishing Requirements for Industry Standard Metadata (PRISM) definisce un
vocabolario di metadati per elaborare i contenuti di riviste, news, cataloghi, libri e
giornali.
Il Framework XMP
Proprio come la “scatoletta di lenticchie” è un array di elementi stampati, rappresentativa di
azioni ed eventi intercorsi nella filiera del prodotto alimentare (vedi figura 2) un’ “etichetta”
XMP è una sequenza di metadati, o elementi di metadati rappresentativa degli eventi e degli
agenti che sono intercorsi nel ciclo di vita del documento.
Figura 5: ciclo di vita di un prodotto alimentare (scatoletta di legumi)
I metadati, infatti, sono connessi con l’oggetto digitale attraverso eventi (evento di creazione,
evento di spostamento, evento della pubblicazione, della copia, ecc..); ovviamente c’è un
agente, un soggetto umano o software che agisce, che causa l’evento e provoca delle
modifiche all’oggetto e conseguentemente marca, attraverso i metadati, queste informazioni.
L’agente inoltre può agire o meno su un sistema di diritti. Anche i diritti e le opportunità, di
imporre certe eventi ai dati, sono definiti da set di metadati appositi.
La rivoluzione di Adobe e della piattaforma XMP sta proprio nella capacità di poter contenere
in una sequenza di byte la descrizione di tutti gli eventi intercorsi nella produzione, gestione e
scambio di una risorsa digitale.
L’aspetto peculiare è che il framework XMP rispetta questa realtà: se un documento viene
assemblato da sub-documenti, ciascuno dei quali contiene etichette di metadati differenti,
l’etichetta sotto-documento viene nidificata nel documento master.
Attraverso il framework XMP è possibile mappare ciascuna di queste azioni ed eventi, sia nel
caso in cui vengono scaturiti da persone che da agenti software. Se c'è qualcosa che può
essere identificata o che è stata descritta, esiste con molta probabilità una etichetta collegata
ad essa.
Figura 6: Semplice vs complesso incorporazione dei metadati in un documento
Citando Pierluigi Feliciati “le relazioni tra risorse informative e metadati, dunque, appaiono
anche solo ad uno sguardo veloce tanto cruciali quanto particolarmente dinamiche e
articolate”.
Tanto per rammentare alcune tra le proprietà di tali relazioni, basta dire che i metadati
possono essere statici, dinamici, integrati nella risorsa (pensiamo alla proprietà di un file che è
possibile visualizzare semplicemente aprendo la scheda proprietà del file, come ad es. la data
di creazione, di modifica, il peso, il titolo, l’autore etc. ), che diversi schemi di metadati con
diverse funzioni 16 possono essere associati allo stesso oggetto, che più oggetti possono essere
16
Le funzioni che i metadati hanno sulle risorse digitali sono diverse: Ricerca (individuare l’esistenza di un
documento, di una risorsa digitale); localizzazione (dove si trova ed eventualmente dove è stata trasferita una
risorsa digitale); selezione (utilizzo di informazioni aggiuntive per la distinzione dei files); gestione(ossia gestire
le raccolte di documenti grazie all’intermediazione di banche dati e cataloghi;) disponibilità (vvero ottenere
associati tra loro tramite metadati e infine che durante il ciclo di vita di una risorsa è
necessario che l’intero corpus di metadati sia aggiornato, per documentare tutti gli eventi
ad essa occorsi.
Il tutto, ovviamente, deve anche essere utilizzabile con efficacia, vale a dire identificabile,
databile, ricercabile, associabile, restituibile, sia al
fine di
garantire funzioni più
spiccatamente gestionali che rispondere ad un uso appropriato da parte della “comunità
designata”.
Secondo Pierluigi Feliciati “il rapporto tra dati e metadati è reso ancor più complesso dalla
varietà di schemi e modelli di metadati sviluppati nell’ambito di progetti anche molto diversi
l’uno dall’altro che porta inevitabilmente ad una continua ricerca sulle attività di mapping,
ossia attività che permette la comunicazione tra modelli e schemi differenti e che l’adozione
del metalinguaggio XML sembra non riuscire completamente a colmare gli spazi di
incomunicabilità tra un uno schema e l’altro”.
La piattaforma XMP rappresenta uno sforzo da parte di Adobe in questa direzione, ossia
fornire un formato comune per i metadati, utilizzabile con tutte le applicazioni e i formati.
Inserimento dei metadati in files PDF
I metadati possono essere memorizzati in un documento PDF in uno dei seguenti modi:

In un vocabolario di informazioni associato al documento (info dictionary document)

Nel flusso di metadati (metadata stream) che può essere associato al documento o ad
un oggetto del documento
informazioni sull’effettiva disponibilità del documento); gestione: (ossia gestire le raccolte di documenti grazie
all’intermediazione di banche dati e cataloghi;)
Info dictionary document
La voce opzionale Info, contenuta all’interno del trailer 17 del documento pdf può contenere un
vocabolario di informazioni al cui interno sono specificati i metadati del documento. Oltre
alle voci richieste, indicate nella figura 7, è possibile inserire voci personalizzate basate sulla
coppia soggetto – attributo come si può vedere dalla figura 8 che mostra l’inserimento di voci
personalizzate nel document dictionary attraverso l’applicazione per la generazione di
documenti PDF Adobe Acrobat Professional versione 9.2.
VOCI CHE COMPONGONO IL DOCUMENT INFORMATION DICTIONARY
key
type
value
Title
Text string
Il titolo del documento
Author
Text string
Il nome della persona che ha creato il documento
Subject
Text string
L’argomento del documento
Keywords
Text string
Parole chave associate al documento
Se il documento è stato convertito in pdf da un altro
formato, il nome dell’applicazione (per esempio adobe
indesign) che ha creato il documento originale dal quale
è stato convertito.
Se il documento è stato convertito in pdf da un altro
formato, il nome dell’applicazione che lo ha convertito
in pdf
Creator
Text string
Producer
Text string
CreationDate
date
La data e l’ora in cui il documento è stato creato, in un
formato comprensibile
ModDate
date
La data e l’ora in cui il documento ha avuto le modifiche
più recenti sempre in un formato comprensibile
17
La struttura complessiva di un documento PDF è abbastanza semplice. Può essere suddivisa nelle seguenti
componenti: header, body, cross-reference table, trailer. L’header contiene il numero della versione del file
(magic number). Il corpo (body) comprende gli oggetti contenuti nel file come: testo, immagini e font. Il corpo
può anche contenere oggetti streams, le quali contengono una sequenza di oggetti pdf. La cross reference table o
la cross reference streams possono essere pensate come degli indici in quanto forniscono la posizione degli
oggetti nel body. Il trailer fornisce la posizione della crossreference table così come degli altri oggetti. Uleriori
dati posso seguire il trailer come le sezioni di aggiornamento che includono le modifiche apportate al file in
seguito all’aggiornamento dello stesso
Trapped
name
Il nome di un oggetto che indica se il documento è stato
modificato per includere informazioni di trapping (vd
10.10.5 trapping support)
 True: il documento è stato completamente
trapped, non c’è bisogno di un trapping
ulteriore
 False: il documento non è ancora stato
trapped,
 Unkown: non si conosce se il documento è
stato trapped o se è stata trapped solo una
piccola parte, comunque dovrebbero ancora
essere aggiunte alcune trapping
Figura 7: info dictionary doument
Figura 8: inserimento metadati personalizzati nell’information document dictionary
Metadata streams
I metadati, sia se riferiti a tutto il documento, sia se riferiti a singoli oggetti all’interno del
documento possono essere memorizzati in sequenze che prendono il nome di metadata
streams. Le sequenze di metadati (metadata streams) hanno i seguenti vantaggi rispetto all’
information documentary dictionary:
1. flussi di lavoro basati sul pdf possono incorporare differenti oggetti, ad esempio una
immagine prodotta con Photoshop, un logo creato con Illustrator. Le sequenze di
metadati forniscono una modalità standard per tener traccia di tutti i metadati inseriti
in ciascun oggetto, in modo che le applicazioni che supportano il pdf sono in grado di
avere un lista contenente i metadati di tutti gli oggetti che costituiscono la risorsa
digitale aggregata;
2. possono essere letti anche da applicazioni che non supportano il formato PDF.
L’ esempio sottostante mostra come i metadati XMP, incorporati in un pacchetto XMP,
vengono memorizzati come sequenze di metadati:
1152 0 obj
<< /Type /Metadata /Subtype /XML /Length 1706 >>
stream
<?xpacket begin='' id='W5M0MpCehiHzreSzNTczkc9d'?>
<!-- The serialized RDF goes here. It has been removed for brevity. -->
<?xpacket end='w'?>
endstream
endobj
Questo è possibile poiché il contenuto delle sequenze dei metadati viene codificato in formato
XML ed è leggibile a scansioni di agenti software sempre se il documento non è stato
crittografato.
XMP Packet - pacchetto xmp
Il pacchetto xmp rappresenta il cuore dell’ Extensible Metadata Platform. I metadati XMP
vengono serializzati in xml per essere memorizzati all’interno dei files. Questi dati serializzati
sono conosciuti col nome di pacchetti xmp. Un pacchetto xmp è completamente autocontenuto e indipendente da qualsiasi formato di file. Questo significa che, indipendentemente
dal formato in cui i metadati vengono serializzati, è possibile risalire ad essi attraverso la
scansione di agenti software e operazioni di retrieving.
Adobe è riuscita nell’ impresa specificando una struttura binaria, chiamata pacchetto XMP
(Packet XMP). Questo pacchetto esiste come parte del file ed è simile a quanto rappresentato
nella figura 6:
Figura 9: Struttura semplificata di un pacchetto XMP
Come possiamo vedere sono quattro gli elementi costitutivi del pacchetto ossia:
1. header
2. xml metadata
3. trailer
4. pudding
di seguito presentiamo una versione dell’XMP Packet estratta dal modulo pdf che abbiamo
predisposto per il project work:
<?xpacket begin="■" id="W5M0MpCehiHzreSzNTczkc9d"?>
<rdf:Description rdf:about ="" xmlns:pdfx="http://ns.adobe.com/pdfx/1.3/">
<pdfx:sesso>Maschio</pdfx:sesso>
<pdfx:data_richiesta>12/06/2010</pdfx:data_richiesta>
<pdfx:settore>gestione elettronica documenti</pdfx:settore>
<pdfx:qualifica>responsabile di produzione</pdfx:qualifica>
<pdfx:nome>luciano</pdfx:nome>
<pdfx:cognome>pilla</pdfx:cognome>
<pdfx:mail>[email protected]</pdfx:mail>
<pdfx:telefono>3477010678</pdfx:telefono>
<pdfx:tipo_documento>modulo di richiesta</pdfx:tipo_documento>
<pdfx:RagioneSociale>MadeInMedia societa cooperativa</pdfx:RagioneSociale>
<pdfx:username>pilla</pdfx:username>
</rdf:Description>
</rdf:RDF>
</x:xmpmeta>
<?xpacket end="w"?>
Conclusioni
Se riferendoci ancora una volta ai generi alimentari per conoscere il contenuto di una
scatoletta senza etichetta avevamo bisogno di aprirla, parlando di risorse digitali grazie alla
piattaforma XMP possiamo conoscere tutte le etichette presenti in un file pur non conoscendo
il formato con il quale quel file è stato codificato.
Come abbiamo visto, questo è dovuto al fatto che Adobe è riuscita ad integrare un flusso di
metadati in formato xml direttamente nel file. I metadati in formato XMP, pertanto, sono
visibili sia ad agenti software che direttamente all’ utenza (ad es. in Acrobat Professional è
possibile visualizzare le proprietà dei metadati XMP attraverso l’apposito pannello). Sembra
quindi risolto il paradigma che si era presentato all’inizio della stesura: etichette comprensibili
sia alle macchine che a differenti comunità di utenze.
Va da sé, infatti, che la strutturazione delle etichette potrebbe comportare un utilizzo
differente delle risorse in base all’utenza finale di fruizione.
Prendendo in prestito una frase di Giovanni Michetti: “sempre più spesso la rappresentazione
di un documento” è “il risultato dell’aggregazione istantanea di componenti digitali distinte
all’origine”, ne consegue che la piattaforma XMP permette di tenere traccia di tutti i metadati
delle componenti aggregate fossero anch’esse vincoli solo virtuali.
Per concludere, se l'esplosione dell'informazione digitale ha dato grande impulso alla ricerca
di metodologie moltiplicando in maniera esponenziale standard (Dublin Core, MAG, MODS,
METS, Premis, ) e profili applicativi 18 Adobe ha trovato il modo di farli convivere all’interno
di un unico formato.
18
Pierluigi Feliciati, Atti convegno Università di Macerata
Per Profilo applicativo si intende un assemblaggio di elementi selezionati da più schemi differenti, combinati in
uno schema nuovo, in una sorta di pacchetto finalizzato a garantire per un determinato contesto applicativo piena
modularità ed estensibilità per le funzioni previste, ma senza perdere l'opportunità di interoperare con altre
applicazioni che adottano gli schemi di metadati origine.
Bibliografia
Automazione e Beni culturali, “Archivi & computer”, anno XVII, fascicolo 1/2007.
Le tecnologie dell’informazione al servizio degli archivi: riflessioni e proposte per la
conservazione a lungo termine, “Archivi & computer”, anno XVI, fascicolo 1/2006.
STEFANO PIGLIAPOCO, La memoria digitale delle amministrazioni pubbliche. requisiti ,
metodi e sistemi per la produzione, archiviazione e conservazione dei documenti informatici,
Rimini, Maggioli Editore, 2005.
MARIA GUERCIO, Principi, metodi e procedure per la conservazione a lungo termine dei
documenti informatici, Dicembre 2004.
MARIA GUERCIO, La gestione elettronica dei documenti e la tenuta degli archivi. Principi
generali e requisii archivistici, Roma.
STEFANO PIGLIAPOCO, STEFANO ALLEGREZZA “Produzione e conservazione del
documento digitale” Requisiti e standard per i formati elettronici – Eum edizioni Università
di Macerata, 2008
P. FELICIATI, Gestione e conservazione di dati e metadati: quali standard?, in Atti del
convegno Conservare il digitale, Riflessioni su modelli archivistici, figure professionali e
soluzioni applicative, Macerata (Italy), May 7-8 2009 (In Press), e in EPRINTS;
P. FELICIATI – M.T. NATALE (a cura di), Manuale per l’interazione con gli utenti del Web
culturale, MINERVA eC WG5, Roma, aprile 2009, e in MINERVAeurope;
Siti di riferimento:
www.adobe.com/products/xmp/
partners.adobe.com/public/developer/xmp/topic.html
www.aiim.org/documents/standards/xmpspecification.pdf
www.adobe.com/devnet/xmp/pdfs/xmp_specification.pdf
www.xmpopen.org
www.w3.org/RDF/
http://www.pdfa.org/doku.php
http://www.cnipa.gov.it/site/itIT/Attivit%c3%a0/Dematerializzazione/Attivit%c3%a0_del_set
tore/Tavoli_tecnici/
Scarica

leggi - Gri.Dero srl