Open Archive di Antonella De Robbio Referente SBA per il diritto d'autore Università degli Studi di Padova Archivi Aperti • Noti come Open Archive, o E-prints server, sono archivi preposti al deposito dei documenti scientifici, in forma elettronica, alla loro gestione e conservazione. • Possono essere organizzati a livello istituzionale o a livello disciplinare. • I documenti elettronici possono essere depositati direttamente dagli autori attraverso un semplice processo noto come auto-archiviazione. • Non va confuso il termine auto-archiviazione (self-archiving) con quello di auto-pubblicazione (self-publishing) Cosa sono gli e-prints? • Gli e-prints sono copie elettroniche di papers accademici. • Gli archivi di e-prints consentono agli autori di rendere i propri pre-prints prereferati, e i propri lavori post-print referati, liberamente disponibili alla comunità internazionale scientifica, disseminandoli su scala mondiale, cosa impossibile per un lavoro su carta L’auto-archiviazione • Molti sono i ricercatori che da alcuni anni archiviano i loro lavori sui server delle loro istituzioni o in server disciplinari, per esempio per la biomedicina, l'astronomia, la chimica, ... • la matematica, dopo la fisica, è il campo, dove si è fatto l'uso più massiccio di server di pre-print • Anche all'interno di una stessa disciplina però, non sempre i comportamenti sono omogenei Tipologie di Open Archive • Numerose sono le esperienze nel mondo e anche le tipologie tecniche – modello accentato – modello distribuito • A livello organizzativo le scelte possono essere – server istituzionali (institutional repositories) – server subject-based o disciplinari – esistono inoltre altre soluzioni: • gli “umbrella server” (specie di MetaOA) • individual data provider (modello Kepler) Archivi Aperti e interoperabilità • Ciascun documento depositato è corredato da metadati in formato standard che vengono esposti per la raccolta (harvesting) • Gli archivi sono detti “aperti” in quanto possono essere interrogati da un servizio (“service provider”) che si occupa di indicizzare i metadati raccolti dai vari archivi attraverso la funzione di harvesting • Un deposito entro l’architettura OAI Open Archive Initivative è noto come “data provider” Big versus Small • ArXiv modello accentrato: nasce a Los Alamos National Lab. nel 1991, in origine si riferiva solo a documenti per la comunità HEP. Serve circa 80.000 utenti di oltre 70 Paesi. Nel 2000 vi sono stati 13 milioni di documenti scaricati. La crescita delle sottomissioni è pari a 3500 nuovi lavori annui, per oltre 33.000 sottomissioni a fine 2001. • La centralizzazione di ArXiv è stato un processo che è iniziato a partire dal 1994, prima esistevano piccoli archivi su base disciplinare che funzionavano con lo stesso software Modello distribuito • RePEc, la più grande collezione del mondo di documenti per l'economia ad accesso libero, a modello distribuito • collega oltre 200 archivi con oltre 60.000 articoli e rapporti tecnici di ambito economico disponibili online • sorto nel 1999 per opera di Thomas Krichel • ciascuno diventa mirror e garantisce l’accesso anche ai dati di tutti gli altri archivi Il modello di pubblicazione scientifica decostruito [termine coniato da J. Smith] • I depositi istituzionali possono giocare un ruolo significativo del processo evolutivo della ristrutturazione della comunicazione scientifica • Le tradizionali pubblicazioni a stampa integrano in un unico modello 4 componenti Le 4 componenti essenziali nella comunicazione scientifica [descritte da Roosendaal e Geurts] • Registrazione: stabilire la priorità intellettuale di un’idea, un concetto, o una scoperta scientifica • Certificazione: certificare la qualità della ricerca e/o la validità delle scoperte dichiarate • Consapevolezza: assicurare la disseminazione e l’accessibilità delle produzioni della ricerca, fornendo un mezzo attraverso il quale i ricercatori possono essere avvertiti delle novità della ricerca • Archiviazione: conservare il patrimonio intellettuale per le fruizioni future Institutional repositories: cosa sono • I depositi istituzionali di documenti sono collezioni digitali che raccolgono e conservano la produzione intellettuale delle comunità accademiche (singoli o multi Atenei) • possono essere considerati estensione naturale delle responsabilità dell’istituzione accademica in qualità di generatori di ricerca primaria • sono potenzialmente la componente più importante nell’evoluzione della struttura dei nuovi modelli di comunicazione scientifica Institutional repositories: a cosa servono • offrono una risposta strategica ai problemi esistenti nel sistema che regola i periodici scientifici • offrono un immediato complemento di qualità al modello di pubblicazione scientifica ad oggi esistente • stimolano l’innovazione entro una struttura di editoria disaggregata • servono come indicatori tangibili della qualità di un’istituzione, ne incrementano la visibilità, il prestigio e il valore a livello pubblico Situazione frammentaria • Centinaia di e-server: istituzionali, disciplinari, accentrati, distribuiti, piccoli, grandi, depositi di collezioni, ... • Papers sparsi sui siti Web • Umbrella servers es. MPRESS) • MetaMotori OA (service provider) • CiteSeer, servizio precedentemente chiamato ResearchIndex, costruito da NEC Research Institute Cooperazione e interoperabilità Due le aree di intervento • Da una parte si trovano iniziative come OAI nata con lo scopo di – sviluppare e promuovere standard per l'interoperabilità tra archivi – essere di supporto ad un'efficiente disseminazione di contenuti; • Dall'altra si collocano iniziative come la Budapest Open Access Initiative BOAI o il movimento Free Online Scholarship FOS Open Archive Initiative • OAI è supportata nelle sue iniziative dalla Digital Library Federation e da Coalition for Networked Information e riceve finanziamenti da National Science Fundation • fonda le sue radici nel continuo sforzo teso al miglioramento dell'accesso ai documenti entro gli archivi e-print, • mette a disposizione strumenti, software e documentazione (protocolli, standard) • promuove l'utilizzo di metadati standard In OAI esistono due categorie di server • i data provider, i quali contengono i documenti depositati e che supportano il protocollo OAI esponendo i metadati relativi ai lavori contenuti nel server. Un data provider gestisce uno o più server, per il deposito (Web servers repositories) • i service provider, usano i metadati dei data provider come base per la costruzione di servizi a valore aggiunto. harvesting • Open Archives Initiative Protocol for Metadata Harvesting Protocol indispensabile per rendersi visibili ai fini della raccolta • è necessario esporre i propri metadati al colloquio entro la comunità internazionale in un formato compatibile • metadati per l’interoperabilità Le iniziative di sensibilizzazione • Il movimento FOS Free Online Scholarship coordinato da Peter Suber • Public Library of Science organizzazione no-profit di scienziati per una letteratura biomedica free-access – lettera aperta agli editori firmata da 30.000 scienziati di 180 Paesi Budapest Open Access Initiative BOAI 1. • Budapest Open Access Initiative BOAI – nata il 14 febbraio 2002 – conta oggi oltre 2300 firmatari – finanziata dalla Fondazione Soros di OSI Open Society Institute. OSI elargirà un milione di dollari per anno, per tre anni consecutivi, per lo sviluppo di un progetto il quale prevede piani e modelli per l'auto-archiviazione "sostenibile" in oltre 140 Paesi Budapest Open Access Initiative BOAI 2. • si distingue da OAI giacché il suo scopo è di fare pressione sugli autori al fine di ottenere un consenso generalizzato • lo scopo primario è quello di promuovere l’autoarchiviazione • non si occupa di applicazioni software o di aspetti tecnologici, • è focalizzata principalmente sui processi di peerreviews. I Software disponibili • ArXive, Kit NCSTRL (ex-protocollo Dienst): per server disciplinari • Eprints software (OAI compatibile): per server istituzionali • Kepler software: per server individuali • DSpace di MIT. Gestisce anche formati multimediali utili alla didattica • CDSware del CERN: funge anche da portale con motore che ricerca entro le collezioni della biblioteca • EDT Virginia Tech per le Tesi Cosa è EPrints ? • E’ un software Open source per costruire, gestire e fornire accesso ad archivi di e-print entro un quadro di Digital Library • Nato dall’idea del prof. S. Harnad è sviluppato alla Southampton Univ. • E’ un software libero rilasciato con licenza GNU GPL (General Public License), fa uso di numerosi altri software liberi (es. MySQL). • E’ pienamente interoperabile con il protocollo OAI (Open Archives Initiative) per la raccolta dei metadati Configurazione di EPrints • Facile da installare – Script di installazione automatici nella maggior parte dei processi di installazione • Requisiti minimi: meno di 500 MB di spazio per lo storage. • Indipendenza da altri software di supporto: Apache, MySQL, PERL, Plugins for PERL, gcc • Facile da usare e da amministrare: basato su Web • Esempi di siti Kepler framework • Strumento per la creazione di “personal data provider” o “archivelets” indipendenti dalla piattaforma • facilità di utilizzo da parte di singoli ricercatori • scarico e auto-installazione semplice e rapida su workstation PC individuali • servizio di registrazione automatica a supporto di decine di migliaia di pubblicatori individuali • servizio di raccolta di metadati dagli archivelet semplice e poco pesante Condivisione di dati individuali • Il suo nome deriva dal grande teorico Johannes Kepler. Carl Sagan nel suo libro “Cosmos” racconta di come Keplero lottò per ottenere i dati dal suo collega-maestro Tycho Brahe, il grande osservazionalista. Solo quando Brahe fu sul letto di morte dette l’accesso a Kepler a tutti i suoi dati di ricerca. Keplero: architettura • L’architettura di Keplero supporta due tipi di utenti: – pubblicatori individuali i quali usano gli strumenti dell’archivelet – utenti generali interessati a recuperare i documenti pubblicati • Il servizio di registrazione tiene traccia dello status di registrazione dell’archivelet (attivo/non attivo), attraverso un modello istant-messenger, mutuato da Napster, dove nel server centrale viene mantenuta traccia (in cache) dei client attivi • struttura molto simile a un broker basato su modello di rete P2P Figura 1. Architettura di Keplero Copyright 2001 Kurt Maly, Mohammad Zubair, and Xiaoming Liu Figura 2. Architettura di Keplero e modello di rete Peer-to-Peer Copyright 2001 Kurt Maly, Mohammad Zubair, and Xiaoming Liu Copyright 2001 Kurt Maly, Mohammad Zubair, and Xiaoming Liu Keplero: le parti componenti 1. Deposito OAI compatibile 2. Strumento per la pubblicazione/deposito 3. Servizio di registrazione (basato su LDA) 4. Service Provider 1. 2. sono rivolti al pubblicatore individuale, 3. tiene traccia degli archivelets registrati compreso il loro stato di disponibilità, 4. offre un alto livello di servizio come ricerca di un documento pubblicato entro tutti gli archivelet registrati Keplero: strumenti per la pubblicazione/deposito • Il kit publication tools consiste di: – semplice display dell’archivio – strumento per specificare i metadati e per caricare i file entro l’archivelet • Il file zip auto-installante contiene, oltre al kit publication tools, il client per il processo di registrazione automatica e il client per l’interazione con il service provider (strato OAI e server web semplificato) Service provider Arc: risultato ricerca DSpace: nuova soluzione al MIT • DSpace è una piattaforma software open source (licenza BSD) OAI compatibile, adatta agli atenei – cattura e descrive opere digitali utilizzando moduli Web per la sottomissione dei lavori – aggrega e recupera i lavori dell’istituzione: didattica e ricerca – conserva a lungo termine le opere digitali – crea un sistema elettronico per la disseminazione delle produzioni intellettuali – gestisce utenze diversificate (studenti) con controllo degli accessi – gestisce multimedialità:supporta formati numerosi formati utili al contesto E-learning Due i canali: le comunità e le collezioni Communities DSpace system Archival Storage SCHOOLS Metadata (Database) DEPARTMENTS LABS Submission Subsystem Search/Browse Subsystem Web User Interface SCHOOL PROGRAM LAB CENTER USER CENTERS USER PROGRAMS Collection Item Item Item Item Collection DEPARTMENT Collection Collection USER La trasformazione dell’OA • il concetto OpenArchive si trasforma: da pre-print diviene e-print, • perde il prefisso "pre" a ricomprendere tutti i tipi di documenti • il vero OA è un deposito di documenti appartenenti a una determinata comunità • ruolo dell'EPrints di Harnad è assai più ampio rispetto al semplice pre-print server Il vero OA • modello che porta dentro il "seme" della parola "disseminazione” • concetto profondamente diverso da quello della “distribuzione” • disseminazione implica una crescita • incrementato a tal punto da evolvere e divenire una forma di comunicazione e immagazzinamento della produzione scientifica nella sua interezza “Nella vita, non ci sono soluzioni. Ci sono forze in movimento: queste necessitano di essere creare e le soluzioni seguono …” [In: Volo di notte, Antoine de Saint-Exupéry, Chap. 19]