documentare la ricerca scientifica Mariella Guercio 23 gennaio 2014 ricerca e documentazione in ambiente digitale: perché documentare • I dati e i documenti della ricerca hanno un ruolo crescente in ambiente digitale (anche grazie a nuovi formati che assicurano una strutturazione dettagliata, interoperabilità e riuso al di là degli scopi definiti nel progetto originario): l’accesso ai dati è un valore riconosciuto • Un accesso efficace, accurato, consapevole ai dati della ricerca è necessario per trarre il maggior beneficio possibile dalla natura digitale dei contenuti e delle infrastrutture di ricerca (anche in contesti finora estranei a tali esigenze, come in molti ambiti della ricerca in campo umanistico) e migliorare la ricerca medesima – – – – facilita la cooperazione e la qualità dei prodotti favorisce le attività di verifica e valutazione promuove nuove ricerche permette la creazione di nuovi contenuti grazie alla capacità di condivisione e comparazione un problema recente • In ambito archivistico da non più di 20 anni (sia a livello internazionale che in ambito nazionale) – 1991, Gli archivi della scienza e della tecnica, Desenzano del Garda • i documenti tradizionali: – pubblicazioni scientifiche – corrispondenza – protocolli di esperienze – (documentazione di progetto) le nuove frontiere • La ricerca (in tutti i settori) non è documentata solo dalla pubblicazione (tradizionale o digitale) di risultati nella forma di informazione testuale (inclusa la documentazione d’archivio che ne ha accompagnato la produzione nel corso del ciclo di gestione (“laboratory notebooks, preliminary analyses, drafts of scientific papers, plans for future research, peer reviews, or personal communications with colleagues or physical objects” ma anche dai dati della ricerca. • Non tutti gli attori (ricercatori, editori, istituzioni della memoria) sono consapevoli del cambiamento in atto e delle relativi conseguenze • Nuovi problemi sono oggetto di riflessione: la creazione di depositi istituzionali, archivi e digital library integrati, qualificati e coerenti nuove responsabilità • Le nuove forme di documentazione sono anche al centro dell’interesse degli archivisti e dei bibliotecari • Richiedono nuove competenze: in alcune tradizioni si parla da tempo di nuove figure professionali e nuove aree di interesse (digital curation) che cosa documentare • research data: prodotti della ricerca (output), esternalizzazione del lavoro di ricerca che accompagna o precede gli articoli e i saggi pubblicati, gli atti dei convegni, i protocolli di intesa • factual records: prodotti originali e fonti primarie della ricerca scientifica necessari per la sua validazione (”risultati sperimentali, osservazioni e informazioni generate dal computer che costituiscono la base dell’analisi quantitativa sulla quale poggiano molte pubblicazioni scientifiche”) • Anche nel campo delle scienze umane: – dati intesi come elementi immediatamente presenti alla conoscenza, risultanti da osservazioni di fenomeni, realtà, esperimenti, calcoli: ad esempio risultati di text mining in analisi testuale, dati archeografici, questionari, rilevazioni audio su campo, etc. come documentare: linee guida OECD per la qualità dati - 1 • Openness – • Flexibility – • requires taking into account the rapid and often unpredictable changes in information technologies, the characteristics of each research field and the diversity of research systems, legal systems and cultures of each member country Transparency – – – • access on equal terms for the international research community at the lowest possible cost, preferably at no more than the marginal cost of dissemination. Open access to research data from public funding should be easy, timely, user-friendly and preferably Internet-based Information on research data and data-producing organisations, documentation on the data and specifications of conditions attached to the use of these data should internationally available in a transparent way be internationally available in a transparent way, ideally through the Internet Implica facilità, rapidità, uso di standard sviluppati e condivisi dalla comunità di riferimento I sistemi di gestione dei dati devono essere comunicati anche per condividere e diffondere le best practice Legal conformity – – Data access arrangements should respect the legal rights and legitimate interests of all stakeholders in the public research enterprise (national security, privacy, trade secrets, intellectual property rights, legal proccesses) I codici etici sono di supporto in questo ambito come documentare: linee guida OECD per la qualità dati - 2 • Protection of intellectual property – – • Consideration should be given to measures that promote non-commercial access and use while protecting commercial interests, such as delayed or partial release of such data, or the voluntary adoption of licensing mechanisms. Such measures can allow the primary participants to fully exploit the research data without unnecessarily shutting off access The holders of these rights should facilitate access to such data particularly for public research or other public-interest purposes Formal responsibility – – – – Access arrangements should promote explicit, formal institutional practices, such as the development of rules and regulations, regarding the responsibilities of the various parties involved in data-related activities. These practices should pertain to authorship, producer credits, ownership, dissemination, usage restrictions, financial arrangements, ethical rules, licensing terms, liability, sustainable archiving Access arrangements also should be responsive to factors such as the characteristics of the data, their potential value for research purposes, the level of data processing Responsibility for the various aspects of data access and management should be established in relevant documents, such as descriptions of the formal tasks of institutions, grant applications, research contracts, publication agreements, and licenses Long-term sustainability of the infrastructure required for data access is particularly important. Research institutions and government organisations should take formal responsibility for ensuring that research data are effectively preserved, managed and made accessible come documentare: linee guida OECD per la qualità dati - 3 • Professionalism – – – – • Institutional arrangements for the management of research data should be based on the relevant professional standards and values The use of codes of conduct for professional scientists and their communities could help simplify and reduce the regulatory burden placed on access. In current research practice, the initial data-producing researcher or institution is sometimes rewarded with temporary exclusive use of the data. The rules for such incentive arrangements should be developed and explicitly stated by the funding sources in co-operation with the research communities A lack of planning for and execution of the proper documentation and archiving of data sets is one of the key impedements to realising maximum value from the investment in research data: data curation and professional expertise for data management must be supported Interoperability – Technological and semantic interoperability is a key consideration; due attention should be paid to the relevant international data documentation standards which should be developed by research institutions in cooperation with international organisations charged with developing new standards. come documentare: linee guida OECD per la qualità dati - 4 • Quality – – – – • Security – • Compliance with explicit quality standards is relevant Data access arrangements should describe good practices for methods, techniques and instruments employed in the collection, dissemination and accessible archiving of data to enable quality control by peer review and other means of safeguarding quality and authenticity The origin of sources should be documented and specified in a verifiable way: such documentation should be readily available to all who intend to use the data and incorporated into the metadata accompanying the data access to data sets should be linked with access to the original research materials, and copied data sets should be linked with originals, as this facilitates validation of the data and identification of errors within data sets With regard to guaranteeing the integrity of a data set, every effort should be made to ensure the completeness of data and absence of errors. With regard to security, the data, along with relevant metadata and descriptions, should be protected against intentional or unintentional loss, destruction, modification and unauthorised access in conformity with explicit security protocols. Efficiency – – – It is relevant to avoid the expensive and unnecessary duplication of data collection efforts Appraisal practices should be in place: the data archiving community should carry out cost-benefit assessments periodically and constantly develop and refine retention protocols Insufficient incentives for researchers or database producers may lessen their efforts on data-related activities. come documentare: linee guida OECD per la qualità dati - 5 • Accountability – The performance of data access arrangements should be subject to periodic evaluation by user groups, responsible institutions and research funding agencies. • Sustainability – This means taking administrative responsibility for the measures to guarantee permanent access to data that have been determined to require long-term retention. This can be a difficult task, given that most research projects, and the public funding provided, have a limited duration, whereas ensuring access to the data produced is a long-term undertaking. – Research funding agencies and research institutions, therefore, should consider the long-term preservation of data at the outset of each new project, and in particular, determine the most appropriate archival facilities for the data research data: principi e strumenti per la qualità dati • principi e metodi per garantire la cattura e la persistenza di informazioni relative a provenienza e contesto • strumenti e modelli per la conservazione a lungo tempo e per l’accesso – adozione di standard – sviluppo di policy – strumenti software di supporto per l’acquisizione, la ricerca, lo scambio, la condivisione, il riuso ma anche per l’annotazione dei dati I i problemi aperti 1. gestione dei dati e dei prodotti della ricerca secondo i principi del life cycle management e della business continuity – – – 2. strategie e policy per assicurare la coerenza dei modelli, il passaggio di custodia – – – 3. 4. carenze organizzative; assenza di modelli finalizzati ad assicurare la persistenza responsabilità precoci e continuative mancanza di regole uniformi di documentazione e definizione certa dei ruoli mancanza di regole certe per l’accesso e la conservazione limitata propensione dei ricercatori alla condivisione dei dati (timori di perdita di controllo) sostenibilità dei progetti: documentare costa in termini di tempo e di soluzioni operative requisiti e standard condivisi, operativi ed efficaci per l’interoperabilità e la conservazione (metadati, linked open data, certificazione delle competenze e dei depositi) Frammentarità dei depositi di conservazione (deposity istituzionali e digital library non certificate, soluzioni locali non coordinate) per una conservazione sostenibile I fattori abilitanti: • • • • • • definizione di responsabilità professionali adeguate per la tenuta dei dati/documenti nei processi di produzione e nelle fasi di tenuta (digital curator archivisti e bibliotecari per il settore scientifico-accademico?) definizione della documentazione necessaria per l’autenticità, l’affidabilità e la qualità della fruizione strumenti per il controllo sui contenuti (dati/documenti/archivi) e strumenti di descrizione e accesso consapevolezza della comunità di riferimento e degli stakeholder sulla necessità di un processo continuo e attivo di intervento basato su strategie chiare e sostenibili, piani di disaster recovery in relazione sia alle risorse digitali conservate che alle informazioni di rappresentazione e descrizione adeguata documentazione sui processi conservativi necessari a garantire l’aggiornamento dei sistemi e l’allineamento degli archivi cattura il più possibile automatica dei dati relativi a contesto e provenienza e delle informazioni specifiche previste dagli standard di settore/dominio necessari a identificare in modo certo e persistente l’integrità dei dati e dei documenti le buone pratiche in Francia: il quadro di riferimento per gli archivi della ricerca - 1 • • • gli archivi prodotti o ricevuti dai ricercatori nell’esercizio della loro attività di servizio pubblico sono pubblici nel campo della ricerca si sono individuate 29 aree di dati pubblici (scuole, studenti, diplomi, dati statistici) da sviluppare nella forma di open data i progetti strategici sono guidati dal CINES e dal gruppo di lavoro BSN 6 (rapporto di Pierre Carbone sulle DL): – Progetto TGE Adonis: • studio preliminare, équipe multidisciplinare, criteri di scelta per il pilota, analisi del problema di risorse (necessità di basarsi sui progetti esistenti) • utilizzo di una infrastruttura esistente: centro di calcolo per la ricerca di base e Cines; attività di adattamento • utilizzo di consulenti che operano nei campi più avanzati nell’uso del digitale (ricerca aerospaziale) • raw data (riconoscimento della necessità di documentare i dati e di definire un modello di supporto ai produttori per i formati, l’accesso, il versamento nei depositi) • terminologia: necessità di sviluppare più dizionari comuni • riconoscimento delle difficoltà da parte dei ricercatori con l’eccezione del settore archeologico, più consapevole • necessità di attività prioritarie di consolidamento più che di conservazione onnicomprensivo: in ambiente digitale si riconosce la necessità – almeno in questa fase – di distinguere tra una ‘conservazione tombale’ e il concetto tradizionale di conservazione, inclusivo delle capacità, funzioni, metodi e strumenti di diffusione-fruizione le buone pratiche in Francia: il quadro di riferimento per gli archivi della ricerca - 2 • • • gli archivi prodotti o ricevuti dai ricercatori nell’esercizio della loro attività di servizio pubblico sono pubblici nel campo della ricerca si sono individuate 29 aree di dati pubblici (scuole, studenti, diplomi, dati statistici) da sviluppare nella forma di open data i progetti strategici sono guidati dal CINES e dal gruppo di lavoro BSN 6 (rapporto di Pierre Carbone sulle DL): – Progetto TGE Adonis (https://www.cines.fr/en/long-term-preservation/our-customers-ourpartnerships/collections-kept-at-cines/crdo-pilot-project-of-tge-adonis/) : • studio preliminare, équipe multidisciplinare, criteri di scelta per il pilota, analisi del problema di risorse (necessità di basarsi sui progetti esistenti) • utilizzo di una infrastruttura esistente: centro di calcolo per la ricerca di base e Cines; attività di adattamento • utilizzo di consulenti che operano nei campi più avanzati nell’uso del digitale (ricerca aerospaziale) • raw data (riconoscimento della necessità di documentare i dati e di definire un modello di supporto ai produttori per i formati, l’accesso, il versamento nei depositi) • terminologia: necessità di sviluppare più dizionari comuni • riconoscimento delle difficoltà da parte dei ricercatori con l’eccezione del settore archeologico, più consapevole • necessità di attività prioritarie di consolidamento più che di conservazione onnicomprensivo: in ambiente digitale si riconosce la necessità – almeno in questa fase – di distinguere tra una ‘conservazione tombale’ e il concetto tradizionale di conservazione, inclusivo delle capacità, funzioni, metodi e strumenti di diffusione-fruizione le buone pratiche in Francia: il progetto PAC (Platform d’archivage) del CINES (2014) • • • • • Progetto per la creazione di un servizio di conservazione a lungo termine dal 2014 nel mandato istituzionale del centro (https://www.cines.fr/archivage/) Team: 1 capo-progetto, 8 ingegneri, un’archivista, 2 tecnici (11 persone). Obiettivi tecnici: conservazione della leggibilità e della capacità di comprendere i contenuti; normalizzazione dei formati, utilizzazione di formati durevoli, validazione dei formati; metadati descrittivi, persistent identifier delle risorse Piattaforma: ricezione, valutazione della qualità dei dati, aggiunta di metadati (PID, marcatura temporale, altre informazioni associate in modo automatico ad esempio dati sulla piattaforma), ridondanza e duplicazione, monitoraggio periodico di tutti i dati conservati, gestione versione documenti I formati: testi (html, xml, pdf, txt, odt), immagini (GIF, JPEG, TIF, PNG, SVH), audio (WAV, AIFF, AAC, VORBIS), video (MPEG4, THEORA, MKV) oltre ai formati specifici dell’applicazione e delle collezioni Questioni aperte: – il modello dei costi e la sostenibilità – « quoi et pourquoi préserver, et non seulement comment » buone pratiche in Francia: indicazioni operative (2012) agire sul ciclo di vita e definire strategie di archiviazione: • mandato chiaro (“lettre de mission”) per ogni struttura interessata: definizione di un responsabile, autorevole supporto • strategia: integrarsi nelle politiche dell’istituzione, creare un comitato strategico, azioni di comunicazione; due possibilità (sull’esistente, sui nuovi progetti-flussi); definire le attività periodiche di vigilanza (ad es. per progetti in via di conclusione) • interventi operativi (principio della integrazione applicativa nel ciclo di vita): – – – – analizzare il processo, valutare la durata dei dati, definire i tempi di conservazione, valutare il problema dei dati personali individuare obiettivi e finalità per la creazione di open data, valutare la sostenibilità della distruzione dei documenti analogici (vademecum SIAF per la definizione di una griglia, http://wwww.archivesdefrance.culture.gouv.fr/static/7429: responsabilità, conservazione corretta, ecc.); – prevedere profili professionali l’archivista deve essere sempre presente nelle diverse fasi (specifiche, validazione, sviluppo, messa in opera) – definire la strategia di archiviazione: gestione dei dati fino alla loro destinazione finale (formati, migrazione, interfaccia per l’accesso e la ricerca, funzioni di consultazione, versamento anche in depositi esterni sulla base di linee guida nazionali riferimenti bibliografici • • • • National Science Foundation, National Science Board, Long-Lived Digital Data Collections: Enabling Research and Education in the 21st Century, Washington, National Science Board, 2005., http://www.nsf.gov/nsb/meetings/2005/LLDDC_draftreport.pdf OECD, Principles and Guidelines for Access to Research Data from Public Funding, Paris, OECD Publications, 2007, http://www.oecd.org/science/scienceandtechnologypolicy/38500813.pdf Archivage électronique. Un nouveau domaine d'expertise au service de la gouvernance des systèmes d'information, 2012 (Guide de bonnes pratiques), http://references.modernisation.gouv.fr/sites/default/files/DISIC_AE%20Guide%20b onnes%20pratiques.pdf