AIDAinformazioni R S ’I Fondata nel da Paolo B N. – — Anno — luglio–dicembre Proprietario della rivista U C Direttore Scientifico Roberto G Università della Calabria Direttore Responsabile Fabrizia Flavia S Comitato scientifico Roberto Guarasci, U C Anna Rovella, U C Maria Guercio, S U R Giovanni Adamo, C N R Claudio Gnoli, U S P Ferruccio Diozzi, A I D A Gino Roncaglia, U T Laurence Favier, U C--G L Madjid Ihadjadene, U V-S-D P Comitato di redazione Antonietta Folino U C Erika Pasceri C N R Maria Taverniti C N R Segreteria di Redazione Valeria Rovella U C A AIDAinformazioni RIVISTA SEMESTRALE « AIDAinformazioni » è una rivista scientifica che pubblica articoli inerenti le Scienze dell’Informazione, la Documentazione, la Gestione Documentale e l’Organizzazione della Conoscenza. È stata fondata nel quale rivista ufficiale dell’Associazione Italiana di Documentazione Avanzata e nel febbraio è stata acquisita dal Laboratorio di Documentazione dell’Università della Calabria. La rivista si propone di promuovere studi interdisciplinari oltre che la cooperazione e il dialogo tra profili professionali aventi competenze diverse, ma interdipendenti. I contributi possono riguardare topics quali Documentazione, Scienze dell’informazione e della comunicazione, Scienze del testo e del documento, Organizzazione e Gestione della conoscenza, Terminologia, Statistica testuale e Linguistica computazionale e possono illustrare studi sperimentali in domini specialistici, casi di studio, aspetti e risultati metodologici conseguiti in attività di ricerca applicata, presentazioni dello stato dell’arte, ecc. « AIDAinformazioni » è censita dall’ per le Aree – Scienze dell’antichità, filologico-letterarie e storico-artistiche; – Scienze storiche, filosofiche, pedagogiche e psicologiche; – Scienze giuridiche; – Scienze politiche e sociali, così come dall’ (Agence d’évaluation de la recherche et de l’enseignement supérieur) che la censisce tra le riviste scientifiche dell’ambito delle Scienze dell’informazione e della comunicazione. La rivista è, inoltre, indicizzata in: (Italian union catalogue of serials); (Bielefeld Academic Search Engine); (Elektronische Zeitschriftenbibliothek – Universitätsbibliothek Regensburg); (Italian Library Association); Italian Professional Literature; NewJour (Electronic Journals & Newsletters – University of Georgetown); (Italian Union Catalogue); SummonTM by Serials Solutions; Ulrich’s; Worldcat; (Karlsruhe Virtual Catalog); EPrints; (British Union Catalog); UniCiber (Comitato interuniversitario Base dati ed editoria in rete); (Union Catalogue of Swedish Libraries). I contributi sono valutati seguendo il sistema del double blind peer review: gli articoli ricevuti dal comitato scientifico sono inviati in forma anonima a due referee, selezionati sulla base della loro comprovata esperienza nei topics specifici del contributo in valutazione. Condizioni di acquisto Abbonamento annuale . . . . . . . euro , Fascicolo . . . . . . . . . . . . . . . . . . . euro , Per ordini telefono: – fax: e–mail: [email protected] online: http://www.aidaweb.it/ Skype: labdoc_unical Modalità di pagamento Bonifico bancario intestato a: Università della Calabria, Dipartimento di Lingue e Scienze dell’Educazione IBAN: IT S presso Banca Unicredit – filiale di Arcavacata di Rende Causale: Abbonamento « AIDAinformazioni » Editore Aracne editrice S.r.l. via Raffaele Garofalo, /A-B Roma () www.aracneeditrice.it [email protected] Copyright © Aracne editrice ISBN ---- ISSN - Indice Editoriale Roberto Guarasci Editoriale Fabrizia Flavia Sernia Contributi An Innovative Content Repository to Explore Aerospace Documents based on Document Warehousing Technology Assuntina Cembalo, Michele Ferrucci Francesca Maria Pisano, Rosa Sannino, Mafalda Viola Construction et partage des savoirs de l’information–documentation. Le cas de professeurs–documentalistes en France Cécile Gardies Economia solidale. Riscoprire l’economia e la solidarietà Carmela Guarascio Le banche dati di ambito religioso Manuela La Rosa Concordanze geografiche miste. Lettura geografica del Piacere con ....., Google Earth, Google Maps, Google Docs Silvana Possidente Teaching Terminology Work with Databases. A Case Study Rossella Pugliese Indice Note e rubriche Come mi vuoi, generale o speciale? Organizzazione della conoscenza Claudio Gnoli Terminologia e comunicazione al cittadino Maria Teresa Zanola « AIDAinformazioni »: una sede di dibattito scientifico e di confronto. Lettera alle società operanti nel settore dell’informazione e della documentazione Ferruccio Diozzi Associazione Italiana Documentalisti Brevettuali () Alessandro Piras Gruppo Italiano Documentalisti dell’Industria Farmaceutica e degli Istituti di Ricerca Biomedica (–) Silvia Molinari Il knowledge management Paola Capitani Un PACALabs pour la société Nodalys Sophie Arvanitakis A IDA informazioni ISBN 978-88-548-7967-6 DOI 10.4399/97888548796761 pag. 5–7 (dicembre 2014) Editoriale R G∗ Nel febbraio di quest’anno l’Università della Calabria ha rilevato la proprietà di « AIDAinformazioni » dall’Associazione Italiana di Documentazione Avanzata della quale era, comunque, socia da diverso tempo. Ciò nel tentativo di impedire che l’unica rivista italiana di Documentazione, dopo oltre trent’anni di attività, sparisse definitivamente dalla scena editoriale e scientifica a causa delle difficoltà economiche che affliggono quasi tutte le associazioni culturali. Fondata da Paolo Bisogno nel , quale bollettino ed organo ufficiale dell’Associazione, ha seguito le alterne vicende della Documentazione italiana: dall’iniziale slancio, in concomitanza con l’esplosione delle scienze dell’informazione, con le quali cerca di stringere una alleanza non mai riuscita, alla marginalizzazione progressiva all’interno delle stesse scienze del testo e del documento. Paradossalmente la rivista gode — ancora oggi — di molto più credito scientifico in ambito internazionale di quanto non ne goda nel contesto italiano. Il lettore si chiederà probabilmente, a questo punto, perché in questo contesto non ci si è semplicemente limitati ad accompagnarla all’oblio dandole la dolce morte di ciò che è stato e non è più, affidandola alle “bianche case dei morti” di Crociana memoria. Tra l’altro anche il nome — che ovviamente si è deciso di mantenere — non è più evocativo delle stesse suggestioni del passato. Non ha niente di digitale, non compare nemmeno un termine inglese, non è “cool”. . . Qualche maldicente potrebbe affermare che, visto che ricopro da tempo una delle pochissime cattedre di Documentazione in una università italiana, potrebbe trattarsi di un fatto puramente personale legato ad una qualche alterazione affettiva precocemente senile nella quale il ripiegamento su una presunta e passata età dell’oro diventa una sorta di baluardo, un fortino anti–tartari, che, come si sa, però non arrivano mai. Eppure nel Google tributa a Paul Otlet, indiscusso padre della Documentazione, gli onori di creatore di un “Internet de papier”, precursore del web e teorico dell’informazione liberamente accessibile, nel il Research Center di Almaden nella Silicon Valley aveva già creato gli ∗ Dipartimento di Lingue e Scienze dell’Educazione, Università della Calabria, Rende (CS). [email protected]. Roberto Guarasci “ingegneri umanisti” e da più anni l’ingegneria documentale è diventata la storia di successo di alcune start–up italiane e uno dei settori consolidati di consulenza a livello internazionale a fianco della più tradizionale ingegneria di processo e di prodotto . E non è il classico approccio italiano dell’informatica per delle tecnologie ancillari ai saperi di dominio con un uso puramente strumentale delle scienze dell’informazione degradate a mere tecniche e nemmeno, per contrario, una pretesa omnicomprensiva di queste che pretendono, a volte, di costruire un universo indistinto ed equiprobabilistico nel quale “tutte le vacche sono nere”. È invece il tentativo di un approccio multidisciplinare nel quale l’apporto dei diversi ambiti della conoscenza produce un nuovo sapere sinergico basato sull’interrelazione cognitiva. A un degré moins ultime serait créée un instrument agissant à distance qui combinerait à la fois la radio, les rayons Röntgen, le cinéma et la photographie microscopique. Toutes les choses de l’univers, et toutes celles de l’homme seraient enregistrées à distance à mesure qu’elles se produiraient. Ainsi serait établie l’image mouvante du monde, sa mémoire, son véritable double. Chacun à distance pourrait lire le passage lequel agrandi, et limité au sujet désiré, viendrait se projeter sur l’écran individuel. Ainsi, chacun dans son fauteuil pourrait contempler la création, en son entier ou en certaines de ses parties. Assente in gran parte il mondo accademico di molte nazioni europee, Italia in testa, il mondo produttivo ha cominciato a realizzare quella interrelazione dei saperi che sembrava essere destinata a restare il sogno visionario di Otlet. I Documentalisti italiani si sono ritagliati nicchie ultra specializzate, ovvero hanno assunto denominazioni diverse e più accattivanti. Ma il core business della professione, non solo non è sparito, ma è in ampia crescita specie in quei settori ad alto contenuto tecnologico nei quali, nella prima metà del secolo scorso, l’Italia faceva registrare una presenza estremamente consistente che la configurava come una delle nazioni guida nel panorama europeo della gestione dell’informazione documentale. Sopravvissuto nel mondo pubblico solo come documentalista o, secondo la dizione concorsuale, “documentarist” parlamentare, vive in maniera “spuria” nei Knowledge worker, di Peter Drucker , nell’Informationist di Davidoff e nei tanti ricercatori internet free lance che gestiscono ed elaborano informazio. <http://artigianodibabele.blogspot.it///ingegneria-documentale-intervista-ad.html>. . <http://www.akka-italia.it/--akka-in-breve.php>. . P. O, Monde: essai d’universalisme: connaissance du monde, sentiment du monde, action organisée et plan du monde, Editiones Mundaneum, Brussels , p. . . P. D, Landmarks of tomorrow: A Report on the New “Post–Modern” World, Harper & Brothers, New York . . F. D, The Informationist: A New Health Profession?, « Annals of Internal Medicine », vol. , n. , , pp. –. Roberto Guarasci ni documentali e testuali e, nel , è stato, nella sua corretta dizione di “Documentalista”, finalmente reintrodotto dall’Istat nella Classificazione delle Professioni. Questa diversificazione degli accessi alla professione è anche la conseguenza dell’assenza di specifici percorsi formativi eppure « proprio Drucker insiste con forza che uno dei requisiti per poter classificare una persona come knowledge worker è il suo essere dotato di un determinato curriculum di studi: è la formal education che distingue questa figura professionale » . In questo curriculum degli studi, condizione necessaria e sufficiente perché si configuri la professione, i paesi anglosassoni stanno riscoprendo il valore della cultura umanistica nella formazione di base come principale garanzia della necessaria flessibilità che caratterizza questa tipologia di “lavoratori della conoscenza”. La diversificazione della professione, pur nel perdurare di alcuni elementi cognitivi e culturali comuni e la necessità di un percorso formativo definito e multidisciplinare, sono gli elementi centrali di riflessione nel variegato mondo dell’informazione documentale unitamente alla necessità di un luogo di ascolto e di discussione nel quale queste problematiche possano trovare voce e corpo. Tali elementi rappresentano la spinta motivazionale a far continuare a vivere « AIDAinformazioni » che, auspicabilmente, dovrebbe provare a raggiungere non solo il mondo accademico ma, con buona pace dell’ e delle valutazioni, anche il mondo delle professioni e dei liberi professionisti nel tentativo di riflettere sulla possibilità e necessità di una casa comune ovvero, almeno, di un . . . condominio multipiano. . S. B, I Lavoratori della conoscenza e la fabbrica che dovrebbe produrli, in « L’Ospite Ingrato », a. , n. , , p. , <http://www.actainrete.it/wpcontent/uploads///Lavoratori_conoscenza-Bologna-.pdf>. A IDA informazioni ISBN 978-88-548-7967-6 DOI 10.4399/97888548796762 pag. 9–9 (dicembre 2014) Editoriale F F S∗ Dove eravamo rimasti? — chiese un volto noto della quando, dopo un’interruzione di lunghi mesi, riprese le puntate di un programma di grande successo. Anche « AIDAinformazioni » riprende le pubblicazioni, dopo un periodo di “fermata” cui ha fatto seguito l’approdo salvifico al Laboratorio di Documentazione dell’Università della Calabria, che ha deciso così di rilanciare la prestigiosa testata. Nella ricerca scientifica anche un intervallo di tempo può rappresentare un’infinità: un tempo dilatato, soprattutto nell’ambito di discipline come le scienze della documentazione e la linguistica computazionale, dove le contaminazioni trasversali e orizzontali con i più svariati ambiti della conoscenza procedono a ritmi incessanti, con interpolazioni continue fra i nuovi risultati del sapere. Grazie alla ripresa della pubblicazioni il “discorso iniziato” ripartirà. E riprende da qui. Con forza. Intensità. Determinazione. « AIDAinformazioni » è una testata scientifica che, nel solco della tradizione passata, vuol essere crocevia di discussione e di diffusione di nuove conoscenze, palcoscenico di confronto, osservatorio privilegiato di nuove tendenze e risultati. Ed anche catalizzatore di idee, acceleratore di innovazione e di visione. Può riuscire in un obiettivo tanto ambizioso una testata che è valutata sulla base dei parametri scientifici? Noi crediamo di sì, e i contributi scientifici di questo primo numero lo testimoniano. Se la stessa polare che ha ispirato la ripresa delle pubblicazioni è l’impatto che le scienze della documentazione determinano in un ambito vastissimo di settori, sia della produzione delle conoscenze, sia nella produzione economica ed anche solidale, i lavori pubblicati in questo numero offriranno molteplici opportunità di verifica di questo impegno. Un impegno, che la redazione tutta ha deciso di condividere, sotto la guida del Direttore scientifico, Roberto Guarasci, a cui va il merito di aver voluto condurre in porto questa sfida, chiedendomi di affiancarlo come giornalista scientifica nella direzione della testata. A lui, alla redazione tutta, al Comitato Scientifico, gli auguri migliori di buon lavoro. Ai lettori, l’invito a scriverci e a segnalare ogni elemento che possa essere di stimolo per migliorare e per essere sempre più una testata scientifica aperta anche agli occhi desiderosi di sapere di chi scienziato non è. Perché, come scrisse Galileo Galilei, « La luce della scienza cerco e’l beneficio ». ∗ Giornalista, [email protected]. CONTRIBUTI A IDA informazioni ISBN 978-88-548-7967-6 DOI 10.4399/97888548796763 pag. 13–30 (dicembre 2014) An Innovative Content Repository to Explore Aerospace Documents based on Document Warehousing Technology A C, M F F M P, R S, M V∗ A: Italian research centres, and mainly s, have to face with the difficulty to manage their Institutional Repository (), so the (Aerospace Information System) project focused on creating an innovative content repository where real–time particularly interesting information pertaining to the evolution of technology and to applied research for the aerospace community, can be found. The project main aim is to help the aerospace community (made by engineers, scientists, managers, stakeholders, authorities, and so on) to capitalize their outcomes and facilitate collaboration through the sharing of information content, not always easily found. The idea developed in this paper concerns the enhancement of a content repository using Document Warehousing as a support tool in the exploration of documents (e–books, e–journals, etc.) from heterogeneous sources, all related to aeronautics and aerospace domains, by performing queries. The challenges of cleaning and integrating document information content in order to offer easy navigation are investigated and discussed, focusing on the issues of removing ambiguities from documents. Complex information objects and heterogeneous resources are handled through the innovative content repository, created for the aerospace community and users, so that they can take advantage of interconnected information, interacting with a multiplicity of other users and, consequently, feeling part of a community. Keywords: Document Warehousing, On–Line Analytical Processing, Extraction–Transformation–Loading, Data Integration, Aeronautics and Aerospace domains. . Introduction How hard it is to find useful information disseminated in documents, digital libraries, digital folders, websites, blogs, etc., is a common daily experience, whatever the topic of interest is. The challenge is even harder when scientific and technological concerns are involved, because information sharing ∗ Assuntina C, Michele F, Francesca Maria P, Rosa S – ...., Italian Aerospace Research Center, via Maiorise snc, , Capua (CE), Italy. a.cembalo, m.ferrucci, f.pisano, r.sannino @cira.it. Mafalda V – Consultant at ...., Italian Aerospace Research Center, via Maiorise snc, , Capua (CE), Italy. A. Cembalo, M. Ferrucci, F.M. Pisano, R. Sannino, M. Viola among communities and typical rapid evolvement make the availability of recent information a key–enabler for successful research and technological activities. In particular, the aerospace domain is strongly characterized by research and technology developments that need to be constantly updated to the edge of the state–of–the–art. The (Aerospace Information System) web portal has been created with the main purpose to define and satisfy these user needs through scientific and technological information sharing and dissemination. This paper focuses on the system component related to Document Warehousing, integrated in the web portal, which enriches the content repository by offering a user–friendly approach to document navigation and exploration, over huge amount of information sources, passing over the document physical location (digital libraries, digital folders, websites, blogs, etc.). Data Warehousing is one of the best known and widely used approaches to decision support system: it allows the user, usually not a computer expert, to perform easily multidimensional queries, to get summary information about huge amounts of heterogeneous data, coming from different sources, in different locations. With the increasing awareness that most of information is contained in unstructured or semi–structured formats, we witnessed the born of Document Warehousing systems : they enable to navigate voluminous corpora in an integrated manner and to go back to the source document starting from aggregated information. Document navigation and exploration is based on the metadata of the documents, their content or their categories. In this paper we describe a content repository using Document Warehousing as a support tool in the exploration of documents from heterogeneous sources, all related to aeronautics and aerospace domains, by performing queries involving pre–defined metadata dimensions such as author, title, publication date, publisher, language, subject, keyword, etc. This work was carried on within the research project , funded by the Campania Region and within the framework of Campania – , with the aim of facilitating the sharing of aerospace knowledge in the Campania Region. In this paper we describe the development process of a Document Warehousing system devoted to the aerospace domain. The portal offers easy navigation thanks to the cleaning and the integration of any document . E. T, J.E. A, T.P. L, R. S, Decision Support and Business Intelligence Systems, Pearson International Edition . . F.S.C. T, A.Y.H. C, The concept of Document Warehousing for multidimensional modeling of textual–based Business Intelligence, in « Decision Support System », vol. , n. , , pp. –. . –Aerospace Information System, <http://sia.cira.it/>. An Innovative Content Repository information content and the removing of ambiguities, i.e. different ways of writing authors’ names and surnames. The Document Warehousing system for the content repository was implemented through the use of open–source technologies and was designed to be integrated within the web portal. . SIA project The project is an innovative system for accessing the largest number of information sources in the aerospace field. .. The main project purposes The main project aim was to implement a system for access, retrieval and enhancement of technical, scientific, financial information, for users belonging to the aerospace community and neighbouring areas. The main purpose of the system was to ensure the most effective access to different information contents (scientific and technological data, technical data, simulation models, etc.) in order to increase the audience of real users to as many as possible. .. Description of the project Thanks to the adoption of some innovative technological solutions for the information management systems, such as semantic web, in this project there was coexistence within the same network of library systems and other systems for accessing different information. Further, the system ensured complete interoperability with other important networks currently operating and it was based on the creation of a flexible and modular system . The access was ensured to institutional repositories, technical and scientific databases, simulation models and collections of innovative materials, electronic bibliographic resources, aerospace–oriented information services, original documents. The main functionalities of the project can be here summarized as follows: . F. D, P. D G, G. P, et. al., Usability Issues for an Aerospace Digital Library, in “AVI , Proceedings of the International Working Conference on Advanced Visual Interfaces, Capri (Naples) Italy”, a cura di G. Tortora, S. Levialdi, M. Tucci, Università degli Studi di Salerno, maggio . A. Cembalo, M. Ferrucci, F.M. Pisano, R. Sannino, M. Viola — management (that is discovery, locating and linking) of different accessible information content such as printed, digital or digitalized information available through different resources; — development of other activities related to information management, such as e–learning, education activities, and so on. .. Project results Nowadays, content repository services are accessible at the url <http: //sia.cira.it/> as a web portal integrating functionalities supported by the following components: — Semantic Search Subsystem: this component, described in detail in , guarantees features in terms of automatic retrieval of predefined information sources, content filtering, parsing, word disambiguation, data extraction and correlation, data classification, indexing and data storage; — Document Warehousing Subsystem: assures loading and storage of structured information related to metadata in a Document Warehouse for further user search tasks based on features. In order to make data accessible, the web portal makes information available through Linked Open Data () paradigm which allows structuring and publishing data not only in human–readable but also in machine–readable way. .. Document Warehousing system features and use cases Document Warehousing represents an innovative approach to document content navigation over huge textual corpora, also distributed among folders, websites and repositories, available in different electronic formats. When we are looking for particular information, we need summary and descriptive information about available documents. So, many papers can be grouped by topic, and/or author, and/or editor, and/or type, and/or publication year/month/day, enabling each user to follow his own way of examining documents. . SIA–Aerospace Information System, <http://sia.cira.it/>. . F. G, G. Z, G. R, et. al., Aerospace Information System Based on Semantic Technologies and Ontology Management, in “rd International Conference on Data Management Technologies and Applications (), Vienna, Austria, – September ”. . Linked Data, <http://www.w.org/standards/semanticweb/data>. An Innovative Content Repository In order to offer such a way of navigation through huge amount of documents, we identified system features needed, briefly listed hereafter: FEAT Access and consultation of specialized technical scientific databases and electronic bibliographic resources; FEAT Interoperability with other networks of excellence currently operating; FEAT Services for multidimensional navigation () of the document resources by means of default dimension analysis (authors, subject, etc.); FEAT Management of user profile for customized and adaptive access to information and services; FEAT Adoption of all necessary measures to ensure accessibility and usability of the system, even from mobile devices, through the most common browsers. Based on the previous system features, some system use cases were elaborated; the main one “Carrying out multidimensional query” is reported below (Tab. ). .. Document Dataset In order to realize the Document Warehousing component, we started with an input dataset based on documents from various sources, all related to aeronautics and aerospace domains. In particular, the input dataset was made of e–books and e–journals from commercial suppliers and belonging to collections relating to aeronautics and aerospace domains, as follows: — files related to e–books and e–journals, for each of which we had an file containing tags that made possible the categorization and the search for information based on keywords; — files related to e–books and e–journals in format. We created some Excel files containing the metadata of these documents. .. Document Warehousing system architecture The Document Warehousing system was designed with the aim of providing users with an easy–to–use tool to search for documents within a large documentary corpus, by means of the performing of multidimensional queries using pre–defined dimensions. Through a user–friendly interface based on technology, users can easily browse documents and retrieve them through their path. A. Cembalo, M. Ferrucci, F.M. Pisano, R. Sannino, M. Viola Table : Document Warehousing System “Carrying out multidimensional query” use cases. Title Brief Description Preconditions Postconditions Flow of events Constraints Alternative courses Actors Extended by use cases Carrying out multidimensional querying Data stored in the Document Warehouse can be searched by multidimensional querying system through the analysis of dimensions and measures of interest among all the dimensions and measures available in the metadata hypercube (i.e. measures: number of documents, dimensions: author, date of publication, publisher, format, language). Data stored in the Document Warehouse. The connection to the server for multidimensional queries is set up and functioning. The results of multidimensional queries are displayed. . The user carries out a multidimensional query. . The system displays the User Interface for document navigation. . The user selects dimensions of interest among those available (author, date of publication, publisher, format, language, etc.). . The user selects a measure of interest among those available (number of documents, etc.). . The user pushes the “Execute query” button. . The system carries out the query. . The system displays the resulted list of documents, including metadata and abstract for each document in the list. Extension Point: the user requires to download the document list in Microsoft Excel format or Adobe Acrobat format. Extension Point: the user requires to open the source webpage of the selected document. . The use case ends. None. None. Registered users, Guest users. Download query results. Open the source webpage of the document. The architecture of the Document Warehousing system that we built, was defined according to the Data Warehousing methodology , suitably adapted to the documental sources. Starting from the analysis of data sources and user needs, we defined the Document Warehousing system functional architecture, composed of the following architectural layers (Fig. ). — Data Sources Layer: it represents the set of input documents, introduced in Section ., which includes e–books and e–journals coming from various commercial providers, all related to aeronautics and aerospace domains; — Textual Layer: it represents the software layer where (Extract, Transform & Load) applications are performed. These applications extract information from the input data sources, perform cleaning . M. G, S. R, Data Warehouse Design. Modern Principles and methodologies, McGrawHill, New York City . An Innovative Content Repository Figure : Document Warehousing system’s layered architecture tasks, transform and integrate data to load it into the database represented by the Document Warehouse. In this phase the processing of documents, the extraction of their metadata and the classification are carried out, too. This is the key point where raw input data becomes useful data; — Data Storage Layer: it is represented by the Document Warehouse (), i.e. the database, structured as a Data Warehouse, which lends itself to being queried in multidimensional manner by the server, via interface. The design is characterized by the definition of the conceptual model and the corresponding logical model, the creation of the fact schema and the associated star schema, and then, by the definition of the metadata hypercube; — Data Logic Layer: it is characterized by the server that enables the interpretation and the execution of the query, built by the user through the web application and the selection of dimensions of interest; — User Layer: it consists of a web application that allows the user to query the database according to the logic, through a pre–defined set of dimensions and measures. .. Open–source tools The Document Warehousing system was realized using only open–source technology based tools. In particular, to implement the layer, we chose the –licensed GeoKettle . , which is a particular “geo–enabled” release of the generic tool Kettle (Pentaho Data Integration) and the –licensed . GeoKettle, <http://www.spatialytics.org/projects/geokettle/>. . Kettle, <http://community.pentaho.com/projects/data-integration/>. A. Cembalo, M. Ferrucci, F.M. Pisano, R. Sannino, M. Viola OpenRefine . (formerly GoogleRefine), which is a data wrangling tool originally supported and published by Google. We first used OpenRefine to perform an extensive cleaning of raw data and then we used GeoKettle to extract information from the data sources, transform it and load transformed data, into the target , which was implemented through the use of the open source database PostgreSQL . . To implement the Data Logic Layer we chose Mondrian .. which is an open–source server able to perform multidimensional queries, written in MultiDimensional eXpressions () language , on the . Mondrian also provides a workbench by means of which we built the file of the metadata hypercube. In order to display the results of multidimensional queries on table and statistical graphics, we used Java libraries JPivot .. . At last, Tomcat was used as a web container able to support and manage pages. . The development process of the Document Warehousing system The following paragraphs contain the description of the development process of the Document Warehousing component of the system. In particular, we describe the textual source analysis, the design and the implementation of the database, including the Document Warehouse loading and the web application for queries. .. Sources Analysis Starting from the documents described in the section . we carried out an activity of sources and domain analysis that included the deepening of domain taxonomies for document categorization on the basis of their extracted keywords. In particular, we referred to the Advisory Council for Aeronautics Research in Europe () which developed a common European taxonomy for aeronautical research and technology. From a selection of nodes in the taxonomy and concepts typical of the aerospace domain, we defined a taxonomy for documents categorization, which is hierarchically structured in the following way (Tab. ): Area/Domain/Subdomain/Keyword, . OpenRefine, <http://openrefine.org/>. . PostgreSQL, <http://www.postgresql.org/>. . Mondrian, <http://community.pentaho.com/projects/mondrian/>. . Tutorial: Introduction to Multidimensional Expressions (). <http://www.mdxtutorials.net/>. . JPivot, <http://jpivot.sourceforge.net/>. . Tomcat, <http://tomcat.apache.org/>. . , <http://www.lazio-aerospazio.it/documents///ACARE_Taxonomy.pdf>.