AIDAinformazioni
R   S ’I
Fondata nel  da Paolo B
N. – — Anno  — luglio–dicembre 
Proprietario della rivista
U  C
Direttore Scientifico
Roberto G
Università della Calabria
Direttore Responsabile
Fabrizia Flavia S
Comitato scientifico
Roberto Guarasci, U  C
Anna Rovella, U  C
Maria Guercio, S U  R
Giovanni Adamo, C N  R
Claudio Gnoli, U  S  P
Ferruccio Diozzi, A I D A
Gino Roncaglia, U  T
Laurence Favier, U C--G L 
Madjid Ihadjadene, U V-S-D P 
Comitato di redazione
Antonietta Folino U  C
Erika Pasceri C N  R
Maria Taverniti C N  R
Segreteria di Redazione
Valeria Rovella U  C
A
AIDAinformazioni
RIVISTA SEMESTRALE
« AIDAinformazioni » è una rivista scientifica che pubblica articoli inerenti le Scienze dell’Informazione, la Documentazione, la Gestione Documentale e l’Organizzazione della Conoscenza. È stata
fondata nel  quale rivista ufficiale dell’Associazione Italiana di Documentazione Avanzata e nel
febbraio  è stata acquisita dal Laboratorio di Documentazione dell’Università della Calabria.
La rivista si propone di promuovere studi interdisciplinari oltre che la cooperazione e il dialogo tra
profili professionali aventi competenze diverse, ma interdipendenti. I contributi possono riguardare
topics quali Documentazione, Scienze dell’informazione e della comunicazione, Scienze del testo
e del documento, Organizzazione e Gestione della conoscenza, Terminologia, Statistica testuale
e Linguistica computazionale e possono illustrare studi sperimentali in domini specialistici, casi di
studio, aspetti e risultati metodologici conseguiti in attività di ricerca applicata, presentazioni dello
stato dell’arte, ecc.
« AIDAinformazioni » è censita dall’ per le Aree  – Scienze dell’antichità, filologico-letterarie
e storico-artistiche;  – Scienze storiche, filosofiche, pedagogiche e psicologiche;  – Scienze giuridiche;  – Scienze politiche e sociali, così come dall’ (Agence d’évaluation de la recherche
et de l’enseignement supérieur) che la censisce tra le riviste scientifiche dell’ambito delle Scienze
dell’informazione e della comunicazione. La rivista è, inoltre, indicizzata in:  (Italian union
catalogue of serials);  (Bielefeld Academic Search Engine);  (Elektronische Zeitschriftenbibliothek – Universitätsbibliothek Regensburg);  (Italian Library Association); Italian Professional
Literature; NewJour (Electronic Journals & Newsletters – University of Georgetown);  (Italian
Union Catalogue); SummonTM by Serials Solutions; Ulrich’s; Worldcat;  (Karlsruhe Virtual
Catalog); EPrints;  (British Union Catalog); UniCiber (Comitato interuniversitario Base dati ed
editoria in rete);  (Union Catalogue of Swedish Libraries).
I contributi sono valutati seguendo il sistema del double blind peer review: gli articoli ricevuti dal
comitato scientifico sono inviati in forma anonima a due referee, selezionati sulla base della loro
comprovata esperienza nei topics specifici del contributo in valutazione.
Condizioni di acquisto
Abbonamento annuale . . . . . . . euro ,
Fascicolo . . . . . . . . . . . . . . . . . . . euro ,
Per ordini
telefono: –
fax: 
e–mail: [email protected]
online: http://www.aidaweb.it/
Skype: labdoc_unical
Modalità di pagamento
Bonifico bancario intestato a:
Università della Calabria, Dipartimento di
Lingue e Scienze dell’Educazione
IBAN: IT  S   
presso Banca Unicredit – filiale di Arcavacata
di Rende
Causale: Abbonamento « AIDAinformazioni »
Editore
Aracne editrice S.r.l.
via Raffaele Garofalo, /A-B
 Roma
() 
www.aracneeditrice.it
[email protected]
Copyright © Aracne editrice
ISBN ----
ISSN -
Indice

Editoriale
Roberto Guarasci

Editoriale
Fabrizia Flavia Sernia
Contributi

An Innovative Content Repository to Explore Aerospace Documents based on Document Warehousing Technology
Assuntina Cembalo, Michele Ferrucci
Francesca Maria Pisano, Rosa Sannino, Mafalda Viola

Construction et partage des savoirs de l’information–documentation.
Le cas de professeurs–documentalistes en France
Cécile Gardies

Economia solidale. Riscoprire l’economia e la solidarietà
Carmela Guarascio

Le banche dati di ambito religioso
Manuela La Rosa

Concordanze geografiche miste. Lettura geografica del Piacere
con ....., Google Earth, Google Maps, Google Docs
Silvana Possidente

Teaching Terminology Work with Databases. A Case Study
Rossella Pugliese

Indice

Note e rubriche

Come mi vuoi, generale o speciale? Organizzazione della conoscenza
Claudio Gnoli

Terminologia e comunicazione al cittadino
Maria Teresa Zanola

« AIDAinformazioni »: una sede di dibattito scientifico e di confronto. Lettera alle società operanti nel settore dell’informazione
e della documentazione
Ferruccio Diozzi

Associazione Italiana Documentalisti Brevettuali ()
Alessandro Piras

Gruppo Italiano Documentalisti dell’Industria Farmaceutica e
degli Istituti di Ricerca Biomedica (–)
Silvia Molinari

Il knowledge management
Paola Capitani

Un PACALabs pour la société Nodalys
Sophie Arvanitakis
A IDA informazioni
ISBN 978-88-548-7967-6
DOI 10.4399/97888548796761
pag. 5–7 (dicembre 2014)
Editoriale
R G∗
Nel febbraio di quest’anno l’Università della Calabria ha rilevato la proprietà di « AIDAinformazioni » dall’Associazione Italiana di Documentazione
Avanzata della quale era, comunque, socia da diverso tempo. Ciò nel tentativo di impedire che l’unica rivista italiana di Documentazione, dopo
oltre trent’anni di attività, sparisse definitivamente dalla scena editoriale e
scientifica a causa delle difficoltà economiche che affliggono quasi tutte le
associazioni culturali.
Fondata da Paolo Bisogno nel , quale bollettino ed organo ufficiale
dell’Associazione, ha seguito le alterne vicende della Documentazione
italiana: dall’iniziale slancio, in concomitanza con l’esplosione delle scienze
dell’informazione, con le quali cerca di stringere una alleanza non mai
riuscita, alla marginalizzazione progressiva all’interno delle stesse scienze
del testo e del documento. Paradossalmente la rivista gode — ancora oggi
— di molto più credito scientifico in ambito internazionale di quanto non
ne goda nel contesto italiano. Il lettore si chiederà probabilmente, a questo
punto, perché in questo contesto non ci si è semplicemente limitati ad
accompagnarla all’oblio dandole la dolce morte di ciò che è stato e non è più,
affidandola alle “bianche case dei morti” di Crociana memoria. Tra l’altro
anche il nome — che ovviamente si è deciso di mantenere — non è più
evocativo delle stesse suggestioni del passato. Non ha niente di digitale, non
compare nemmeno un termine inglese, non è “cool”. . .
Qualche maldicente potrebbe affermare che, visto che ricopro da tempo
una delle pochissime cattedre di Documentazione in una università italiana,
potrebbe trattarsi di un fatto puramente personale legato ad una qualche
alterazione affettiva precocemente senile nella quale il ripiegamento su
una presunta e passata età dell’oro diventa una sorta di baluardo, un fortino
anti–tartari, che, come si sa, però non arrivano mai.
Eppure nel  Google tributa a Paul Otlet, indiscusso padre della Documentazione, gli onori di creatore di un “Internet de papier”, precursore
del web e teorico dell’informazione liberamente accessibile, nel  il
Research Center  di Almaden nella Silicon Valley aveva già creato gli
∗
Dipartimento di Lingue e Scienze dell’Educazione, Università della Calabria, Rende (CS).
[email protected].


Roberto Guarasci
“ingegneri umanisti” e da più anni l’ingegneria documentale è diventata
la storia di successo di alcune start–up italiane e uno dei settori consolidati di consulenza a livello internazionale a fianco della più tradizionale
ingegneria di processo e di prodotto . E non è il classico approccio italiano
dell’informatica per delle tecnologie ancillari ai saperi di dominio con un
uso puramente strumentale delle scienze dell’informazione degradate a
mere tecniche e nemmeno, per contrario, una pretesa omnicomprensiva
di queste che pretendono, a volte, di costruire un universo indistinto ed
equiprobabilistico nel quale “tutte le vacche sono nere”. È invece il tentativo
di un approccio multidisciplinare nel quale l’apporto dei diversi ambiti della
conoscenza produce un nuovo sapere sinergico basato sull’interrelazione
cognitiva.
A un degré moins ultime serait créée un instrument agissant à distance qui combinerait à la fois la radio, les rayons Röntgen, le cinéma et la photographie microscopique. Toutes les choses de l’univers, et toutes celles de l’homme seraient
enregistrées à distance à mesure qu’elles se produiraient. Ainsi serait établie l’image
mouvante du monde, sa mémoire, son véritable double. Chacun à distance pourrait
lire le passage lequel agrandi, et limité au sujet désiré, viendrait se projeter sur
l’écran individuel. Ainsi, chacun dans son fauteuil pourrait contempler la création,
en son entier ou en certaines de ses parties.
Assente in gran parte il mondo accademico di molte nazioni europee,
Italia in testa, il mondo produttivo ha cominciato a realizzare quella interrelazione dei saperi che sembrava essere destinata a restare il sogno visionario
di Otlet. I Documentalisti italiani si sono ritagliati nicchie ultra specializzate, ovvero hanno assunto denominazioni diverse e più accattivanti. Ma
il core business della professione, non solo non è sparito, ma è in ampia
crescita specie in quei settori ad alto contenuto tecnologico nei quali, nella
prima metà del secolo scorso, l’Italia faceva registrare una presenza estremamente consistente che la configurava come una delle nazioni guida nel
panorama europeo della gestione dell’informazione documentale. Sopravvissuto nel mondo pubblico solo come documentalista o, secondo la dizione
concorsuale, “documentarist” parlamentare, vive in maniera “spuria” nei
Knowledge worker, di Peter Drucker , nell’Informationist di Davidoff  e nei
tanti ricercatori internet free lance che gestiscono ed elaborano informazio. <http://artigianodibabele.blogspot.it///ingegneria-documentale-intervista-ad.html>.
. <http://www.akka-italia.it/--akka-in-breve.php>.
. P. O, Monde: essai d’universalisme: connaissance du monde, sentiment du monde, action
organisée et plan du monde, Editiones Mundaneum, Brussels , p. .
. P. D, Landmarks of tomorrow: A Report on the New “Post–Modern” World, Harper &
Brothers, New York .
. F. D, The Informationist: A New Health Profession?, « Annals of Internal Medicine », vol.
, n. , , pp. –.
Roberto Guarasci

ni documentali e testuali e, nel , è stato, nella sua corretta dizione di
“Documentalista”, finalmente reintrodotto dall’Istat nella Classificazione
delle Professioni. Questa diversificazione degli accessi alla professione è
anche la conseguenza dell’assenza di specifici percorsi formativi eppure
« proprio Drucker insiste con forza che uno dei requisiti per poter classificare una persona come knowledge worker è il suo essere dotato di un
determinato curriculum di studi: è la formal education che distingue questa
figura professionale » .
In questo curriculum degli studi, condizione necessaria e sufficiente
perché si configuri la professione, i paesi anglosassoni stanno riscoprendo
il valore della cultura umanistica nella formazione di base come principale garanzia della necessaria flessibilità che caratterizza questa tipologia di
“lavoratori della conoscenza”. La diversificazione della professione, pur nel
perdurare di alcuni elementi cognitivi e culturali comuni e la necessità di un
percorso formativo definito e multidisciplinare, sono gli elementi centrali
di riflessione nel variegato mondo dell’informazione documentale unitamente alla necessità di un luogo di ascolto e di discussione nel quale queste
problematiche possano trovare voce e corpo. Tali elementi rappresentano la spinta motivazionale a far continuare a vivere « AIDAinformazioni »
che, auspicabilmente, dovrebbe provare a raggiungere non solo il mondo
accademico ma, con buona pace dell’ e delle valutazioni, anche il
mondo delle professioni e dei liberi professionisti nel tentativo di riflettere
sulla possibilità e necessità di una casa comune ovvero, almeno, di un . . .
condominio multipiano.
. S. B, I Lavoratori della conoscenza e la fabbrica che dovrebbe produrli, in « L’Ospite Ingrato », a. , n. , , p. , <http://www.actainrete.it/wpcontent/uploads///Lavoratori_conoscenza-Bologna-.pdf>.
A IDA informazioni
ISBN 978-88-548-7967-6
DOI 10.4399/97888548796762
pag. 9–9 (dicembre 2014)
Editoriale
F F S∗
Dove eravamo rimasti? — chiese un volto noto della  quando, dopo un’interruzione di lunghi mesi, riprese le puntate di un programma di grande
successo. Anche « AIDAinformazioni » riprende le pubblicazioni, dopo un
periodo di “fermata” cui ha fatto seguito l’approdo salvifico al Laboratorio di
Documentazione dell’Università della Calabria, che ha deciso così di rilanciare
la prestigiosa testata. Nella ricerca scientifica anche un intervallo di tempo può
rappresentare un’infinità: un tempo dilatato, soprattutto nell’ambito di discipline come le scienze della documentazione e la linguistica computazionale,
dove le contaminazioni trasversali e orizzontali con i più svariati ambiti della
conoscenza procedono a ritmi incessanti, con interpolazioni continue fra i
nuovi risultati del sapere. Grazie alla ripresa della pubblicazioni il “discorso
iniziato” ripartirà. E riprende da qui. Con forza. Intensità. Determinazione.
« AIDAinformazioni » è una testata scientifica che, nel solco della tradizione
passata, vuol essere crocevia di discussione e di diffusione di nuove conoscenze,
palcoscenico di confronto, osservatorio privilegiato di nuove tendenze e risultati.
Ed anche catalizzatore di idee, acceleratore di innovazione e di visione.
Può riuscire in un obiettivo tanto ambizioso una testata che è valutata sulla
base dei parametri scientifici? Noi crediamo di sì, e i contributi scientifici di
questo primo numero lo testimoniano. Se la stessa polare che ha ispirato la
ripresa delle pubblicazioni è l’impatto che le scienze della documentazione
determinano in un ambito vastissimo di settori, sia della produzione delle
conoscenze, sia nella produzione economica ed anche solidale, i lavori pubblicati in questo numero offriranno molteplici opportunità di verifica di questo
impegno. Un impegno, che la redazione tutta ha deciso di condividere, sotto la guida del Direttore scientifico, Roberto Guarasci, a cui va il merito di
aver voluto condurre in porto questa sfida, chiedendomi di affiancarlo come
giornalista scientifica nella direzione della testata.
A lui, alla redazione tutta, al Comitato Scientifico, gli auguri migliori di
buon lavoro. Ai lettori, l’invito a scriverci e a segnalare ogni elemento che possa
essere di stimolo per migliorare e per essere sempre più una testata scientifica
aperta anche agli occhi desiderosi di sapere di chi scienziato non è. Perché,
come scrisse Galileo Galilei, « La luce della scienza cerco e’l beneficio ».
∗
Giornalista, [email protected].

CONTRIBUTI
A IDA informazioni
ISBN 978-88-548-7967-6
DOI 10.4399/97888548796763
pag. 13–30 (dicembre 2014)
An Innovative Content Repository to Explore
Aerospace Documents based on Document
Warehousing Technology
A C, M F
F M P, R S, M V∗
A: Italian research centres, and mainly s, have to face with the difficulty to
manage their Institutional Repository (), so the  (Aerospace Information System)
project focused on creating an innovative content repository where real–time particularly
interesting information pertaining to the evolution of technology and to applied research
for the aerospace community, can be found. The  project main aim is to help the aerospace community (made by engineers, scientists, managers, stakeholders, authorities,
and so on) to capitalize their outcomes and facilitate collaboration through the sharing of
information content, not always easily found. The idea developed in this paper concerns
the enhancement of a content repository using Document Warehousing as a support tool
in the exploration of documents (e–books, e–journals, etc.) from heterogeneous sources,
all related to aeronautics and aerospace domains, by performing  queries. The challenges of cleaning and integrating document information content in order to offer easy
navigation are investigated and discussed, focusing on the issues of removing ambiguities
from documents. Complex information objects and heterogeneous resources are handled
through the innovative  content repository, created for the aerospace community and
users, so that they can take advantage of interconnected information, interacting with a
multiplicity of other users and, consequently, feeling part of a community.
Keywords: Document Warehousing, On–Line Analytical Processing, Extraction–Transformation–Loading, Data Integration, Aeronautics and Aerospace domains.
. Introduction
How hard it is to find useful information disseminated in documents, digital
libraries, digital folders, websites, blogs, etc., is a common daily experience,
whatever the topic of interest is. The challenge is even harder when scientific and technological concerns are involved, because information sharing
∗
Assuntina C, Michele F, Francesca Maria P, Rosa S – ....,
Italian Aerospace Research Center, via Maiorise snc, , Capua (CE), Italy.
a.cembalo, m.ferrucci, f.pisano, r.sannino @cira.it.
Mafalda V – Consultant at ...., Italian Aerospace Research Center, via Maiorise snc, ,
Capua (CE), Italy.


A. Cembalo, M. Ferrucci, F.M. Pisano, R. Sannino, M. Viola
among communities and typical rapid evolvement make the availability of
recent information a key–enabler for successful research and technological
activities. In particular, the aerospace domain is strongly characterized by
research and technology developments that need to be constantly updated
to the edge of the state–of–the–art.
The  (Aerospace Information System) web portal has been created
with the main purpose to define and satisfy these user needs through
scientific and technological information sharing and dissemination.
This paper focuses on the  system component related to Document
Warehousing, integrated in the  web portal, which enriches the  content repository by offering a user–friendly approach to document navigation
and exploration, over huge amount of information sources, passing over the
document physical location (digital libraries, digital folders, websites, blogs,
etc.).
Data Warehousing is one of the best known and widely used approaches to decision support system: it allows the user, usually not a computer
expert, to perform easily multidimensional queries, to get summary information about huge amounts of heterogeneous data, coming from different
sources, in different locations. With the increasing awareness that most
of information is contained in unstructured or semi–structured formats,
we witnessed the born of Document Warehousing systems : they enable
to navigate voluminous corpora in an integrated manner and to go back
to the source document starting from aggregated information. Document
navigation and exploration is based on the metadata of the documents, their
content or their categories.
In this paper we describe a content repository using Document Warehousing as a support tool in the exploration of documents from heterogeneous
sources, all related to aeronautics and aerospace domains, by performing
 queries involving pre–defined metadata dimensions such as author,
title, publication date, publisher, language, subject, keyword, etc. This work was
carried on within the research project  , funded by the Campania Region
and  within the framework of  Campania   – , with the
aim of facilitating the sharing of aerospace knowledge in the Campania
Region.
In this paper we describe the development process of a Document
Warehousing system devoted to the aerospace domain. The  portal offers
easy navigation thanks to the cleaning and the integration of any document
. E. T, J.E. A, T.P. L, R. S, Decision Support and Business Intelligence
Systems, Pearson International Edition  .
. F.S.C. T, A.Y.H. C, The concept of Document Warehousing for multidimensional modeling
of textual–based Business Intelligence, in « Decision Support System », vol. , n. , , pp. –.
. –Aerospace Information System, <http://sia.cira.it/>.
An Innovative Content Repository

information content and the removing of ambiguities, i.e. different ways
of writing authors’ names and surnames. The Document Warehousing
system for the  content repository was implemented through the use of
open–source technologies and was designed to be integrated within the 
web portal.
. SIA project
The  project is an innovative system for accessing the largest number of
information sources in the aerospace field.
.. The main project purposes
The main project aim was to implement a system for access, retrieval
and enhancement of technical, scientific, financial information, for users
belonging to the aerospace community and neighbouring areas.
The main purpose of the system was to ensure the most effective access
to different information contents (scientific and technological data, technical
data, simulation models, etc.) in order to increase the audience of real users
to as many as possible.
.. Description of the project
Thanks to the adoption of some innovative technological solutions for the
information management systems, such as semantic web, in this project
there was coexistence within the same network of library systems and other
systems for accessing different information.
Further, the system ensured complete interoperability with other important networks currently operating and it was based on the creation of a
flexible and modular system .
The access was ensured to institutional repositories, technical and scientific databases, simulation models and collections of innovative materials,
electronic bibliographic resources, aerospace–oriented information services,
original documents.
The main functionalities of the project can be here summarized as
follows:
. F. D, P. D G, G. P, et. al., Usability Issues for an Aerospace Digital Library,
in “AVI , Proceedings of the International Working Conference on Advanced Visual Interfaces,
Capri (Naples) Italy”, a cura di G. Tortora, S. Levialdi, M. Tucci, Università degli Studi di Salerno,
maggio .

A. Cembalo, M. Ferrucci, F.M. Pisano, R. Sannino, M. Viola
— management (that is discovery, locating and linking) of different
accessible information content such as printed, digital or digitalized
information available through different resources;
— development of other activities related to information management,
such as e–learning, education activities, and so on.
.. Project results
Nowadays,  content repository services are accessible at the url <http:
//sia.cira.it/> as a web portal integrating functionalities supported by the
following components:
— Semantic Search Subsystem: this component, described in detail in ,
guarantees features in terms of automatic retrieval of predefined
information sources, content filtering, parsing, word disambiguation,
data extraction and correlation, data classification, indexing and data
storage;
— Document Warehousing Subsystem: assures loading and storage of structured information related to metadata in a Document Warehouse for
further user search tasks based on  features.
In order to make  data accessible, the web portal makes information
available through  Linked Open Data () paradigm which allows
structuring and publishing data not only in human–readable but also in
machine–readable way.
.. Document Warehousing system features and use cases
Document Warehousing represents an innovative approach to document
content navigation over huge textual corpora, also distributed among folders, websites and repositories, available in different electronic formats.
When we are looking for particular information, we need summary and
descriptive information about available documents. So, many papers can
be grouped by topic, and/or author, and/or editor, and/or type, and/or
publication year/month/day, enabling each user to follow his own way of
examining documents.
. SIA–Aerospace Information System, <http://sia.cira.it/>.
. F. G, G. Z, G. R, et. al., Aerospace Information System Based on Semantic Technologies and Ontology Management, in “rd International Conference on Data Management
Technologies and Applications (), Vienna, Austria, – September ”.
.  Linked Data, <http://www.w.org/standards/semanticweb/data>.
An Innovative Content Repository

In order to offer such a way of navigation through huge amount of
documents, we identified  system features needed, briefly listed hereafter:
FEAT Access and consultation of specialized technical scientific databases
and electronic bibliographic resources;
FEAT Interoperability with other networks of excellence currently operating;
FEAT Services for multidimensional navigation () of the document
resources by means of default dimension analysis (authors, subject,
etc.);
FEAT Management of user profile for customized and adaptive access to
information and services;
FEAT Adoption of all necessary measures to ensure accessibility and usability of the system, even from mobile devices, through the most
common browsers.
Based on the previous system features, some system use cases were elaborated; the main one “Carrying out multidimensional query” is reported
below (Tab. ).
.. Document Dataset
In order to realize the  Document Warehousing component, we started
with an input dataset based on documents from various sources, all related
to aeronautics and aerospace domains. In particular, the input dataset was
made of e–books and e–journals from commercial suppliers and belonging
to collections relating to aeronautics and aerospace domains, as follows:
—   files related to e–books and e–journals, for each of which we
had an  file containing tags that made possible the categorization
and the search for information based on keywords;
—  files related to e–books and e–journals in  format. We created
some Excel files containing the metadata of these documents.
.. Document Warehousing system architecture
The Document Warehousing system was designed with the aim of providing users with an easy–to–use tool to search for documents within a large
documentary corpus, by means of the performing of multidimensional
queries using pre–defined dimensions. Through a user–friendly interface
based on  technology, users can easily browse documents and retrieve
them through their path.

A. Cembalo, M. Ferrucci, F.M. Pisano, R. Sannino, M. Viola
Table : Document Warehousing System “Carrying out multidimensional query” use cases.
Title
Brief Description
Preconditions
Postconditions
Flow of events
Constraints
Alternative courses
Actors
Extended by use cases
Carrying out multidimensional querying
Data stored in the Document Warehouse can be searched by multidimensional querying system through the analysis of dimensions and
measures of interest among all the dimensions and measures available in the metadata hypercube (i.e. measures: number of documents,
dimensions: author, date of publication, publisher, format, language).
Data stored in the Document Warehouse. The connection to the
server for multidimensional queries is set up and functioning.
The results of multidimensional queries are displayed.
. The user carries out a multidimensional query.
. The system displays the User Interface for document navigation.
. The user selects dimensions of interest among those available
(author, date of publication, publisher, format, language, etc.).
. The user selects a measure of interest among those available
(number of documents, etc.).
. The user pushes the “Execute query” button.
. The system carries out the query.
. The system displays the resulted list of documents, including
metadata and abstract for each document in the list.
Extension Point: the user requires to download the document list in
Microsoft Excel format or Adobe Acrobat format.
Extension Point: the user requires to open the source webpage of the
selected document.
. The use case ends.
None.
None.
Registered users, Guest users.
Download query results. Open the source webpage of the document.
The architecture of the Document Warehousing system that we built,
was defined according to the Data Warehousing methodology , suitably
adapted to the documental sources.
Starting from the analysis of data sources and user needs, we defined the
Document Warehousing system functional architecture, composed of the
following architectural layers (Fig. ).
— Data Sources Layer: it represents the set of input documents, introduced in Section ., which includes e–books and e–journals coming
from various commercial providers, all related to aeronautics and
aerospace domains;
— Textual  Layer: it represents the software layer where  (Extract,
Transform & Load) applications are performed. These applications
extract information from the input data sources, perform cleaning
. M. G, S. R, Data Warehouse Design. Modern Principles and methodologies,
McGrawHill, New York City .
An Innovative Content Repository

Figure :  Document Warehousing system’s layered architecture
tasks, transform and integrate data to load it into the database represented by the Document Warehouse. In this phase the processing of
documents, the extraction of their metadata and the classification are
carried out, too. This is the key point where raw input data becomes
useful data;
— Data Storage Layer: it is represented by the Document Warehouse
(), i.e. the database, structured as a Data Warehouse, which lends
itself to being queried in multidimensional manner by the 
server, via  interface. The  design is characterized by the
definition of the conceptual model and the corresponding logical
model, the creation of the fact schema and the associated star schema,
and then, by the definition of the metadata hypercube;
— Data Logic Layer: it is characterized by the  server that enables
the interpretation and the execution of the  query, built by the
user through the web application and the selection of dimensions of
interest;
— User Layer: it consists of a web application that allows the user to
query the database according to the  logic, through a pre–defined
set of dimensions and measures.
.. Open–source tools
The Document Warehousing system was realized using only open–source
technology based tools. In particular, to implement the  layer, we chose
the –licensed GeoKettle . , which is a particular “geo–enabled” release of
the generic  tool Kettle (Pentaho Data Integration) and the –licensed
. GeoKettle, <http://www.spatialytics.org/projects/geokettle/>.
. Kettle, <http://community.pentaho.com/projects/data-integration/>.

A. Cembalo, M. Ferrucci, F.M. Pisano, R. Sannino, M. Viola
OpenRefine . (formerly GoogleRefine), which is a data wrangling tool
originally supported and published by Google. We first used OpenRefine to
perform an extensive cleaning of raw data and then we used GeoKettle to
extract information from the data sources, transform it and load transformed
data, into the target , which was implemented through the use of the
open source database PostgreSQL . . To implement the Data Logic Layer
we chose Mondrian .. which is an open–source  server able to
perform multidimensional queries, written in MultiDimensional eXpressions
() language , on the . Mondrian also provides a workbench by means
of which we built the  file of the metadata hypercube. In order to display
the results of multidimensional queries on table and statistical graphics,
we used Java libraries JPivot .. . At last, Tomcat  was used as a web
container able to support and manage  pages.
. The development process of the Document Warehousing system
The following paragraphs contain the description of the development process of the Document Warehousing component of the  system. In particular, we describe the textual source analysis, the design and the implementation of the database, including the Document Warehouse loading and the
web application for  queries.
.. Sources Analysis
Starting from the documents described in the section . we carried out an
activity of sources and domain analysis that included the deepening of domain taxonomies for document categorization on the basis of their extracted
keywords. In particular, we referred to the Advisory Council for Aeronautics
Research in Europe () which developed a common European taxonomy for aeronautical research and technology. From a selection of nodes
in the  taxonomy and concepts typical of the aerospace domain, we
defined a taxonomy for documents categorization, which is hierarchically
structured in the following way (Tab. ): Area/Domain/Subdomain/Keyword,
. OpenRefine, <http://openrefine.org/>.
. PostgreSQL, <http://www.postgresql.org/>.
. Mondrian, <http://community.pentaho.com/projects/mondrian/>.
. Tutorial:
Introduction
to
Multidimensional
Expressions
().
<http://www.mdxtutorials.net/>.
. JPivot, <http://jpivot.sourceforge.net/>.
. Tomcat, <http://tomcat.apache.org/>.
. , <http://www.lazio-aerospazio.it/documents///ACARE_Taxonomy.pdf>.
Scarica

AIDAinformazioni - Aracne editrice