Ricerche in corso al
L@bDoc
Erika Pasceri –Antonietta Folino
7' Incontro ISKO Italia Bologna, 20 aprile 2015
Il L@bDoc: chi siamo
Il laboratorio di Documentazione ospita, al suo interno:
•Il Centro di Eccellenza di Economia e Gestione della Conoscenza del Dipartimento di
Lingue e Scienze dell’Educazione dell’Università della Calabria
•La sede di Cosenza dell’Istituto di Informatica e Telematica del Consiglio Nazionale delle
Ricerche (UOS IIT – CNR);
Il gruppo di lavoro:
Competenze diverse che lavorano sinergicamente per lo sviluppo di modelli
metodologie, servizi e prodotti nel campo della gestione della conoscenza
Cosa facciamo
•
•
•
•
Analisi e realizzazione di applicativi per la gestione documentale;
Estrazione terminologica e creazione dei corpora specialistici;
Creazione di sistemi di classificazione, thesauri e ontologie;
Modellazione dei flussi documentali e dei procedimenti
amministrativi;
…nei diversi domini di applicazione ..
e-Health
Wellbeing
Tourism
Handicraft
Building and Construction
Environment
E-Health
1. Smart Health 2.0
Analisi del linguaggio medico di refertazione;
Mappatura tra i sistemi di codifica; Sviluppo di
thesaurus multilingua e multi-registro nei
domini delle malattie croniche e rare.
1. Alpha – Technologies for Elderly
People
Digitalizzazione delle cartelle cliniche dell’ex
ospedale psichiatrico di Girifalco; codifica dei
dati con il sistema di classificazione LOINC
2. Fascicolo Sanitario Elettronico
Supporto tecnico all’AgID per la definizioe
delle specifiche tecniche e regolamentazioni
per la creazione del Fascicolo Sanitario
Elettronico
3. TransForm (EU – FP7)
Aggiornamento della traduzione del mapping
tra i sistemi di classificazione ICPC2-ICD10
4. HL7 Italia CDA 2 PSS Task Force
Supporto alla definizione del nuovo
standard HL7 CDA2 per il Profilo Sanitario
Sintetico
Smart Health 2.0: Thesaurus delle malattie rare
ORD01792
PT Cryptococcosis
ORDR
Orphanet
NORD
ORPHA001546
PT Cryptococcosis
ICD10
MeSH
NORD00331
PT Cryptococcosis
SYN Busse-Buschke Disease
SYN Cryptococcic Meningitis
SYN Cryptococcosis Lung
SYN Cryptococcosis Skin
SYN European Blastomycosis
SYN Torular Meningitis
SYN Torulosis
Systemic
cryptococcosis
Hepatic
cryptococcosis
OMIM
SNOMED-CT
....
Cryptococcal
gastroenteritis
Mucocutaneous
cryptococcosis
Cryptococcosis (779279016)
- Torula
- Torulosis
- Busse-Buschke's disease
- European cryptococcosis
- European Blastomycosis
- Busse-Buschke disease
- infection by Cryptococcus
neoformans
- European blastomycosis
Cryptococcosis
associated with
AIDS
Ocular
cryptococcosis
Cryptococcus
infection of the
central nervous
system
Osseous
cryptococcosis
Pulmonary
cryptococcosis
Smart Health 2.0: Thesaurus delle malattie rare
Smart Health 2.0: Thesaurus delle malattie croniche
La costituzione del corpus specialistico di
letteratura specialistica di dominio è stata
realizzata utilizzando la funzione di Advanced
Search di Pubmed, database bibliografico di
riferimento per la letteratura scientifica
biomedica, secondo i seguenti criteri:
• Date publication: “2010/01/01” to
“present”
• Language: “Italian”/”English”
• MeSH Terms: “Diabetes”/“metabolic
disorders”/”hypertension”/”endocrine
disorders”
Gruppo di lavoro LOINC
•
•
•
•
Aggiornamento della traduzione
Validazione del mapping
Progetto «Community Edition»
Aggiornamento dei tutorial e dei manuali d’uso dello
standard
• Online Helpdesk www.loincitalia.it
Example: LOINC Translation
Alpha - eAsy inteLligent service
Platform for Healthy Ageing
Digitalizzazione analisi e estrazione di dati clinici provenienti
da cartelle cliniche storiche, per la definizione e costruzione di
profili di rischio per i disturbi comportamentali
Codifica e
individuazione dei
comportamenti
anomali attraverso
lo standard LOINC
Alpha: Definizione del profilo di rischio comportamentale
attraverso la memoria storica
1.
Analisi dei dati clinici storici:
• Categorizzazione delle patologie
per aree geografiche
• Categorizzazione delle patologie
in base all’età di insorgenza
2.
Costruzione di una base di
conoscenza per la definizione del
profilo di rischio per disturbi
comportamentali, in relazione al
deterioramento cognitivo e a
fattori endogeni ed ambientali
correlati
Turismo
«DiCeT - LivingLab Di Cultura e Tecnologia – INMOTO - INformation and MObility for TOurism»
Programma Operativo Nazionale Ricerca e Competitività 2007/2013
Smart Cities and Communities and Social Innovation
Asse II - Azioni integrate per lo sviluppo sostenibile
Ambito Smart Culture e Turismo
Stream INMOTO: sviluppo di (a)
un sistema integrato di servizi e
applicazioni innovative per la
creazione, certificazione,
organizzazione, monitoraggio e
promozione dell’Offerta Turistica
e Culturale e (b) una piattaforma
real-time di supporto alla
mobilità turistica.
OR 2.2 Ontologia e
analisi semantica,
mappatura e
indicizzazione
A2.2.3
Strumenti linguistici per
la rappresentazione
semantica e
indicizzazione delle
informazioni
Turismo
Costruzione di un corpus
documentale bilingue
comparabile
Estrazione terminologica
semiautomatica
Costruzione del thesaurus
Costruzione del corpus
Costruzione del corpus - Italiano
Costruzione del corpus - Inglese
Costruzione del corpus

Definizione di un metodo statistico per determinare a priori
la dimensione minima di un corpus

Basato sulla Rinott Procedure

Dimensioni della popolazione non note e difficilmente stimabili

Costruzione di un campione iniziale n0

Scelta di un indice di ricchezza lessicale

TTR – Type/Token ratio e LogTTR

Campionamento stratificato: leggi e riviste

Calcolo della varianza del TTR (gaptypes) e di n
Es. tot.doc = 300; n0= 75, 150, 175; n = 202
Estrazione terminologica
Costruzione del thesaurus
Thesaurus VS Ontologie
• Framework per la conversione automatica di thesauri
conformi alla norma ISO 25964 in ontologie OWL
Il Model Translator:
iso-thes-25964 extension
- Applica un insieme di regole di
conversione per estrarre
un’ontologia dal thesaurus
- Esplora il grafo RDF a partire dalla
struttura gerarchica
- Le regole di conversione vengono
applicate a: Faccette, TopTerms;
Relazioni Gerachiche (BT/NT,
BTG/NTG, BTP/NTP, BTI/NTI);
ThesaurusArray; ConceptGroups.
Thesaurus VS Ontologie
Facet
Thesaurus Array
Example from the EARTh
Thesaurus
Forecasting
[Forecasting by length]
NT Long-term forecasting
NT Short-term forecasting
[Forecasting by target]
NT Drought forecasting
NT Earthquake forecasting
RULE 1: If a Facet node is found,
it
must be converted as a class
<owl:Class
that
is subclass of owl:Thing
rdf:ID="#Forecasting">
and
has
no
other
parent
<owl:unionOf
relations.
rdf:parseType="Collection">
<owl:Class
RULE 6.1: Given two Concept nodes
rdf:ID="#Forecasting_by_length">
<A>
and <B> and a ThesaurusArray
<owl:oneOf
RULE
6.2:
Given
two
Concepts
<B1>
node <TA>
such
that
<A>
rdf:parseType="Collection">
andskos:broader
<B2> and a <B>
ThesaurusArray
(or <A>
<owl:Class
rdf:ID="#Longnode
<TA>, such that
it:broaderGeneric
<B><TA>
or <A>
term_forecasting">
skos:member
it:broaderPartitive
<B1>, <B2>,
<B>),
then
and the
<A></owl:Class>
it:subordinateArray
<TA> and
constructor
owl:disjointWith
<owl:Class
rdf:ID="#Short<TA>
skos:member
<B>,the
then <B>
must
be
used between
is converted
as a subclass
of
term_forecasting">
resulting
OWL classes
for nodes
the</owl:Class>
OWL class defined for node
<B1> and
<B2>
<A>
and
an owl:ObjectProperty is
</owl:oneOf>
defined between <A> and <B> with
</owl:Class>
rdf:ID=”<TA>”.
</owl:unionOf>
</owl:Class>
Attività in corso e prospettive
• Gestione del bilinguismo
attraverso un modello
federato
• Allineamento Thésaurus du
Tourisme et des Loisirs - OMT
• Strutture ricettive (alberghiere,
extralberghiere); Alberghi;
Agricampeggi; Villaggi Alberghi; Centri
benessere; Ostelli per la gioventù; …
• FR Gîte – IT Alloggio
• Livello gerarchico elevato (es. Parchi
naturali)
S&TDL Science & Technology Digital Library
Obiettivo
 Sviluppare un sistema integrato per
l’accesso all’informazione e la
conservazione a lungo termine dei
documenti del CNR
Attività IIT - CNR
 WP9 – Digitalizzazione del patrimonio
storico
 WP10 – Digital Preservation
S&TDL Science & Technology Digital Library
1.
Digitalizzazione del patrimonio di
interesse storico-scientifico
2.
Indicizzazione dei contenuti per la
costruzioni di vocabolari di dominio:
•
T2K – estrazione automatica di Named
Entities (persone, organizzazioni, ecc.)
per la creazione di:


•
3.
Authority list
Soggetti/parole chiave
Mappatura a Nuovo Soggettario e a
liste di dominio esistenti
Descrizione archivistico-documentale:
XDams
Prospettive
• Partecipazione a progetti
• ENVIRONMENT – LIFE Programme (n.6)
• Allineamento e/o definizione di risorse semantiche nel
dominio dell’ambiente
• Horizon2020
• ERA-PLANET: THE EUROPEAN NETWORK FOR OBSERVING OUR
CHANGING PLANET (ERA-NET Cofund: H2020-SC5-2014-2015)
• Interoperabilità semantica
• Proposte progettuali
• Approccio combinato alla gestione della conoscenza
AIDAinformazioni
AIDAinformazioni
[email protected]
[email protected]
Scarica

Gestione e organizzazione della conoscenza specialistica