Ricerche in corso al L@bDoc Erika Pasceri –Antonietta Folino 7' Incontro ISKO Italia Bologna, 20 aprile 2015 Il L@bDoc: chi siamo Il laboratorio di Documentazione ospita, al suo interno: •Il Centro di Eccellenza di Economia e Gestione della Conoscenza del Dipartimento di Lingue e Scienze dell’Educazione dell’Università della Calabria •La sede di Cosenza dell’Istituto di Informatica e Telematica del Consiglio Nazionale delle Ricerche (UOS IIT – CNR); Il gruppo di lavoro: Competenze diverse che lavorano sinergicamente per lo sviluppo di modelli metodologie, servizi e prodotti nel campo della gestione della conoscenza Cosa facciamo • • • • Analisi e realizzazione di applicativi per la gestione documentale; Estrazione terminologica e creazione dei corpora specialistici; Creazione di sistemi di classificazione, thesauri e ontologie; Modellazione dei flussi documentali e dei procedimenti amministrativi; …nei diversi domini di applicazione .. e-Health Wellbeing Tourism Handicraft Building and Construction Environment E-Health 1. Smart Health 2.0 Analisi del linguaggio medico di refertazione; Mappatura tra i sistemi di codifica; Sviluppo di thesaurus multilingua e multi-registro nei domini delle malattie croniche e rare. 1. Alpha – Technologies for Elderly People Digitalizzazione delle cartelle cliniche dell’ex ospedale psichiatrico di Girifalco; codifica dei dati con il sistema di classificazione LOINC 2. Fascicolo Sanitario Elettronico Supporto tecnico all’AgID per la definizioe delle specifiche tecniche e regolamentazioni per la creazione del Fascicolo Sanitario Elettronico 3. TransForm (EU – FP7) Aggiornamento della traduzione del mapping tra i sistemi di classificazione ICPC2-ICD10 4. HL7 Italia CDA 2 PSS Task Force Supporto alla definizione del nuovo standard HL7 CDA2 per il Profilo Sanitario Sintetico Smart Health 2.0: Thesaurus delle malattie rare ORD01792 PT Cryptococcosis ORDR Orphanet NORD ORPHA001546 PT Cryptococcosis ICD10 MeSH NORD00331 PT Cryptococcosis SYN Busse-Buschke Disease SYN Cryptococcic Meningitis SYN Cryptococcosis Lung SYN Cryptococcosis Skin SYN European Blastomycosis SYN Torular Meningitis SYN Torulosis Systemic cryptococcosis Hepatic cryptococcosis OMIM SNOMED-CT .... Cryptococcal gastroenteritis Mucocutaneous cryptococcosis Cryptococcosis (779279016) - Torula - Torulosis - Busse-Buschke's disease - European cryptococcosis - European Blastomycosis - Busse-Buschke disease - infection by Cryptococcus neoformans - European blastomycosis Cryptococcosis associated with AIDS Ocular cryptococcosis Cryptococcus infection of the central nervous system Osseous cryptococcosis Pulmonary cryptococcosis Smart Health 2.0: Thesaurus delle malattie rare Smart Health 2.0: Thesaurus delle malattie croniche La costituzione del corpus specialistico di letteratura specialistica di dominio è stata realizzata utilizzando la funzione di Advanced Search di Pubmed, database bibliografico di riferimento per la letteratura scientifica biomedica, secondo i seguenti criteri: • Date publication: “2010/01/01” to “present” • Language: “Italian”/”English” • MeSH Terms: “Diabetes”/“metabolic disorders”/”hypertension”/”endocrine disorders” Gruppo di lavoro LOINC • • • • Aggiornamento della traduzione Validazione del mapping Progetto «Community Edition» Aggiornamento dei tutorial e dei manuali d’uso dello standard • Online Helpdesk www.loincitalia.it Example: LOINC Translation Alpha - eAsy inteLligent service Platform for Healthy Ageing Digitalizzazione analisi e estrazione di dati clinici provenienti da cartelle cliniche storiche, per la definizione e costruzione di profili di rischio per i disturbi comportamentali Codifica e individuazione dei comportamenti anomali attraverso lo standard LOINC Alpha: Definizione del profilo di rischio comportamentale attraverso la memoria storica 1. Analisi dei dati clinici storici: • Categorizzazione delle patologie per aree geografiche • Categorizzazione delle patologie in base all’età di insorgenza 2. Costruzione di una base di conoscenza per la definizione del profilo di rischio per disturbi comportamentali, in relazione al deterioramento cognitivo e a fattori endogeni ed ambientali correlati Turismo «DiCeT - LivingLab Di Cultura e Tecnologia – INMOTO - INformation and MObility for TOurism» Programma Operativo Nazionale Ricerca e Competitività 2007/2013 Smart Cities and Communities and Social Innovation Asse II - Azioni integrate per lo sviluppo sostenibile Ambito Smart Culture e Turismo Stream INMOTO: sviluppo di (a) un sistema integrato di servizi e applicazioni innovative per la creazione, certificazione, organizzazione, monitoraggio e promozione dell’Offerta Turistica e Culturale e (b) una piattaforma real-time di supporto alla mobilità turistica. OR 2.2 Ontologia e analisi semantica, mappatura e indicizzazione A2.2.3 Strumenti linguistici per la rappresentazione semantica e indicizzazione delle informazioni Turismo Costruzione di un corpus documentale bilingue comparabile Estrazione terminologica semiautomatica Costruzione del thesaurus Costruzione del corpus Costruzione del corpus - Italiano Costruzione del corpus - Inglese Costruzione del corpus Definizione di un metodo statistico per determinare a priori la dimensione minima di un corpus Basato sulla Rinott Procedure Dimensioni della popolazione non note e difficilmente stimabili Costruzione di un campione iniziale n0 Scelta di un indice di ricchezza lessicale TTR – Type/Token ratio e LogTTR Campionamento stratificato: leggi e riviste Calcolo della varianza del TTR (gaptypes) e di n Es. tot.doc = 300; n0= 75, 150, 175; n = 202 Estrazione terminologica Costruzione del thesaurus Thesaurus VS Ontologie • Framework per la conversione automatica di thesauri conformi alla norma ISO 25964 in ontologie OWL Il Model Translator: iso-thes-25964 extension - Applica un insieme di regole di conversione per estrarre un’ontologia dal thesaurus - Esplora il grafo RDF a partire dalla struttura gerarchica - Le regole di conversione vengono applicate a: Faccette, TopTerms; Relazioni Gerachiche (BT/NT, BTG/NTG, BTP/NTP, BTI/NTI); ThesaurusArray; ConceptGroups. Thesaurus VS Ontologie Facet Thesaurus Array Example from the EARTh Thesaurus Forecasting [Forecasting by length] NT Long-term forecasting NT Short-term forecasting [Forecasting by target] NT Drought forecasting NT Earthquake forecasting RULE 1: If a Facet node is found, it must be converted as a class <owl:Class that is subclass of owl:Thing rdf:ID="#Forecasting"> and has no other parent <owl:unionOf relations. rdf:parseType="Collection"> <owl:Class RULE 6.1: Given two Concept nodes rdf:ID="#Forecasting_by_length"> <A> and <B> and a ThesaurusArray <owl:oneOf RULE 6.2: Given two Concepts <B1> node <TA> such that <A> rdf:parseType="Collection"> andskos:broader <B2> and a <B> ThesaurusArray (or <A> <owl:Class rdf:ID="#Longnode <TA>, such that it:broaderGeneric <B><TA> or <A> term_forecasting"> skos:member it:broaderPartitive <B1>, <B2>, <B>), then and the <A></owl:Class> it:subordinateArray <TA> and constructor owl:disjointWith <owl:Class rdf:ID="#Short<TA> skos:member <B>,the then <B> must be used between is converted as a subclass of term_forecasting"> resulting OWL classes for nodes the</owl:Class> OWL class defined for node <B1> and <B2> <A> and an owl:ObjectProperty is </owl:oneOf> defined between <A> and <B> with </owl:Class> rdf:ID=”<TA>”. </owl:unionOf> </owl:Class> Attività in corso e prospettive • Gestione del bilinguismo attraverso un modello federato • Allineamento Thésaurus du Tourisme et des Loisirs - OMT • Strutture ricettive (alberghiere, extralberghiere); Alberghi; Agricampeggi; Villaggi Alberghi; Centri benessere; Ostelli per la gioventù; … • FR Gîte – IT Alloggio • Livello gerarchico elevato (es. Parchi naturali) S&TDL Science & Technology Digital Library Obiettivo Sviluppare un sistema integrato per l’accesso all’informazione e la conservazione a lungo termine dei documenti del CNR Attività IIT - CNR WP9 – Digitalizzazione del patrimonio storico WP10 – Digital Preservation S&TDL Science & Technology Digital Library 1. Digitalizzazione del patrimonio di interesse storico-scientifico 2. Indicizzazione dei contenuti per la costruzioni di vocabolari di dominio: • T2K – estrazione automatica di Named Entities (persone, organizzazioni, ecc.) per la creazione di: • 3. Authority list Soggetti/parole chiave Mappatura a Nuovo Soggettario e a liste di dominio esistenti Descrizione archivistico-documentale: XDams Prospettive • Partecipazione a progetti • ENVIRONMENT – LIFE Programme (n.6) • Allineamento e/o definizione di risorse semantiche nel dominio dell’ambiente • Horizon2020 • ERA-PLANET: THE EUROPEAN NETWORK FOR OBSERVING OUR CHANGING PLANET (ERA-NET Cofund: H2020-SC5-2014-2015) • Interoperabilità semantica • Proposte progettuali • Approccio combinato alla gestione della conoscenza AIDAinformazioni AIDAinformazioni [email protected] [email protected]