Italian IA Summit La classificazione e la struttura relazionale nel Thesaurus: l’esperienza di EARTh Fulvio MAZZOCCHI, Paolo PLINI, Sabina DI FRANCO 24 febbraio 2006 Consiglio Nazionale delle Ricerche Premessa • Aspetti generali della terminologia ambientale • Il progetto del CNR relativo allo sviluppo di un thesaurus generale per l’ambiente (EARTh) • La struttura di classificazione e il modello semantico di EARTh • La struttura delle relazioni di EARTh • Il contenuto terminologico di EARTh • SuperThes: il software utilizzato per la gestione del thesaurus Environmental Knowledge Organisation Laboratory Alcune considerazioni generali sulla terminologia ambientale Nella società attuale “l’ambiente” riveste un’importanza cruciale: Consiglio Nazionale delle Ricerche • la nascita continua di nuove tematiche (es. l’inquinamento biologico) • la rapida evoluzione delle conoscenze nel settore ambientale • la creazione e l’utilizzo di nuove tecnologie La dinamicità di questo dominio si riflette anche nello sviluppo della terminologia ambientale Environmental Knowledge Organisation Laboratory Alcune considerazioni generali sulla terminologia ambientale (2) L’ambiente è un dominio multidisciplinare. Ogni termine può essere definito in modi differenti a seconda del contesto in cui viene considerato. Consiglio Nazionale delle Ricerche Per esempio il termine “benzene”: • un esperto di pianificazione ambientale può considerarlo come una sostanza inquinante che entra nel ciclo biologico creando danni potenziali all’ambiente • un biologo può considerarne la tossicità e i differenti percorsi attraverso i quali può entrare in un organismo. • un ingegnere lo considererà come un combustibile per un motore a combustione • un chimico potrà vederlo come un appartenente a una certa classe di composti chimici • ecc. Environmental Knowledge Organisation Laboratory Alcune considerazioni generali sulla terminologia ambientale (3) Problemi di sovrapposizione semantica Consiglio Nazionale delle Ricerche Ad esempio: conservazione ambientale, protezione ambientale, salvaguardia ambientale Fattori bioculturali L’ambiente può essere concettualizzato in modi differenti a seconda dei diversi punti di vista culturali. Esiste una forte relazione tra il linguaggio, la conoscenza e l’ambiente (vedi come es. le iniziative di Terralingua, http://www.terralingua.org). Environmental Knowledge Organisation Laboratory ECOTerm Il bisogno di un sistema capace di razionalizzare la gestione dell’informazione ambientale è un argomento molto dibattuto. Consiglio Nazionale delle Ricerche Un’iniziativa importante sulla terminologia ambientale è rappresentata da ECOinformatics/ECOTerm (http://ecoinfo.eionet.eu.int/). Questa iniziativa nasce per “mettere insieme i maggiori fornitori di terminologia ambientale per discutere sullo status delle loro terminologie, come vengano applicate le nuove tecnologie e come queste risorse possano essere rese più valide dalla comunità attraverso l’integrazione e la collaborazione reciproche”. Vede coinvolte le seguenti istituzioni (UNEP, FAO, EEA, US EPA, USGS, JRC, CCLRC, CNR, UBA). Si sono già tenuti due incontri a Ginevra and Berlino, il prossimo sarà quest’anno a Roma. Environmental Knowledge Organisation Laboratory Il contributo del CNR nella terminologia ambientale/la nascita di EARTh EU UNEP Livello Multilingual Descriptor System Thesaurus Infoterra Thesauri ambientali 1990 1983 NBOI/CNR/UBA Quadrilingual Thesaurus Consiglio Nazionale delle Ricerche 1995 UNEP EnVoc NBOI per EU-EEA TF MET 1998 1997 CNR/UBA per EEA GEMET 1999 CNR EARTh 2002-2005 contenuto aggiornato e rivisto nuova struttura Environmental Knowledge Organisation Laboratory L’idea Stiamo lavorando a un nuovo modello di thesaurus che possa essere applicato al dominio ambientale. Il thesaurus dovrà: Consiglio Nazionale delle Ricerche essere uno strumento ben strutturato e rifinito, capace di combinare una solida base concettuale alla flessibilità richiesta dalle diverse applicazioni; rappresentare una mappa semantica e terminologica aggiornata del dominio ambientale; tenere conto della dimensione culturale dell’organizzazione della conoscenza; permettere vari livelli di comprensione e applicazione per utenti con differenti caratteristiche ed esperienza; assicurare l’esportazione del thesaurus in differenti applicazioni tecnologiche. Environmental Knowledge Organisation Laboratory L’architettura di EARTh Struttura a matrice semantica – struttura verticale basata su un sistema di categorie – organizzazione tematica da sviluppare per applicazioni specifiche Consiglio Nazionale delle Ricerche Relazioni del thesaurus – differenziazione e migliore espressione semantica delle relazioni – in particolare verrà rinforzata, la struttura trasversale delle RT (il thesaurus come connettore semantico) Software SQL, Unicode, Client/Server Environmental Knowledge Organisation Laboratory Lo schema di classificazione di EARTh Lo schema di classificazione di EARTh è basato su un sistema di categorie. Consiglio Nazionale delle Ricerche Seguendo una prospettiva dal basso verso l’alto, i termini possono essere analizzati secondo una scala progressiva gerarchica. In questa scala le caratteristiche concettuali sono via via abbandonate a favore di una prospettiva “intensionale” (mentre in una prospettiva “estensionale” il numero di cose associate all’intensione aumenta). Si raggiunge così il massimo livello di genericità. Le categorie rappresentano il vertice di questa struttura verticale. EARTh: categorie di primo e secondo livello Environmental Knowledge Organisation Laboratory Lo schema di classificazione di EARTh: perché adottare un approccio per categorie? L’approccio per categorie assicura: • una base concettuale stabile per l’organizzazione della conoscenza; Consiglio Nazionale delle Ricerche • uno strumento per classificare i concetti partendo dal loro significato di base, riferito alla logica inerente al sistema; • un forte controllo sulla disposizione semantica; • applicabilità ai differenti domini, enfatizzando l’interdisciplinarietà. Environmental Knowledge Organisation Laboratory Il modello a matrice di EARTh la struttura verticale La struttura verticale La struttura verticale di EARTh è basata su differenti livelli classificatori e gerarchici. Consiglio Nazionale delle Ricerche La struttura verticale è uno strumento operativo che, fornendo un interpretazione categoriale al significato del termine e posizionandolo in un albero semantico, mira a orientare l’utente verso le caratteristiche “essenziali” della semantica del termine. Questo, però, non limita l’analisi concettuale dei termini in una visione statica e univoca. Environmental Knowledge Organisation Laboratory Il modello a matrice di EARTh Temi L’organizzazione tematica per le applicazioni suolo - soil Consiglio Nazionale delle Ricerche Il modello consente la possibilità di sviluppare una ulteriore organizzazione della terminologia. La struttura verticale può essere completata da un “micro-mondo” di termini connessi tematicamente (temi). Mentre la struttura ad albero tende a spargere i termini nelle loro categorie di riferimento, i temi accorpano i termini secondo la loro prospettiva espressa dai temi stessi. Questo modello deve anche permettere la rappresentazione di un significato secondo accezioni secondarie. Environmental Knowledge Organisation Laboratory La rappresentazione del significato: il caso del “Benzene” “Il benzene è una sostanza organica aromatica”. aromatica, organica, sostanza sembrano essere i tratti semantici “essenziali”, che non possono essere ignorati (nella concettualizzazione occidentale attuale) “il benzene è tossico” “il benzene è inquinante” “il benzene è pericoloso” Consiglio Nazionale delle Ricerche tossico, inquinante, pericoloso sono tre tratti “tipici”. Hanno un peso minore nella rappresentazione del significato, anche se rappresentano proprietà importanti nel contesto ambientale. I temi in EARTh forniscono una prospettiva aggiuntiva per l’interpretazione del termine e agiscono come strumenti per rappresentare altri tratti semantici. Tema SALUTE benzene come sostanza tossica. Tema INQUINAMENTO benzene come inquinante. Tema SICUREZZA benzene come sostanza pericolosa. Environmental Knowledge Organisation Laboratory Consiglio Nazionale delle Ricerche Il modello a matrice di EARTh – il caso “Benzene” Environmental Knowledge Organisation Laboratory Relazioni semantiche nei thesauri tradizionali: alcune limitazioni I thesauri tradizionali forniscono una serie limitata di relazioni fra i termini, distinguendo solo tra relazioni gerarchiche, relazioni associative e relazioni di equivalenza. Inoltre le relazioni nel thesaurus sono spesso applicate in modo incongruo. Questo causa ambiguità nell’interpretazione e può dare luogo a strutture semantiche imprevedibili. Forse la relazione gerarchica generica è la più abusata. Molti thesauri esistenti forniscono relazioni targate come BT/NT ma potrebbero essere interpretate più come relazioni di tipo associativo. Monitoraggio Riciclaggio Consiglio Nazionale delle Ricerche NT Tecnica di monitoraggio NT Percentuale di riciclaggio (GEMET, 1999) (GEMET, 1999) Molte relazioni sono indicate come associative, ma la loro natura non viene specificata. Telerilevamento Gestione della qualità dell’aria Eutrofizzazione RT Cartografia RT Qualità dell’aria RT Reflui (EnVoc, 1997) (EnVoc, 1997) (EnVoc, 1997) Environmental Knowledge Organisation Laboratory Perfezionamento della struttura relazionale del thesaurus Una delle soluzioni comunemente proposte per superare le limitazioni, prevede la reingegnerizzazione dei thesauri tradizionali in sistemi provvisti di un network esteso di relazioni ben definite. L’incremento delle relazioni del thesaurus: Consiglio Nazionale delle Ricerche • supporta un controllo semantico migliore • mostra nuove possibilità per il recupero delle informazioni • può essere usato per il processamento automatico. In EARTh, la realizzazione di un insieme di relazioni semantiche è attualmente in costruzione. Le relazioni standard saranno arricchite con sottotipi, di cui sarà specificato il contenuto semantico. Le strutture linguistiche esprimeranno le relazioni semantiche. Environmental Knowledge Organisation Laboratory Relazioni gerarchiche Gli standard per i thesauri e la letteratura scientifica includono tre tipologie di relazioni gerarchiche: “Genere-specie”, “Parte-tutto” e “Esemplificativa”, che convergono in una generica “relazione gerarchica”. Consiglio Nazionale delle Ricerche In EARTh le relazioni genere-specie, parte-tutto ed esemplificativa saranno differenziate. Si cercherà anche di identificare per ognuna di esse differenti sottotipi. Environmental Knowledge Organisation Laboratory Applicazione delle etichette di snodo Consiglio Nazionale delle Ricerche Le etichette di snodo indicheranno l’uso dei diversi criteri di suddivisione nelle relazioni gerarchiche generiche. Environmental Knowledge Organisation Laboratory Relazioni associative Le relazioni associative coprono un insieme di relazioni eterogeneo e indifferenziato. Possono esprimere molti tipi di associazione di carattere non gerarchico tra i termini. Le ISO 704 definiscono come relazioni che “esistono quando un collegamento tematico può essere stabilito tra concetti in virtù dell’esperienza”. In questo lavoro si proverà a specificare la natura delle relazioni e a differenziare le RT in sottotipi. Consiglio Nazionale delle Ricerche Specificare e incrementare relazioni associative permetterà di sviluppare una struttura a rete che enfatizzi il sistema di interrelazioni, i legami “connettivi” che limitino il grado di separazione dal campo concettuale e che non possono essere rappresentati dal modello ad albero tassonomico-gerarchico (fondamentale nel dominio ambientale). Environmental Knowledge Organisation Laboratory Relazioni di equivalenza Le relazioni di equivalenza coprono almeno le tipologie di base seguenti: sinonimi, varianti lessicali e quasi-sinonimi. “Veri” sinonimi e varianti lessicali saranno distiniti r verranno identificati i diversi sottotipi. Consiglio Nazionale delle Ricerche La sinonimia si riferisce a una somiglianza nel significato. È stata anche definita come una interscambiabilità fra termini, nonostante sia molto difficile pensare all’esistenza di una sinonimia assoluta o perfetta in presenza di interscambiabilità in tutti i contesti. Le varianti lessicali sono parole differenti utilizzate per la stessa espressione e derivano dalle variazioni morfologiche e grammaticali. La categoria dei quasi-sinonimi non verrà inclusa per adesso nel sistema. Environmental Knowledge Organisation Laboratory Portabilità per differenti utenti Un altro obiettivo da raggiungere è assicurare una alta modularità del sistema. Consiglio Nazionale delle Ricerche Non tutti gli utenti sono interessati nelle sottili distinzioni delle relazioni del thesaurus. Sarà possibile navigare nella struttura del thesaurus per differenti livelli, a partire dalla versione tradizionale della struttura relazionale del thesaurus. Environmental Knowledge Organisation Laboratory La raccolta e la selezione dei termini di EARTh Consiglio Nazionale delle Ricerche Il nostro obiettivo è quello di produrre una mappa semantica del dominio ambientale aggiornata e valida. La fonte principale (circa 4000 termini selezionati) of termini relativi all’ambiente è GEMET-General European Multilingual Environmental Thesaurus (1999) sviluppato da CNR-EKOLab e UBA-Umweltbundesamt per l’Agenzia Ambientale Europea. Altre fonti sono (la base terminologica è di circa 20.000 termini). fonti di terminologia ambientale generale – UN Environment and Development (1992) fonti di terminologia di domini specifici – – – – – – Thesaurus Italiano of Scienze della Terra (2000) Terminologia Inland Water (2001) Terminologia Snow and Ice (2003) Thesaurus for Emergency and Disasters (1998/2003) Terminologia Remote Sensing (2004) Altri documenti di riferimento in campi specifici o relativi alla scienza contemporanea (teoria del caos, complessità) o relativi alla diversità bioculturale. Environmental Knowledge Organisation Laboratory Il contenuto terminologico di EARTh Consiglio Nazionale delle Ricerche Al momento EARTh contiene circa 7.500 termini già selezionati e organizzati ~ 1.500 termini sono relativi alla pressione ambientale (es. attività industriali e agricole). ~ 2.500 termini descrivono lo stato dell’ambiente (es. i componenti e i processi naturali). ~ 1.000 termini sono relativi all’impatto ambientale (es. rifiuti, inquinamento, perdita di biodiversità). ~ 2.500 termini riguardanti temi sociali (es. misure legislative, educazione ambientale, ricerca). Environmental Knowledge Organisation Laboratory SuperThes è un software di gestione del thesaurus; realizzato da TBHS e finanziato nel quadro di una cooperazione internazionale tra CNR, UBA-A, UBA-D e TBHS. Consiglio Nazionale delle Ricerche Si basa su una tecnologia per basi dati open source client-server DB (Interbase-Firebird) Per piccole istallazioni, client e server possono risiedere nello stesso computer. Supporta l’Unicode e immagazzina i dati in formato UCS-2. Vi sono predefiniti tutti I linguaggi delle ISO 639-1. Prospettive e attività in corso: •Visualizzatore per thesauri SuperThes-based •Interfaccia web per thesauri SuperThes-based •Ulteriore espansione delle capacità multilingue (selezione, codifiche UTF8 e UTF32) Environmental Knowledge Organisation Laboratory Caratteristiche principali 1. Consiglio Nazionale delle Ricerche 2. 3. 4. Un interfaccia grafica utilizzabile in modalità “drag and drop” e menu contestuali che permettono una gestione dei dati veloce ed efficiente Un potente plug-in per il word processor • • • supporta tavole e immagini legge e scrive in formato RTF e HTML legge e scrive documenti di MS Word Editor multimediale di suoni e immagini: • • supporta file in formati (jpg, bmp, ico, emf, wmf) possibilità di scambio data exchange con le altre applicazioni attraverso file, clipboard e drag & drop SuperThes supporta un’ampia gamma di tipi di dati: booleani, decimali, liste, memo, short & long text, coordinate geografiche, altri (adattabili) Environmental Knowledge Organisation Laboratory Grazie! http://uta.iia.cnr.it [email protected] Consiglio Nazionale delle Ricerche +39 06 90672 712/270 +39 06 90672 660 Informazioni su SuperThes: [email protected] Environmental Knowledge Organisation Laboratory