Italian IA Summit
La classificazione e la struttura relazionale nel Thesaurus:
l’esperienza di EARTh
Fulvio MAZZOCCHI, Paolo PLINI, Sabina DI FRANCO
24 febbraio 2006
Consiglio Nazionale delle
Ricerche
Premessa
• Aspetti generali della terminologia ambientale
• Il progetto del CNR relativo allo sviluppo di un thesaurus generale
per l’ambiente (EARTh)
• La struttura di classificazione e il modello semantico di EARTh
• La struttura delle relazioni di EARTh
• Il contenuto terminologico di EARTh
• SuperThes: il software utilizzato per la gestione del thesaurus
Environmental Knowledge Organisation Laboratory
Alcune considerazioni generali sulla terminologia
ambientale
Nella società attuale “l’ambiente” riveste un’importanza
cruciale:
Consiglio Nazionale delle
Ricerche
• la nascita continua di nuove tematiche (es. l’inquinamento biologico)
• la rapida evoluzione delle conoscenze nel settore ambientale
• la creazione e l’utilizzo di nuove tecnologie
La dinamicità di questo dominio si riflette anche nello
sviluppo della terminologia ambientale
Environmental Knowledge Organisation Laboratory
Alcune considerazioni generali sulla terminologia
ambientale (2)
L’ambiente è un dominio multidisciplinare.
Ogni termine può essere definito in modi differenti a seconda del contesto in
cui viene considerato.
Consiglio Nazionale delle
Ricerche
Per esempio il termine “benzene”:
• un esperto di pianificazione ambientale può considerarlo come una sostanza
inquinante che entra nel ciclo biologico creando danni potenziali
all’ambiente
• un biologo può considerarne la tossicità e i differenti percorsi attraverso i
quali può entrare in un organismo.
• un ingegnere lo considererà come un combustibile per un motore a
combustione
• un chimico potrà vederlo come un appartenente a una certa classe di
composti chimici
• ecc.
Environmental Knowledge Organisation Laboratory
Alcune considerazioni generali sulla terminologia
ambientale (3)
Problemi di sovrapposizione semantica
Consiglio Nazionale delle
Ricerche
Ad esempio: conservazione ambientale, protezione ambientale,
salvaguardia ambientale
Fattori bioculturali
L’ambiente può essere concettualizzato in modi differenti a seconda dei
diversi punti di vista culturali. Esiste una forte relazione tra il linguaggio,
la conoscenza e l’ambiente (vedi come es. le iniziative di Terralingua,
http://www.terralingua.org).
Environmental Knowledge Organisation Laboratory
ECOTerm
Il bisogno di un sistema capace di razionalizzare la gestione
dell’informazione ambientale è un argomento molto dibattuto.
Consiglio Nazionale delle
Ricerche
Un’iniziativa importante sulla terminologia ambientale è rappresentata da
ECOinformatics/ECOTerm (http://ecoinfo.eionet.eu.int/).
Questa iniziativa nasce per “mettere insieme i maggiori fornitori di
terminologia ambientale per discutere sullo status delle loro terminologie,
come vengano applicate le nuove tecnologie e come queste risorse
possano essere rese più valide dalla comunità attraverso l’integrazione e la
collaborazione reciproche”.
Vede coinvolte le seguenti istituzioni (UNEP, FAO, EEA, US EPA, USGS,
JRC, CCLRC, CNR, UBA).
Si sono già tenuti due incontri a Ginevra and Berlino, il prossimo sarà
quest’anno a Roma.
Environmental Knowledge Organisation Laboratory
Il contributo del CNR nella terminologia
ambientale/la nascita di EARTh
EU
UNEP
Livello
Multilingual
Descriptor
System
Thesaurus
Infoterra
Thesauri
ambientali
1990
1983
NBOI/CNR/UBA
Quadrilingual
Thesaurus
Consiglio Nazionale delle
Ricerche
1995
UNEP
EnVoc
NBOI per
EU-EEA TF
MET
1998
1997
CNR/UBA per
EEA
GEMET
1999
CNR
EARTh
2002-2005
contenuto aggiornato e rivisto
nuova struttura
Environmental Knowledge Organisation Laboratory
L’idea
Stiamo lavorando a un nuovo modello di thesaurus che possa essere
applicato al dominio ambientale.
Il thesaurus dovrà:
Consiglio Nazionale delle
Ricerche
 essere uno strumento ben strutturato e rifinito, capace di combinare una
solida base concettuale alla flessibilità richiesta dalle diverse applicazioni;
 rappresentare una mappa semantica e terminologica aggiornata del
dominio ambientale;
 tenere conto della dimensione culturale dell’organizzazione della
conoscenza;
 permettere vari livelli di comprensione e applicazione per utenti con
differenti caratteristiche ed esperienza;
 assicurare l’esportazione del thesaurus in differenti applicazioni
tecnologiche.
Environmental Knowledge Organisation Laboratory
L’architettura di EARTh
Struttura a matrice semantica
– struttura verticale basata su un sistema di categorie
– organizzazione tematica da sviluppare per applicazioni specifiche
Consiglio Nazionale delle
Ricerche
Relazioni del thesaurus
– differenziazione e migliore espressione semantica delle relazioni
– in particolare verrà rinforzata, la struttura trasversale delle RT (il
thesaurus come connettore semantico)
Software 
SQL, Unicode, Client/Server
Environmental Knowledge Organisation Laboratory
Lo schema di classificazione di EARTh
Lo schema di classificazione di EARTh è
basato su un sistema di categorie.
Consiglio Nazionale delle
Ricerche
Seguendo una prospettiva dal basso verso
l’alto, i termini possono essere analizzati
secondo una scala progressiva gerarchica. In
questa scala le caratteristiche concettuali sono
via via abbandonate a favore di una prospettiva
“intensionale” (mentre in una prospettiva
“estensionale” il numero di cose associate
all’intensione aumenta). Si raggiunge così il
massimo livello di genericità.
Le categorie rappresentano il vertice di questa
struttura verticale.
EARTh: categorie di primo e secondo livello
Environmental Knowledge Organisation Laboratory
Lo schema di classificazione di EARTh:
perché adottare un approccio per categorie?
L’approccio per categorie assicura:
• una base concettuale stabile per l’organizzazione della conoscenza;
Consiglio Nazionale delle
Ricerche
• uno strumento per classificare i concetti partendo dal loro
significato di base, riferito alla logica inerente al sistema;
• un forte controllo sulla disposizione semantica;
• applicabilità ai differenti domini, enfatizzando l’interdisciplinarietà.
Environmental Knowledge Organisation Laboratory
Il modello a matrice di EARTh
la struttura verticale
La struttura verticale
La struttura verticale di EARTh è
basata su differenti livelli
classificatori e gerarchici.
Consiglio Nazionale delle
Ricerche
La struttura verticale è uno
strumento operativo che, fornendo
un interpretazione categoriale al
significato del termine e
posizionandolo in un albero
semantico, mira a orientare l’utente
verso le caratteristiche “essenziali”
della semantica del termine.
Questo, però, non limita l’analisi
concettuale dei termini in una
visione statica e univoca.
Environmental Knowledge Organisation Laboratory
Il modello a matrice di EARTh
Temi
L’organizzazione tematica per le applicazioni
suolo - soil
Consiglio Nazionale delle
Ricerche
Il modello consente la possibilità di sviluppare
una ulteriore organizzazione della terminologia.
La struttura verticale può essere completata da
un “micro-mondo” di termini connessi
tematicamente (temi).
Mentre la struttura ad albero tende a spargere i
termini nelle loro categorie di riferimento, i
temi accorpano i termini secondo la loro
prospettiva espressa dai temi stessi.
Questo modello deve anche permettere la
rappresentazione di un significato secondo
accezioni secondarie.
Environmental Knowledge Organisation Laboratory
La rappresentazione del significato: il caso del “Benzene”
“Il benzene è una sostanza organica aromatica”.
aromatica, organica, sostanza sembrano essere i tratti semantici
“essenziali”, che non possono essere ignorati (nella concettualizzazione
occidentale attuale)
“il benzene è tossico”
“il benzene è inquinante”
“il benzene è pericoloso”
Consiglio Nazionale delle
Ricerche
tossico, inquinante, pericoloso sono tre tratti “tipici”. Hanno un peso
minore nella rappresentazione del significato, anche se rappresentano
proprietà importanti nel contesto ambientale.
I temi in EARTh forniscono una prospettiva aggiuntiva per l’interpretazione
del termine e agiscono come strumenti per rappresentare altri tratti
semantici.
Tema SALUTE
 benzene come sostanza tossica.
Tema INQUINAMENTO
 benzene come inquinante.
Tema SICUREZZA
 benzene come sostanza pericolosa.
Environmental Knowledge Organisation Laboratory
Consiglio Nazionale delle
Ricerche
Il modello a matrice di EARTh – il caso “Benzene”
Environmental Knowledge Organisation Laboratory
Relazioni semantiche nei thesauri tradizionali: alcune limitazioni
I thesauri tradizionali forniscono una serie limitata di relazioni fra i termini, distinguendo solo tra
relazioni gerarchiche, relazioni associative e relazioni di equivalenza.
Inoltre le relazioni nel thesaurus sono spesso applicate in modo incongruo. Questo causa
ambiguità nell’interpretazione e può dare luogo a strutture semantiche imprevedibili.
Forse la relazione gerarchica generica è la più abusata. Molti thesauri esistenti forniscono relazioni
targate come BT/NT ma potrebbero essere interpretate più come relazioni di tipo associativo.
Monitoraggio
Riciclaggio
Consiglio Nazionale delle
Ricerche
NT Tecnica di monitoraggio
NT Percentuale di riciclaggio
(GEMET, 1999)
(GEMET, 1999)
Molte relazioni sono indicate come associative, ma la loro natura non viene specificata.
Telerilevamento
Gestione della qualità dell’aria
Eutrofizzazione
RT Cartografia
RT Qualità dell’aria
RT Reflui
(EnVoc, 1997)
(EnVoc, 1997)
(EnVoc, 1997)
Environmental Knowledge Organisation Laboratory
Perfezionamento della struttura relazionale del thesaurus
Una delle soluzioni comunemente proposte per superare le limitazioni, prevede
la reingegnerizzazione dei thesauri tradizionali in sistemi provvisti di un
network esteso di relazioni ben definite.
L’incremento delle relazioni del thesaurus:
Consiglio Nazionale delle
Ricerche
• supporta un controllo semantico migliore
• mostra nuove possibilità per il recupero delle informazioni
• può essere usato per il processamento automatico.
In EARTh, la realizzazione di un insieme di relazioni semantiche è attualmente
in costruzione. Le relazioni standard saranno arricchite con sottotipi, di cui sarà
specificato il contenuto semantico. Le strutture linguistiche esprimeranno le
relazioni semantiche.
Environmental Knowledge Organisation Laboratory
Relazioni gerarchiche
Gli standard per i thesauri e la letteratura scientifica includono tre
tipologie di relazioni gerarchiche: “Genere-specie”, “Parte-tutto” e
“Esemplificativa”, che convergono in una generica “relazione
gerarchica”.
Consiglio Nazionale delle
Ricerche
In EARTh le relazioni genere-specie, parte-tutto ed esemplificativa
saranno differenziate. Si cercherà anche di identificare per ognuna
di esse differenti sottotipi.
Environmental Knowledge Organisation Laboratory
Applicazione delle etichette di snodo
Consiglio Nazionale delle
Ricerche
Le etichette di snodo indicheranno l’uso dei diversi criteri di
suddivisione nelle relazioni gerarchiche generiche.
Environmental Knowledge Organisation Laboratory
Relazioni associative
Le relazioni associative coprono un insieme di relazioni eterogeneo e indifferenziato.
Possono esprimere molti tipi di associazione di carattere non gerarchico tra i termini.
Le ISO 704 definiscono come relazioni che “esistono quando un collegamento tematico
può essere stabilito tra concetti in virtù dell’esperienza”.
In questo lavoro si proverà a specificare la natura delle relazioni e a differenziare le RT
in sottotipi.
Consiglio Nazionale delle
Ricerche
Specificare e incrementare
relazioni associative permetterà di
sviluppare una struttura a rete che
enfatizzi il sistema di
interrelazioni, i legami
“connettivi” che limitino il grado
di separazione dal campo
concettuale e che non possono
essere rappresentati dal modello
ad albero tassonomico-gerarchico
(fondamentale nel dominio
ambientale).
Environmental Knowledge Organisation Laboratory
Relazioni di equivalenza
Le relazioni di equivalenza coprono almeno le tipologie di base seguenti: sinonimi,
varianti lessicali e quasi-sinonimi. “Veri” sinonimi e varianti lessicali saranno distiniti r
verranno identificati i diversi sottotipi.
Consiglio Nazionale delle
Ricerche
La sinonimia si riferisce a una
somiglianza nel significato. È stata
anche definita come una
interscambiabilità fra termini,
nonostante sia molto difficile
pensare all’esistenza di una
sinonimia assoluta o perfetta in
presenza di interscambiabilità in
tutti i contesti.
Le varianti lessicali sono parole
differenti utilizzate per la stessa
espressione e derivano dalle
variazioni morfologiche e
grammaticali.
La categoria dei quasi-sinonimi non
verrà inclusa per adesso nel sistema.
Environmental Knowledge Organisation Laboratory
Portabilità per differenti utenti
Un altro obiettivo da raggiungere è
assicurare una alta modularità del
sistema.
Consiglio Nazionale delle
Ricerche
Non tutti gli utenti sono interessati nelle
sottili distinzioni delle relazioni del
thesaurus.
Sarà possibile navigare nella struttura
del thesaurus per differenti livelli, a
partire dalla versione tradizionale della
struttura relazionale del thesaurus.
Environmental Knowledge Organisation Laboratory
La raccolta e la selezione dei termini di EARTh
Consiglio Nazionale delle
Ricerche
Il nostro obiettivo è quello di produrre una mappa semantica del dominio ambientale
aggiornata e valida.
La fonte principale (circa 4000 termini selezionati) of termini relativi all’ambiente è
GEMET-General European Multilingual Environmental Thesaurus (1999)
sviluppato da CNR-EKOLab e UBA-Umweltbundesamt per l’Agenzia Ambientale
Europea.
Altre fonti sono (la base terminologica è di circa 20.000 termini).
fonti di terminologia ambientale generale
– UN Environment and Development (1992)
fonti di terminologia di domini specifici
–
–
–
–
–
–
Thesaurus Italiano of Scienze della Terra (2000)
Terminologia Inland Water (2001)
Terminologia Snow and Ice (2003)
Thesaurus for Emergency and Disasters (1998/2003)
Terminologia Remote Sensing (2004)
Altri documenti di riferimento in campi specifici o relativi alla scienza
contemporanea (teoria del caos, complessità) o relativi alla diversità
bioculturale.
Environmental Knowledge Organisation Laboratory
Il contenuto terminologico di EARTh
Consiglio Nazionale delle
Ricerche
Al momento EARTh contiene circa 7.500 termini già selezionati e organizzati
~ 1.500 termini sono relativi alla pressione ambientale (es. attività industriali e
agricole).
~ 2.500 termini descrivono lo stato dell’ambiente (es. i componenti e i processi
naturali).
~ 1.000 termini sono relativi all’impatto ambientale (es. rifiuti, inquinamento, perdita
di biodiversità).
~ 2.500 termini riguardanti temi sociali (es. misure legislative, educazione ambientale,
ricerca).
Environmental Knowledge Organisation Laboratory
SuperThes è un software di gestione del thesaurus; realizzato da TBHS e
finanziato nel quadro di una cooperazione internazionale tra CNR, UBA-A,
UBA-D e TBHS.
Consiglio Nazionale delle
Ricerche
Si basa su una tecnologia per basi dati open source client-server DB
(Interbase-Firebird)
Per piccole istallazioni, client e server possono risiedere nello stesso
computer.
Supporta l’Unicode e immagazzina i dati in formato UCS-2.
Vi sono predefiniti tutti I linguaggi delle ISO 639-1.
Prospettive e attività in corso:
•Visualizzatore per thesauri SuperThes-based
•Interfaccia web per thesauri SuperThes-based
•Ulteriore espansione delle capacità multilingue (selezione, codifiche UTF8 e
UTF32)
Environmental Knowledge Organisation Laboratory
Caratteristiche principali
1.
Consiglio Nazionale delle
Ricerche
2.
3.
4.
Un interfaccia grafica utilizzabile in modalità “drag and drop” e menu
contestuali che permettono una gestione dei dati veloce ed efficiente
Un potente plug-in per il word processor
•
•
•
supporta tavole e immagini
legge e scrive in formato RTF e HTML
legge e scrive documenti di MS Word
Editor multimediale di suoni e immagini:
•
•
supporta file in formati (jpg, bmp, ico, emf, wmf)
possibilità di scambio data exchange con le altre applicazioni attraverso file,
clipboard e drag & drop
SuperThes supporta un’ampia gamma di tipi di dati:
booleani, decimali, liste, memo, short & long text, coordinate geografiche,
altri (adattabili)
Environmental Knowledge Organisation Laboratory
Grazie!
 http://uta.iia.cnr.it
 [email protected]
Consiglio Nazionale delle
Ricerche
  +39 06 90672 712/270
  +39 06 90672 660
Informazioni su SuperThes:
[email protected]
Environmental Knowledge Organisation Laboratory
Scarica

Relazioni del thesaurus - EARTh - Consiglio Nazionale delle Ricerche