I linguaggi controllati
per la VET
in Europa
Chiara Carlucci
Roma, CNR 1 Luglio 2010 Convegno La rete
dell'apprendimento
I linguaggi controllati per la VET in Europa
Effettuare una ricerca di informazioni e di documenti usando un thesaurus è piú efficace che non una ricerca libera, che utilizzi il
cosiddetto ‘linguaggio naturale’.
Il thesaurus ... non è un dizionario (raccolta delle parole di una determinata lingua disposta secondo un certo criterio e accompagnata
generalmente dalla definizione del significato delle parole stesse (LUI, vol. VI) non è un glossario (raccolta di vocaboli registrati in
genere in ordine alfabetico e seguiti dalla dichiarazione del significato o da altre osservazion (LUI, vol. IX) non è un lessico
(vocabolario che registra alfabeticamente le parole di una lingua dando di ciascuna la spiegazione […] si usa preferibilmente per
indicare vocabolari di lingue antiche (LUI, vol. XII) non è un vocabolario (libro che raccoglie in ordine alfabetico definizioni ed esempi
dei vocaboli di una lingua o traduce le parole di una lingua nelle corrispondenti di un’altra (LUI, vol. XXIV) non è un soggettario
(elenco alfabetico dei termini e dei relativi richiami e rinvii proposti come intestazione standard di soggetto ritenuti concettualmente
e linguisticamente più idonei a esprimere il contenuto di un documento)
Il thesaurus è un thesaurus, ‘un vocabolario controllato e dinamico di termini correlati semanticamente da usarsi come strumento per il
controllo terminologico all’interno di un dominio specifico della conoscenza in fase di traduzione dal linguaggio naturale in
linguaggio sistematico’ (Unesco, 1976)
L’utilizzo di un thesaurus arricchisce la prestazione del servizio informativo, che non si limita cosí solo ad offrire al proprio utente ció
che egli chiede, ma é anche in grado di suggerirgli cos’altro potrebbe chiedere, mostrandogli i soggetti correlati alla propria
ricerca. Come ulteriore vantaggio indotto, l’utente viene anche istruito ad utilizzare un linguaggio specialistico e viene aiutato nella
comprensione del dominio semantico che lo interessa.
Anche considerando che possa esistere una discrepanza nella scelta di un termine per effettuare una ricerca tra chi cataloga
(documentalista) e chi cerca (l’utente), che potrebbero ottenere dei risultati che non corrispondano completamente, l’integrazione
di strumenti semantici per condurre le ricerche - in ambienti strutturati e non - oltre a ridurre la distanza tra la richiesta e l’offerta di
informazione consente di ampliare semanticamente la ricerca.
I thesauri rappresentano la migliore interfaccia di ricerca possibile tra una collezione indicizzata e la sua utenza perché:
- i thesauri riducono 1:1 la relazione concetto:termine. Anche se lo stesso concetto é rappresentabile da termini differenti, e questa
é l’aspetto affascinante delle lingue, questa ricchezza é uno svantaggio in fase di ricerca in sistemi strutturati proprio perché si tenta
la riduzione da 1:n (un concetto molti termini) ad 1:1 (un concetto un termine);
- i thesauri non sono mai generici ma sempre specialistici, quindi coprono un campo disciplinare definito riducendo cosí il problema
dei linguaggi tecnici per esempio, la scelta si fa prima ed é a monte del percorso di ricerca, se consulto un database specializzato in
itticoltura non ci sará bisogno di disambiguare pesca perché sará implicito che non si tratterá del termine che in lingua italiana
designa il frutto;
le relazioni semantiche che ne costituiscono la caratteristica principale (associative, gerarchiche ed associative) consentono
sempre di collocare il concetto in un insieme di concetti ed un termine in un insieme di termini, la ricerca tramite un thesaurus
non é mai una ricerca alfabetica ma sempre e solo concettuale.
Roma, CNR 1 Luglio 2010 Convegno La rete
dell'apprendimento
I linguaggi controllati per la VET in Europa
•
TESE
•
EUROVOC multilingue (21 lingue ) 6.645 termini
•
ILO multilingue (Inglese, Francese, Spagnolo) 4.219 termini
•
UNESCO multilingue (Inglese, Francese, Spagnolo) 8.600 termini
•
VOCED 3.000 termini
multilingue 1.387 termini
Roma, CNR 1 Luglio 2010 Convegno La rete
dell'apprendimento
I linguaggi controllati per la VET in Europa
Roma, CNR 1 Luglio 2010 Convegno La rete
dell'apprendimento
I linguaggi controllati per la VET in Europa
ETT é la forma acronima di European Training Thesaurus, un sistema di 2.500 termini che descrivono e traducono
il mondo della formazione professionale in Europa:
- descrivono perché identificano tramite lemmi corredati di note i soggetti, gli oggetti ed i processi della
formazione professionale.
- traducono perché ogni lemma con il proprio corredo é tradotto nelle 23 lingue ufficiali europee.
ETT si articola in 4 blocchi: training, education, learning, work and labour environment, socioeconomic
environment.
Il vantaggio nell’utilizzo di un thesaurus multilingue é chiaro ed evidente. mentre un thesarus monolingue
aggrega intorno al proprio ‘codice’ linguistico tutta la documentazione inerente uno specifico tema,
indipendentemente dalla lingua (e dalla cultura) che lo ha prodotto, un thesaurus multilingue salvaguarda
la specificitá linguistica e culturale del documento.
In un thesaurus multilingue il concetto é cardine rispetto al ragionamento, nel processo di indicizzazione
come di ricerca, e le codificazioni linguistiche del concetto, i descrittori, ruotano intorno al concetto che
essendo appunto un’astrazione concettuale prescinde da un’espressione linguistica. Sará il concetto
tradotto e mediato, che restituirá il termine nel codice linguistico prescelto, ed é solo questo passaggio
che consentirá di effettuare poi la ricerca nel database.
Ad esempio esistono nel campo della formazione professionale in Europa dei concetti che non sono traducibili, al
piú sono adattabili ma non esattamente traducibili proprio perché non esiste il concetto relativo.
In Danimarca ad esempio di fatto non esiste un termine che sia la speculare traduzione di training, e
quindi convenzionalmente per indicizzare la documentazione che tratti dello stesso argomento che altrove
verrebbe etichettato come training viene usato il termine uddannelse, che peró ha un significato in realtá
piú ampio perché in parte copre anche l’istruzione.
I linguaggi controllati per la VET in Europa
Cosa avviene dunque se si effettua un ricerca in Vet Bib utilizzando training e restringendo il campo alla Danimarca:
1)
2)
3)
Avviene che 1640 (esempio 2.) é il numero di documenti che si ottiene incrociando in fase di ricerca Denmark e training - quindi
tutti i documenti che trattino del training in Danimarca) … un falso positivo o almeno un compromesso perché sapendo che
training di esprime con uddannelse, e per far questo basta usare ETT, e re-impostando la ricerca i documenti da 1640
diventano 272. Certo non si é potuti essere cosí specifici come con training e la chiave ha ‘perso’ di specificitá perché il
campo d’indagine non é stato il campo descriptor ma words (esempio 1.). Serve ancora un altro passaggio (3.) che attraverso
l’incrocio tra le due precedenti ricerche ottiene, il consistente ma gestibile, numero di 164 documenti.
É bene saper cogliere queste differenze, sopratutto se si consultano database specialistici, perché i risultati potrebbero essere
falsati e quindi il rumore informativo, come dicono gli specialisti dell’informazione, eccessivo. In questo caso per esempio,
tornando ad un altro degli aspetti che caratterizzano il thesaurus, le note d’ambito (Scope Note) - che accolgono anche
queste informazioni sulle differenze di applicazione nelle diverse lingue - risultano molto utili perché mettono l’utente finale
in guardia da possibili ‘falsi positivi’. La biblioteca utilizza il Geographical term in senso molto ‘stretto’: il descrittore
geografico contestualizza a livello geografico l’argomento, é altra cosa evidentemente dal descrittore linguistico (quindi
preso da solo non dice nulla sulla lingua del documento) ed altra ancora dalle informazioni relative alla pubblicazione (non si
tratta cioé necessariamente di documenti stampati in quel paese).
Nelle Note d’Ambito si possono trovare anche informazioni sulla storia dell’utilizzo di un termine. Ad esempio alcuni concetti sono
stati espressi nel corso del tempo usando termini diversi. Pensiamo a cosa é avvenuto in Italia con i termini che identificano
le persone disabili e l’handicap in genere. Oggi il termine accettato é persona diversamente abile ma fino a poco tempo fá ci
si riferiva comunemente a persone handicappate o handicappati tout court, se quindi oggi effettuo una ricerca utilizzando
diversamente abile giocoforza ritrovo solo la documentazione recente e non recupero la letteratura degli anni ’80.
Roma, CNR 1 Luglio 2010 Convegno La rete
dell'apprendimento
I linguaggi controllati per la VET in Europa
Un utente che effettui una ricerca sul web probabilmente con una sensata scelta in autonomia di parole
chiave potrebbe anche ottenere dei risultati soddisfacenti. Tuttavia, mentre una generica ricerca utilizzando
delle parole chiave richiede un esatta corrispondenza con i termini usati dall’autore nel documento e quelli
inseriti nella stringa di ricerca, usando dei descrittori si prescinde da questa mutevolezza e, per dirla in
gergo, si riduce il rumore a beneficio della specificitá.
Ad esempio sono un falegname, di nazionalitá inglese, e vorrei andare all’estero per lavorare. Cerco delle
informazioni sul web per orientarmi. Se nella mia strategia di ricerca mi limito ad inserire in Google, ma il
discorso vale ancora per gli altri motori di ricerca, carpenter troveró soltanto pagine web in lingua inglese
che abbiamo nel testo carpenter.
Cosa avviene invece usando ETT ? Carpenter non é una forma accettata, perché ETT ha deciso che il
termine ‘corretto’ per designare il carpenter é wood worker, e lo traduce in 23 lingue.
Keyword: wood worker
Translations: FR
travailleur du bois IT falegname
Ouput:
Carpenter or wood worker (using Google 1.550.000 results) pages only in english
Carpenter or wood worker or travailleur du bois or falegname (using Google 93 results) pages in English,
French and Italian
Roma, CNR 1 Luglio 2010 Convegno La rete
dell'apprendimento
I linguaggi controllati per la VET in Europa
Le relazioni espresse in un thesaurus rappresentano un valido aiuto per espandere e migliorare la
ricerca.
-i thesauri possono essere usati per derivare un insieme di termini considerati equivalenti rispetto ai
concetti espressi da una query in un database.
-i thesauri possono anche essere usati, ragionando al contrario, per derivare un insieme di concetti
semanticamente correlati, che abbiano come corollario un set di termini ad essi connessi.
Basandosi sul concetto di prossimitá, l’espansione semantica di una ricerca parte da un concetto noto
(prima che questo venga declinato, contestualizzato, tradotto utilizzando un determinato codice
linguistico etc.) e prosegue lungo un percorso di interconnessioni: dal concetto focus → concetti satelliti
→ descrittore focus → descrittori satelliti.
L’immagine non é quella di un neurone, ma quella invece della versione in ITM dell’European Training
Thesaurus (ETT).
Nel caso sopra descritto la ricerca ha avuto come focus term ‘apprenticeschip’.
Roma, CNR 1 Luglio 2010 Convegno La rete
dell'apprendimento
I linguaggi controllati per la VET in Europa
Cosa si ricava dall’immagine di ETT nella rappresentazione grafica del termine apprenticeship ?
Esiste un solo concetto gerarchicamente superiore a quello che in lingua inglese é esprimibile con il descrittore apprenticeship.
E nello specifico il concetto concetto gerarchicamente superiore (BT) é alternating training. L’immagine ci suggerisce anche che
esiste un solo termine relazionato che é apprenticeship contract, ed é logico perché non entri in relazione genere-specie e sviluppi
invece una relazione RT in quanto ci si sposta sul versante dei tipi di contratto invece che continuare nelle specificazioni dei tipi di
alternating training
Roma, CNR 1 Luglio 2010 Convegno La rete
dell'apprendimento
I linguaggi controllati per la VET in Europa
Vediamo poi cosa avviene se si sfrutta appieno il multinguismo di ETT. Immaginiamo che il nostro utente sia irlandese e sia
interessato a verificare se il suo diploma é valido in Francia od eventualmente quale sia il corrispondente valido.
Per prima cosa deve trovare la traduzione del suo termine che in inglese designa an official document, issued by an awarding
body, wich records the achievements of an individual following assessment and validation against a predefined standard
(Source: Cedefop, 2006)
Certificate in francese si traduce diplôme, ma per questo non serve un thesaurus, il thesaurus serve invece se voglio capire in
quanti modi posso trovare concetti connessi, nelle diverse lingue. Se ad esempio consulto, il riferimento é alla versione a
stampa ma poco cambia perché qui interessa la sostanza e non la forma, l’indice alfabetico che si chiama KWIC (keyword
in context) ottengo una panoramica completa delle possibilitá con cui posso utilizzare il termine diplôme per effettuare una
ricerca.
Esiste un descrittore specifico (équivalence des diplômes) ed é possibile utilizzarlo per condurre la ricerca non solo, come succede con
ETT, nel database bibliografico che é indicizzato con ETT, va da sé, ma anche in altri database o addirittura in rete perché si tratta di un
espressione corretta che si riferisce al giusto concetto ed é formalizzata in una modalitá controllata, costruita seguendo un processo di
normalizzazione che é lo stesso che presiede la costruzione di tutti gli strumenti linguistici (controllo della forma, verifica sulle fonti del
corretto spelling, varianti significative etc.).
É possibile anche fare di piú ... espandere la ricerca partendo dalIa definizione completa del termine, esplorare gli RT (related
terms) per esempio, i termini relazionati, oppure salire di un livello fino ai BT (broader terms).
Roma, CNR 1 Luglio 2010 Convegno La rete
dell'apprendimento
I linguaggi controllati per la VET in Europa
Le relazioni associative sono quelle che meglio concretizzano l’espansione semantica della ricerca perché
comprendono diversi tipi di associazione come :
-
Causalità
Strumentalità
Concomitanza
Successione nel tempo e nello spazio
Materiali costitutivi
Proprietà
Oggetto di un’azione, processo, disciplina
Localizzazione
Similarità
Antinomia
Roma, CNR 1 Luglio 2010 Convegno La rete
dell'apprendimento
I linguaggi controllati per la VET in Europa
Queste procedure di espansione semantica possono essere automatizzate ma, mentre
alcune impattano poco in confronto al beneficio ottenuto (come le estensioni semantiche
basate su sinonimi/acronimi/contrari etc.), altre, come quelle basate su concetti prossimi,
possono cambiare e modificare il senso della richiesta originaria dell’utente ed il
processo di espansione dovrebbe quindi sempre essere chiaramente esplicitato
all’utente piú che automatizzato tout court. Per esempio poco cambia se l’utente inserisce
come chiave di ricerca biblioteca ed il sistema automaticamente gli restituisce anche
documenti che siano stati indicizzati con il termine biblioteche mentre altra cosa sarebbe se
oltre a biblioteca, in tutte le sue varianti, il sistema restituisse anche documenti relativi ai musei
o agli archivi (sempre di -teche si tratta ma é evidente che si sposta la dimensione della
ricerca).
Un servizio aggiuntivo interessante connesso all’espansione semantica é quello di
esplicitare, sempre ‘a richiesta’, il significato di termini tecnici piú oscuri di altri,
pensiamo nel campo della VET al differenza sostanziale che esiste tra informal e nonformal learning che a prima vista potrebbero addirittura per i non specialisti apparire
come quasi-sinonimi e che invece in ETT non sono neanche descrittori relazionati.
Roma, CNR 1 Luglio 2010 Convegno La rete
dell'apprendimento
I linguaggi controllati per la VET in Europa
Anche se il mondo dell’information retrieval é drammaticamente cambiato negli ultimi anni, sopratutto a causa della disponibilitá
dei testi in modalitá full text, e anche se gli strumenti di ricerca delle informazioni molto migliorati rispetto ad una prima
generazione i thesauri possono e devono ancora svolgere un ruolo fondamentale almeno per due motivi:
•
uno filosofico, perché solo una lista di soggetti organizzata come un thesaurus offre una struttura relazionata di termini
che possa contribuire a condurre delle ricerche efficienti ed efficaci ed é quindi uno strumento utile in primis agli utenti.
•
uno pragmatico, perché tutti gli strumenti di analisi testuale necessitano di strumenti di controllo o meglio di ‘governo’
della terminologia.
Qualunque sia lo strumento che si utilizza anche per fare ricerche in rete il thesaurus riesce a suggerire altri modi per esprimere
la stessa idea ed altri modi di formulare una ricerca.
Un thesaurus può diventare la base di una rete semantica più ampia, che fornisce informazioni non solo su come i termini sono
utilizzati per indicizzare, ma anche su come vengono utilizzati all'interno del sistema.
In molte collezioni digitali non risulta fattibile condurre un’indicizzazione per soggetto, per diversi motivi, economici, contestuali
etc.
Una delle possibilitá allora per ovviare a questo inconveniente - che puó essere penalizzante se pensiamo alla potenzialitá di una
collezione indicizzata a dispetto di una che non lo é, attenzione non catalogata ma indicizzata cioé corredata di tutti quegli
accessi complementari rispetto ad una descrizione bibliografica che consentono di raggiungere il documento e/o
l’informazione cercata by subject, per argomento etc. - é quella di optare per i mezzi automatizzati e per il cosiddetto social
tagging.
Il social tagging, o folksonomia, è un sistema di classificazione derivato dalla pratica che consente di creare e gestire dei tag per
annotare e classificare il contenuto delle pagine web. Il tagging, che è caratteristica dei servizi Web 2.0, permette agli
utenti di classificare collettivamente e trovare le informazioni. Alcuni siti web contengono tag clouds come un modo per
visualizzare i tag in una folksonomia. Roma, CNR 1 Luglio 2010 Convegno La rete
dell'apprendimento
I linguaggi controllati per la VET in Europa
Anche questa pratica ormai diffusa, potrebbe beneficiare di un thesaurus al fine di migliorare la
qualità dei tag e potenziare le prestazioni di recupero.
Questi sistemi promettono di ridurre i costi di indicizzazione mediante l’aiuto degli utenti finali in
veste di co-autori, utenti finali che interagendo con il sistema informativo lo arricchiscono di
un valore aggiunto che da certi punti di vista non ha prezzo, perché rappresenta il feedback,
ció che ogni sistema informativo vorrebbe avere ma che difficilmente ottiene, rappresentano
il community consensus, hanno il fascino della serendipity etc.
Tuttavia, il social tagging corre il rischio di essere un boomerang per il sistema nel senso che non
tutti gli utenti prestano necessariamente attenzione allo spelling dei termini o alla loro scelta
(pensiamo alle varianti ortografiche, sinonimi e omonimi etc.) in termini di specificitá (perché
troppo o poco analitici) di oggetivitá e qualitá.
Se per gli utenti puó essere piú facile descrivere ‘a parole loro’ dei contenuti é poi piú difficile
ritrovarli questi contenuti, questione vecchia ed annosa nei sistemi di information retrieval
che gli specialisti ben conoscono (recall/precision).
Roma, CNR 1 Luglio 2010 Convegno La rete
dell'apprendimento
I linguaggi controllati per la VET in Europa
Basta guardare l’esempio qui citato per vedere come si parli delle stesse identiche cose
nominandole, e quindi etichettandole, diversamente.
É una pratica che esprime un’esigenza sociale ma sono sistemi che non sono nati e non sono
stati progettati per il recupero.
Roma, CNR 1 Luglio 2010 Convegno La rete
dell'apprendimento
I linguaggi controllati per la VET in Europa
D'altra parte, i tag in linguaggio naturale, piú di quanto spesso non riescano a fare i descrittori
di un Thesaurus, potrebbe riguardare degli aspetti che non sono immediatamente trasferibili
in un sistema organizzato di conoscenze, soprattutto quando si tratta di concetti nuovi, e
quindi i tag in linguaggio naturale potrebbero contribuire ad aggiornare il sistema stesso.
Questo per esempio, in parte avviene con il Portale del Cedefop, dove é stato studiato a
tavolino ed a piú mani un sistema complesso che prevede una transcodifica, un allineamento
tra i tag, questa volta attributi dagli autori dei contenuti, ed i termini controllati derivati dal
thesaurus in uso. Questo ha il duplice vantaggio di usare i tag degli autori come ‘fonte’ utile
alla valutazione di descrittori ‘candidati’ ad entrare nel sistema thesaurus - come per esempio
nel caso del descrittore candidato European qualification framewok; al tempo stesso i tag, che
partono in modalitá bottom up, pur restando tali hanno un loro equivalente nel thesaurus, e
questo é stato possibile con un livello di astrazione termine → concetto.
Se si consulta il tag cloud del portale Cedefop un occhio allenato apprezza subito alcune
caratteristiche: anche se ci si lascia un pó andare all’uso di descrittori in combinazione, ma
poco importa perché poi nel thesaurus vengono debitamente scomposti, il vantaggio é
evidente: skill si troverá sempre e solo al singolare e non al plurale, EQF sará la forma
acronima per European qualification framework che é ‘nell’uso’ piú conosciuto che non la sua
forma sciolta, per ICT si é preferito usare la forma sciolta information and communication
technology. In ogni caso non si troveranno mai due modi simili per identificare la stessa cosa.
Roma, CNR 1 Luglio 2010 Convegno La rete
dell'apprendimento
I linguaggi controllati per la VET in Europa
Uno studio interessante sul social tagging condotto ‘sul campo’ é il progetto EnTag (Enhanced
Tagging per Discovery) che esplora la combinazione e la comparazione delle indicizzazioni
controllate con le folksonomie in una prospettiva di interoperabilità semantica. Il contesto é
quello giusto, archivi e collezioni digitali, e l'obiettivo è quello di indagare l'effetto sia in fase
di indicizzazione che di recupero nel caso si utilizzi solo il social tagging e nel caso esso invece
operi in combinazione con un vocabolario controllato all’interno di un sistema strutturato di
organizzazione della conoscenza.
Quindi da una parte un free tagging senza istruzioni e dall’altra invece un sistema combinato che
guidi l’utente.
Sono stati esaminati dal progetto due contesti diversi: il tagging effettuato dai lettori di una
collezione digitale (Intute digital collection) e la marcatura effettuata dagli autori (STFC
repository). I risultati hanno confermato l'importanza dell’utilizzo di un vocabolario
controllato: per i suggerimenti offerti in fase di indicizzazione e di recupero, per aiutare gli
utenti ad identificare i tag da utilizzare, per assicurare la coerenza ed aumentare il numero di
punti di accesso nel recupero. Si é cosí migliorato il tagging (pertinenza, coerenza, efficienza
d'uso) ed il recupero (grado di efficacia nella corrispondenza tra utente e sistema).
La combinazione quindi dei due sistemi consentirebbe una buona rilevanza concettuale per
l'utente ed un’adeguata copertura terminologica per gli autori. Il futuro prevedibile, é
quello di sistemi ontologici web based, questa la strada sulla quale si sta muovendo anche
Cedefop, per ottimizzare la gestione, anche economica, delle diverse soluzioni che ruotino
Roma, CNR
1 Luglio
2010 Convegno La rete
intorno al problema del recupero
delle
informazioni.
dell'apprendimento
Scarica

Carlucci_ I linguaggi controllati