I linguaggi controllati per la VET in Europa Chiara Carlucci Roma, CNR 1 Luglio 2010 Convegno La rete dell'apprendimento I linguaggi controllati per la VET in Europa Effettuare una ricerca di informazioni e di documenti usando un thesaurus è piú efficace che non una ricerca libera, che utilizzi il cosiddetto ‘linguaggio naturale’. Il thesaurus ... non è un dizionario (raccolta delle parole di una determinata lingua disposta secondo un certo criterio e accompagnata generalmente dalla definizione del significato delle parole stesse (LUI, vol. VI) non è un glossario (raccolta di vocaboli registrati in genere in ordine alfabetico e seguiti dalla dichiarazione del significato o da altre osservazion (LUI, vol. IX) non è un lessico (vocabolario che registra alfabeticamente le parole di una lingua dando di ciascuna la spiegazione […] si usa preferibilmente per indicare vocabolari di lingue antiche (LUI, vol. XII) non è un vocabolario (libro che raccoglie in ordine alfabetico definizioni ed esempi dei vocaboli di una lingua o traduce le parole di una lingua nelle corrispondenti di un’altra (LUI, vol. XXIV) non è un soggettario (elenco alfabetico dei termini e dei relativi richiami e rinvii proposti come intestazione standard di soggetto ritenuti concettualmente e linguisticamente più idonei a esprimere il contenuto di un documento) Il thesaurus è un thesaurus, ‘un vocabolario controllato e dinamico di termini correlati semanticamente da usarsi come strumento per il controllo terminologico all’interno di un dominio specifico della conoscenza in fase di traduzione dal linguaggio naturale in linguaggio sistematico’ (Unesco, 1976) L’utilizzo di un thesaurus arricchisce la prestazione del servizio informativo, che non si limita cosí solo ad offrire al proprio utente ció che egli chiede, ma é anche in grado di suggerirgli cos’altro potrebbe chiedere, mostrandogli i soggetti correlati alla propria ricerca. Come ulteriore vantaggio indotto, l’utente viene anche istruito ad utilizzare un linguaggio specialistico e viene aiutato nella comprensione del dominio semantico che lo interessa. Anche considerando che possa esistere una discrepanza nella scelta di un termine per effettuare una ricerca tra chi cataloga (documentalista) e chi cerca (l’utente), che potrebbero ottenere dei risultati che non corrispondano completamente, l’integrazione di strumenti semantici per condurre le ricerche - in ambienti strutturati e non - oltre a ridurre la distanza tra la richiesta e l’offerta di informazione consente di ampliare semanticamente la ricerca. I thesauri rappresentano la migliore interfaccia di ricerca possibile tra una collezione indicizzata e la sua utenza perché: - i thesauri riducono 1:1 la relazione concetto:termine. Anche se lo stesso concetto é rappresentabile da termini differenti, e questa é l’aspetto affascinante delle lingue, questa ricchezza é uno svantaggio in fase di ricerca in sistemi strutturati proprio perché si tenta la riduzione da 1:n (un concetto molti termini) ad 1:1 (un concetto un termine); - i thesauri non sono mai generici ma sempre specialistici, quindi coprono un campo disciplinare definito riducendo cosí il problema dei linguaggi tecnici per esempio, la scelta si fa prima ed é a monte del percorso di ricerca, se consulto un database specializzato in itticoltura non ci sará bisogno di disambiguare pesca perché sará implicito che non si tratterá del termine che in lingua italiana designa il frutto; le relazioni semantiche che ne costituiscono la caratteristica principale (associative, gerarchiche ed associative) consentono sempre di collocare il concetto in un insieme di concetti ed un termine in un insieme di termini, la ricerca tramite un thesaurus non é mai una ricerca alfabetica ma sempre e solo concettuale. Roma, CNR 1 Luglio 2010 Convegno La rete dell'apprendimento I linguaggi controllati per la VET in Europa • TESE • EUROVOC multilingue (21 lingue ) 6.645 termini • ILO multilingue (Inglese, Francese, Spagnolo) 4.219 termini • UNESCO multilingue (Inglese, Francese, Spagnolo) 8.600 termini • VOCED 3.000 termini multilingue 1.387 termini Roma, CNR 1 Luglio 2010 Convegno La rete dell'apprendimento I linguaggi controllati per la VET in Europa Roma, CNR 1 Luglio 2010 Convegno La rete dell'apprendimento I linguaggi controllati per la VET in Europa ETT é la forma acronima di European Training Thesaurus, un sistema di 2.500 termini che descrivono e traducono il mondo della formazione professionale in Europa: - descrivono perché identificano tramite lemmi corredati di note i soggetti, gli oggetti ed i processi della formazione professionale. - traducono perché ogni lemma con il proprio corredo é tradotto nelle 23 lingue ufficiali europee. ETT si articola in 4 blocchi: training, education, learning, work and labour environment, socioeconomic environment. Il vantaggio nell’utilizzo di un thesaurus multilingue é chiaro ed evidente. mentre un thesarus monolingue aggrega intorno al proprio ‘codice’ linguistico tutta la documentazione inerente uno specifico tema, indipendentemente dalla lingua (e dalla cultura) che lo ha prodotto, un thesaurus multilingue salvaguarda la specificitá linguistica e culturale del documento. In un thesaurus multilingue il concetto é cardine rispetto al ragionamento, nel processo di indicizzazione come di ricerca, e le codificazioni linguistiche del concetto, i descrittori, ruotano intorno al concetto che essendo appunto un’astrazione concettuale prescinde da un’espressione linguistica. Sará il concetto tradotto e mediato, che restituirá il termine nel codice linguistico prescelto, ed é solo questo passaggio che consentirá di effettuare poi la ricerca nel database. Ad esempio esistono nel campo della formazione professionale in Europa dei concetti che non sono traducibili, al piú sono adattabili ma non esattamente traducibili proprio perché non esiste il concetto relativo. In Danimarca ad esempio di fatto non esiste un termine che sia la speculare traduzione di training, e quindi convenzionalmente per indicizzare la documentazione che tratti dello stesso argomento che altrove verrebbe etichettato come training viene usato il termine uddannelse, che peró ha un significato in realtá piú ampio perché in parte copre anche l’istruzione. I linguaggi controllati per la VET in Europa Cosa avviene dunque se si effettua un ricerca in Vet Bib utilizzando training e restringendo il campo alla Danimarca: 1) 2) 3) Avviene che 1640 (esempio 2.) é il numero di documenti che si ottiene incrociando in fase di ricerca Denmark e training - quindi tutti i documenti che trattino del training in Danimarca) … un falso positivo o almeno un compromesso perché sapendo che training di esprime con uddannelse, e per far questo basta usare ETT, e re-impostando la ricerca i documenti da 1640 diventano 272. Certo non si é potuti essere cosí specifici come con training e la chiave ha ‘perso’ di specificitá perché il campo d’indagine non é stato il campo descriptor ma words (esempio 1.). Serve ancora un altro passaggio (3.) che attraverso l’incrocio tra le due precedenti ricerche ottiene, il consistente ma gestibile, numero di 164 documenti. É bene saper cogliere queste differenze, sopratutto se si consultano database specialistici, perché i risultati potrebbero essere falsati e quindi il rumore informativo, come dicono gli specialisti dell’informazione, eccessivo. In questo caso per esempio, tornando ad un altro degli aspetti che caratterizzano il thesaurus, le note d’ambito (Scope Note) - che accolgono anche queste informazioni sulle differenze di applicazione nelle diverse lingue - risultano molto utili perché mettono l’utente finale in guardia da possibili ‘falsi positivi’. La biblioteca utilizza il Geographical term in senso molto ‘stretto’: il descrittore geografico contestualizza a livello geografico l’argomento, é altra cosa evidentemente dal descrittore linguistico (quindi preso da solo non dice nulla sulla lingua del documento) ed altra ancora dalle informazioni relative alla pubblicazione (non si tratta cioé necessariamente di documenti stampati in quel paese). Nelle Note d’Ambito si possono trovare anche informazioni sulla storia dell’utilizzo di un termine. Ad esempio alcuni concetti sono stati espressi nel corso del tempo usando termini diversi. Pensiamo a cosa é avvenuto in Italia con i termini che identificano le persone disabili e l’handicap in genere. Oggi il termine accettato é persona diversamente abile ma fino a poco tempo fá ci si riferiva comunemente a persone handicappate o handicappati tout court, se quindi oggi effettuo una ricerca utilizzando diversamente abile giocoforza ritrovo solo la documentazione recente e non recupero la letteratura degli anni ’80. Roma, CNR 1 Luglio 2010 Convegno La rete dell'apprendimento I linguaggi controllati per la VET in Europa Un utente che effettui una ricerca sul web probabilmente con una sensata scelta in autonomia di parole chiave potrebbe anche ottenere dei risultati soddisfacenti. Tuttavia, mentre una generica ricerca utilizzando delle parole chiave richiede un esatta corrispondenza con i termini usati dall’autore nel documento e quelli inseriti nella stringa di ricerca, usando dei descrittori si prescinde da questa mutevolezza e, per dirla in gergo, si riduce il rumore a beneficio della specificitá. Ad esempio sono un falegname, di nazionalitá inglese, e vorrei andare all’estero per lavorare. Cerco delle informazioni sul web per orientarmi. Se nella mia strategia di ricerca mi limito ad inserire in Google, ma il discorso vale ancora per gli altri motori di ricerca, carpenter troveró soltanto pagine web in lingua inglese che abbiamo nel testo carpenter. Cosa avviene invece usando ETT ? Carpenter non é una forma accettata, perché ETT ha deciso che il termine ‘corretto’ per designare il carpenter é wood worker, e lo traduce in 23 lingue. Keyword: wood worker Translations: FR travailleur du bois IT falegname Ouput: Carpenter or wood worker (using Google 1.550.000 results) pages only in english Carpenter or wood worker or travailleur du bois or falegname (using Google 93 results) pages in English, French and Italian Roma, CNR 1 Luglio 2010 Convegno La rete dell'apprendimento I linguaggi controllati per la VET in Europa Le relazioni espresse in un thesaurus rappresentano un valido aiuto per espandere e migliorare la ricerca. -i thesauri possono essere usati per derivare un insieme di termini considerati equivalenti rispetto ai concetti espressi da una query in un database. -i thesauri possono anche essere usati, ragionando al contrario, per derivare un insieme di concetti semanticamente correlati, che abbiano come corollario un set di termini ad essi connessi. Basandosi sul concetto di prossimitá, l’espansione semantica di una ricerca parte da un concetto noto (prima che questo venga declinato, contestualizzato, tradotto utilizzando un determinato codice linguistico etc.) e prosegue lungo un percorso di interconnessioni: dal concetto focus → concetti satelliti → descrittore focus → descrittori satelliti. L’immagine non é quella di un neurone, ma quella invece della versione in ITM dell’European Training Thesaurus (ETT). Nel caso sopra descritto la ricerca ha avuto come focus term ‘apprenticeschip’. Roma, CNR 1 Luglio 2010 Convegno La rete dell'apprendimento I linguaggi controllati per la VET in Europa Cosa si ricava dall’immagine di ETT nella rappresentazione grafica del termine apprenticeship ? Esiste un solo concetto gerarchicamente superiore a quello che in lingua inglese é esprimibile con il descrittore apprenticeship. E nello specifico il concetto concetto gerarchicamente superiore (BT) é alternating training. L’immagine ci suggerisce anche che esiste un solo termine relazionato che é apprenticeship contract, ed é logico perché non entri in relazione genere-specie e sviluppi invece una relazione RT in quanto ci si sposta sul versante dei tipi di contratto invece che continuare nelle specificazioni dei tipi di alternating training Roma, CNR 1 Luglio 2010 Convegno La rete dell'apprendimento I linguaggi controllati per la VET in Europa Vediamo poi cosa avviene se si sfrutta appieno il multinguismo di ETT. Immaginiamo che il nostro utente sia irlandese e sia interessato a verificare se il suo diploma é valido in Francia od eventualmente quale sia il corrispondente valido. Per prima cosa deve trovare la traduzione del suo termine che in inglese designa an official document, issued by an awarding body, wich records the achievements of an individual following assessment and validation against a predefined standard (Source: Cedefop, 2006) Certificate in francese si traduce diplôme, ma per questo non serve un thesaurus, il thesaurus serve invece se voglio capire in quanti modi posso trovare concetti connessi, nelle diverse lingue. Se ad esempio consulto, il riferimento é alla versione a stampa ma poco cambia perché qui interessa la sostanza e non la forma, l’indice alfabetico che si chiama KWIC (keyword in context) ottengo una panoramica completa delle possibilitá con cui posso utilizzare il termine diplôme per effettuare una ricerca. Esiste un descrittore specifico (équivalence des diplômes) ed é possibile utilizzarlo per condurre la ricerca non solo, come succede con ETT, nel database bibliografico che é indicizzato con ETT, va da sé, ma anche in altri database o addirittura in rete perché si tratta di un espressione corretta che si riferisce al giusto concetto ed é formalizzata in una modalitá controllata, costruita seguendo un processo di normalizzazione che é lo stesso che presiede la costruzione di tutti gli strumenti linguistici (controllo della forma, verifica sulle fonti del corretto spelling, varianti significative etc.). É possibile anche fare di piú ... espandere la ricerca partendo dalIa definizione completa del termine, esplorare gli RT (related terms) per esempio, i termini relazionati, oppure salire di un livello fino ai BT (broader terms). Roma, CNR 1 Luglio 2010 Convegno La rete dell'apprendimento I linguaggi controllati per la VET in Europa Le relazioni associative sono quelle che meglio concretizzano l’espansione semantica della ricerca perché comprendono diversi tipi di associazione come : - Causalità Strumentalità Concomitanza Successione nel tempo e nello spazio Materiali costitutivi Proprietà Oggetto di un’azione, processo, disciplina Localizzazione Similarità Antinomia Roma, CNR 1 Luglio 2010 Convegno La rete dell'apprendimento I linguaggi controllati per la VET in Europa Queste procedure di espansione semantica possono essere automatizzate ma, mentre alcune impattano poco in confronto al beneficio ottenuto (come le estensioni semantiche basate su sinonimi/acronimi/contrari etc.), altre, come quelle basate su concetti prossimi, possono cambiare e modificare il senso della richiesta originaria dell’utente ed il processo di espansione dovrebbe quindi sempre essere chiaramente esplicitato all’utente piú che automatizzato tout court. Per esempio poco cambia se l’utente inserisce come chiave di ricerca biblioteca ed il sistema automaticamente gli restituisce anche documenti che siano stati indicizzati con il termine biblioteche mentre altra cosa sarebbe se oltre a biblioteca, in tutte le sue varianti, il sistema restituisse anche documenti relativi ai musei o agli archivi (sempre di -teche si tratta ma é evidente che si sposta la dimensione della ricerca). Un servizio aggiuntivo interessante connesso all’espansione semantica é quello di esplicitare, sempre ‘a richiesta’, il significato di termini tecnici piú oscuri di altri, pensiamo nel campo della VET al differenza sostanziale che esiste tra informal e nonformal learning che a prima vista potrebbero addirittura per i non specialisti apparire come quasi-sinonimi e che invece in ETT non sono neanche descrittori relazionati. Roma, CNR 1 Luglio 2010 Convegno La rete dell'apprendimento I linguaggi controllati per la VET in Europa Anche se il mondo dell’information retrieval é drammaticamente cambiato negli ultimi anni, sopratutto a causa della disponibilitá dei testi in modalitá full text, e anche se gli strumenti di ricerca delle informazioni molto migliorati rispetto ad una prima generazione i thesauri possono e devono ancora svolgere un ruolo fondamentale almeno per due motivi: • uno filosofico, perché solo una lista di soggetti organizzata come un thesaurus offre una struttura relazionata di termini che possa contribuire a condurre delle ricerche efficienti ed efficaci ed é quindi uno strumento utile in primis agli utenti. • uno pragmatico, perché tutti gli strumenti di analisi testuale necessitano di strumenti di controllo o meglio di ‘governo’ della terminologia. Qualunque sia lo strumento che si utilizza anche per fare ricerche in rete il thesaurus riesce a suggerire altri modi per esprimere la stessa idea ed altri modi di formulare una ricerca. Un thesaurus può diventare la base di una rete semantica più ampia, che fornisce informazioni non solo su come i termini sono utilizzati per indicizzare, ma anche su come vengono utilizzati all'interno del sistema. In molte collezioni digitali non risulta fattibile condurre un’indicizzazione per soggetto, per diversi motivi, economici, contestuali etc. Una delle possibilitá allora per ovviare a questo inconveniente - che puó essere penalizzante se pensiamo alla potenzialitá di una collezione indicizzata a dispetto di una che non lo é, attenzione non catalogata ma indicizzata cioé corredata di tutti quegli accessi complementari rispetto ad una descrizione bibliografica che consentono di raggiungere il documento e/o l’informazione cercata by subject, per argomento etc. - é quella di optare per i mezzi automatizzati e per il cosiddetto social tagging. Il social tagging, o folksonomia, è un sistema di classificazione derivato dalla pratica che consente di creare e gestire dei tag per annotare e classificare il contenuto delle pagine web. Il tagging, che è caratteristica dei servizi Web 2.0, permette agli utenti di classificare collettivamente e trovare le informazioni. Alcuni siti web contengono tag clouds come un modo per visualizzare i tag in una folksonomia. Roma, CNR 1 Luglio 2010 Convegno La rete dell'apprendimento I linguaggi controllati per la VET in Europa Anche questa pratica ormai diffusa, potrebbe beneficiare di un thesaurus al fine di migliorare la qualità dei tag e potenziare le prestazioni di recupero. Questi sistemi promettono di ridurre i costi di indicizzazione mediante l’aiuto degli utenti finali in veste di co-autori, utenti finali che interagendo con il sistema informativo lo arricchiscono di un valore aggiunto che da certi punti di vista non ha prezzo, perché rappresenta il feedback, ció che ogni sistema informativo vorrebbe avere ma che difficilmente ottiene, rappresentano il community consensus, hanno il fascino della serendipity etc. Tuttavia, il social tagging corre il rischio di essere un boomerang per il sistema nel senso che non tutti gli utenti prestano necessariamente attenzione allo spelling dei termini o alla loro scelta (pensiamo alle varianti ortografiche, sinonimi e omonimi etc.) in termini di specificitá (perché troppo o poco analitici) di oggetivitá e qualitá. Se per gli utenti puó essere piú facile descrivere ‘a parole loro’ dei contenuti é poi piú difficile ritrovarli questi contenuti, questione vecchia ed annosa nei sistemi di information retrieval che gli specialisti ben conoscono (recall/precision). Roma, CNR 1 Luglio 2010 Convegno La rete dell'apprendimento I linguaggi controllati per la VET in Europa Basta guardare l’esempio qui citato per vedere come si parli delle stesse identiche cose nominandole, e quindi etichettandole, diversamente. É una pratica che esprime un’esigenza sociale ma sono sistemi che non sono nati e non sono stati progettati per il recupero. Roma, CNR 1 Luglio 2010 Convegno La rete dell'apprendimento I linguaggi controllati per la VET in Europa D'altra parte, i tag in linguaggio naturale, piú di quanto spesso non riescano a fare i descrittori di un Thesaurus, potrebbe riguardare degli aspetti che non sono immediatamente trasferibili in un sistema organizzato di conoscenze, soprattutto quando si tratta di concetti nuovi, e quindi i tag in linguaggio naturale potrebbero contribuire ad aggiornare il sistema stesso. Questo per esempio, in parte avviene con il Portale del Cedefop, dove é stato studiato a tavolino ed a piú mani un sistema complesso che prevede una transcodifica, un allineamento tra i tag, questa volta attributi dagli autori dei contenuti, ed i termini controllati derivati dal thesaurus in uso. Questo ha il duplice vantaggio di usare i tag degli autori come ‘fonte’ utile alla valutazione di descrittori ‘candidati’ ad entrare nel sistema thesaurus - come per esempio nel caso del descrittore candidato European qualification framewok; al tempo stesso i tag, che partono in modalitá bottom up, pur restando tali hanno un loro equivalente nel thesaurus, e questo é stato possibile con un livello di astrazione termine → concetto. Se si consulta il tag cloud del portale Cedefop un occhio allenato apprezza subito alcune caratteristiche: anche se ci si lascia un pó andare all’uso di descrittori in combinazione, ma poco importa perché poi nel thesaurus vengono debitamente scomposti, il vantaggio é evidente: skill si troverá sempre e solo al singolare e non al plurale, EQF sará la forma acronima per European qualification framework che é ‘nell’uso’ piú conosciuto che non la sua forma sciolta, per ICT si é preferito usare la forma sciolta information and communication technology. In ogni caso non si troveranno mai due modi simili per identificare la stessa cosa. Roma, CNR 1 Luglio 2010 Convegno La rete dell'apprendimento I linguaggi controllati per la VET in Europa Uno studio interessante sul social tagging condotto ‘sul campo’ é il progetto EnTag (Enhanced Tagging per Discovery) che esplora la combinazione e la comparazione delle indicizzazioni controllate con le folksonomie in una prospettiva di interoperabilità semantica. Il contesto é quello giusto, archivi e collezioni digitali, e l'obiettivo è quello di indagare l'effetto sia in fase di indicizzazione che di recupero nel caso si utilizzi solo il social tagging e nel caso esso invece operi in combinazione con un vocabolario controllato all’interno di un sistema strutturato di organizzazione della conoscenza. Quindi da una parte un free tagging senza istruzioni e dall’altra invece un sistema combinato che guidi l’utente. Sono stati esaminati dal progetto due contesti diversi: il tagging effettuato dai lettori di una collezione digitale (Intute digital collection) e la marcatura effettuata dagli autori (STFC repository). I risultati hanno confermato l'importanza dell’utilizzo di un vocabolario controllato: per i suggerimenti offerti in fase di indicizzazione e di recupero, per aiutare gli utenti ad identificare i tag da utilizzare, per assicurare la coerenza ed aumentare il numero di punti di accesso nel recupero. Si é cosí migliorato il tagging (pertinenza, coerenza, efficienza d'uso) ed il recupero (grado di efficacia nella corrispondenza tra utente e sistema). La combinazione quindi dei due sistemi consentirebbe una buona rilevanza concettuale per l'utente ed un’adeguata copertura terminologica per gli autori. Il futuro prevedibile, é quello di sistemi ontologici web based, questa la strada sulla quale si sta muovendo anche Cedefop, per ottimizzare la gestione, anche economica, delle diverse soluzioni che ruotino Roma, CNR 1 Luglio 2010 Convegno La rete intorno al problema del recupero delle informazioni. dell'apprendimento