Sperimentare l'interoperabilità tra Nuovo soggettario e thesauri specialistici ISKOI, Venezia 1 aprile 2011 Elisabetta Viti [email protected] Biblioteca Nazionale Centrale di Firenze Sommario 1. Obiettivi e quadro generale di un progetto di dottorato di ricerca 2. Attività realizzate 3. Attività in fase di realizzazione 4. Attuali sviluppi in corso di test Obiettivi della ricerca 1. Studio dei criteri e delle modalità di integrazione e colloquio tra: - il thesaurus multidisciplinare del Nuovo soggettario - il thesaurus specialistico-settoriale della LIUC 1. Creazione di un modello di interoperabilità semantica e tecnica con l’obiettivo finale di implementare la ricerca simultanea negli OPAC BNCF e LIUC Quadro generale del progetto Architettura generale di BC2, BSO, ILC e classi Economia ed Economia finanziaria in BC2 ana lisi Architettura del NS e struttura dell’Economia finanziaria ana lisi Architettura del thesaurus LIUC e struttura dell’Economia finanziaria BC2 Fenomeni vs. Discipline BSO confronto ILC Generale vs. Specializzato Nuovo soggettario confronto Rapporto tra discipline e fenomeni in NS, BC2, BSO e ILC sintesi Chiarire i seguenti rapporti: concetto, significato,termine, oggetto, definizione tipica/di base, definizione neutra, concetto di applicabilità generale. sintesi Thesauru s LIUC Forma, significato e struttura dei termini economico-finanziari in NS e LIUC Modello di interoperabilità tra un thesaurus generale e thesauri specialistici Linguaggi specialistico- settoriali: caratteristiche 1. Componenti della comunicazione specialistica: a) contesto culturale specifico terminologia di un dominio specifico testi specifici prodotti secondo un modello strutturale e semantico che organizza i dati in modo specifico (per es. gli atti amministrativi) utenza più o meno specifica e circoscritta b) c) d) Linguaggi specialistico- settoriali: caratteristiche 2. Requisiti funzionali della terminologia specialistica: a) precisione: monoreferenzialità b) oggettività: non emotività, impersonalità c) economia linguistica: equilibrio tra massima differenziazione degli elementi linguistici e quella di minimo sforzo di elaborazione insita nei destinatari Attività realizzate 1. Ricostruzione della disciplina economicofinanziaria nel Nuovo soggettario 2. Definizione di un corpus terminologico per il confronto fra i 2 thesauri (Nuovo soggettario/LIUC) Ricostruzione dell'Economia finanziaria nel Nuovo soggettario 1. Analisi del settore finanziario 2. Analisi della struttura gerarchico-classificatoria di un campione di circa 200 termini (tra i più significativi) Formalizzazione delle relazioni di un termine Creazione della struttura ad albero CATEGORIA: Azioni FACCETTA: Attività TT Attività *Economia **[Economia secondo il settore] ***Settore terziario ****Finanza RT Intermediari finanziari, Consulenti finanziari, Finanzieri, Informazioni economico-finanziarie, Economia finanziaria *****Circolazione monetaria RT Circolazione, Circolazione internazionale, Deflazione, Moneta, Prezzi, Valute *****Finanza aziendale RT Aziende, Gestione aziendale *****Finanza etica *****Finanza Internazionale RT Pagamenti internazionali *****Finanza pubblica RT Enti pubblici, Finanziamenti pubblici, Reati fiscali, Scienza delle finanze, Sviluppoeconomico, Bilanci pubblici, Bilanci statali, Imposte, Leggi finanziarie *****Microfinanza RT Finanza etica *****Operazioni finanziarie RT Società finanziarie, Intermediari finanziari, Pagamenti, Rendiconti finanziari Costruzione di un corpus terminologico impiegato come riferimento 1. Letteratura specialistica: (estrazione di parole chiave dagli articoli della rivista “Bancaria” ultimi 10 anni) 2. Vocabolari di termini costruiti sulla base garanzia bibliografica (Nuovo soggettario; DDC22) 3. Termini suggeriti da esperti (Biblioteca Bocconi e Biblioteca LIUC) della Confronto strutturale e semantico Nuovo soggettario/Thesaurus LIUC IL PIANO DELLA STRUTTURA Nuovo soggettario STANDARD e altri riferimenti CONSISTENZA (marzo 2011) ORGANIZZAZIONE CATEGORIALE ISO 2788 BS8723 (per termini composti) GUIDA GRIS 38.500 termini (circa) 4 Categorie: agenti, azioni, cose, tempo 13 Sottocategorie Etichette di nodo fanno parte della gerarchia Thesaurus LIUC • ISO 2788 7.000 termini (circa) 5 Categorie (termini fondamentali, chiamati “tipi di termini”): entità, attributi, azioni, spazio, tempo Raggruppamenti e principi di divisione (faccette) non fanno parte della scala gerarchica TOP TERM Coincidono con le sottocategorie Sono le categorie STRUTTURA MONOGERARCHICA/ POLIGERARCHICA Poligerachico sulla base della poligerachia temperata Monogerachico (la poligerachia è ammessa solo per le classi di uno) PRESENTAZIONE Sistematica e alfabetica Sistematica e alfabetica PIANO DELLA SEMANTICA Nuovo soggettario Thesaurus LIUC TERMINOLOGIA Viene acquisita, generalmente: a)in relazione all'uso b)decontestualizzandola e attribuendo il “significato neutro”, tenendo conto del “significato di base” attribuito da dizionari, enciclopedie, ecc. c)attribuendo, tramite scope note, il significato maggiormente attestato dalla garanzia bibliografica Viene acquisita, generalmente: a)contestualizzandola in base all'uso e all'ambito disciplinare NOMI PROPRI Assenti (eccetto rari casi: nomi di vini, razze di cani, eventi storici, ecc.) Presenti per il 15% della totalità (circa 900) NOTE DI DEFINIZIONE D’AMBITO Solo per termini tecnici/settoriali di difficile comprensione per l’utente Per termini polisemici STORICA Per i termini che hanno cambiato forma nel passaggio dal vecchio al Nuovo soggettario DISAMBIGUAZIONE Nei casi previsti dallo Standard ISO, usando qualificatori costituiti, se possibile, dal termine gerarchicamente superiore e non dalla disciplina e il campo di attività Assenti Limitate, perché la specializzazione del thesaurus circoscrive già il contesto semantico Assenti Usando qualificatori che indicano il tipo di termine (categoria), o con il termine gerarchicamente superiore, o anche tramite qualificatori indicanti la disciplina (es. Capitalizzazione<Finanza>) FONTI Vengono citate tutte le fonti catalografiche e lessicografiche/repertoriali impiegate per la normalizzazione e la validazione terminologica. In alcuni casi sono stati creati dei link alla versione elettronica del repertorio stesso e in casi specifici (per es. Treccani e Agrovoc) dei deep link al lemma corrispondente Non vengono citate fonti specifiche. Però viene indicato se la voce è stata derivata dagli strumenti BNCF (Soggettario e Nuovo soggettario) e talvolta da altri thesauri come il TRT DDC22 Mappatura semantica manuale tra i termini del Nuovo soggettario e le notazioni della DDC 22 Assente EQUIV. LCSH Mappatura semantica manuale e creazione di un link con le LCSH (dal campo fonte) Assente Nuovo soggettario / Thesaurus LIUC Differenze 1. Scostamento categoriale o di faccetta Nuovo soggettario Finanza [Attività] LIUC Finanza [Discipline] Nuovo soggettario / Thesaurus LIUC Differenze 2. Diversa articolazione della scala gerarchica Nuovo soggettario: voce Permuta Categoria/sottocategoria:COSE:Strumenti TT Strumenti *[Strumenti di ambito giuridico] **[Strumenti di ambito privatistico] ***[Atti giuridici di ambito privatistico] ****Negozi giuridici *****Contratti ******Permuta RT Baratto, Proprietà Thesaurus LIUC: voce Permuta Categoria/sottocategoria: AZIONI:Attività *[Attività in base all’oggetto] **Trasferimento ***Trasferimento di proprietà ****Permuta Nuovo soggettario / Thesaurus LIUC Differenze 3. Differenze morfologiche: a) differenze singolare/plurale Nuovo soggettario LIUC Emissioni Emissione b) differenze di lemma per indicare lo stesso concetto Nuovo Soggettario LIUC Investimenti internazionali Investimento estero (UF Investimenti esteri) Nuovo soggettario / Thesaurus LIUC Differenze 4. Uso della disambiguazione Nuovo soggettario Arbitraggio LIUC Arbitraggio <Operazioni finanziarie> Attività in fase di realizzazione: la mappatura Il processo di mappatura stabilisce equivalenze tra termini, notazioni o concetti di un vocabolario e quelli di un altro Tipi di equivalenza tra termini mappati (cfr. standard BS 8723) 1. Equivalenza esatta 2. Equivalenza inesatta 3. Equivalenza parziale 4. Non equivalenza Criteri generali di mappatura adottati nella ricerca 1. Mappatura manuale 2. Mappatura differenziata 3. Unidirezionale dal Nuovo soggettario al thesaurus specialistico (per adesso) 4. Bidirezionale [da valutare] Criteri di mappatura tra termini per i casi di non equivalenza Il termine del Nuovo soggettario verrà mappato: 1. con un termine del thesaurus LIUC dal significato più ampio Concentrazione economica 2. Broader equ. Concentrazione con un termine del thesaurus LIUC dal significato più ristretto [da valutare] Conti correnti Narrower equ. Conti correnti bancari Corollari a) Many-to-one mapping: molti concetti presenti nel vocabolario fonte possono essere mappati con lo stesso termine gerarchicamente più ampio nel vocabolario d’arrivo Concentrazione bancaria Concentrazione Concentrazione industriale b) Un termine composto nel vocabolario fonte può essere mappato con la combinazione dei termini singoli corrispondenti nel vocabolario d’arrivo Banche Banche di sviluppo Sviluppo economico Attuali sviluppi in corso di test 1. Validazione del corpus terminologico, sulla base di una rosa di termini types (termini estratti in automatico dalle tesi di dottorato in formato digitale, depositate presso la BNCF) 2. Implementazione della conversione in SKOS del Nuovo soggettario, secondo le ultime revisioni recentemente realizzate (http://thes.bncf.firenze.sbn.it/thes-dati.htm) GRAZIE!!! Nuovo soggettario http://thes.bncf.firenze.sbn.it/ricerca.php