L’indicizzazione semantica Una introduzione di Lucia Sardo Venezia, 24 novembre 2008 Soggetto Che cosa è il soggetto? Indicizzazione tecnica per costruire accessi attraverso il contenuto semantico di documenti Comprende: 1. Processo di analisi concettuale del documento (per individuarne il contenuto semantico) 2. Traduzione del contenuto informazionale nel linguaggio di un sistema di indicizzazione Sistema di indicizzazione Insieme delle procedure per l’organizzazione e la rappresentazione del contenuto dei documenti finalizzata al recupero ANALISI CONCETTUALE Funzione di identificare il contenuto informazionale di un documento 3 aspetti a. analisi del documento in sé b. analisi in relazione alla collezione c. analisi relativa al piano tecnico (p.e. Scelta tra indicizzazione approfondita o sommarizzazione) Aboutness: proprietà di un discorso o documento di trattare un tema, di essere about un certo argomento. Si definisce come rapporto esistente tra il tema di un documento e un tema teoricamente definito che funzione come riferimento esterno al documento. Serrai: circalità Identificazione del contenuto di un documento: stabilire la relazione esistente tra il discorso del documento intorno a un concetto e il concetto teoricamente definito come una parte della conoscenza generale. Literary Warrant (garanzia bibliografica): l’analisi concettuale e l’indicizzazione devono essere basate sul materiale a disposizione piuttosto che su considerazioni astratte Analisi per faccette - Ranganathan Propone: 1. Procedimento di analisi: scomposizione del soggetto nelle parti che lo compongono 2. Procedimento di sintesi: sintesi di queste parti per rappresentare il contenuto del documento Procedimento di analisi: 5 categorie fondamentali di concetti: •Personalità: faccetta primaria: oggetti, tipi di oggetti, tipi di azioni •Materia •Energia: azione; morfologia, funzione, etc. •Spazio •Tempo Soggetto: consiste di una classe base e di uno o più aspetti che si possono ricondurre alle cinque categorie fondamentali Ordine fisso di riorganizzazione degli elementi ottenuti attraverso l’analisi; ordine decrescente di concretezza: PMEST ISO 5963: Methods for examining documents, determining their subject and selecting indexing terms Prevede 3 stadi nel processo di indicizzazione: 1. Esame del documento e determinazione del suo soggetto 2. Identificazione dei concetti principali presenti nel soggetto 3. Traduzione dei concetti selezionati nei termini di un linguaggio di indicizzazione Linguaggi di indicizzazione Linguaggio di indicizzazione Insieme di termini ammessi per descrivere il contenuto dei documenti, e insieme di regole che stabiliscono come i termini debbano essere usati, e in che relazione con ogni altro termine. Linguaggio per la rappresentazione del contenuto semantico dei documenti allo scopo di renderne possibile il recupero Linguaggi alfabetici che usano i termini della lingua naturale Linguaggi alfabetici controllati (thesauri, soggettari) Schemi di classificazione In base alle procedure seguite per la determinazione dei descrittori da usare per esprimere il contenuto dei documenti abbiamo linguaggi che usano termini: 1. Assegnati 2. Derivati Indicizzazione per termini derivati Indicizzazione per catchword KWIC KWAC KWOK Citation indexing Indicizzazione per termini assegnati Termini del linguaggio naturale Notazioni numeriche o alfanumeriche di linguaggi artificiali Linguaggio controllato: insieme prefissato di termini e/o voci di indice che possono essere assegnati ai documenti, isolatamente, in combinazione o attraverso una sintassi. Può essere: chiuso aperto Termini accolti: descrittori o termini preferiti Termini non accolti: non descrittori o termini non preferiti Insieme costituiscono il vocabolario di accesso In un linguaggio controllato sono generalmente indicate le più importanti relazioni fra un dato termine preferito e altri Linguaggi: precoordinati: le voci di indice possono coinvolgere più concetti distinti che nel loro complesso sintetizzano il tema di un documento. Presuppongono una componente sintattica, formalizzata o ricalcata su quella del linguaggio naturale, che regoli la formazione delle voci postcoordinati: costituito da descrittori di norma semplici, che si riferiscono a singoli concetti e che non vengono legati tra loro. Linguaggi: enumerativi: elencano tutti i termini o combinazioni di termini che vanno usati per descrivere il soggetto di un documento e non consentono altre combinazioni se non quelle già previste sintetici: elencano i termini che vanno usati, fornendo una serie di regole per la loro combinazione 3 qualità caratteristiche dell’indicizzazione assegnata: predittività accessibilità coerenza Thesauri Strumenti più sofisticati delle liste di soggetti Differenze liste di soggetti - thesauri: 1. Tipo di termini 2. Tipi di relazioni espresse 3. Modo in cui vengono espresse le relazioni ISO 2788: direttiva per la costruzione di thesauri monolingua Relazioni semantiche Esercitano il controllo dei sinonimi, dei quasi sinonimi, della forma dei termini e provvedono al raggruppamento gerarchico e al raggruppamento per associazione e affinità dei termini 3 tipi di relazioni: a - equivalenza o preferenziali b - gerarchiche c - associative o di affinità Ordine di citazione Problemi dell’ordine di citazione nei sistemi precoordinati: • ordine scelto può non rispondere alle esigenze di tutti i lettori • insiti nel tentativo di rappresentazione lineare di una realtà multidimensionale Scopi Il catalogo per soggetto persegue due scopi informa dell’esistenza di opere possedute dalla biblioteca che trattano di un determinato argomento informa dell’esistenza di opere possedute dalla biblioteca che trattano di argomenti affini al soggetto ricercato L’indicizzazione per soggetto raggiunge i suoi fini quando organizza la struttura sindetica, costruisce la rete di collegamenti fra voci di soggetto più generali e più specifiche, e fra voci di soggetto affini. Principi L’indicizzazione per soggetto si basa su due principi principio di formulazione principio di struttura Principio di formulazione Traduzione nel linguaggio documentario del soggetto individuato con l’analisi concettuale si suddivide in principio della specificità principio dell’uso linguistico Principio di struttura Creazione di un’impalcatura razionale, costituita da legami e rinvii reciproci dei descrittori si suddivide in principio dell’unità e dell’uniformità principio della correlazione Principio di formulazione La voce di soggetto viene formulata in modo specifico e con la terminologia linguistica di uso corrente Il principio della specificità caratterizza l’indicizzazione semantica da Cutter in poi; esso stabilisce che a ogni soggetto corrisponde esattamente un termine linguistico specifico e univoco. Il descrittore esprime esattamente l’ambito semantico. La voce animali domestici non è coestesa alla voce animali come pure la voce gatto non è coestesa alla voce animali domestici o felini Quando un documento è politopico la voce copre semanticamente tutti o il maggior numero possibile dei soggetti: un’opera che tratta del gatto, della tigre, del leone, della pantera ha come indice felini, seppure non tratti di tutti i felini, non tanti indici quanti sono i soggetti analizzati Il principio dell’uso linguistico riguarda l’uso della terminologia corrente nella formulazione della voce di soggetto. Esso prescrive l’aderenza più stretta possibile ai termini in uso nel sistema linguistico del paese in cui l’agenzia catalografica opera. Il descrittore è espresso nei termini del linguaggio naturale Conseguenze del principio dell’uso linguistico corrente sono: la sostituzione di termini e di espressioni desuete nell’uso corrente (p.e., da fanciulli a ragazzi) l’adozione di nuove espressioni dovute al corso della storia e al progresso scientifico, tecnologico, sociale e culturale l’adozione di termini o di espressioni dirette, termini e espressioni adoperate in passato per indicare un concetto dipendente da un altro e che ora ha acquistato autonomia per l’evolversi e il definirsi della disciplina (p.e., da RelativitàTeoria a Teoria della relatività) l’adozione di termini e di espressioni in lingue straniere, quando non esista il corrispettivo in italiano e quando esse siano entrate nell’uso corrente (p.e., Robot, Compact disc, Computer) l’uso della grafia corrente, con l’abbandono di quella arcaica o non più utilizzata comunemente (p.e., da Giuochi a Giochi) la distinzione fra la terminologia scientifica e la terminologia corrente (p.e., Homo Pechinensis, anziché Uomo per un’opera che tratta del cranio dell’Homo Pechinensis) Principio di struttura L’architettura dell’organizzazione catalografica per soggetto si basa sulla struttura sindetica Il principio dell’unità e dell’uniformità stabilisce di usare la stessa voce per tutti i documenti che trattano del medesimo soggetto (a soggetti uguali corrispondono voci di soggetto uguali) Possono verificarsi errori di discordanza di due tipi un comportamento dissimile da parte di catalogatori diversi un comportamento dissimile da parte dello stesso catalogatore in tempi diversi La registrazione delle scelte compiute e la ricerca dei precedenti (altre edizioni della stessa opera, opere di argomento simile catalogate in passato) possono contribuire ad assicurare coerenza (ma revisioni e bonifiche periodiche sono sempre necessarie) Il principio di correlazione prescrive di mettere in relazione ogni voce con altre voci che designano concetti correlati e affini. Ciascuna voce fa parte di una famiglia di voci. Ad esempio Cereali è legata a descrittori di valore affine o più ampio (p.e., Piante alimentari) e più specifico (p.e., Grano, Avena, Orzo) La correlazione è in senso verticale e orizzontale: dal generale al particolare e viceversa o, con linguaggio cutteriano, in senso discendente e ascendente L’intestazione per soggetto secondo il Soggettario 1925: la BNCF inizia a corredare con la voce di soggetto le registrazioni del “Bollettino delle pubblicazioni italiane ricevute per diritto di stampa” Da quella esperienza e dallo studio delle LCSH e di altre liste di voci di soggetto i bibliotecari della BNCF cominciano a elaborare dal 1936 un vocabolario controllato di termini, pubblicato nel 1956 Il termine Soggettario viene appositamente coniato per dare un titolo a questa lista di voci, il cui scopo principale – scrive Anita Mondolfo nella Prefazione – è fornire ai catalogatori “una guida, che [...salvi] dalle molteplici visioni personali” Soggettario lista aperta di termini di riferimento per la costruzione del catalogo per soggetto, non è l’elenco dei soli termini da usare indica i tipi di voci che si possono usare, non le voci che si debbono usare. È possibile formulare nuove voci nel rispetto della sua filosofia (ma è preferibile che siano agenzie autorevoli a farlo) Il Soggettario contiene circa 23.000 voci, 100.000 rimandi e 10.000 suddivisioni, alle quali vanno aggiunte alcune migliaia di voci e di suddivisioni introdotte con gli aggiornamenti Ha tre appendici: Suddivisioni dei soggetti geografici Suddivisioni dei soggetti biografici Suddivisioni formali La BNI, dal 1958 in poi, ha modificato o sostituito termini desueti nel linguaggio comune e ne ha inseriti di nuovi, e ha curato la pubblicazione di quattro Liste di aggiornamenti nel 1977, 1982, 1988, 1997; le prime tre presentano un elenco di termini, senza la struttura sindetica. Voci di soggetto. Aggiornamento 1986-1996 del 1997 introduce un apparato sindetico nuovo (applica parzialmente ISO 2788) Il Soggettario (con i suoi aggiornamenti) è, quindi, una lunghissima serie esemplificativa di termini a cui occorre attenersi per la scelta delle voci o, meglio, per la scelta della forma delle voci di soggetto, per l’aspetto formale del descrittore. Morfologia Il Soggettario si articola in soggetti principali soggetti secondari (o suddivisioni) rinvii richiami rimandi da I richiami e i rimandi da collocano ciascun termine in un sistema di coordinate Alcuni descrittori hanno note di orientamento, in corsivo, che precisano il valore del termine I soggetti principali sono contraddistinti da un corpo in carattere neretto Le suddivisioni non sono utilizzate da sole, ma sempre unite, da una lineetta, al termine che precede I rinvii rinviano da una formula possibile di un soggetto, che non è stata impiegata, alla voce standard (p.e., Badie v. Abbazie) I richiami hanno la funzione di agevolare la scelta della voce; collegano le singole voci con altre ad esse subordinate o accessorie (p.e., Disarmo v.a. Sicurezza internazionale) affini (p.e., Contratti statali v.a. Contratti di diritto pubblico) contrapposte (p.e., Bene v.a. Male) Vi sono richiami specifici (p.e., Navigazione v.a. Canali maritttimi) e richiami esemplificativi (p.e., Stato ... anche le diverse forme di Stato, es. Comuni; Monarchia; Repubblica), introdotti dalla sigla v.a. (vedi anche) e talvolta preceduti da una nota di orientamento, in corsivo; la correlazione fra i termini è parte essenziale della struttura sindetica I rimandi da rappresentano l’esatta antitesi dei rinvii e dei richiami I rinvii da indicano da quali voci è stato fatto rinvio (p.e., Arte *Arti figurative; Belle arti); la voce non preferita è preceduta da un asterisco I richiami da indicano da quali voci è fatto ad essa richiamo (p.e., Gnoseologia **Conoscenza; Filosofia; Scienze; naturalmente sotto Filosofia e Scienze vi sarà il richiamo da Gnoseologia); la voce correlata è preceduta da due asterischi o da due asterischi e dall’abbreviazione es. che introduce una esemplificazione Tipologia delle voci Le intestazioni per soggetto sono costituite da soggetti comuni soggetti formali soggetti geografici soggetti biografici soggetti relativi alle opere anonime soggetti relativi a enti soggetti relativi a eventi storici soggetti relativi a malattie Le voci formulate al plurale esprimono concetti trattati collettivamente, quali i prodotti delle arti (p.e., Affreschi, Mobili), i nomi di classi di persone, di attività e di mestieri (p.e., Artigiani; Medici) o voci che si riferiscono a forme letterarie e bibliografiche (p.e., Romanzi, Cataloghi) e a nomi di enti e istituti (p.e., Biblioteche, Scuole medie) Esistono anche termini formulati al singolare e al plurale, ovviamente con significato diverso: Affresco indica la tecnica dell’affresco, Affreschi il soggetto comune; Moneta si riferisce all’uso che se ne fa in economia, Monete al collezionismo di monete come oggetti (numismatica) Il soggetto comune è costituito da • un sostantivo, un nome comune (p.e., Cavalli, Musica, Piante, Seta); la voce può essere accompagnata da una specificazione, posta entro parentesi tonde, con la funzione di distinguere due omografi, p.e., Marte (Pianeta) da Marte dio della guerra, oppure la funzione di precisare il significato del termine, p.e., Colomba (Simbolo); la specificazione è attribuita al termine meno comune • un sostantivo accompagnato da un aggettivo (p.e., Letteratura italiana, Scuole materne) o da un complemento (p.e., Piante da cellulosa, Festa degli alberi) che ne determinano il valore • una formulazione di uso comune (p.e., Debito estero, Libero arbitrio • due termini uniti dalla congiunzione “e”; la voce indica un rapporto tra due argomenti analizzati in relazione o in contrapposizione (p.e., Chiesa e Stato, Famiglia e scuola), oppure due concetti che di solito sono analizzati insieme (Domanda e offerta, Usi e costumi); in testa alla stringa è il termine che tradizionalmente è citato per primo; l’espressione inversa rinvia alla forma preferita Le voci di soggetto formali descrivono la categoria alla quale appartiene il documento, non il suo contenuto, (in questo senso sono voci di soggetto improprie) e sono seguite da una suddivisione (p.e., PeriodiciCatalogazione) I soggetti geografici sono voci costituite da termini che designano unità geografiche (p.e., Alpi, Mare Adriatico, Roma). I nomi di luoghi stranieri sono espressi nella forma originale in assenza della forma italiana (p.e., Amsterdam) e in presenza di una forma italiana desueta (p.e., New York, non Nuova York) Le voci di soggetto geografiche possono essere • accompagnate da una qualificazione, entro parentesi tonda, che ne delimita l’ambito (p.e., Napoli (Comune), Napoli (Provincia)) • seguite da un aggettivo che designa una parte dell’unità geografica più vasta (p.e., America latina, Italia meridionale) • formulate con termini che non corrispondono a nessuna unità geografica, ma che, tuttavia, hanno acquisito un valore preciso nell’uso corrente (p.e., Estremo Oriente, Paesi baltici) • formulate con termini che indicano unità geografiche che nel tempo hanno mutato nome ed estensione: Gallia non corrisponde a Francia I soggetti biografici riguardano persone reali, mitologiche e immaginarie (p.e., Manzoni Alessandro, Caterina da Siena, Zeus, Omero, Parsifal) e sono formulati in italiano, per gli scopi divulgativi caratteristici del catalogo per soggetto In particolare • i nomi degli autori del periodo classico greco e latino (p.e., Virgilio, non Vergilius) • i nomi degli autori del Medioevo e del Rinascimento (p.e., Erasmo da Rotterdam) •i nomi dei santi italiani e di altre aree linguistiche, quando la forma italiana è usata tradizionalmente (p.e., Vincenzo de’ Paoli, Antonio di Padova) • i nomi dei sovrani non italiani, quando esiste una forma italiana (p.e., Napoleone I), e i nomi dei papi; i nomi delle case regnanti e delle dinastie sono accompagnati dalle rispettive specificazioni, entro parentesi tonde (p.e., Carolingi (Dinastia)) Le voci biografiche possono essere unite ad altre voci biografiche dalla congiunzione “e” per indicare una relazione fra due personaggi; in prima posizione è il nome dell’autore che ha subito un influsso o quello che precede nell’ordine alfabetico (p.e., Giotto e Cimabue, Leonardo da Vinci e Zenale) Soggetti relativi alle opere anonime sono costituiti dai titoli con cui sono tradizionalmente conosciute le opere anonime (p.e., Bibbia, Chanson de Roland, Corano) Soggetti relativi a enti (associazioni, accademie, ordini religiosi, ...) sono costituiti dal nome dell’ente (p.e., Centro di studi sul Rinascimento), spesso espresso nella forma breve (p.e., Francescani) Soggetti relativi a eventi storici e malattie. Il Soggettario propone la costruzione di una stringa che inizia con il nome del luogo in cui si è svolta la battaglia, seguito dal segno di virgola, dalla specificazione battaglia di, dal segno di virgola e dall’indicazione cronologica (p.e., Canne, battaglia di, 216 a.C.) La formulazione non è mai stata adottata dalla BNI, la quale preferisce la voce diretta, nel rispetto del principio dell’uso linguistico: Battaglia di Canne, 216 a.C., Battaglia di Campaldino, 1289, Battaglia di Anghiari, 1440). Stesso comportamento per i nomi delle malattie, p.e., Morbo di Parkinson, Sindrome di Stoccolma, Sindrome di Stendhal) Un commento su un’opera di un autore ha come voce di soggetto il nome dell’autore, segno di punto e titolo dell’opera (p.e., Manzoni Alessandro. I promessi sposi; Buonarroti Michelangelo. La Pietà) Suddivisioni Il Soggettario ricorre all’apporto di una suddivisione per circoscrivere la capacità informativa di un termine il cui significato non coincide semanticamente con l’argomento trattato dal documento, per esprimere più compiutamente l’argomento evidenziato dalla voce principale Le suddivisioni sono categorizzabili in varie tipologie • suddivisioni generiche (p.e., – Storia); • suddivisioni formali (p.e., – Periodici; – Dizionari) • suddivisioni geografiche (p.e., – Italia) che determinano spazialmente il soggetto • suddivisioni di voci geografiche. Quando l’argomento è di per sé vasto il Soggettario preferisce il termine geografico in prima posizione della stringa. Un’opera sulle condizioni economiche sociali, politiche e culturali, sulla civiltà e sulla storia complessiva di una città, di una nazione, di un territorio ha come soggetto la città, la nazione, il territorio (p.e., Italia – Economia; Italia) • suddivisioni delle voci biografiche (p.e., Garibaldi Giuseppe – Cimeli) • suddivisioni cronologiche (p.e., – Sec. 19.; – 1945-1983) che delimitano il soggetto nel tempo Il Soggettario non ha un ordine di combinazione fissato da regole. Ciò provoca costruzioni talora disomogenee. È tuttavia invalsa una certa consuetudine a ordinare gli elementi di una stringa seguendo la struttura delle faccette base della Colon Classification di Ranganathan, riassunte nell’acronimo PMEST, Personalità, Materia, Energia, Spazio, Tempo La Personalità è l’entità, la Materia sono i metodi, i materiali e le proprietà, l’Energia sono i processi, le operazioni, lo Spazio e il Tempo sono la rappresentazione del soggetto in un luogo e in un periodo Ordinamento L’ordinamento delle voci è alfabetico, parola per parola secondo la successione delle lettere dell’alfabeto italiano, in base alla prima parola che non sia un articolo. Se il primo termine è il medesimo per più soggetti, l’ordinamento è stabilito dalla seconda parola, e così di seguito Le suddivisioni hanno un ordinamento secondo criteri formali o, nel caso di Arte, addirittura sistematico per una ricerca più agevole dei soggetti. Le suddivisioni geografiche precedono le suddivisioni generiche e formali; le suddivisioni cronologiche seguono sempre la voce – Storia L’ordinamento è applicato anche alle suddivisioni delle suddivisioni. Una riga bianca segnala la fine della serie esemplificativa geografica dall’inizio della serie delle suddivisioni generiche e formali. Un ordinamento analogo può applicarsi anche ad altre serie di soggetti che appartengono a una medesima classe (cfr. Soggettario, p. XXVI-XXVIII) Arte – America – Francia, etc. – Bibliografia – Cataloghi – Collezioni – Conferenze, etc. – Storia – Antichità – Sec. II-VII (la BNI usa attualmente i numeri arabi, ndr) – Sec. X-XII – Sec. XII-XIII – Sec. XVII-XIX – Sec. XIX Anche le voci biografiche hanno un ordinamento parzialmente sistematico. Le suddivisioni propriamente biografiche sono ordinate alfabeticamente, ad esse seguono le suddivisioni relative alle opere (p.e., – Opere latine, – Opere poetiche, – Opere storiche), quindi il titolo delle singole opere (cfr. le voci Alighieri Dante, Carducci Giosue, Cesare Caio Giulio, Manzoni Alessandro). L’inizio di una nuova serie alfabetica all’interno della voce biografica è avvertito da tre asterischi disposti a forma di triangolo La formulazione del soggetto è in stretta relazione con la tipologia del pubblico e della raccolta. Importanti sistemi di catalogazione partecipata non prevedono l’indicizzazione per soggetto e lasciano alle biblioteche aderenti ogni decisione in merito Il catalogo per soggetto, di norma, non indicizza gli almanacchi, gli annuari, le enciclopedie e i periodici generali, le opere letterarie e artistiche, le opere filosofiche, i codici di leggi, i documenti dottrinali e liturgici di una chiesa, perché sono opere che non presentano un argomento definito o, pur avendolo, non vengono usualmente ricercate per il loro soggetto Il Nuovo Soggettario Lo studio di fattibilità sul rinnovamento del Soggettario è iniziato nel mese di settembre del 2000 e si è concluso nel giugno del 2002. Lo studio ha indicato i principi e le caratteristiche del nuovo linguaggio di indicizzazione; ha definito le modalità per raggiungere obiettivi realizzabili e soluzioni economicamente sostenibili; ha elaborato un piano a breve e medio termine, un avanzamento per tappe; ha stimato la spesa relativa alle risorse umane e tecnologiche necessarie all’effettiva realizzazione del progetto. I lavori del Prototipo sono iniziati nel novembre 2004. 2006: Pubblicata la Guida e reso pubblico il Prototipo