Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2004/2005 Abbiamo visto: • • • • • Informazione Gerarchia dell’informazione Teoria dell’informazione (C. Shannon) Ciclo di trasferimento dell’informazione Sistemi di recupero dell’informazione T&T 2004/05 2 Gerarchia dell’informazione Wisdom Knowledge Information Data T&T 2004/05 3 Teoria dell’informazione Message Source Message Encoding Decoding Destination Channel Noise Message Source Encoding (writing/indexing) Storage T&T 2004/05 Message Decoding (Retrieval/Reading) Destination 4 Ciclo di trasferimento dell’informazione Creation Active Authoring Modifying Using Creating Retention/ Mining Organizing Indexing Accessing Filtering Storing Retrieval Semi-Active Discard Distribution Networking Utilization Disposition Searching Inactive T&T 2004/05 5 Struttura di un sistema IR Search Line Interest profiles & Queries Formulating query in terms of descriptors Information Storage and Retrieval System Rules of the game = Rules for subject indexing + Thesaurus (which consists of Lead-In Vocabulary and Indexing Language Storage of profiles Store1: Profiles/ Search requests Storage Line Documents & data Indexing (Descriptive and Subject) Storage of Documents Comparison/ Matching Store2: Document representations Adapted from Soergel, p. 19 Potentially Relevant Documents T&T 2004/05 6 Sistemi IR: struttura (Cooper - Maron, 1985) 1. l’insieme delle possibili chiavi di accesso assegnate ai documenti; 2. l’insieme delle domande formulabili dagli utenti; 3. l’insieme degli indicatori di valore informativo da assegnare ai documenti; 4. una regola di recupero. T&T 2004/05 7 Oggi (e domani) • IR: alcuni concetti di base T&T 2004/05 8 Concetti di base IR • Utenti, bisogni informativi, domande • Documenti, raccolte di documenti • Linguaggi di indicizzazione, vocabolari controllati • Processo di ricerca • Valutazione - Rilevanza T&T 2004/05 9 Concetti di base IR • Utenti, bisogni informativi, domande • Documenti, raccolte di documenti • Linguaggi di indicizzazione, vocabolari controllati • Processo di ricerca • Valutazione - Rilevanza T&T 2004/05 10 Utenti: bisogni informativi • Perchè costruire sitemi IR? • Le diverse persone hanno bisogni informativi diversi e del tutto svariati • Le persone spesso non sanno cosa cercano, o possono non essere in grado di esprimere il loro bisogno informativo in modo utile T&T 2004/05 11 Utenti: domande • Una domanda (query) è una forma di espressione dei bisogni informativi dell’utente • Può essere espressa in vari modi – in linguaggio naturale – nei termini di un linguaggio di indicizzazione • Le domande talvolta non rappresentano in modo accurato il bisogno informativo – Differenze tra una conversazione tra persone e una espressione formale di ricerca T&T 2004/05 12 Utenti: domande: cataloghi Indagine sponsorizzata dal Council on Library Resources sull’utilizzo dei cataloghi online nelle biblioteche USA: Using online catalogs: a nationwide survey, New York, NealSchuman, 1983. T&T 2004/05 13 T&T 2004/05 14 Utenti: domande: Web Indagini sull’uso del Web: • La gente che cosa cerca? • Come utilizza i motori di ricerca? – In quale percentuale trova ciò che sta cercando? – Qual è il livello di difficoltà nel trovare ciò che cerca? • Come si possono migliorare i motori di ricerca? T&T 2004/05 15 La gente che cosa cerca nel Web? • Studio di Amanda Spink et al., Ott. 1998 Indagine su Excite; dati tratti da un campione di 316 utenti intervistati tramite questionario <www.shef.ac.uk/~is/publications/infres/paper53.html> T&T 2004/05 16 What Do People Search for on the Web? Self-reported topics • • • • • • • • • • • • Genealogy/Public Figure: Computer related: Business: Entertainment: Medical: Politics & Government News Hobbies General info/surfing Science Travel Arts/education/shopping/images 12% 12% 12% 8% 8% 7% 7% 6% 6% 6% 5% 14% • Something is missing… T&T 2004/05 17 What Do People Search for on the Web? 50,000 queries from Excite 1997 Most frequent terms: • • • • • • • • 4660 sex 3129 yahoo 2191 internal site administr. 1520 chat 1498 porn 1315 horoscopes 1284 pokemon 1283 SiteScope test • • • • • • • • • T&T 2004/05 1223 hotmail 1163 games 1151 mp3 1140 weather 1127 www.yahoo.com 1110 maps 1036 yahoo.com 983 ebay 980 recipes 18 Google come spirito del tempo Zeitgeist • Andiamo a vedere la pagina: <http://www.google.com/press/zeitgeist.html> T&T 2004/05 19 Concetti di base IR • Utenti, bisogni informativi, domande • Documenti, raccolte di documenti • Linguaggi di indicizzazione, vocabolari controllati • Processo di ricerca • Valutazione - Rilevanza T&T 2004/05 20 Documenti • Un documento è una rappresentazione di una aggregazione di informazioni, considerata come una unità • Cosa intendiamo con documento? – l’intero documento? – un suo surrogato? – pagine? • M. Buckland, What is a Document, “JASIS”, Sept. 1997, pp. 804-809 • J. LeGoff, Documento/Monumento, in Enciclopedia, Torino, Einaudi, 1977-1982, vol. 5, pp. 38-48 21 T&T 2004/05 Raccolte di documenti / Collezioni • Una collezione è una aggregazione fisica o logica di documenti – – – – – museo, pinacoteca biblioteca base di dati biblioteca digitale ... • Krzysztof POMIAN, Memoria, in Enciclopedia, Torino, Einaudi, 1977-1982, vol. 15, pp. 388-399 T&T 2004/05 22 Concetti di base IR • Utenti, bisogni informativi, domande • Documenti, raccolte di documenti • Linguaggi di indicizzazione, vocabolari controllati (da approfondire nel modulo B del corso) • Processo di ricerca • Valutazione - Rilevanza T&T 2004/05 23 Linguaggi di indicizzazione • Indicizzazione a parole chiave non controllate: p.e. KWIC, KWOC, “cerca” nel titolo in un OPAC • Linguaggi di indicizzazione controllati ma non strutturati • Thesauri: controllati e strutturati • Schemi di classificazione: controllati, strutturati e codificati T&T 2004/05 24 Vocabolari controllati • Il controllo terminologico è un tentativo di fornire un insieme standardizzato e coerente di termini (quali voci di soggetto, nomi di persone o enti, notazioni di uno schema di classificazione) con lo scopo di portare un aiuto nella ricerca di informazioni • Un esempio linguistico: Word Net <www.cogsci.princeton.edu/~wn> T&T 2004/05 25 Vocabolari controllati • Soggettari: p.e., Soggettario di Firenze, Library of Congress Subject Headings: <http://authorities.loc.gov/> • Thesauri: p.e., ERIC Thesaurus of Descriptors <www.ericfacility.net/extra/pub/thessearch.cfm>, The Art and Architecture Thesaurus <www.getty.edu/research/conducting_research/vocabularies/>, Medical Subject Headings (MESH) • Name Authority File: <http://authorities.loc.gov/> • Schemi di classificazione: p.e., CDD, CDU, CC • ... T&T 2004/05 26 Sistemi pre- e post-coordinati • Sistemi pre-coordinati: è l’indicizzatore (bibliotecario, etc.) che costruisce adeguate rappresentazioni del contenuto dei documenti. • Sistemi post-coordinati: è l’utente o chi conduce la ricerca che combina i singoli concetti per descrivere documenti che potrebbero essere considerati rilevanti. T&T 2004/05 27 Concetti di base IR • Utenti, bisogni informativi, domande • Documenti, raccolte di documenti • Linguaggi di indicizzazione, vocabolari controllati • Processo di ricerca • Valutazione - Rilevanza T&T 2004/05 28 Prossimamente • Processo di ricerca dell’informazione • Valutazione – Rilevanza • Cataloghi e bibliografie come sistemi IR T&T 2004/05 29