Teoria e tecniche della
catalogazione e classificazione
Utenti, documenti, linguaggi di indicizzazione
ricerca5ir
Prof.ssa Elisa Grignani
Università degli studi di Parma
aa. 2004/2005
Abbiamo visto:
•
•
•
•
•
Informazione
Gerarchia dell’informazione
Teoria dell’informazione (C. Shannon)
Ciclo di trasferimento dell’informazione
Sistemi di recupero dell’informazione
T&T 2004/05
2
Gerarchia dell’informazione
Wisdom
Knowledge
Information
Data
T&T 2004/05
3
Teoria dell’informazione
Message
Source
Message
Encoding
Decoding
Destination
Channel
Noise
Message
Source
Encoding
(writing/indexing)
Storage
T&T 2004/05
Message
Decoding
(Retrieval/Reading)
Destination
4
Ciclo di trasferimento dell’informazione
Creation
Active
Authoring
Modifying
Using
Creating
Retention/
Mining
Organizing
Indexing
Accessing
Filtering
Storing
Retrieval
Semi-Active
Discard
Distribution
Networking
Utilization Disposition
Searching
Inactive
T&T 2004/05
5
Struttura di un sistema IR
Search
Line
Interest profiles
& Queries
Formulating query in
terms of
descriptors
Information Storage and Retrieval System
Rules of the game =
Rules for subject indexing +
Thesaurus (which consists of
Lead-In
Vocabulary
and
Indexing
Language
Storage of
profiles
Store1: Profiles/
Search requests
Storage
Line
Documents
& data
Indexing
(Descriptive and
Subject)
Storage of
Documents
Comparison/
Matching
Store2: Document
representations
Adapted from Soergel, p. 19
Potentially
Relevant
Documents
T&T 2004/05
6
Sistemi IR: struttura (Cooper - Maron, 1985)
1. l’insieme delle possibili chiavi di accesso
assegnate ai documenti;
2. l’insieme delle domande formulabili dagli
utenti;
3. l’insieme degli indicatori di valore
informativo da assegnare ai documenti;
4. una regola di recupero.
T&T 2004/05
7
Oggi (e domani)
• IR: alcuni concetti di base
T&T 2004/05
8
Concetti di base IR
• Utenti, bisogni informativi, domande
• Documenti, raccolte di documenti
• Linguaggi di indicizzazione, vocabolari
controllati
• Processo di ricerca
• Valutazione - Rilevanza
T&T 2004/05
9
Concetti di base IR
• Utenti, bisogni informativi, domande
• Documenti, raccolte di documenti
• Linguaggi di indicizzazione, vocabolari
controllati
• Processo di ricerca
• Valutazione - Rilevanza
T&T 2004/05
10
Utenti: bisogni informativi
• Perchè costruire sitemi IR?
• Le diverse persone hanno bisogni
informativi diversi e del tutto svariati
• Le persone spesso non sanno cosa cercano,
o possono non essere in grado di esprimere
il loro bisogno informativo in modo utile
T&T 2004/05
11
Utenti: domande
• Una domanda (query) è una forma di espressione
dei bisogni informativi dell’utente
• Può essere espressa in vari modi
– in linguaggio naturale
– nei termini di un linguaggio di indicizzazione
• Le domande talvolta non rappresentano in modo
accurato il bisogno informativo
– Differenze tra una conversazione tra persone e una
espressione formale di ricerca
T&T 2004/05
12
Utenti: domande: cataloghi
Indagine sponsorizzata dal Council on Library
Resources sull’utilizzo dei cataloghi online
nelle biblioteche USA: Using online catalogs:
a nationwide survey, New York, NealSchuman, 1983.
T&T 2004/05
13
T&T 2004/05
14
Utenti: domande: Web
Indagini sull’uso del Web:
• La gente che cosa cerca?
• Come utilizza i motori di ricerca?
– In quale percentuale trova ciò che sta
cercando?
– Qual è il livello di difficoltà nel trovare
ciò che cerca?
• Come si possono migliorare i motori di
ricerca?
T&T 2004/05
15
La gente che cosa cerca nel Web?
• Studio di Amanda Spink et al., Ott. 1998
Indagine su Excite; dati tratti da un campione di
316 utenti intervistati tramite questionario
<www.shef.ac.uk/~is/publications/infres/paper53.html>
T&T 2004/05
16
What Do People Search for on the Web?
Self-reported topics
•
•
•
•
•
•
•
•
•
•
•
•
Genealogy/Public Figure:
Computer related:
Business:
Entertainment:
Medical:
Politics & Government
News
Hobbies
General info/surfing
Science
Travel
Arts/education/shopping/images
12%
12%
12%
8%
8%
7%
7%
6%
6%
6%
5%
14%
• Something is missing…
T&T 2004/05
17
What Do People Search for on the Web?
50,000 queries from Excite 1997
Most frequent terms:
•
•
•
•
•
•
•
•
4660 sex
3129 yahoo
2191 internal site administr.
1520 chat
1498 porn
1315 horoscopes
1284 pokemon
1283 SiteScope test
•
•
•
•
•
•
•
•
•
T&T 2004/05
1223 hotmail
1163 games
1151 mp3
1140 weather
1127 www.yahoo.com
1110 maps
1036 yahoo.com
983 ebay
980 recipes
18
Google come spirito del tempo
Zeitgeist
• Andiamo a vedere la pagina:
<http://www.google.com/press/zeitgeist.html>
T&T 2004/05
19
Concetti di base IR
• Utenti, bisogni informativi, domande
• Documenti, raccolte di documenti
• Linguaggi di indicizzazione, vocabolari
controllati
• Processo di ricerca
• Valutazione - Rilevanza
T&T 2004/05
20
Documenti
• Un documento è una rappresentazione di una
aggregazione di informazioni, considerata come
una unità
• Cosa intendiamo con documento?
– l’intero documento?
– un suo surrogato?
– pagine?
• M. Buckland, What is a Document, “JASIS”, Sept.
1997, pp. 804-809
• J. LeGoff, Documento/Monumento, in
Enciclopedia, Torino, Einaudi, 1977-1982, vol. 5,
pp. 38-48
21
T&T 2004/05
Raccolte di documenti /
Collezioni
• Una collezione è una aggregazione fisica o logica
di documenti
–
–
–
–
–
museo, pinacoteca
biblioteca
base di dati
biblioteca digitale
...
• Krzysztof POMIAN, Memoria, in Enciclopedia,
Torino, Einaudi, 1977-1982, vol. 15, pp. 388-399
T&T 2004/05
22
Concetti di base IR
• Utenti, bisogni informativi, domande
• Documenti, raccolte di documenti
• Linguaggi di indicizzazione, vocabolari
controllati (da approfondire nel modulo B del corso)
• Processo di ricerca
• Valutazione - Rilevanza
T&T 2004/05
23
Linguaggi di indicizzazione
• Indicizzazione a parole chiave non
controllate: p.e. KWIC, KWOC, “cerca” nel titolo in un OPAC
• Linguaggi di indicizzazione controllati ma
non strutturati
• Thesauri: controllati e strutturati
• Schemi di classificazione: controllati,
strutturati e codificati
T&T 2004/05
24
Vocabolari controllati
• Il controllo terminologico è un tentativo di
fornire un insieme standardizzato e coerente
di termini (quali voci di soggetto, nomi di
persone o enti, notazioni di uno schema di
classificazione) con lo scopo di portare un
aiuto nella ricerca di informazioni
• Un esempio linguistico: Word Net
<www.cogsci.princeton.edu/~wn>
T&T 2004/05
25
Vocabolari controllati
• Soggettari: p.e., Soggettario di Firenze, Library of
Congress Subject Headings: <http://authorities.loc.gov/>
• Thesauri: p.e., ERIC Thesaurus of Descriptors
<www.ericfacility.net/extra/pub/thessearch.cfm>,
The Art and Architecture Thesaurus
<www.getty.edu/research/conducting_research/vocabularies/>,
Medical Subject Headings (MESH)
• Name Authority File: <http://authorities.loc.gov/>
• Schemi di classificazione: p.e., CDD, CDU, CC
• ...
T&T 2004/05
26
Sistemi pre- e post-coordinati
• Sistemi pre-coordinati: è l’indicizzatore
(bibliotecario, etc.) che costruisce adeguate
rappresentazioni del contenuto dei
documenti.
• Sistemi post-coordinati: è l’utente o chi
conduce la ricerca che combina i singoli
concetti per descrivere documenti che
potrebbero essere considerati rilevanti.
T&T 2004/05
27
Concetti di base IR
• Utenti, bisogni informativi, domande
• Documenti, raccolte di documenti
• Linguaggi di indicizzazione, vocabolari
controllati
• Processo di ricerca
• Valutazione - Rilevanza
T&T 2004/05
28
Prossimamente
• Processo di ricerca dell’informazione
• Valutazione – Rilevanza
• Cataloghi e bibliografie come sistemi IR
T&T 2004/05
29
Scarica

Visualizza/apri