Teoria e tecniche della
catalogazione e classificazione
Processo di ricerca, tattiche e strategie, valutazione, rilevanza
ricerca7ricerca
Prof.ssa Elisa Grignani
Università degli studi di Parma
aa. 2004/2005
Abbiamo visto:
•
•
•
•
•
•
Informazione
Gerarchia dell’informazione
Teoria dell’informazione (C. Shannon)
Ciclo di trasferimento dell’informazione
Sistemi IR
Alcuni concetti base IR
T&T 2004/05
2
Concetti di base IR
• Utenti, bisogni informativi, domande
• Documenti, raccolte di documenti
• Linguaggi di indicizzazione, vocabolari
controllati
• Processo di ricerca
• Valutazione
• Rilevanza
T&T 2004/05
3
OGGI
Concetti di base IR
• Utenti, bisogni informativi, domande
• Documenti, raccolte di documenti
• Linguaggi di indicizzazione, vocabolari
controllati
• Processo di ricerca
• Valutazione
• Rilevanza
T&T 2004/05
4
OGGI:
Concetti di base IR
• Utenti, bisogni informativi, domande
• Documenti, raccolte di documenti
• Linguaggi di indicizzazione, vocabolari
controllati
• Processo di ricerca
• Valutazione
• Rilevanza
T&T 2004/05
5
Processo di ricerca e recupero
dell’informazione: modello standard
T&T 2004/05
6
Modello standard: problemi
• Gli utenti apprendono nel corso del
processo di ricerca
–
–
–
–
attraverso le voci di soggetto assegnate
leggendo i documenti trovati
navigando attraverso gli hyperlink
...
T&T 2004/05
7
IR è un processo iterativo
Repositories
Goals
Workspace
T&T 2004/05
8
IR è un dialogo
– Lo scambio non termina alla prima risposta
– L’utente può riconoscere elementi utili di una risposta
– Le domande si modificano nel corso del processo
T&T 2004/05
9
“Raccolta delle bacche” come
strategia IR (Bates ‘90)
• Modello standard
– Assume che il bisogno informativo rimanga statico nel corso del processo
di ricerca
• “Raccolta delle bacche”
– Interessanti informazioni sono sparpagliate in giro, come le bacche tra i
cespugli
– La richiesta si modifica gradualmente
– Nuove informazioni possono portare a nuove idee e a nuove direzioni di
ricerca
– Il bisogno informativo
• non viene soddisfatto da un unico insieme finale di risposte recuperate
• viene soddisfatto attraverso una serie di scelte e pezzi di informazione
raccolti nel corso della ricerca, “lungo la strada”
T&T 2004/05
10
Schizzo di un ricercatore … “moving through many
actions towards a general goal of satisfactory
completion of research related to an information
need.” (Bates ‘89)
Q2
Q4
Q3
Q1
Q5
Q0
T&T 2004/05
11
Tattiche vs. Strategie
• Tattica: azione a breve termine per raggiungere un
determinato obiettivo (objective)
– operazioni, azioni
• Strategia: pianificazione complessiva per
raggiungere uno determinato scopo (goal)
– una serie di operazioni e di azioni collegati tra loro
T&T 2004/05
12
Tattiche di ricerca dell’info.
• Formulare la ricerca
– Individuare una formulazione della ricerca
– Selezionare e riformulare gli specifici termini
• Monitoraggio
– Tenere una traccia dei passi della ricerca
• Fonti di informazione
– Navigare verso e all’interno delle fonti
T&T 2004/05
13
Formulare la ricerca
• Specificità / Ambito
– Usare i termini più specifici; ma anche:
– Tenere conto dell’ambito generale in cui ci colloca la ricerca
• Esaustività
– Considerare tutti gli elementi implicati
• Filtro
– Sottrarre progressivamente alcuni elementi
• Formulazione parallela
– Usare sinonimi e termini paralleli
• Controllo terminologico
– Verificare la coerenza dei termini usati con quelli adottati dal sistema IR
(p.e., voci da un thesauro, soggettario, authority file)
T&T 2004/05
14
Monitoraggio
(anche a livello di strategia)
• Confrontare
– Comparere lo stato attuale della ricerca con il suo scopo
originario
• Pesare
– Fare una analisi costi/benefici delle azioni in atto o
programmate
• Corregere gli errori
• Registrare
– Tenere traccia - un “diario” – dei passi della ricerca
T&T 2004/05
15
Fonti di informazione
• La “Bibbia”:
– Un autorevole punto di partenza
• p.e., un “classico” sull’argomento, una pagina web fatta bene
• Ricercare/indagare:
– Ricercare e verificare tra opzioni diverse
• p.e., a partire da una lista di documenti ottenuta da una ricerca
in OPAC, o da una citazione in un documento
• Tagliare/filtrare:
– Non considerare ciò che non ci serve e delimitare il
settore di ricerca
T&T 2004/05
16
Paradosso
• Paradosso di base della ricerca/recupero
dell’informazione (Roland Hjerrpe)
– The need to describe that which you do not
know in order to find it
– Il bisogno di descrivere ciò che non conoscete
in modo da trovarlo
T&T 2004/05
17
Concetti di base IR
• Utenti, bisogni informativi, domande
• Documenti, raccolte di documenti
• Linguaggi di indicizzazione, vocabolari
controllati
• Processo di ricerca
• Valutazione
• Rilevanza
T&T 2004/05
18
Valutazione
• Perché valutare?
• Che cosa?
• Come?
T&T 2004/05
19
Perché valutare?
• Verificare se il sistema è accettabile
• Formulare giudizi comparativi
• Altro?
T&T 2004/05
20
Che cosa valutare?
• In che misura il bisogno informativo è stato
soddisfatto.
• Quanta informazione nuova e corretta si è
acquisita sull’argomento.
• Apprendimento occasionale:
– Quanto si è appreso sulla collezione.
– Quanto si è appreso su altri argomenti.
• Quanto il sistema è invitante e amichevole.
T&T 2004/05
21
Come valutare?
effectiveness
Misure di riferimento per valutare l’efficacia e
l’efficienza di un sistema IR:
•
richiamo
•
precisione
•
rilevanza
– Richiamo
• Proporzione del materiale rilevante di fatto recuperato
– Precisione
• Proporzione del materiale recuperato di fatto rilevante
T&T 2004/05
22
Doc. Rilevanti vs. Recuperati
Tutti i doc.
Recuperati
Rilevanti
T&T 2004/05
23
Precisione vs. Richiamo
| RelRetriev ed |
Recall 
| Rel in Collection |
| RelRetriev ed |
Precision 
| Retrieved |
Tutti i doc.
Recuperati
Rilevanti
T&T 2004/05
24
Perchè precisione e richiamo?
“Get as much good stuff as possible
while at the same time getting as little
junk as possible” (Larson, 2004)
T&T 2004/05
25
Documenti Ritrovati vs. Rilevanti
Rilevanti
Precisione molto alta, richiamo molto
basso
T&T 2004/05
26
Documenti Ritrovati vs. Rilevanti
Rilevanti
Precisione e richiamo molto bassi (di fatto,
recupero 0)
T&T 2004/05
27
Documenti Ritrovati vs. Rilevanti
Rilevanti
Richiamo alto, ma bassa
precisione
T&T 2004/05
28
Documenti Ritrovati vs. Rilevanti
Rilevanti
Precisione e richiamo alti
(finalmente!)
T&T 2004/05
29
Curva Precisione/Richiamo
in riferimento al n.o dei documenti
• Curva di tipo Zipf
precision
x
x
x
x
recall
T&T 2004/05
30
Curva Precisione/Richiamo
• Difficile stabilire quale di questi due ipotetici risultati sia il
migliore:
precision
x
x
x
x
recall
T&T 2004/05
31
Livelli di “Cutoff”
Fissare il numero dei documenti RILEVANTI
che si intende recuperare, p.e.:
•
•
•
•
Top 5 (solo i primi 5)
Top 10
Top 20
...
T&T 2004/05
32
Problemi con Precisione/Richiamo
• Non siamo in grado di valutare il vero valore del
richiamo (solo se i documenti della raccolta
sono molto pochi)
• Precisione/Richiamo sono correlati in modo
inverso
• Si dà per scontata l’importanza di un
ordinamento dei risultati secondo il livello di
rilevanza
T&T 2004/05
33
Concetti di base IR
• Utenti, bisogni informativi, domande
• Documenti, raccolte di documenti
• Linguaggi di indicizzazione, vocabolari
controllati
• Processo di ricerca
• Valutazione
• Rilevanza
T&T 2004/05
34
Information Retrieval (IR)
• Obiettivo dell’IR è di recuperare, all’interno di
una collezione, tutti e solo i documenti “rilevanti”
per un particolare utente con una particolare
richiesta informativa
• The goal is to search large document collections
(millions of documents) to retrieve small subsets
relevant to the user’s information need
• Rilevanza è un concetto chiave dell’IR, che ora
cercheremo di chiarire
T&T 2004/05
35
Rilevanza
• “Intuitively, we understand quite well what
relevance means. It is a primitive ‘y’ know’
concept, as is information for which we
hardly need a definition. … if and when any
productive contact [in communication] is
desired, consciously or not, we involve and
use this intuitive notion or relevance.”
» Saracevic, 1975
T&T 2004/05
36
Rilevanza
• In che misura un documento è rilevante
– per questo utente, per questo bisogno informativo
• Quello di rilevanza è un giudizio soggettivo, ma:
• In qualche misura calcolabile
– Quanto spesso la gente concorda sul fatto che un certo
documento è rilevante per una certa domanda ? (criterio
della popolarità)
T&T 2004/05
37
Rilevanza
• In quali modi un documento può essere rilevante
al fine di soddisfare un bisogno informativo?
– Fornisce in modo preciso risposte dettagliate
Quando è morto Dante Alighieri? Nel 1321
– Risponde in modo preciso ma parziale
Dove si trova Stradella? Vicino a Pavia
– Suggerisce una diversa fonte di informazione
Dove si trova Stradella? Guarda su un atlante geografico
– Altro …
T&T 2004/05
38
Alcuni studi sul tema della rilevanza
• Rassegna bibliografica: Saracevic, 1975
• Riconsiderazione dell’idea di rilevanza
come centrata sull’utente: Schamber,
Eisenberg, Nilan, 1990
• Numero speciale sulla di rilevanza in
“JASIS”, Aprile 1994
T&T 2004/05
39
Prossimamente:
• ...
T&T 2004/05
40
Scarica

Visualizza/apri