Teoria e tecniche della
catalogazione e classificazione
Processo di ricerca, tattiche e strategie, valutazione, rilevanza
ricerca7ricerca
Prof.ssa Elisa Grignani
Università degli studi di Parma
aa. 2005/2006
Abbiamo visto:
•
•
•
•
•
•
•
Informazione
Gerarchia dell’informazione
Teoria dell’informazione (C. Shannon)
Ciclo di trasferimento dell’informazione
Sistemi IR
Alcuni concetti base IR
Cataloghi
2
Concetti di base IR
• Utenti, bisogni informativi, domande
• Documenti, raccolte di documenti
• Linguaggi di indicizzazione, vocabolari
controllati
• Processo di ricerca
• Valutazione - Rilevanza
3
OGGI
Concetti di base IR
• Utenti, bisogni informativi, domande
• Documenti, raccolte di documenti
• Linguaggi di indicizzazione, vocabolari
controllati
• Processo di ricerca
• Valutazione - Rilevanza
4
OGGI:
Concetti di base IR
• Utenti, bisogni informativi, domande
• Documenti, raccolte di documenti
• Linguaggi di indicizzazione, vocabolari
controllati
• Processo di ricerca
• Valutazione - Rilevanza
5
Processo di ricerca e recupero
dell’informazione: modello standard
6
Modello standard: problemi
• Gli utenti apprendono nel corso del
processo di ricerca
–
–
–
–
attraverso le voci di soggetto assegnate
leggendo i documenti trovati
navigando attraverso gli hyperlink
...
7
IR è un processo iterativo
Repositories
Goals
Workspace
8
IR è un dialogo
– Lo scambio non termina alla prima risposta
– L’utente può riconoscere elementi utili di una risposta
– Le domande si modificano nel corso del processo
9
“Raccolta delle bacche” come
strategia IR (Bates ‘90)
• Modello standard
– Assume che il bisogno informativo rimanga statico nel corso del processo
di ricerca
• “Raccolta delle bacche”
– Interessanti informazioni sono sparpagliate in giro, come le bacche tra i
cespugli
– La richiesta si modifica gradualmente
– Nuove informazioni possono portare a nuove idee e a nuove direzioni di
ricerca
– Il bisogno informativo
• non viene soddisfatto da un unico insieme finale di risposte recuperate
• viene soddisfatto attraverso una serie di scelte e pezzi di informazione
raccolti nel corso della ricerca, “lungo la strada”
10
Schizzo di un ricercatore … “moving through many
actions towards a general goal of satisfactory
completion of research related to an information
need.” (Bates ‘89)
Q2
Q4
Q3
Q1
Q5
Q0
11
Tattiche vs. Strategie
• Tattica: azione a breve termine per raggiungere un
determinato obiettivo (goal)
– operazioni, azioni
• Strategia: pianificazione complessiva per
raggiungere uno determinato scopo (objective)
– una serie di operazioni e di azioni collegati tra loro
12
Tattiche di ricerca dell’info.
• Formulare la ricerca
– Individuare una formulazione della ricerca
– Selezionare e riformulare gli specifici termini
• Monitoraggio
– Tenere una traccia dei passi della ricerca
• Fonti di informazione
– Navigare verso e all’interno delle fonti
(cfr. L’opuscolo di Jenny RYAN, Steph CAPRA. Research Projects:An Information Literacy Planner For Students.
American Library Association, 2001)
13
Formulare la ricerca
• Specificità / Ambito
– Usare i termini più specifici; ma anche:
– Tenere conto dell’ambito generale in cui ci colloca la ricerca
• Esaustività
– Considerare tutti gli elementi implicati
• Filtro
– Sottrarre progressivamente alcuni elementi
• Formulazione parallela
– Usare sinonimi e termini paralleli
• Controllo terminologico
– Verificare la coerenza dei termini usati con quelli adottati dal sistema IR
(p.e., voci da un thesauro, soggettario, authority file)
14
Monitoraggio
(anche a livello di strategia)
• Confrontare
– Comparere lo stato attuale della ricerca con il suo scopo
originario
• Pesare
– Fare una analisi costi/benefici delle azioni in atto o
programmate
• Corregere gli errori
• Registrare
– Tenere traccia - un “diario” – dei passi della ricerca
15
Fonti di informazione
• La “Bibbia”:
– Un autorevole punto di partenza
• p.e., un “classico” sull’argomento, una pagina web fatta bene
• Ricercare/indagare:
– Ricercare e verificare tra opzioni diverse
• p.e., a partire da una lista di documenti ottenuta da una ricerca
in OPAC, o da una citazione in un documento
• Tagliare/filtrare:
– Non considerare ciò che non ci serve e delimitare il
settore di ricerca
16
Paradosso
• Paradosso di base della ricerca/recupero
dell’informazione (Roland Hjerrpe)
– The need to describe that which you do not
know in order to find it
– Il bisogno di descrivere ciò che non conoscete
in modo da trovarlo
17
Concetti di base IR
• Utenti, bisogni informativi, domande
• Documenti, raccolte di documenti
• Linguaggi di indicizzazione, vocabolari
controllati
• Processo di ricerca
• Valutazione - Rilevanza
18
Valutazione
• Perché valutare?
• Che cosa?
• Come?
19
Perché valutare?
• Verificare se il sistema è accettabile
• Formulare giudizi comparativi
• Altro?
20
Che cosa valutare?
• In che misura il bisogno informativo è stato
soddisfatto.
• Quanta informazione nuova e corretta si è
acquisita sull’argomento.
• Apprendimento occasionale:
– Quanto si è appreso sulla collezione.
– Quanto si è appreso su altri argomenti.
• Quanto il sistema è invitante e amichevole.
21
Come valutare?
effectiveness
Misure di riferimento per valutare l’efficacia e
l’efficienza di un sistema IR:
•
richiamo
•
precisione
•
rilevanza
– Richiamo
• Proporzione del materiale rilevante di fatto recuperato
– Precisione
• Proporzione del materiale recuperato di fatto rilevante
22
Doc. Rilevanti vs. Recuperati
Tutti i doc.
Recuperati
Rilevanti
23
Precisione vs. Richiamo
| RelRetriev ed |
Precision 
| Retrieved |
| RelRetriev ed |
Recall 
| Rel in Collection |
Tutti i doc.
Recuperati
Rilevanti
24
Precisione vs. Richiamo
Precisione:
doc. rilev. recuperati/totale doc. recuperati
Richiamo:
doc. rilev. recuperati/totale doc. rilevanti
Tutti i doc.
Recuperati
Rilevanti
25
Perchè precisione e richiamo?
“Get as much good stuff as possible
while at the same time getting as little
junk as possible” (Larson, 2004)
26
Documenti Ritrovati vs. Rilevanti
Rilevanti
Precisione molto alta, richiamo molto
basso
27
Documenti Ritrovati vs. Rilevanti
Rilevanti
Precisione e richiamo molto bassi (di fatto,
recupero 0)
28
Documenti Ritrovati vs. Rilevanti
Rilevanti
Richiamo alto, ma bassa
precisione
29
Documenti Ritrovati vs. Rilevanti
Rilevanti
Precisione e richiamo alti
(finalmente!)
30
Curva Precisione/Richiamo
in riferimento al n.o dei documenti
• Curva di tipo Zipf
precision
x
x
x
x
recall
31
Curva Precisione/Richiamo
• Difficile stabilire quale di questi due ipotetici risultati sia il
migliore:
precision
x
x
x
x
recall
32
Livelli di “Cutoff”
Fissare il numero dei documenti RILEVANTI
che si intende recuperare, p.e.:
•
•
•
•
Top 5 (solo i primi 5)
Top 10
Top 20
...
33
Problemi con Precisione/Richiamo
• Non siamo in grado di valutare il vero valore del
richiamo (solo se i documenti della raccolta
sono molto pochi)
• Precisione/Richiamo sono correlati in modo
inverso
• Si dà per scontata l’importanza di un
ordinamento dei risultati secondo il livello di
rilevanza
34
Concetti di base IR
• Utenti, bisogni informativi, domande
• Documenti, raccolte di documenti
• Linguaggi di indicizzazione, vocabolari
controllati
• Processo di ricerca
• Valutazione
• Rilevanza
35
Information Retrieval (IR)
• Obiettivo dell’IR è di recuperare, all’interno di
una collezione, tutti e solo i documenti “rilevanti”
per un particolare utente con una particolare
richiesta informativa
• The goal is to search large document collections
(millions of documents) to retrieve small subsets
relevant to the user’s information need
• Rilevanza è un concetto chiave dell’IR, che ora
cercheremo di chiarire
36
Rilevanza
• “Intuitively, we understand quite well what
relevance means. It is a primitive ‘y’ know’
concept, as is information for which we
hardly need a definition. … if and when any
productive contact [in communication] is
desired, consciously or not, we involve and
use this intuitive notion of relevance.”
(Saracevic, 1975)
37
Rilevanza
• In che misura un documento è rilevante
– per questo utente, per questo bisogno informativo
• Quello di rilevanza è un giudizio soggettivo, ma:
• in qualche misura calcolabile
– Quanto spesso la gente concorda sul fatto che un certo
documento è rilevante per una certa domanda ? (criterio
della popolarità)
38
Rilevanza
• In quali modi un documento può essere rilevante
al fine di soddisfare un bisogno informativo?
– Fornisce in modo preciso risposte dettagliate
Quando è morto Dante Alighieri? Nel 1321
– Risponde in modo preciso ma parziale
Dove si trova Stradella? Vicino a Pavia
– Suggerisce una diversa fonte di informazione
Dove si trova Stradella? Guarda su un atlante geografico
– Altro …
39
Alcuni studi sul tema della rilevanza
• Rassegna bibliografica: Saracevic, 1975
• Riconsiderazione dell’idea di rilevanza
come centrata sull’utente: Schamber,
Eisenberg, Nilan, 1990
• Numero speciale sulla di rilevanza in
“JASIS”, Aprile 1994
40
Prossimamente:
• …
41
Scarica

Processo di ricerca, tattiche e strategie, valutazione, rilevanza