Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2004/2005 Abbiamo visto: • • • • • • Informazione Gerarchia dell’informazione Teoria dell’informazione (C. Shannon) Ciclo di trasferimento dell’informazione Sistemi IR Alcuni concetti base IR T&T 2004/05 2 Concetti di base IR • Utenti, bisogni informativi, domande • Documenti, raccolte di documenti • Linguaggi di indicizzazione, vocabolari controllati • Processo di ricerca • Valutazione • Rilevanza T&T 2004/05 3 OGGI Concetti di base IR • Utenti, bisogni informativi, domande • Documenti, raccolte di documenti • Linguaggi di indicizzazione, vocabolari controllati • Processo di ricerca • Valutazione • Rilevanza T&T 2004/05 4 OGGI: Concetti di base IR • Utenti, bisogni informativi, domande • Documenti, raccolte di documenti • Linguaggi di indicizzazione, vocabolari controllati • Processo di ricerca • Valutazione • Rilevanza T&T 2004/05 5 Processo di ricerca e recupero dell’informazione: modello standard T&T 2004/05 6 Modello standard: problemi • Gli utenti apprendono nel corso del processo di ricerca – – – – attraverso le voci di soggetto assegnate leggendo i documenti trovati navigando attraverso gli hyperlink ... T&T 2004/05 7 IR è un processo iterativo Repositories Goals Workspace T&T 2004/05 8 IR è un dialogo – Lo scambio non termina alla prima risposta – L’utente può riconoscere elementi utili di una risposta – Le domande si modificano nel corso del processo T&T 2004/05 9 “Raccolta delle bacche” come strategia IR (Bates ‘90) • Modello standard – Assume che il bisogno informativo rimanga statico nel corso del processo di ricerca • “Raccolta delle bacche” – Interessanti informazioni sono sparpagliate in giro, come le bacche tra i cespugli – La richiesta si modifica gradualmente – Nuove informazioni possono portare a nuove idee e a nuove direzioni di ricerca – Il bisogno informativo • non viene soddisfatto da un unico insieme finale di risposte recuperate • viene soddisfatto attraverso una serie di scelte e pezzi di informazione raccolti nel corso della ricerca, “lungo la strada” T&T 2004/05 10 Schizzo di un ricercatore … “moving through many actions towards a general goal of satisfactory completion of research related to an information need.” (Bates ‘89) Q2 Q4 Q3 Q1 Q5 Q0 T&T 2004/05 11 Tattiche vs. Strategie • Tattica: azione a breve termine per raggiungere un determinato obiettivo (objective) – operazioni, azioni • Strategia: pianificazione complessiva per raggiungere uno determinato scopo (goal) – una serie di operazioni e di azioni collegati tra loro T&T 2004/05 12 Tattiche di ricerca dell’info. • Formulare la ricerca – Individuare una formulazione della ricerca – Selezionare e riformulare gli specifici termini • Monitoraggio – Tenere una traccia dei passi della ricerca • Fonti di informazione – Navigare verso e all’interno delle fonti T&T 2004/05 13 Formulare la ricerca • Specificità / Ambito – Usare i termini più specifici; ma anche: – Tenere conto dell’ambito generale in cui ci colloca la ricerca • Esaustività – Considerare tutti gli elementi implicati • Filtro – Sottrarre progressivamente alcuni elementi • Formulazione parallela – Usare sinonimi e termini paralleli • Controllo terminologico – Verificare la coerenza dei termini usati con quelli adottati dal sistema IR (p.e., voci da un thesauro, soggettario, authority file) T&T 2004/05 14 Monitoraggio (anche a livello di strategia) • Confrontare – Comparere lo stato attuale della ricerca con il suo scopo originario • Pesare – Fare una analisi costi/benefici delle azioni in atto o programmate • Corregere gli errori • Registrare – Tenere traccia - un “diario” – dei passi della ricerca T&T 2004/05 15 Fonti di informazione • La “Bibbia”: – Un autorevole punto di partenza • p.e., un “classico” sull’argomento, una pagina web fatta bene • Ricercare/indagare: – Ricercare e verificare tra opzioni diverse • p.e., a partire da una lista di documenti ottenuta da una ricerca in OPAC, o da una citazione in un documento • Tagliare/filtrare: – Non considerare ciò che non ci serve e delimitare il settore di ricerca T&T 2004/05 16 Paradosso • Paradosso di base della ricerca/recupero dell’informazione (Roland Hjerrpe) – The need to describe that which you do not know in order to find it – Il bisogno di descrivere ciò che non conoscete in modo da trovarlo T&T 2004/05 17 Concetti di base IR • Utenti, bisogni informativi, domande • Documenti, raccolte di documenti • Linguaggi di indicizzazione, vocabolari controllati • Processo di ricerca • Valutazione • Rilevanza T&T 2004/05 18 Valutazione • Perché valutare? • Che cosa? • Come? T&T 2004/05 19 Perché valutare? • Verificare se il sistema è accettabile • Formulare giudizi comparativi • Altro? T&T 2004/05 20 Che cosa valutare? • In che misura il bisogno informativo è stato soddisfatto. • Quanta informazione nuova e corretta si è acquisita sull’argomento. • Apprendimento occasionale: – Quanto si è appreso sulla collezione. – Quanto si è appreso su altri argomenti. • Quanto il sistema è invitante e amichevole. T&T 2004/05 21 Come valutare? effectiveness Misure di riferimento per valutare l’efficacia e l’efficienza di un sistema IR: • richiamo • precisione • rilevanza – Richiamo • Proporzione del materiale rilevante di fatto recuperato – Precisione • Proporzione del materiale recuperato di fatto rilevante T&T 2004/05 22 Doc. Rilevanti vs. Recuperati Tutti i doc. Recuperati Rilevanti T&T 2004/05 23 Precisione vs. Richiamo | RelRetriev ed | Recall | Rel in Collection | | RelRetriev ed | Precision | Retrieved | Tutti i doc. Recuperati Rilevanti T&T 2004/05 24 Perchè precisione e richiamo? “Get as much good stuff as possible while at the same time getting as little junk as possible” (Larson, 2004) T&T 2004/05 25 Documenti Ritrovati vs. Rilevanti Rilevanti Precisione molto alta, richiamo molto basso T&T 2004/05 26 Documenti Ritrovati vs. Rilevanti Rilevanti Precisione e richiamo molto bassi (di fatto, recupero 0) T&T 2004/05 27 Documenti Ritrovati vs. Rilevanti Rilevanti Richiamo alto, ma bassa precisione T&T 2004/05 28 Documenti Ritrovati vs. Rilevanti Rilevanti Precisione e richiamo alti (finalmente!) T&T 2004/05 29 Curva Precisione/Richiamo in riferimento al n.o dei documenti • Curva di tipo Zipf precision x x x x recall T&T 2004/05 30 Curva Precisione/Richiamo • Difficile stabilire quale di questi due ipotetici risultati sia il migliore: precision x x x x recall T&T 2004/05 31 Livelli di “Cutoff” Fissare il numero dei documenti RILEVANTI che si intende recuperare, p.e.: • • • • Top 5 (solo i primi 5) Top 10 Top 20 ... T&T 2004/05 32 Problemi con Precisione/Richiamo • Non siamo in grado di valutare il vero valore del richiamo (solo se i documenti della raccolta sono molto pochi) • Precisione/Richiamo sono correlati in modo inverso • Si dà per scontata l’importanza di un ordinamento dei risultati secondo il livello di rilevanza T&T 2004/05 33 Concetti di base IR • Utenti, bisogni informativi, domande • Documenti, raccolte di documenti • Linguaggi di indicizzazione, vocabolari controllati • Processo di ricerca • Valutazione • Rilevanza T&T 2004/05 34 Information Retrieval (IR) • Obiettivo dell’IR è di recuperare, all’interno di una collezione, tutti e solo i documenti “rilevanti” per un particolare utente con una particolare richiesta informativa • The goal is to search large document collections (millions of documents) to retrieve small subsets relevant to the user’s information need • Rilevanza è un concetto chiave dell’IR, che ora cercheremo di chiarire T&T 2004/05 35 Rilevanza • “Intuitively, we understand quite well what relevance means. It is a primitive ‘y’ know’ concept, as is information for which we hardly need a definition. … if and when any productive contact [in communication] is desired, consciously or not, we involve and use this intuitive notion or relevance.” » Saracevic, 1975 T&T 2004/05 36 Rilevanza • In che misura un documento è rilevante – per questo utente, per questo bisogno informativo • Quello di rilevanza è un giudizio soggettivo, ma: • In qualche misura calcolabile – Quanto spesso la gente concorda sul fatto che un certo documento è rilevante per una certa domanda ? (criterio della popolarità) T&T 2004/05 37 Rilevanza • In quali modi un documento può essere rilevante al fine di soddisfare un bisogno informativo? – Fornisce in modo preciso risposte dettagliate Quando è morto Dante Alighieri? Nel 1321 – Risponde in modo preciso ma parziale Dove si trova Stradella? Vicino a Pavia – Suggerisce una diversa fonte di informazione Dove si trova Stradella? Guarda su un atlante geografico – Altro … T&T 2004/05 38 Alcuni studi sul tema della rilevanza • Rassegna bibliografica: Saracevic, 1975 • Riconsiderazione dell’idea di rilevanza come centrata sull’utente: Schamber, Eisenberg, Nilan, 1990 • Numero speciale sulla di rilevanza in “JASIS”, Aprile 1994 T&T 2004/05 39 Prossimamente: • ... T&T 2004/05 40