Teoria e tecniche della catalogazione e classificazione Sistemi di recupero dell’informazione ricerca4sistemi Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2004/2005 Abbiamo visto: • • • • Informazione Dati/Informazione/Conoscenza/Sapere Teoria dell’informazione (C. Shannon) Ciclo di trasferimento dell’informazione ricerca3sistemi T&T 2004/05 2 Gerarchia dell’informazione Wisdom Knowledge Information Data ricerca3sistemi T&T 2004/05 3 Teoria dell’informazione • Meglio indicata come “Teoria della comunicazione” • La comunicazione oltrepassa tempo e spazio Message Source Message Encoding Decoding Destination Channel Noise Message Source ricerca3sistemi Message Encoding (writing/indexing) Storage T&T 2004/05 Decoding (Retrieval/Reading) Destination 4 Ciclo di trasferimento dell’informazione Creation Active Authoring Modifying Using Creating Retention/ Mining Organizing Indexing Accessing Filtering Storing Retrieval Semi-Active Discard Distribution Networking Utilization Disposition Searching Inactive ricerca3sistemi T&T 2004/05 5 Temi principali del corso Creation Active Authoring Modifying Using Creating Retention/ Mining Organizing Indexing Accessing Filtering Storing Retrieval Semi-Active Discard Distribution Networking Utilization Disposition Searching Inactive ricerca3sistemi T&T 2004/05 6 Oggi • Sistemi di recupero dell’informazione ricerca3sistemi T&T 2004/05 7 Information Retrieval (IR) • L’espressione “information retrieval” è coniata da C. Mooers nel 1952 • Obiettivo dell’IR è di recuperare, all’interno di una collezione, tutti e solo i documenti rilevanti per un particolare utente con una particolare richiesta informativa • The goal is to search large document collections (millions of documents) to retrieve small subsets relevant to the user’s information need • Rilevanza è un concetto chiave dell’IR, su cui torneremo ricerca3sistemi T&T 2004/05 8 Sistemi IR: prime rappresentazioni fisiche • Pinakes – Biblioteca di Alessandria • Indici e concordanze della Bibbia (Ugo di San Caro, 1247) • Indici dei giornali ricerca3sistemi T&T 2004/05 9 Sistemi IR: rappresentazioni mentali • Mnemotecnica, palazzi della memoria (Simonide di Ceo) ricerca3sistemi T&T 2004/05 10 Sistemi IR: rappresentazioni bibliografiche • Cataloghi di biblioteca • Bibliografie ricerca3sistemi T&T 2004/05 11 Visioni di sistemi IR • Paul Otlet (’30) • Emanuel Goldberg (‘20 – ’40) • H.G. Wells, World Brain: the idea of a permanent World Encyclopedia, 1937 (Introduzione al XVIII vol. dell’Encyclopedie Francaise) • Vannevar Bush, As we may think, “Atlantic Monthly”, 1945 - Memex ricerca3sistemi T&T 2004/05 12 Sistemi IR: storia più recente – Radici nella “Information Explosion” che segue la II GM – L’espressione “Information Retrieval” è coniata da C. Mooers nel 1952 – A partire dagli anni ‘50, interesse verso sistemi IR “computer-based” • • • • • • ricerca3sistemi H.P. Luhn presso IBM (1958) Modello probabilistico (Maron & Kuhns 1960) Sviluppo del sistema booleano presso Lockheed (‘60) Modello vettoriale (Salton presso Cornell U. 1965) Metodi di “statistical weighting” (‘70 – ‘80) Interfacce utenti, applicazioni su larga scala (‘90) T&T 2004/05 13 Historical Milestones in IR Research 1958 1960 1961 1965 1968 1972 1975 1976 1980 1981 Statistic Language Properties (Luhn) Probabilistic Indexing (Maron & Kuhns) Term association and clustering (Doyle) Vector Space Model (Salton) Query expansion (Roccio, Salton) Statistical Weighting (Sparck-Jones) 2-Poisson Model (Harter, Bookstein, Swanson) Relevance Weighting (Robertson, Sparck-Jones) Fuzzy sets (Bookstein) Probability without training (Croft) UC DATA: Data Archive & Technical Assistance University of California, Berkeley ricerca3sistemi Fredric C. Gey T&T 2004/05 2 Historical Milestones in IR Research (continued) 1983 1983 1985 1987 1990 1991 1992 1992 1994 Linear Regression (Fox) Probabilistic Dependence (Salton, Yu) Generalized Vector Space Model (Wong, Rhagavan) Fuzzy logic and RUBRIC/TOPIC (Tong, et al) Latent Semantic Indexing (Dumais, Deerwester) Polynomial & Logistic Regression (Cooper, Gey, Fuhr) TREC (Harman) Inference networks (Turtle, Croft) Neural networks (Kwok) UC DATA: Data Archive & Technical Assistance University of California, Berkeley ricerca3sistemi Fredric C. Gey T&T 2004/05 3 Struttura di un sistema IR Search Line Interest profiles & Queries Formulating query in terms of descriptors Information Storage and Retrieval System Rules of the game = Rules for subject indexing + Thesaurus (which consists of Lead-In Vocabulary and Indexing Language Storage of profiles Store1: Profiles/ Search requests Storage Line Documents & data Indexing (Descriptive and Subject) Storage of Documents Comparison/ Matching Store2: Document representations Adapted from Soergel, p. 19 ricerca3sistemi Potentially Relevant Documents T&T 2004/05 16 Struttura di un sistema IR Search Line Interest profiles & Queries Formulating query in terms of descriptors Information Storage and Retrieval System Rules of the game = Rules for subject indexing + Thesaurus (which consists of Lead-In Vocabulary and Indexing Language Storage of profiles Store1: Profiles/ Search requests Storage Line Documents & data Indexing (Descriptive and Subject) Storage of Documents Comparison/ Matching Store2: Document representations Adapted from Soergel, p. 19 ricerca3sistemi Potentially Relevant Documents T&T 2004/05 17 Struttura di un sistema IR Search Line Interest profiles & Queries Formulating query in terms of descriptors Information Storage and Retrieval System Rules of the game = Rules for subject indexing + Thesaurus (which consists of Lead-In Vocabulary and Indexing Language Storage of profiles Store1: Profiles/ Search requests Storage Line Documents & data Indexing (Descriptive and Subject) Storage of Documents Comparison/ Matching Store2: Document representations Adapted from Soergel, p. 19 ricerca3sistemi Potentially Relevant Documents T&T 2004/05 18 Struttura di un sistema IR Search Line Interest profiles & Queries Formulating query in terms of descriptors Information Storage and Retrieval System Rules of the game = Rules for subject indexing + Thesaurus (which consists of Lead-In Vocabulary and Indexing Language Storage of profiles Store1: Profiles/ Search requests Storage Line Documents & data Indexing (Descriptive and Subject) Storage of Documents Comparison/ Matching Store2: Document representations Adapted from Soergel, p. 19 ricerca3sistemi Potentially Relevant Documents T&T 2004/05 19 Struttura di un sistema IR Search Line Interest profiles & Queries Formulating query in terms of descriptors Information Storage and Retrieval System Rules of the game = Rules for subject indexing + Thesaurus (which consists of Lead-In Vocabulary and Indexing Language Storage of profiles Store1: Profiles/ Search requests Storage Line Documents & data Indexing (Descriptive and Subject) Storage of Documents Comparison/ Matching Store2: Document representations Adapted from Soergel, p. 19 ricerca3sistemi Potentially Relevant Documents T&T 2004/05 20 Componenti di un sistema IR Documents Authoritative Indexing Rules Index Records and Document Surrogates Indexing Process severe information loss Query Specificatio n Process List of Documents Relevant to User’s Information Need User’s Information Need Query UC DATA: Data Archive & Technical Assistance University of California, Berkeley 04/07/98 ricerca3sistemi Retrieval Process Retrieval Rules Fredric C. Gey T&T 2004/05 9 21 Sistemi IR: struttura (Cooper - Maron, 1985) 1. l’insieme delle possibili chiavi di accesso assegnate ai documenti; 2. l’insieme delle domande formulabili dagli utenti; 3. l’insieme degli indicatori di valore informativo da assegnare ai documenti; 4. una regola di recupero. ricerca3sistemi T&T 2004/05 22 Sistemi IR - Modello A: registro / inventario / topografico 1. 2. 3. 4. chiavi di accesso: UN SOLO DESCRITTORE PER OGNI DOCUMENTO domande: UN SOLO DESCRITTORE IN OGNI DOMANDA indicatori di valore informativo: 0 (IL DOC. NON HA VALORE INFORMATIVO) / 1 (IL DOC. HA VALORE INFORMATIVO) regola di recupero: AL DOC. VIENE ATTRIBUITO VALORE INFORMATIVO SE IL DESCRITTORE DELLA DOMANDA E’ UGUALE A QUELLO ASSEGNATO COME CHIAVE D’ACCESSO ricerca3sistemi T&T 2004/05 23 Sistemi IR - Modello A: registro / inventario / topografico Esempi: • • • • • In biblioteca (ma anche altrove): inventario patrimoniale, registro topografico Registro di classe Elenco telefonico ? “Modifica / Trova” quando usate Word ... ricerca3sistemi T&T 2004/05 24 Sistemi IR - Modello B: catalogo 1. 2. 3. 4. chiavi di accesso: PIU’ DI UN DESCRITTORE PUO’ ESSERE ASSEGNATO A OGNI DOCUMENTO COME CHIAVE D’ACCESSO domande: COME NEL MODELLO A indicatori di valore informativo: COME NEL MODELLO A regola di recupero: AL DOC. VIENE ATTRIBUITO VALORE INFORMATIVO SE IL DESCRITTORE DELLA DOMANDA E’ UGUALE A UNO DI QUELLI ASSEGNATI COME CHIAVI D’ACCESSO AL DOC. ricerca3sistemi T&T 2004/05 25 Sistemi IR – Pre-coordinati I sistemi IR modelli A-B sono pre-coordinati: l’indicizzatore per rappresentare il contenuto dei documenti costruisce stringhe di ricerca, che l’utente in fase di ricerca deve ripercorrere nello stesso ordine con cui sono state formulate. ricerca3sistemi T&T 2004/05 26 Sistemi IR - Modello C: booleano limitato all’operatore AND 1. 2. 3. 4. chiavi di accesso: COME NEL MODELLO B domande: OGNI DOMANDA PUO’ CONTENERE PIU’ DI UN DESCRITTORE indicatori di valore informativo: COME NEI MODELLI A, B regola di recupero: AL DOC. VIENE ATTRIBUITO VALORE INFORMATIVO SE TUTTI I DESCRITTORI CONTENUTI NELLA DOMANDA SONO UGUALI A QUELLI ASSEGNATI COME CHIAVI D’ACCESSO AL DOC. ricerca3sistemi T&T 2004/05 27 Sistemi IR - Modello C: esempi • Schede UNITERM (metà anni ’40) LUNAR 110 181 430 241 820 761 901 ricerca3sistemi EXCURSION 90 241 52 130 281 92 640 122 870 342 12 42 602 982 73 113 233 44 74 134 194 15 85 95 165 63 83 93 46 76 136 34 44 104 25 66 75 86 115 146 12457 7 28 17 78 37 118 127 198 377 288 407 T&T 2004/05 39 79 109 179 17 57 97 157 207 43821 58 49 88 119 158 139 178 199 248 269 298 28 Sistemi IR - Modello C: esempi • Schede “Peek-a-Boo” (1948) Excursion Lunar ricerca3sistemi T&T 2004/05 29 Sistemi IR - Modello C: esempi • Schede “edge-notched” (Mooers, 1951) Document 34 Document 1 Title: lksd ksdj sjd Lunar Title: lksd ksdj sjd sjsjfkl Document Author: Smith, J. Author: Smith, 200 J. Title:lksf Xksd Lunar sjd sjsjfkl Abstract: lksf uejm jshy Abstract: uejm jshy Author: Jones, ksd jh uyw hhy jha jsyhe ksd jh uyw hhy jha R. jsyhe Abstract: Lunar uejm jshy ksd jh uyw hhy jha jsyhe ricerca3sistemi T&T 2004/05 30 Sistemi IR - Modello D: booleano 1. 2. 3. 4. chiavi di accesso: COME NEI MODELLI B, C domande: COME NEL MODELLO C; I DESCRITTORI UTILIZZABILI NELLE DOMANDE POSSONO ESSERE ASSOCIATI TRA LORO UTILIZZANDO GLI OPERATORI AND, OR, NOT indicatori di valore informativo: COME NEI MODELLI A, B, C regola di recupero: AL DOC. VIENE ATTRIBUITO VALORE INFORMATIVO SECONDO LA LOGICA COMBINATORIA BOOLEANA ricerca3sistemi T&T 2004/05 31 Sistemi IR - Modello D: booleano • Gatti • Gatti OR Cani • Gatti AND Cani • Gatti NOT Cani • Gatti AND Cani OR Pulci • Gatti WITH Siamesi ricerca3sistemi T&T 2004/05 32 Logica Booleana Gatti Cani Pulci ricerca3sistemi T&T 2004/05 33 AND 2 5 7 8 15 29 35 100 135 140 155 189 190 195 198 ricerca3sistemi AND 2 8 9 12 15 22 28 50 68 77 84 100 120 128 135 138 141 150 155 188 189 195 T&T 2004/05 = 2 8 15 100 135 155 189 195 34 OR 2 5 7 8 15 29 35 100 135 140 155 189 190 195 198 ricerca3sistemi OR 2 8 9 12 15 22 28 50 68 77 84 100 120 128 135 138 141 150 155 188 189 195 T&T 2004/05 = 2 5 7 8 9 12 15 22 28 29 35 50 68 77 84 100 120 128 135 138 141 150 155 188 189 190 195 198 35 AND NOT 2 5 7 8 15 29 35 100 135 140 155 189 190 195 198 ricerca3sistemi AND NOT 2 8 9 12 15 22 28 50 68 77 84 100 120 128 135 138 141 150 155 188 189 195 T&T 2004/05 = 5 7 15 29 35 140 190 198 36 Sistemi IR - Modello D: booleano • Sul sistema booleano, vedere al sito: <http://www.lib.berkeley.edu/TeachingLib/Guides /Internet/Boolean.pdf> ricerca3sistemi T&T 2004/05 37 Sistemi IR - Modello D: booleano Esempi: • • In biblioteca: OPAC Database; dominante nei sistemi commerciali prima del WWW ricerca3sistemi T&T 2004/05 38 Sistemi IR - Modelli E -: vettoriale, “statistical weighting”, probabilistico ... • • • • chiavi di accesso: COME NEI MODELLI B, C, D domande: COME NEI MODELLI D, E; E’ POSSIBILE “FILTRARE” LE DOMANDE indicatori di valore informativo: GLI INDICATORI DI VALORE INFORMATIVO SONO TUTTI I NUMERI REALI (il documento può avere maggiore o minore valore informativo in funzione di una domanda) regola di recupero:AL DOC. VIENE ATTRIBUITO UN INDICATORE DI VALORE (che ne determina la priorità di recupero) CALCOLATO SECONDO ALGORITMI diversi secondo i diversi sistemi ricerca3sistemi T&T 2004/05 39 RANKING RESULTS • The order in which search results appear. Each search tool uses its own unique algorithm. Most use "fuzzy and" combined with factors such as how often your terms occur in documents, whether they occur together as a phrase, and whether they are in title or how near the top of the text. Popularity is another ranking system. ricerca3sistemi T&T 2004/05 40 Sistemi IR - Modelli E -: vettoriale, “Statistical Weighting”, probabilistico ... Esempi: • Ricerca Web – Motori e metamotori di ricerca ricerca3sistemi T&T 2004/05 41 Sistemi IR – Post-coordinati I sistemi IR modelli C-E sono post-coordinati: l’utente combina tra loro i diversi pezzi (gettoni) di informazione per descrivere doc. che potrebbero essere considerati rilevanti. I sistemi post-coordinati utilizzano gli “inverted file”. ricerca3sistemi T&T 2004/05 42 Inverted File • Inverted Files • This is the primary data structure for text indexes • Basic steps: – Make a “dictionary” of all the tokens in the collection – For each token, list all the docs it occurs in. – Do a few things to reduce redundancy in the data structure ricerca3sistemi T&T 2004/05 43 Inverted Indexes An Inverted File is a file “inverted” so that rows become columns and columns become rows docs D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 ricerca3sistemi t1 1 1 0 1 1 1 0 0 0 0 t2 0 0 1 0 1 1 1 1 0 1 t3 1 0 1 0 1 0 0 0 1 1 Terms D1 t1 t2 t3 D2 1 0 1 T&T 2004/05 D3 1 0 0 D4 0 1 1 D5 1 0 0 D6 1 1 1 … D7 1 1 0 0 1 0 44 How Are Inverted Files Created • Documents are parsed to extract tokens. These are saved with the Document ID. Doc 1 Doc 2 Now is the time for all good men to come to the aid of their country It was a dark and stormy night in the country manor. The time was past midnight ricerca3sistemi T&T 2004/05 Term now is the time for all good men to come to the aid of their country it was a dark and stormy night in the country manor the time was past midnight Doc # 45 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 How Inverted Files are Created • After all documents have been parsed the inverted file is sorted alphabetically. ricerca3sistemi T&T 2004/05 Term now is the time for all good men to come to the aid of their country it was a dark and stormy night in the country manor the time was past midnight Doc # 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 Term a aid all and come country country dark for good in is it manor men midnight night now of past stormy the the the the their time time to to was was Doc # 46 2 1 1 2 1 1 2 2 1 1 2 1 2 2 1 2 2 1 1 2 2 1 1 2 2 1 1 2 1 1 2 2 How Inverted Files are Created • Multiple term entries for a single document are merged. • Within-document term frequency information is compiled. ricerca3sistemi Term a aid all and come country country dark for good in is it manor men midnight night now of past stormy the the the the their time time to to was was T&T 2004/05 Doc # 2 1 1 2 1 1 2 2 1 1 2 1 2 2 1 2 2 1 1 2 2 1 1 2 2 1 1 2 1 1 2 2 Term a aid all and come country country dark for good in is it manor men midnight night now of past stormy the the their time time to was Doc # Freq 2 1 1 2 1 1 2 2 1 1 2 1 2 2 1 2 2 1 1 2 2 1 2 1 1 2 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 1 1 1 2 2 47 How Inverted Files are Created • Then the file can be split into – A Dictionary file and – A Postings file ricerca3sistemi T&T 2004/05 48 How Inverted Files are Created Term Doc # a aid all and come country country dark for good in is it manor men midnight night now of past stormy the the their time time to ricerca3sistemi was Dictionary Freq 2 1 1 2 1 1 2 2 1 1 2 1 2 2 1 2 2 1 1 2 2 1 2 1 1 2 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 1 1 1 2 2 Term a aid all and come country dark for good in is it manor men midnight night now of past stormy the their time to was N docs Doc # Tot Freq 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 2 1 1 T&T 2004/05 Postings 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 4 1 2 2 2 Freq 2 1 1 2 1 1 2 2 1 1 2 1 2 2 1 2 2 1 1 2 2 1 2 1 1 2 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 1 1 1 2 2 49 Inverted indexes • Permit fast search for individual terms • For each term, you get a list consisting of: – document ID – frequency of term in doc (optional) – position of term in doc (optional) • These lists can be used to solve Boolean queries: • country -> d1, d2 • manor -> d2 • country AND manor -> d2 • Also used for statistical ranking algorithms ricerca3sistemi T&T 2004/05 50 How Inverted Files are Used Dictionary Term a aid all and come country dark for good in is it manor men midnight night now of past stormy the their time to was N docs ricerca3sistemi Doc # Tot Freq 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 2 1 1 Postings 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 4 1 2 2 2 Freq 2 1 1 2 1 1 2 2 1 1 2 1 2 2 1 2 2 1 1 2 2 1 2 1 1 2 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 1 1 1 2 2 T&T 2004/05 Query on “time” AND “dark” 2 docs with “time” in dictionary -> IDs 1 and 2 from posting file 1 doc with “dark” in dictionary -> ID 2 from posting file Therefore, only doc 2 satisfied the query. 51 Prossimamente • IR: concetti di base • Processo di ricerca e recupero dell’informazione • Dalla prossima settimana vedremo alcuni esempi di sistemi IR modelli D, E ricerca3sistemi T&T 2004/05 52 Directories vs. Search Engines An IMPORTANT Distinction • Directories • Search Engines – Hand-selected sites – Search over the contents of the descriptions of the pages – Organized in advance into categories ricerca3sistemi – All pages in all sites – Search over the contents of the pages themselves – Organized after the query by relevance rankings or other scores T&T 2004/05 53