Esercitazione Mid-term 2010 Uso di Lucene: text engine in Java Version: 3.0.1 Obiettivo • Indicizzare una base documentale di testi (newswire groups), già sulla pagina web del corso (tar.gz) Esempio di documento Processing con Lucene • http://lucene.apache.org/ • Rimuovere intestazione delle e-mail • Con la classe Lucene Analyzer (nelle sue varie forme, vedi lucido successivo): – Tokenizzare i documenti e fate lo stemming e rimozione di stopwords – Filtrate segni di interpunzione ed altro rumore • Con la classe IndexWriter create un indice: – In memoria – Su file • Con la classe QueryParser verificate che il sistema funzioni correttamente (usate uno dei metodi disponibili, Boolean Query va bene) Esempi di analisi Analzying ” XY&Z Corporation - [email protected] " org.apache.lucene.analysis.WhitespaceAnalyzer: [XY&Z] [Corporation] [-] [[email protected]] org.apache.lucene.analysis.SimpleAnalyzer: [xy] [z] [corporation] [xyz] [example] [com] org.apache.lucene.analysis.StopAnalyzer: [xy] [z] [corporation] [xyz] [example] [com] org.apache.lucene.analysis.standard.StandardAnalyzer: [xy&z] [corporation] [xyz@example] [com] org.apache.lucene.analysis.snowball.SnowballAnalyzer: [xy&z] [corpor] [xyz@exampl] [com] Dettagli su: • http://www.lucenetutorial.com/ • Mercoledì 21 ore 12-14 tutorial in aula alfa • Meglio se avete già dato uno sguardo al tutorial sul sito Lucene (così potete risolvere dubbi) Tempistica e modalità • Quando avete finito e “testato” il sistema di IR, spedite una mail a me e a Fulvio D’Antonio – [email protected] – [email protected] • Vi verranno inviate 3 query • Dovete restituire le risposte (scoreDocs) e il codice Entro il 9 maggio • Risultato binario: Y/N: – Esercitazione superata oppure NO