Esercitazione Mid-term 2010
Uso di Lucene: text engine in Java
Version: 3.0.1
Obiettivo
• Indicizzare una base documentale di testi (newswire
groups), già sulla pagina web del corso (tar.gz)
Esempio di documento
Processing con Lucene
• http://lucene.apache.org/
• Rimuovere intestazione delle e-mail
• Con la classe Lucene Analyzer (nelle sue varie forme,
vedi lucido successivo):
– Tokenizzare i documenti e fate lo stemming e rimozione di
stopwords
– Filtrate segni di interpunzione ed altro rumore
• Con la classe IndexWriter create un indice:
– In memoria
– Su file
• Con la classe QueryParser verificate che il sistema
funzioni correttamente (usate uno dei metodi
disponibili, Boolean Query va bene)
Esempi di analisi
Analzying ” XY&Z Corporation - [email protected] "
org.apache.lucene.analysis.WhitespaceAnalyzer:
[XY&Z] [Corporation] [-] [[email protected]]
org.apache.lucene.analysis.SimpleAnalyzer:
[xy] [z] [corporation] [xyz] [example] [com]
org.apache.lucene.analysis.StopAnalyzer:
[xy] [z] [corporation] [xyz] [example] [com]
org.apache.lucene.analysis.standard.StandardAnalyzer:
[xy&z] [corporation] [xyz@example] [com]
org.apache.lucene.analysis.snowball.SnowballAnalyzer:
[xy&z] [corpor] [xyz@exampl] [com]
Dettagli su:
• http://www.lucenetutorial.com/
• Mercoledì 21 ore 12-14 tutorial in aula alfa
• Meglio se avete già dato uno sguardo al tutorial sul sito
Lucene (così potete risolvere dubbi)
Tempistica e modalità
• Quando avete finito e “testato” il sistema di IR, spedite
una mail a me e a Fulvio D’Antonio
– [email protected][email protected]
• Vi verranno inviate 3 query
• Dovete restituire le risposte (scoreDocs) e il codice
Entro il 9 maggio
• Risultato binario: Y/N:
– Esercitazione superata oppure NO
Scarica

Esercitazione Mid-term 2010