Verso un approccio model driven alla simulazione
e analisi di scenari di crisi ed emergenza
Metodi e modelli per il calcolo del ranking
nella ricerca documentale
Seminario UTMEA
13 Settembre, 2012
Antonio De Nicola
UTMEA-CAL, ENEA
[email protected]
1
Agenda
1.
Obiettivo
2.
Rappresentazione della conoscenza
3.
Architettura software
4.
Indicizzazione di documenti
5.
Algoritmo di ranking
2
Introduzione
Problema
• Proliferare di documenti digitali
• Ricerca terminologica
– Eccessive dimensioni dello spazio
delle soluzioni
• Eccessiva informazione =
nessuna informazione
Obiettivo
• Metodo per ordinare i risultati
della ricerca effettuata
3
La rappresentazione concettuale
concetto
Ziqqurat
Ziqqurat sumero
simboli
Rappresentazione
Concettualizzatione
istanza
Istanziazione
4
Concettualizzazione & Istanziazione
concetto
Torre templare
mesopotamica
Concept Description
Livello concettuale
Concettualizzatione
Livello reale
Ziqqurat
di
Choga Zanbil
Instance Description
Symbolic world
individuo
Istanziazione
Real world
5
Rappresentazione della conoscenza
• Livelli di formalità incrementale
– Lexicon
• Termini
– Glossario
Es., argilla, mattone, torre
Es., Il mattone crudo è un mattone realizzato con argilla
prima lavorata, mescolata a paglia, poi sagomata e
compattata con i piedi e infine essicato al sole.
• Termini + definizioni
– Tassonomia
• Gerarchia di specializzazione
– Ontologia
• Specifica formale ed esplicita di una
concettualizzazione condivisa
• Concetti + Relazioni + Assiomi
6
Architettura
7
Indicizzazione documenti
• Acquisizione documenti
• Indicizzazione automatica
– Ad es., cercando occorrenze dei termini dell’ontologia nel titolo ntitle,
nell’abstract nabst e nel testo ntxt
– Se il termine dell’ontologia viene trovato indicizzo il doc
• Ranking semantico documenti
– Ogni documento ha un valore numerico (V) associato per ogni termine
ti dell’ontologia
Vti= αntitle+ βnabst+ γntxt
dove {α,β,γ} sono pesi predefiniti
– Vti misura la vicinanza semantica del documento con quel termine
8
Calcolo del Ranking:
frequenza dei termini
Titolo
Query term: crisis
Abstract
ntitle= 1
nabst= 3
ntxt= 17
Testo
Calcolo del Ranking:
assegnazione dei pesi
Titolo
Query term: crisis
Abstract
α=
1/Ntitle*wtitle=(1/11)*4
0
β= 1/Nabstract*wabstract
=(1/119)*30
γ= 1/Ntesto
*wtesto=(1/3964)*20
Testo
Calcolo del Ranking:
Keywords & Tags
Keyword : parola chiave inserita
dall’autore (o dal fornitore) del
documento
Tag: parola chiave inserita
dall’amministratore del repository
documentale
ntitle= 1, α= 1/Ntitle*wtitle=(1/11)*40
nabst= 3, β= 1/Nabstract*wabstract
=(1/119)*30
ntxt= 17, γ= 1/Ntesto *wtesto=(1/3964)*20
nkey=1, εkey=1/Nkey*wkey=(1/6)*5
ntag=1, ζtag=1/Ntag*wtag=(1/4)*5
Vti=crisis= 5.52
Conclusioni
• Metodi di calcolo del ranking per migliorare la ricerca
terminologica
Sviluppi futuri
• Ricerca per termini dell’ontologia
– Sono considerati anche i sinonimi e le relazioni
ontologiche tra concetti (es., similarità)
– I risultati vengono visualizzati in base al ranking semantico
– Valore di soglia minimo per la visualizzazione
12
Scarica

Calcolo del Ranking