Verso un approccio model driven alla simulazione e analisi di scenari di crisi ed emergenza Metodi e modelli per il calcolo del ranking nella ricerca documentale Seminario UTMEA 13 Settembre, 2012 Antonio De Nicola UTMEA-CAL, ENEA [email protected] 1 Agenda 1. Obiettivo 2. Rappresentazione della conoscenza 3. Architettura software 4. Indicizzazione di documenti 5. Algoritmo di ranking 2 Introduzione Problema • Proliferare di documenti digitali • Ricerca terminologica – Eccessive dimensioni dello spazio delle soluzioni • Eccessiva informazione = nessuna informazione Obiettivo • Metodo per ordinare i risultati della ricerca effettuata 3 La rappresentazione concettuale concetto Ziqqurat Ziqqurat sumero simboli Rappresentazione Concettualizzatione istanza Istanziazione 4 Concettualizzazione & Istanziazione concetto Torre templare mesopotamica Concept Description Livello concettuale Concettualizzatione Livello reale Ziqqurat di Choga Zanbil Instance Description Symbolic world individuo Istanziazione Real world 5 Rappresentazione della conoscenza • Livelli di formalità incrementale – Lexicon • Termini – Glossario Es., argilla, mattone, torre Es., Il mattone crudo è un mattone realizzato con argilla prima lavorata, mescolata a paglia, poi sagomata e compattata con i piedi e infine essicato al sole. • Termini + definizioni – Tassonomia • Gerarchia di specializzazione – Ontologia • Specifica formale ed esplicita di una concettualizzazione condivisa • Concetti + Relazioni + Assiomi 6 Architettura 7 Indicizzazione documenti • Acquisizione documenti • Indicizzazione automatica – Ad es., cercando occorrenze dei termini dell’ontologia nel titolo ntitle, nell’abstract nabst e nel testo ntxt – Se il termine dell’ontologia viene trovato indicizzo il doc • Ranking semantico documenti – Ogni documento ha un valore numerico (V) associato per ogni termine ti dell’ontologia Vti= αntitle+ βnabst+ γntxt dove {α,β,γ} sono pesi predefiniti – Vti misura la vicinanza semantica del documento con quel termine 8 Calcolo del Ranking: frequenza dei termini Titolo Query term: crisis Abstract ntitle= 1 nabst= 3 ntxt= 17 Testo Calcolo del Ranking: assegnazione dei pesi Titolo Query term: crisis Abstract α= 1/Ntitle*wtitle=(1/11)*4 0 β= 1/Nabstract*wabstract =(1/119)*30 γ= 1/Ntesto *wtesto=(1/3964)*20 Testo Calcolo del Ranking: Keywords & Tags Keyword : parola chiave inserita dall’autore (o dal fornitore) del documento Tag: parola chiave inserita dall’amministratore del repository documentale ntitle= 1, α= 1/Ntitle*wtitle=(1/11)*40 nabst= 3, β= 1/Nabstract*wabstract =(1/119)*30 ntxt= 17, γ= 1/Ntesto *wtesto=(1/3964)*20 nkey=1, εkey=1/Nkey*wkey=(1/6)*5 ntag=1, ζtag=1/Ntag*wtag=(1/4)*5 Vti=crisis= 5.52 Conclusioni • Metodi di calcolo del ranking per migliorare la ricerca terminologica Sviluppi futuri • Ricerca per termini dell’ontologia – Sono considerati anche i sinonimi e le relazioni ontologiche tra concetti (es., similarità) – I risultati vengono visualizzati in base al ranking semantico – Valore di soglia minimo per la visualizzazione 12