Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Semantic Web: valutazione sistema NetWatcher Relatore: Chir.mo Prof. Sonia Bergamaschi Candidato: Luca Tassi Correlatore: Ing. Mirko Orsini Anno Accademico 2004-2005 Attività di tirocinio Svolto alla CNA Servizi di Modena Obiettivo… Testare ed analizzare il sistema NetWatcher per il reperimento intelligente delle informazioni Configurazione del sistema Monitoraggio notizie per la creazione di una newsletter Identificazione e creazione di query di confronto Valutazione del sistema Confronto col sistema SEWASIE Problemi della ricerca nel web Aumento esponenziale dei dati (circa 8 mld di pagine…) Dati interpretati dall’utente Motori di ricerca tradizionali Polisemia “albero” vegetale informatico motoristico Web semantico Ideato da Tim Berners Lee Dati strutturati machine-understandable Crea un ambiente in cui agenti software eseguono interrogazioni per gli utenti La piattaforma COGITO®: E’ la piattaforma linguistica, sulla quale si basano la maggior parte dei software distribuiti da Expert System s.p.a. Elabora il testo Estrae i significati Crea una mappa cognitiva Componenti: Sensigrafo® Parser Motore linguistico Disambiguatore NetWatcher®: Monitoraggio di sorgenti web Multi-utente Aggiornamento tempestivo Criteri di interesse Architettura: Back-end Front-end Searchbox Applicazione web Dispatcher Server GSL Buste SOAP Pannello di controllo Searchbox Funzionamento Creazione profilo Tipo Sorgenti Parametri Filtri Contenuto Indirizzo Funzionamento (2) Ricerca in archivio Keywords/ lemmi Categorie Concetti Ambito Criteri Test di valutazione Creazione fonte di dati comune Portali dei settori meccanico/plastico Profili NetWatcher Database MySql Sistema da utilizzare come confronto Query SQL Valori di confronto Risultati database Risultati attesi Risultati totali NetWatcher Risultati pertinenti NetWatcher Parametri di confronto Precision Recall Risultati pertinenti NW / Risultati totali NW Risultati pertinenti NW / Risultati attesi Risultati ottenuti: Numero Query Risultati Database Risultati attesi Risultati NW totali/corretti Precision % Recall % 1 95 54 6/5 88,3 9,2 2 14 7 8/7 87,5 100 3 209 183 77/58 75,3 31,7 4 433 428 105/105 100 24,5 5 29 28 4/4 100 14,3 6 263 205 14/14 100 6,8 7 168 117 68/105 65 58,1 100 80 Precision % 60 Recall % 40 20 0 1 2 3 4 5 6 7 Query Conclusioni: Ottima Precision Overload dei risultati limitato Recall scarsa Integrazione rete semantica con terminologia di settore Limite di risultati visualizzabili Capacità di interpretazione (pagine aggiornate) Pagine con javascript non indicizzabili