Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Relatore Tesi di Laurea Chiar.mo Prof. Sonia Bergamaschi Lorenzo Lugli Correlatore Controrelatore Dott. Maurizio Vincini Prof. Domenico Beneventano Anno Accademico 2001 - 2002 1 Introduzione Crescita mole dati disponibili Ritrovamento dei dati ad un punto critico Soluzione adottata dai motori di ricerca tradizionali Indicizzazione di tutte le pagine presenti sul Web Problemi: Velocità di crescita del Web I contenuti delle pagine dinamiche vengono ignorati Max accuratezza raggiungibile pagina Web 2 Introduzione Human Design level Readable HTML wrapper User level Machine Integration Designer Readable XML User SoluzioneSI-Designer adottata: Generatore di SIM ODB-Toolsvalidation HTML Global Schema SLIMwrapper WordNet Interaction DATA REPOSITORY ARTEMIS Clustering TUNIM Map. Table tuning Integration level Query Manager OBJECT SERVANT XML Wrapper Wrapper XML Relational Wrapper XML Wrapper Source Source WordNet OBJECT SERVANT ODB-Tools OBJECT SERVANT Object Source MOMIS Wrapper WordNet (Mediator EnvirOnment for ODB-Tools HTML Multiple Information Sources) Service level Source 3 Data level www.dbgroup.unimo.it/Momis Momis – Global Schema Builder Obiettivo della tesi Analisi dei generatori di wrapper HTML XML Test Generazione di wrapper per siti di esempio Utilizzo dei wrapper per trasformare le pagine HTML in XML Individuazione di uno strumento per MOMIS Robustezza: capacità dei wrapper di fornire un’estrazione efficace anche in seguito a cambiamenti nelle pagine sulle quali sono stati messi a punto. 4 Generatori di Wrappers XWRAP Elite Georgia Institute of Technology RoadRunner Università di Roma Tre Andes IBM Almaden Research Center Lixto Lixto Software DBAI University of Technology Vienna Lapis Carnegie Mellon University Pittsburgh 5 XWRAP Elite Obiettivo: Pagine Web data-intensive Contributo Primario: Euristiche ed algoritmi per sopperire alla necessità di input semantici da parte del progettista Processo di generazione del wrapper: Individuazione dei dati e separazione in data object Decomposizione degli oggetti in elementi Marcatura di oggetti ed elementi 6 XWRAP Elite Fase di Test: Problemi Immagini, Javascript Sottoalbero minimo HTTPS Frame Tabelle complesse 7 Il sistema RoadRunner Obiettivo Raggiungere completa automatizzazione Principale intuizione: Studio di analogie e differenze Scoperta di modelli di estrazione 8 Il sistema RoadRunner Architettura Classifier Aligner Input Punto di Accesso al sito Classifier Pagine Singole Classi di Pagine Aligner Expander Labeler Expander Dati Estratti Wrapper con campi non etichettati Labeler XML 9 Il sistema RoadRunner Labeler …<table> <tr> <td>Nome</td> <td>Telefono</td> </tr> (<tr><td>$A</td> <td>$B</td> </tr>)+ </table>… <TABLE> <TR> <TD> + <TD> <TR> <TD> <TD> Nome Telefono $A $B 10 Il sistema Andes della IBM Processo di conversione HTML - XML HTML XPath XML Estrattori XSLT Set URL Estrattore XSLT 1 XHTML XSL Processor XSLT n XML … XML XSL Processor Output XML 11 Il sistema Andes Sintesi degli hyperlink Filtri HTML Ancore: punti di riferimento per individuare concetti di interesse XSLT HTML con HTML con Filtro XHTML JavaScript e Hyperlink FORM HTML Salti: percorso che porta al dato di interesse partendo Sintetici dall’ancora più vicina Deposito URL Navigatore URLs HTML 12 Il sistema Lixto Principale caratteristica: Modelli: Interfaccia visuale e interattiva Specificano come estrarre sezioni di dati da pagine Web Ogni modello viene mappato in un tag XML Filtri: Forniscono una rappresentazione alternativa dei dati che devono essere estratti Condizioni: Servono a restringere il numero di data-object restituiti da un filtro 13 Il sistema Lixto Risultati dei test: problemi Frame Concetti aventi differenti significati innestati allo stesso livello di una struttura dati Ricostruzione simple element Estrazione multipagina Browser interno Risultati dei test: successo Struttura dei dati Struttura della pagina HTML 14 Conclusioni Data-intensive XWRAP Elite RoadRunner Lixto Individuali Andes IBM 15