Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea in Ingegneria Informatica Estrazione di concetti ed analisi di documenti testuali: progetto e sviluppo dell’applicazione OKKAM-POP Relatore: Prof.ssa Sonia Bergamaschi Tesi di Laurea di: Michele Vitali Correlatore: Dott. Daniele Cordioli Anno Accademico 2008/2009 OBBIETTIVI Studio del progetto OKKAM, a cui Expert System partecipa attivamente. FP7 Impiego della tecnologia linguistica COGITO®. Studio di metodi per Information Extraction. Sviluppo dell’applicazione OKKAM-POP. WEB SEMANTICO RDF Inizio: 01/01/2008 Fine: 30/06/2010 PJ_REF: 215032 Costo: 7.359.931 € OWL L’AZIENDA EXPERT SYSTEM Fondata nel 1989. Sedi a Modena, Rovereto, Roma, Napoli e negli USA. Opera nei settori Knowledge Management e Natural Language Processing. Proprietaria della tecnologia linguistica COGITO®. Global Mobile Award 2009 con il prodotto COGITO® Answer (Best billing or custumer care solution). Clienti: Pirelli, BNL,Vodafone, Eni, Poste Italiane, RCS Mediagroup, Telecom Italia. LA TECNOLOGIA COGITO® Piattaforma software per analisi linguistica che si basa sulla rete semantica lessicale SENSIGRAFO® Interpreta il linguaggio naturale catturando gli aspetti • morfologici • grammaticali • logici • semantici La DISAMBIGUAZIONE linguistica attribuisce ad ogni termine il giusto significato in base al contesto: “Il rapinatore mi ha colpito con il calcio della pistola.” “Il simbolo del calcio è Ca.” SCHEMA FUNZIONALE COGITO® Informazioni non strutturate Analisi linguistica e semantica DOCUMENTI COGITO® E-MAIL INTRANET analisi morfologica analisi grammaticale Informazioni strutturate Mappa concettuale e cognitiva del linguaggio naturale Ricerca semantica analisi logica Categorizzazione FLUSSI INFORMATIVI analisi semantica Estrazione delle informazioni WEB SENSIGRAFO® Intelligence MOBILE CONTENT INFORMATION EXTRACTION Selezione di concetti significativi in un testo per la generazione automatica di metadati: Algoritmo di estrazione “Carlo Ancelotti, il nuovo allenatore del Chelsea, ha tenuto la prima conferenza stampa in lingua inglese.” Statistico Basato su OKKAM-POP regole Codifica manuale Apprendimento automatico Grado di automazione REGOLE DI ESTRAZIONE PATTERN SINTATTICO SOS PNT ART AGG SOS PRE SOS Carlo Ancelotti , il nuovo allenatore del Chelsea … CONTESTO SEMANTICO Nome di persona Professione Club calcistico Carlo Ancelotti , il nuovo allenatore del Chelsea … APPLICAZIONE DELLE REGOLE Tempo … … Giorno – “Durata media del periodo di rotazione della Terra attorno al proprio asse.” Organizzazione … … Colosso – “Azienda di notevole importanza” AGG SOS SOS “Nei “Il colosso giorni mondiale scorsi Intel ha presentato un un nuovo nuovo prodotto.” prodotto.” L’APPLICAZIONE OKKAM-POP CORPUS XML APPLICAZIONE ETL DB APPLICAZIONE ETL CORPUS TXT (Extract, transform, load) CORPUS XML arricchito COGITO® INFORMATION EXTRACTION Analisi dei dati con OKKAM QUERY GUI e feedback DATI ESPORTATI NEL DB DOCUMENTI ENTITÀ APPOSIZIONI SAO (Soggetto, Azione, Oggetto) PROPRIETÀ COGITO® CONTESTI DELLE ENTITÀ LEMMI PRINCIPALI DEI DOCUMENTI DOMINI ATTRIBUITI AI DOCUMENTI OKKAM QUERY GUI ALCUNI RISULTATI PERSONA DESCRIZIONE Maurizio Mattei il designatore unico degli arbitri di serie A John Griffin uno scienziato esperto nei sistemi di difesa Angelo Bottini Il nuovo soprintendente archeologico di Roma ORG. DESCRIZIONE Ucimu L' associazione dei costruttori di macchine utensili Sea la società di gestione degli aeroporti milanesi Smat ( Società Metropolitana Acque Torino ) LUOGO DESCRIZIONE Taipei capitale dell' isola di Taiwan Porto Seguro una nota località balneare nello stato di Bahia Genoni un piccolo paesino in provincia di Nuoro ALCUNE STATISTICHE 3,985,171 41.488 465,107 Sono stati analizzati 4,000,000 45 3,225,727 3,182,192 1.158.841 articoli 2,967,649 28.623 giornalistici risalenti agli anni 2005, 2006 e 2007 3,500,000 500,000 40 450,000 3,000,000 400,00035 350,00030 2,500,000 300,00025 2,000,000 1,672,655 250,00020 117,113 TORINO, 18 GIU - I consigli di fabbrica di Mirafiori hanno deliberato per mercoledì 200,000 due ore di sciopero ''contro lo scalone e gli scalini e la revisione al ribasso dei 1,500,000 15 906,033 promosso una raccolta di firme 150,000 coefficienti'' per il calcolo delle pensioni e hanno per invitare i segretari generali nello stabilimento Fiat (Fabbrica Italiana Automobili 1,000,000 10 100,000 Torino) prima della conclusione della 625,465 trattativa e per sottoporre l'eventuale intesa al 5 39,754 50,000 voto dei lavoratori. Lo ha reso noto il sindacato Fiom-Cgil. Le Rsu aziendali hanno 500,000 31,847 deliberato unitariamente due ore di sciopero, per ogni turno, dalle 10 alle 12 e dalle 0 0 14 alle 16, con iniziative fuori dai cancelli. Intanto domani, scioperera' l'Avio Group, 0 ex Fiat Avio, di Rivalta, con corteo fuori dallo stabilimento. ''Il governo e i sindacati Frequenza media diMirafiori ciascuna persona Informazioni SAO estratte ascoltino i buoni consigli dei delegati di e estratte usino la PROPRIETÀ forza che a loro viene Numero di persone distinte Frequenza ciascuna organizzazione data. Saremo tutti giudicati media dall'esito di di questo negoziato'', afferma ®il estratte segretario estratte COGITO Numero di organizzazioni distinte estratte generale della Fiom torinese, Giorgio Airaudo. 8.921 71,546 Frequenza media di ciascun luogo Persone Organizzazioni Numero di luoghi distinti estratti Luoghi SVILUPPI FUTURI Clustering dei dati per individuare il rumore all’interno delle estrazioni effettuate. Integrazione dei risultati all’interno del progetto europeo OKKAM. Grazie per la cortese attenzione…