Ricerca di documenti e contenuti in azienda. © 2006 IBM Corporation 1 Information Management La Ricerca in Azienda Ambiente più complesso tecnicamente, integrato con applicazioni/portali e con la security aziendale Dati eterogenei: non solo dati HTML/Web, ma Enterprise Search anche sistemi di Content Internet Search Management, RDBMs, sistemi di eMail & Collaboration, file system, etc.. Meno correlazioni e nessuna ridondanza: servono tecniche diverse per determinare la rilevanza Aspettative molto più elevate… 2 Information Management Le informazioni sono spesso isolate… Accessibili solo a piccoli gruppi & dipartimenti aziendali Vendite Marketing HR Altro IBM OmniFind Enterprise Edition Domino Lotus Quickr WebSphere Portal SharePoint ECM, DBMs, Web, FS and more 3 Information Management La risposta: IBM Omnifind Enterprise Edition The right information….. •Algoritmi di ricerca sofisticati su molteplici data source strutturati e non strutturati •Sicurezza nativa dei data source •Tecniche di ranking all’avanguardia per ottenere risultati rilevanti •Supporto multi-linguistico •Ricerca “per parola chiave” e ricerca “semantica” Keyword search Text Semantic analysis search At the right time ..... •Risposte in frazioni di secondo, scalabilità •Architettura modulare e flessibile, alta affidabilità Crawl Parse Index Search In the right context ….. Integrazione nel Portale aziendale tramite interfacce Open (Java e Web services) Utilizzo su sistemi operativi standard 4 Information Management Tecnologie chiave di OmniFind Searching UIMA Advanced Text Analysis Entità e relazioni Categorization Rule-based Automatica Indexing Spell checking Dynamic Ranking Admin-influenced Ranking Dynamic Summary Custom dictionaries Ricerca per campi e parametri Ricerca semantica e per sinonimi Search Collections Global Analysis Static Ranking Elimina Duplicati Parsing/ Tokenizing Riconosce formato In Output un plain text con info di formattazione Parole e Frasi Trova il lemma Security Crawling Estrae il contenuto dai vari source (sicurezza) Copia su area di staging Vari Crawler in parallelo Enterprise Content 5 Information Management Integrazione nativa dei repository aziendali: Omnifind crawlers Web Collaboration ECM Database • HTTP • HTTPS • WebSphere Portal Web pages • WebSphere Portal Document Manager • Newsgroup (NNTP) • Workplace Web Content Management Dalla v. 6.0 • Lotus Notes databases IBM CM e CMoD • Supporto per Domino 8 • Domino.doc • QuickPlace e QuickR • MS Exchange public folders • Windows SharePoint Services • Windows file systems • UNIX file systems Mainframe: VSAM, IMS, CA-Datacom, Software AG Adabas 6 Information Management Configurazione crawler Oracle 7 Information Management Configurazione crawler Oracle 8 Information Management Configurazione crawler Oracle 9 Information Management Omnifind Sicurezza nativa: a livello di documento 1. Omnifind può memorizzare nell’indice le ACL del documento 2. OmniFind può controllare in tempo reale le ACL del documento nella fonte finale e verificare se l’utente è abilitato o no ad accedere all’informazione Permette di dare la giusta informazione alla giusta persona nel giusto tempo senza esporre l’organizzazione a rischi sulla divulgazione di dati sensibili User Query Secure Response Lotus Notes®/Domino WebSphere Portal Document Manager WebSphere Portal pages Domino Document Manager Lotus QuickPlace® e QuickR IBM Content Manager FileNet CS FileNet P8 CM Hummingbird® DM Windows™ File System Windows SharePoint Services Documentum Open Text Livelink WebSphere Portal Web Content Management 6.0 OmniFind Secure Search Real time security check Result retrieval OmniFind Index 10 Information Management Tecnologie chiave di OmniFind Searching UIMA Advanced Text Analysis Entità e relazioni Categorization Rule-based Automatica Indexing Spell checking Dynamic Ranking Admin-influenced Ranking Dynamic Summary Custom dictionaries Ricerca per campi e parametri Ricerca semantica e per sinonimi Search Collections Global Analysis Static Ranking Elimina Duplicati Parsing/ Tokenizing Riconosce formato In Output un plain text con info di formattazione Parole e Frasi Trova il Lemma Security Crawling Estrae il contenuto dai vari source Copia su area di staging Vari Crawler in parallelo Enterprise Content 11 Information Management HTML, Plain text, XML, 123, Excel, Freelance, Ichitaro, Lotus WordPro, MS Visio, MS Word, PDF, PowerPoint ,Rich Text , zip, tar, StarOffice/OpenOffice Calc StarOffice/OpenOffice Impress StarOffice/OpenOffice Draw StarOffice/OpenOffice Writer più I formati supportati dai filtri stellent Parser: document processing Riconoscimento formato e lingua del documento Segmentation: suddivide il testo in unità lessicali distinte “I don’t plan to go to the meetings” “I” “do” “not” “plan” “to” “go” “to” “the” “meeting” Lemming: associa ad una parola la sua forma base houses ran mice vanno => => => => Arabic, Chinese (Simplified & Traditional), Czech, Danish, Dutch, English, Finnish, French, German, Greek, Italian, Japanese, Korean, Norwegian (Bokmal & Nynorsk), Polish, Portuguese, Russian, Spanish, Swedish house run mouse andare Tokenization: determina i “tokens” da indicizzare Dictionary based segmentation e lemming per le lingue supportate Non-dictionary based segmentation per tutte le altre Normalizzazioni (maiuscolo/minuscolo, accenti e diacritici) Hebrew, Hungarian and Turkish (lingua riconosciuta no lemming) Lexical Analysis Examples Input streams Tokens Dictionaries Computations Espressioni multi-word e normalizzazione caratteri Lemming ..dell’arte.. .. Böblingen .. ..mice.. della arte Boeblingen mouse 12 Information Management Tecnologie chiave di OmniFind Searching UIMA Advanced Text Analysis Entità e relazioni Categorization Rule-based Automatica Indexing Spell checking Dynamic Ranking Admin-influenced Ranking Dynamic Summary Custom dictionaries Ricerca per campi e parametri Ricerca semantica e per sinonimi Search Collections Global Analysis Static Ranking Elimina Duplicati Parsing/ Tokenizing Riconosce formato In Output un plain text con info di formattazione Parole e Frasi Trova il Lemma Security Crawling Estrae il contenuto dai vari source Copia su area di staging Vari Crawler in parallelo Enterprise Content 13 Information Management Categorizzazione….. …Rule Based: assegnazione di una o più categorie ad un documento in base a regole di provenienza di contenuto …Automatica tramite IBM Classification Module Rende disponibile una tecnologia di classificazione che, opportunamente comprendere contentuti non strutturati e comunicazioni informali. Rule Based Categorizer URL Rules: http://www.ibm.com/thinkpad/* Tokenized Document s Contents Rules: +thinkpad T30 T40 educata, può -• Computers --• Computer Hardware --• Computers Systems --• pSeries Servers --• Thinkpads -- • Computer Storages --• Computer Software Documenti con categorie assegnate OmniFind Search Collection 14 Information Management Come è realizzata la classificazione Costruendo profili delle categorie Confrontando il nuovo contenuto ai profili di categoria Applicando le corrette categorie al nuovo contenuto 15 Information Management Come funziona l’IBM Classification Module (ICM) 1) Crea i profili delle categorie Natural Language Processing e semantic analysis Training Set Categoria 1 Categoria 2 Categoria 3 3) Applica la corretta categoria al documento 2) Confronta il contenuto del documento da trattare con i profili disponibili Analisi Statistica ICM Testo non classificato 16 Information Management Esempio: Classificazione usata a Run-Time Applicazione Input Output Feedback “Hi there -- 3 weeks ago I got a confirmation that my books were shipped, and my credit card was charged. It is 22 days later, and still nothing showed up. My Conf number is 2134656534-294/a. Can you let me know what’s up? Regards, John” ORDER_STATUS(92%) COMPLAINTS(82%) ACCOUNT_BALANCE(32%) Intent = ORDER_STATUS 17 Information Management Tecnologie chiave di OmniFind Searching UIMA Advanced Text Analysis Entità e relazioni Categorization Rule-based Automatica Indexing Spell checking Dynamic Ranking Admin-influenced Ranking Dynamic Summary Custom dictionaries Ricerca per campi e parametri Ricerca semantica e per sinonimi Search Collections Global Analysis Static Ranking Elimina Duplicati Parsing/ Tokenizing Riconosce formato In Output un plain text con info di formattazione Parole e Frasi Trova il Lemma Security Crawling Estrae il contenuto dai vari source Copia su area di staging Vari Crawler in parallelo Enterprise Content 18 Information Management Tecnologie chiave di OmniFind Searching UIMA Advanced Text Analysis Entità e relazioni Categorization Rule-based Automatica Indexing Spell checking Dynamic Ranking Admin-influenced Ranking Dynamic Summary Custom dictionaries Ricerca per campi e parametri Ricerca semantica e per sinonimi Search Collections Global Analysis Static Ranking Elimina Duplicati Parsing/ Tokenizing Riconosce formato In Output un plain text con info di formattazione Parole e Frasi Trova il Lemma Security Crawling Estrae il contenuto dai vari source Copia su area di staging Vari Crawler in parallelo Enterprise Content 19 Information Management Applicazione di Ricerca Out-of-the-box Ricerca Base ed Avanzata Category tree per “Search-andBrowse” Top Results Analysis Correzione ortografica e Sinonimi Ricerca Concettuale e Semantica Dynamic Summaries Quick Links 20 Information Management Le potenzialità della Search Application standard “spell check” “promozione URL” (Admin) Filtri per TipoDoc / Fonte Abstract dinamico con le keyword in highlight Icone che individuano la Fonte 21 Information Management Dashboard 1/2 Analizza i primi 500 risultati sulla base di qualsiasi metadato 22 Information Management Dashboard 2/2 Seleziona il campo per l’analisi dei dati dalla lista metadati 23 Information Management OmniFind deployment OmniFind Search server è solitamente separato dalla search application La Search application è un’applicazione/portlet custom di cui viene fornito un esempio Funzioni OmniFind richiamabili anche via Web services Web server Web Browser Search Portlets/ Applications Portal Server Application Server Employee Portal Search & Index API News server II OmniFind Server Application Server Enterprise Information Servers Search Server 24 Information Management Tecnologie chiave di OmniFind Searching UIMA Advanced Text Analysis Entità e relazioni Categorization Rule-based Automatica Indexing Spell checking Dynamic Ranking Admin-influenced Ranking Dynamic Summary Custom dictionaries Ricerca per campi e parametri Ricerca semantica e per sinonimi Search Collections Global Analysis Static Ranking Elimina Duplicati Parsing/ Tokenizing Riconosce formato In Output un plain text con info di formattazione Parole e Frasi Trova il Lemma Security Crawling Estrae il contenuto dai vari source Copia su area di staging Vari Crawler in parallelo Enterprise Content 25 Information Management Oltre la ricerca per parola chiave La ricerca per parola chiave conduce spesso a risultati irrilevanti e molto “rumoreIrrelevant di fondo” che difficilmente results porta ai risultati sperati 26 Information Management …. e Ricerca SEMANTICA discovered information* * L’informazione trovata non è necessariamente contenuta in modo esplicito nel documento. 27 Information Management UIMA & Text Analytics UIMA: Unstructured Information Management Architecture Framework di supporto all’analisi semantica dei testi (text analytics) tramite “annotators” che consentono di scoprire il significato implicito nei contenuti non strutturati Fornisce anche i tool per sviluppare Annotators e renderli UIMA-compliant (developerWorks) Permette il plug-n-play delle technologie analitiche di differenti vendors Apache UIMA release da Marzo 2007 Supporto di un vasto ecosistema di partner Supporto UIMA in Omnifind Gli annotator si integrano in Omnifind per consentire la ricerca semantica Regular Expression Annotator (incluso in Omnifind 8.4) è un Annotator configurabile tramite rule file che scopre concetti semantici come numeri telefonici ed indirizzi e-mail 28 Information Management Integrazione con Cogito di Expert System Sfruttando l’architettura UIMA, un annotatore integra OmniFind con il motore di ricerca semantica Cogito Applicazione di Ricerca OmniFind Cogito OmniFind Index Ad hoc annotator (Categorization – not used) Find Words & Roots Text Identify Language UIMA Compliant Collection Processing Engine document bodies enriched metadata 29 Information Management UIMA & Online Media Analysis per gestione reputazione, immagine pubblica e opinione su marchio Benefici • Rileva trend ed oscillazioni nelle opinioni diffuse nel web • Scopre temi rilevanti per una compagnia ed i suoi marchi • Benchmark verso i concorrenti Funzionalità • Accede blogs, siti di informazione, feeds, siti concorrenza,… • Analizza tonalità, temi “caldi”, marchi, prodotti, … 30 Information Management Online Media Analysis Ricerca per keyword Ricerca concetti & entità Aggregazione risultati Valutazione tonalità 31 Information Management Ricerca semantica in lingua Italiana Searching UIMA Advanced Text Analysis Entità e relazioni Categorization Indexing Global Analysis Static Ranking Elimina Duplicati Spell checking Search application Dynamic Ranking Calculation of Sentiment Admin-influenced Ranking Result Aggregation Dynamic Summary(AJAX) Custom“My dictionaries Searches” Ricerca per campi e parametri Ricerca semantica e per sinonimi Search Collections Rule-based Automatica Administration Security Parsing/ Tokenizing Riconosce formato UIMA Annotator In Output un plain text con info di Connector formattazione Parole e Frasi Trova il Lemma Crawling Estrae ilSolution contenuto dai vari Plugin source (sicurezza) Remove Advertisements Copia su area di staging Vari Crawler parallelo Detect correct in document date News Sites, Forums, Blogs, RSS feeds, etc 32 Information Management Funzionalità della Ricerca Semantica La Applicazione di Ricerca fornita con Omnifind (java - comprensiva del source code) è modificata per consentire di sfruttare appieno il valore dell’integrazione; nell’implementazione mostrata oltre alla ricerca per keyword è possibile la ricerca per : DOMINIO di appartenenza dei documenti ricercati ENTITA’ di tipo persona, luogo ed organizzazione senza o con attributi TAGS tipo data, e-mail, url, moneta e tanti altri Le seguenti componenti della soluzione sono personalizzabili a seconda delle specifiche esigenze di ricerca richieste: cogito connettore interfaccia utente 33 Information Management Enterprise Search nel Portale B2B in VDMA Sfida Fornire una enterprise search veloce ed affidabile verso gli ambienti intranet ed extranet per la federazione delle aziende ingegneristiche tedesche Supportare 50.000 membri esterni, 250 autori interni, 1500-3500 visite al sito al giorno Estendere la ricerca di IBM OmniFind a IBM Web Content Management Soluzione IBM Omnifind integrato con WebSphere Portal per l’accesso a pagine Web, file PDM, database Oracle e contenuti Lotus. Benefici di business Accesso veloce e di elevata qualità agli utenti della extranet e intranet per le informazioni su partner e prodotti Migliorata la produttività degli utenti Benefici tecnologici Codice di base stabile Facilmente personalizzabile 34 Information Management IFPMA IFPMA (International Federation of Pharmaceutical Manufacturers & Associations), è un’organizzazione no-profit, non governativa (NGO) che rappresenta le associazioni industriali nazionali e le compagnie farmaceutiche. Le aziende parte della IFPMA lavorano nell’ambito della ricerca farmaceutica, delle biotecnologie e dei vaccini. Sfida: IFPMA Clinical Trials Portal – costruire un portale di ricerca nel quale pazienti e medici possano trovare I risultati dei test clinici effettuati sui farmaci. Soluzione: IBM ha vinto il bando di gara per lo sviluppo del portale di ricerca di IFPMA che consentisse a pazienti e medici di trovare con una singola search tutti I risultati dei test clinici pubblicati sia sui siti web delle compagnie farmaceutiche che nel central clinical trial database (es www.clinicaltrials.gov) . IBM ha disegnato una soluzione basata su WebSphere Portal con la tecnologia di ricerca di IBM OmniFind. 35 Information Management Realizzazioni italiane - Intranet Search in ambito petrolchimico Sfide Dare la possibilità agli utenti della Intranet di poter ricercare I documenti contenuti nei database Domino profilati per I vari utenti Superare I limiti della search integrata nel portale Effettuare ricerche full-text e sfruttare la categorizzazione del portale Soluzione IBM Omnifind è stato integrato nel Portale Domino per l’accesso profilato alle pagine della intranet. IBM Omnifind ha offerto la possibilità di poter effettuare ricerche di tipo full text, fielded, per sinonimi/acronimi e per categorie. 36 Information Management Realizzazioni italiane - Intranet Search in ambito bancario Sfide Dare la possibilità agli utenti della Intranet di poter ricercare I documenti contenuti nelle teamroom Domino, nel file system e nel repository SQL Server Superare I limiti della search integrata nei vari repository Soluzione IBM Omnifind è stato integrato nella intranet, IBM Omnifind ha offerto la possibilità di poter effettuare ricerche di tipo full text, fielded, e per sinonimi/acronimi . 37 Information Management Realizzazioni italiane - Intranet Search in ambito editoria Sfide Dare la possibilità agli utenti della Intranet ed ai clienti della Extranet di poter ricercare I documenti contenuti nel repository Oracle Superare I limiti della attuale search Soluzione IBM Omnifind è stato integrato nella intranet/extranet via interfaccia web services IBM Omnifind ha offerto la possibilità di poter effettuare ricerche di tipo full text, fielded, e per sinonimi/acronimi. In fase di test l’aggancio alla ricerca semantica 38 Information Management Realizzazioni italiane - Intranet Search in ambito ingegneristico Sfide Dare la possibilità agli utenti della Intranet di poter ricercare I documenti contenuti nei database Domino profilati per I vari utenti Superare I limiti della search integrata nel portale Soluzione IBM Omnifind è stato integrato nel Portale Domino per l’accesso profilato alle pagine della intranet. IBM Omnifind ha offerto la possibilità di poter effettuare ricerche di tipo full text, fielded, per sinonimi/acronimi e per categorie. 39 Information Management Ricerca con Omnifind sui dati di anagrafica bancaria su DB2 z/OS Criticità La ricerca sull’anagrafica su DB2 z/OS non è semplice per l’utente dello sportello e non restituisce risultati soddisfacenti nel caso di anagrafiche frequenti in Italia (accenti, apostrofi, maiuscole ecc) Soluzione Utilizzo di Omnifind per una ricerca più efficiente e più flessibile 40 Information Management Ricerca sulle normative bancarie Criticità La ricerca sulle normative bancarie non è semplice per l’utente e non restituisce risultati soddisfacenti Soluzione Utilizzo di Omnifind per una ricerca più efficiente e più flessibile 41 Information Management Ricerca Semantica Oltre alla ricerca per keyword è possibile la ricerca per : DOMINIO di appartenenza dei documenti ricercati ENTITA’ di tipo persona, luogo ed organizzazione senza o con attributi TAGS tipo data, e-mail, url, moneta e tanti altri 42 Information Management IBM w3 Intranet utilizza OmniFind Enterprise Edition • Attiva dal Settembre 2003 • 8,000 siti 25M pagine • Supporta più di 300.000 dipendenti • Tempi di risposta sotto il secondo • Preferita 2:1 rispetto alla tecnologia precedente IBM's intranet, powered by OmniFind Enterprise Edition, was selected as one of The Year's 10 Best Intranets 2006 by world-renowned usability research firm Nielsen Norman Group. IBM was the only information technology company recognized in this report. 43 Information Management IBM Omnifind EE: scenari SISTEMI OPERATIVI: •IBM AIX (64-bit systems) •AIX V5.2 (requires Maintenance Level 7) •AIX V5.3 (requires Maintenance Level 3) •Linux for Intel (32-bit systems) •Red Hat Enterprise Linux Advanced Server V4.0, Update 3 •Red Hat Enterprise Linux Advanced Server V5.0 •Novell SUSE Linux Enterprise Server V10 •Novell SUSE Linux Enterprise Server V9.0 with Service Pack 2( United Linux SP2) •Microsoft Windows (32-bit system) •Windows 2003 Enterprise Edition R1 e R2 •Solaris (64-bit system) •Solaris 9, kernel SunOS 5.9 SCENARI SUPPORTATI: 1 nodo 2 nodi 4 nodi 44 Information Management Tutti i componenti su singolo server In questa configurazione la memoria e la larghezza di banda I/O è condivisa tra tutti I componenti Non c’è failover per l’applicazione di ricerca Crawler Parser Indexer Search 45 Information Management La configurazione a due server fornisce capacità di failover per l’applicazione di ricerca Un server addizionale fornisce sia capacità alta affidabilità che bilanciamento del carico di lavoro Richiede tool per la gestione del load balancing Crawler Parser Indexer Search Search 46 Information Management La configurazione a quattro server fornisce la completa distribuzione dei componenti Massimo throughput Alta disponibilità e workload balancing delle richieste di ricerca Crawler Parser Indexer Parser and indexer must be on the same server Search Search 47