Università degli Studi G.D’Annunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto Internet • ARPANET • INTERNET (1960 – 1970) 1983 (NFS network) 1985 (commerciale) 1989 (WWW - Tim Barners-Lee) Web – docuverse (T.H. Nelson, 1974, teorico ipertesto) • Universo organizzato dei documenti – infosfera (L. Floridi, 2002, teorico filosofia dell’informazione) • Spazio semantico (documenti, agenti, operazioni) Web Hubs and Authorities (HITS algorithm) - 1998 “Good hubs point to good authorities and vice versa” Kleinberg identifica due due tipi di pagine web: authority: pagine che rappresentano autorevoli sorgenti di informazione per la query hub: liste che contengono puntatori a pagine relative all’argomento della query Google nel 1998 progetta PageRank (brevettato nel 2001 US PTO Patent ) Web 2.0 Internet users 2,500 2,000 1,500 1,000 500 June, 2010 June, 2009 June, 2008 Sept, 2007 December, 2006 March, 2006 September, 2005 December, 2004 February, 2004 September, 2003 July, 2002 June, 2001 July, 2000 0 December, 1998 Riuso dei dati (e degli utenti) Contributo del singolo utente (dati e servizi) Architettura della “partecipazione“ Autorganizzazione dell’azione dal basso December, 1995 – – – – Source: Internet World Search Web 3.0 Risorse digitali documento digitale: qualsiasi oggetto fisico: testo, immagine o filmato, rappresentato tramite una grandezza fisica che assume valori binari ottenuti attraverso un processo di elaborazione elettronica – Risorse digitali • modificabili, replicabili, personalizzate, ambigue, obsolescenti, instabili, volatili – Utilizzo delle risorse digitali • ipertestualità, accesso simultaneo, delocalizzazione, ubiquità Motori di ricerca: perché – Consultare il web (docuverse) • Difficoltà di reperimento a causa dell’enorme numero di informazioni non strutturate – Navigare con i link • Partire da un punto e cercare i percorsi giusti Utilizzare i motori di ricerca semplicità di utilizzo (intuitivo), con una query si ottengono risultati “rilevanti” (o “suggerimenti” di ulteriori ricerche a partire dai link suggeriti) Motori di ricerca: funzioni • recupero informazioni dal web • indicizzazione delle informazioni • distribuzione agli utenti delle informazioni tramite query • realizzare profitto semantico sintattico Motori di ricerca: evoluzione – Archie e Gopher (1990-1991) • Ricerca file in siti FTP – Lykos, Infoseek, AltaVista, Excite (1994-1995) • Ricerca file in siti WWW – Yahoo! (1994) • Acquisisce nel 2002 Inktomi, Overture, Altavista – MSN (1995) • Accordo con Overture nel 2006 • Dal 2006 cambia nome: Windows Live • Dal 2009 cambia nome: Bing – Google (1997- sito 1999) • Numero ricerche giornaliere(!?): • 1999 500m; 2000 100mln; 2003 250mln; 2008 2mld 2010 3mld Cronologia completa Motori di ricerca: Top Google Yahoo! Bing (ex Live Search ex MSN) Motori di ricerca: Italia Virgilio Libero Tiscali Motori di ricerca: metamotori Attingono i risultati da altri motori di ricerca e ne elaborano i risultati Motori di ricerca: DMOZ DMOZ (Open Directory Project) Una directory NON un motore di ricerca Motori di ricerca: dati (US) – 2008 (feb) • Google • Yahoo! • Live • Altri – 2009 (feb) • Google • Yahoo! • Live/Bing • Altri 59,2% 21,6% 9,6% 9,5% (Ask, AOL) – 2010 (feb) • Google • Yahoo! • Bing • Altri 65,5% 16,8% 11,5% 6,2% (Ask, AOL) 63,3% 20,6% 8,1% 8,0% (Ask, AOL) – 2011 (feb) • Google • Yahoo! • Bing • Altri 64,9% 17,3% 13,4% 4,4% (Ask, AOL) Source: comscore.com 70 ITALIA (2009) 60 50 Google 40 Yahoo! 30 Bing 20 Ask+AOL 10 0 2008 2009 2010 2011 Google* 96,81% Bing 1,35% Yahoo! 1,22% Altri 1,12% Source: StatCounter – GlobalStats Motori di ricerca: dati (2010) Motori di ricerca: dati (2010) Motori di ricerca: dati (2010) Motori di ricerca: moduli Motori di ricerca: moduli Motori di ricerca: gatherer • Collezionare documenti nel web – Tipologia • extensive crawl, focused crawl, incremental crawl – Problemi • • • • dimensioni del web quantità dei dati nel web loop e “trappole” costi (di banda e hardware) – Soluzione • metodologie distribuite e fault-tolerant Motori di ricerca: crawler Motori di ricerca: crawler Funzionamento di un crawler Perché alcune pagine non appaiono nei risultati dei motori di ricerca? 1. Robots.txt (Robotstxt.org) 2. Nel codice di una pagina HTML <html><head>… <meta name="robots" content=“noindex,nofollow”>… </head>… Motori di ricerca: indexing Analisi dei documenti • • • • Analisi del contenuto testuale Analisi dei contenuti multimediali Informazioni sui links Informazioni sul sito Motori di ricerca: indexing • ordina i documenti ricevuti dal crawler • crea l’indice (inverso) delle parole • immagazzina le informazioni recuperate in un database (o in database distribuiti) Motori di ricerca: retrieval • riceve le richieste (query) dal modulo search • recupera le informazioni nel/i database • fornisce le “risposte” al modulo search Motori di ricerca: search • Riceve la richiesta dell’utente (query) • invia la query al modulo retrieval • recupera le “risposte” dal modulo retrieval • restituisce le “risposte” all’utente in forma testuale e/o grafica • aggiunge risultati pay Motori di ricerca: search Motori di ricerca: search Motori di ricerca: search Ricorda: puoi utilizzare “ ” per ricerche a corrispondenza esatta + includi - escludi site: cerca in un dominio filetype: cerca un formato documento Motori di ricerca: search Motori di ricerca: le relazioni http://www.bruceclay.it/searchenginerelationshipchart.htm Motori di ricerca: le relazioni http://www.ihelpyou.com/search-engine-chart.html Motori di ricerca: le relazioni http://www.search-this.com/search-engine-decoder/ Motori di ricerca: le relazioni • Se cerchiamo “bonifica amianto” su – – – – Google Virgilio Libero Tiscali Otteniamo gli stessi risultati (anche pay) Motori di ricerca: specializzati Elenco motori di ricerca Motori di ricerca: news • Utilizzare i motori di ricerca • Google News Alerts http://www.google.com/alerts?hl=en Non una mailing list ma un servizio di Google (2003). Scegli la parola chiave e la frequenza della ricezione di una email contenente le ultime news (abstract e link) sull'argomento scelto (funziona anche per le news delle singole nazioni, http://www.google.it/alerts?hl=it ) Motori di ricerca: news • Google News Alerts Università degli Studi G.D’Annunzio Chieti e Pescara Grazie per l’attenzione maurizio gatto