Università degli Studi G.D’Annunzio
Chieti e Pescara
Seminario
MOTORI DI RICERCA
aprile 2011
maurizio gatto
Internet
• ARPANET
• INTERNET
(1960 – 1970)
1983 (NFS network)
1985 (commerciale)
1989 (WWW - Tim Barners-Lee)
Web
– docuverse (T.H. Nelson, 1974, teorico ipertesto)
• Universo organizzato dei documenti
– infosfera (L. Floridi, 2002, teorico filosofia dell’informazione)
• Spazio semantico
(documenti, agenti, operazioni)
Web
Hubs and Authorities (HITS algorithm) - 1998
“Good hubs point to good authorities and vice versa”
Kleinberg identifica due due tipi di pagine web:
authority: pagine che rappresentano
autorevoli sorgenti di informazione
per la query
hub: liste che contengono puntatori a
pagine relative all’argomento della
query
Google nel 1998 progetta PageRank
(brevettato nel 2001 US PTO Patent )
Web 2.0
Internet users
2,500
2,000
1,500
1,000
500
June, 2010
June, 2009
June, 2008
Sept, 2007
December, 2006
March, 2006
September, 2005
December, 2004
February, 2004
September, 2003
July, 2002
June, 2001
July, 2000
0
December, 1998
Riuso dei dati (e degli utenti)
Contributo del singolo utente (dati e servizi)
Architettura della “partecipazione“
Autorganizzazione dell’azione dal basso
December, 1995
–
–
–
–
Source: Internet World Search
Web 3.0
Risorse digitali
documento digitale: qualsiasi oggetto fisico: testo, immagine o filmato,
rappresentato tramite una grandezza fisica che assume valori binari ottenuti
attraverso un processo di elaborazione elettronica
– Risorse digitali
• modificabili, replicabili, personalizzate,
ambigue, obsolescenti, instabili, volatili
– Utilizzo delle risorse digitali
• ipertestualità, accesso simultaneo,
delocalizzazione, ubiquità
Motori di ricerca: perché
– Consultare il web (docuverse)
• Difficoltà di reperimento a causa dell’enorme numero
di informazioni non strutturate
– Navigare con i link
• Partire da un punto e cercare i percorsi giusti
Utilizzare i motori di ricerca
semplicità di utilizzo (intuitivo),
con una query si ottengono
risultati “rilevanti”
(o “suggerimenti” di ulteriori
ricerche a partire dai link suggeriti)
Motori di ricerca: funzioni
• recupero informazioni dal web
• indicizzazione delle informazioni
• distribuzione agli utenti delle informazioni tramite query
• realizzare profitto
semantico
sintattico
Motori di ricerca: evoluzione
– Archie e Gopher (1990-1991)
• Ricerca file in siti FTP
– Lykos, Infoseek, AltaVista, Excite (1994-1995)
• Ricerca file in siti WWW
– Yahoo! (1994)
• Acquisisce nel 2002 Inktomi, Overture, Altavista
– MSN (1995)
• Accordo con Overture nel 2006
• Dal 2006 cambia nome: Windows Live
• Dal 2009 cambia nome: Bing
– Google (1997- sito 1999)
• Numero ricerche giornaliere(!?):
• 1999 500m; 2000 100mln;
2003 250mln; 2008 2mld
2010 3mld
Cronologia completa
Motori di ricerca: Top
Google
Yahoo!
Bing (ex Live Search ex MSN)
Motori di ricerca: Italia
Virgilio
Libero
Tiscali
Motori di ricerca: metamotori
Attingono i risultati da
altri motori di ricerca e
ne elaborano i risultati
Motori di ricerca: DMOZ
DMOZ (Open Directory Project)
Una directory NON un motore di ricerca
Motori di ricerca: dati (US)
– 2008 (feb)
• Google
• Yahoo!
• Live
• Altri
– 2009 (feb)
• Google
• Yahoo!
• Live/Bing
• Altri
59,2%
21,6%
9,6%
9,5% (Ask, AOL)
– 2010 (feb)
• Google
• Yahoo!
• Bing
• Altri
65,5%
16,8%
11,5%
6,2% (Ask, AOL)
63,3%
20,6%
8,1%
8,0% (Ask, AOL)
– 2011 (feb)
• Google
• Yahoo!
• Bing
• Altri
64,9%
17,3%
13,4%
4,4% (Ask, AOL)
Source: comscore.com
70
ITALIA (2009)
60
50
Google
40
Yahoo!
30
Bing
20
Ask+AOL
10
0
2008
2009
2010
2011
Google* 96,81%
Bing
1,35%
Yahoo!
1,22%
Altri
1,12%
Source: StatCounter – GlobalStats
Motori di ricerca: dati (2010)
Motori di ricerca: dati (2010)
Motori di ricerca: dati (2010)
Motori di ricerca: moduli
Motori di ricerca: moduli
Motori di ricerca: gatherer
• Collezionare documenti nel web
– Tipologia
• extensive crawl, focused crawl, incremental crawl
– Problemi
•
•
•
•
dimensioni del web
quantità dei dati nel web
loop e “trappole”
costi (di banda e hardware)
– Soluzione
• metodologie distribuite e fault-tolerant
Motori di ricerca: crawler
Motori di ricerca: crawler
Funzionamento
di un crawler
Perché alcune pagine non
appaiono nei risultati dei
motori di ricerca?
1. Robots.txt (Robotstxt.org)
2. Nel codice di una pagina HTML
<html><head>…
<meta name="robots" content=“noindex,nofollow”>…
</head>…
Motori di ricerca: indexing
Analisi dei documenti
•
•
•
•
Analisi del contenuto testuale
Analisi dei contenuti multimediali
Informazioni sui links
Informazioni sul sito
Motori di ricerca: indexing
• ordina i documenti ricevuti dal crawler
• crea l’indice (inverso) delle parole
• immagazzina le informazioni recuperate in un database
(o in database distribuiti)
Motori di ricerca: retrieval
• riceve le richieste (query) dal modulo search
• recupera le informazioni nel/i database
• fornisce le “risposte” al modulo search
Motori di ricerca: search
• Riceve la richiesta dell’utente (query)
• invia la query al modulo retrieval
• recupera le “risposte” dal modulo retrieval
• restituisce le “risposte” all’utente in forma
testuale e/o grafica
• aggiunge risultati pay
Motori di ricerca: search
Motori di ricerca: search
Motori di ricerca: search
Ricorda: puoi utilizzare “ ” per ricerche a corrispondenza esatta + includi - escludi
site: cerca in un dominio filetype: cerca un formato documento
Motori di ricerca: search
Motori di ricerca: le relazioni
http://www.bruceclay.it/searchenginerelationshipchart.htm
Motori di ricerca: le relazioni
http://www.ihelpyou.com/search-engine-chart.html
Motori di ricerca: le relazioni
http://www.search-this.com/search-engine-decoder/
Motori di ricerca: le relazioni
• Se cerchiamo “bonifica amianto” su
–
–
–
–
Google
Virgilio
Libero
Tiscali
Otteniamo gli stessi risultati
(anche pay)
Motori di ricerca: specializzati
Elenco motori di ricerca
Motori di ricerca: news
• Utilizzare i motori di ricerca
• Google News Alerts http://www.google.com/alerts?hl=en Non una
mailing list ma un servizio di Google (2003). Scegli la parola chiave e la
frequenza della ricezione di una email contenente le ultime news
(abstract e link) sull'argomento scelto (funziona anche per le news delle
singole nazioni, http://www.google.it/alerts?hl=it )
Motori di ricerca: news
•
Google News Alerts
Università degli Studi G.D’Annunzio
Chieti e Pescara
Grazie per l’attenzione
maurizio gatto
Scarica

Motori di ricerca 2011