Motori di Ricerca
Se non sai, sappi dove (e come)
cercare!
1
Motori ! V1.1 05/2003







Il web oggi dimensioni, lingue etc.
Glossario di ricerca
Motori, metamotori, integratori
Come funzionano,
Come si utilizzano
Directory
Newsgroups
2
cip:
Enorme!
Dimensioni del Web
2002: 6 miliardi di pagine
presenti
2004: 100 miliardi di pagine
•Oltre 8 milioni di siti (ott. 2001) , 73% in
inglese, 7% in tedesco …
3
cip:
Web: in Italiano “ragnatel”
IL WEB!
4
Il Web oggi (2002): alcune
informazioni


Degli 8.4 milioni di siti, 3.1 milioni
sono classificati come siti pubblici (i.e.
siti il cui contenuto è liberamente
accessibile al pubblico), 2.1 come privati
(accesso ristretto) e 3.2 provvisori o in
uno stato transitorio (non terminati)
10% di link “morti” (dead links)
5
Web: Info


Lingue: Inglese 73%, tedesco 7%,
giapponese 5%, francese e spagnolo
3% (e l’Italiano?)
Il 47% dei siti pubblici sono negli
USA
6
cip:
dati 2001
Quanto è grande Internet?




“Surface” web (SW, circa 2,5 Miliardi di
documenti)
“Deep” web (DW) circa 500 volte più
grande
SW cresce di circa 7 milioni di pagine al
giorno
Media di 20KB per pagina
7
Quanto è grande Internet?


DW= SW più DB (Data Bases), pagine
dinamiche, Intranets …
I due DB più grossi accessibili sono il
“National climatic data center”
www.ncdc.nooa.com e la NASA (circa 585
Terabytes di Informazione
8
Tipi di documenti nel web







Pagine Html
PDF (adobe Acrobat)
DOC (Microsoft Word)
PS (Adobe Postscript)
PPT (Microsoft Powerpoint)
XLS (Microsoft Excel)
RTF (Rich Text Format)
9
cip:
e il “cinese”?
Utenti e lingue Internet




Solo circa il 50% degli utenti
Internet è di madrelingua Inglese
Il 78% dei siti e il 96% dei siti di
e-commerce è in Inglese
Traduttori….
E-mail: circa 2000 miliardi di
messaggi all’anno (spam)
10
Glossario (1)
•Ricerca Booleana Una ricerca che permette la inclusione
o la esclusione di documenti che contengono certe parole
tranite l’uso di operatori come AND, NOT e OR.
•Ricerca Concettuale La ricerca di documenti che sono in
relazione con una parola, piuttosto che di quelli che la
contengono specificamente.
•Indice “Full-text”: un indice che contiene ogni parola di
ogni documento, incluse le “stop words”
•Fuzzy search: Una ricerca che trova risultati anche
quando le parole sono scritte parzialmente o male.
11
Glossario (2)
•Indice: Il catalogo dei documenti creato dal motore di
ricerca (chiamato anche catalogo)
•Ricerca per parole chiave (Keyword search): una
ricerca di documenti che contengono una o più parole
specificate dall’utente.
•Ricerca di una Frase: Ricerca di documenti che
contengono una frase (sentence) esatta.
•Precisione: Quanti dei documenti segnalati
effettivamente rispondono alla richiesta fatta. Per
esempio, se un motore lista 80 documenti ma solo 20
di essi contengono le parole cercate, la sua precisione
è del 25%
12
Glossario (3)
•Ricerca di Prossimità: Una ricerca in cui le parole
cercate devono essere vicine fra di loro.
•Query-By-Example: Ricerca in cui si richiedono
ulteriori documenti simili ad un particolare documento
"find similar."
•Rilevanza: Quanto un documento fornisce
l’informazione cercata.
13
Glossario (4)
•Motore di ricerca: Il software che cerca in un indice e
fornisce i risultati.Spesso viene usato come sinonimo di
Spider e Crawler anche se si tratta di componenti
separati.
•Spider: Il software che esplora pagine web e le
aggiunge ad un indice seguendo i collegamenti
(Iperlink). Anche “Crawler”
•Stemming: La capacità in una ricerca di includere la
radice delle parole ad es nuotatore… nuoto
14
Glossario: (5)
•Stop words: congiunzioni, preposizioni articoli e
altre parole come “e, a, un, il” che appaiono
frequentemente nei documenti ma significano poco.
•Thesaurus: Una lista di sinonimi che un motore può
utilizzare quando cerca particolari parole anche se i
termini cercati non appaiono nei documenti.
15
Motori di ricerca: come operano





Programmi robot (crawler, Spider o
indicizzatori)
che
aggiornano
automaticamente gli indici del motore
di ricerca
Le informazioni non vengono “filtrate”
Aggiornamenti costanti e precisi
Raccolgono le informazioni su tutte le
pagine web dei siti e non solo sulla
Home Page
Enormi DataBase
16
Motori di ricerca: categorie



Motori (Altavista, Google, Hotbot,
Ask Jeeves, etc etc.)
Metamotori (Metacrawler…)
“Integratori” (Copernic o altri)
17
Motori, metamotori etc



Funzionano in maniera diversa
Sia come indicizzazione che come utilizzo
Informazioni su...



www.Searchenginewatch.com
www.motoridiricerca.it
Motori che usano linguaggio naturale (ask
jeeves) www.ask.com
18
Differenti caratteristiche dei motori
•Da http://www.searchenginewatch.com/facts/ataglance.html
•Caratteristiche comuni (esempi)
•Includi “+”
Escludi “-” Frase “xxxx”
•Caratteristiche Non comuni
•Nesting: pizza AND (pomodoro OR
acciughe)
•Minuscole maiuscole
•“near” pizza near pomodoro
•*paolo --->(pierpaolo gianpaolo etc.)
19
cip:
?
Motori: alcune specificità

Esempi:
Il qualificatore “Near” è gestito da
Altavista (10 parole), Lycos (25
parole) e basta…
Paol* non gestito da Google

http://www.motoridiricerca.it/tabella.htm


20
Rilevanza:
Come viene dato peso alle pagine web
• Come fanno i motori a stabilire la rilevanza dei
risultati?
• Usano algoritmi proprietari (e segreti) con le seguenti
regole generali
• Posizione delle parole e Frequenza
• Esempio del bibliotecario e “viaggi”, prima i libri con
la parola viaggi(o) nel titolo. (tag <title>)
• Si cerca anche che la parola appaia nelle prime righe
della pagina.
21
Frequenza
• La Frequenza è il secondo criterio per determinare
la rilevanza.
• Motori diversi, diverso numero di pagine indicizzate,
diversa frequenza di visita, diverso tempismo,
dunque risultati diversi.
• I Meta tags, non sono letti da tutti i motori e sono
comunque trattati in modo differente
• Penalizzazione dello spamming, lotta continua con i
webmasters, incluse le lamentele degli utenti.
22
Come funziona,
il peso dato alle pagine
• Fattori “fuori pagina” (Off The Page)
• Analisi dei link può determinare l’argomento e
l’importanza (punteggio)
• Quante volte viene cliccato un certo
risultato? Il Punteggio cambia (+ o -)
• Vedere il Search Engine Features Chart e il
Search Engine Design Tips su
www.searchenginewatch.com.
• http://www.searchenginesinfo.com/
23
I motori “di moda”

Google
Altavista
Motori italiani

(Yahoo, america online ed altri usano google)


24
Usenet newsgroups






Oltre 35000 (100.000?) gruppi di
discussione
Testo, no multimedia (*) Protocollo
NNTP
Esistono da molti anni prima del “Web”
e del browser
Utilissimi
Soprattutto le “Faq” (frequently asked
questions)
Storia dall’81 su Google
25
Usenet Newsgroups






Accessibili tramite un Newsreader ( in
netscape, Outlook o altro) si specifica un
newsserver (p. es. “News.tin.it”) e ci si
“abbona” ai newsgroups a scelta.
Contengono discussioni su temi disparati.
Usa il protocollo NNTP
Accesso tramite web browser su google o
altavista
www.faq.org
http://www.google.it/grphp?hl=it
26
Newsgroups importanti


News.answers
Comp.answers
27
28





Er meio! furbo e potente
Tre miliardi di documenti indicizzati
Due miliardi di pagine web,
300 milioni di immagini
700 milioni di usenet posts
Dati 2002
29
30
31
32
33
Google







Copia cache
Ricerca nei risultati
Traduzione (Beta test)
Maiuscole minuscole
“And” automatico
“Mi sento fortunato”
Newsgroups
34
Google traduzioni
!!!!!
35
Google immagini!
36
Altri servizi Google




Froogle
Catalogs!
News
etc.
37
38
Cercando sul
web



Portale: sito di accesso alla rete,
directory, news, servizi, giochi, chat, etc.
con
Directory: comprendono collezioni
organizzati per categorie omogenee
siti
di
Motore di ricerca: mettono a disposizione un
archivio di pagine web
39
Portale
40
Directory

Fornisce liste di siti suddivisi in categorie
correlate da una breve descrizione
 Categorie e descrizioni sono raccolte da
persone specializzate (web surfers)
secondo il proprio giudizio
 Gli aggiornamenti dipendono dai tempi
“umani”
41
Quale strumento usare?
Web Directory
Motore di ricerca
Usa una categoria per trovare Usa il motore di ricerca per
siti con offerte di lavoro.
trovare un impiego particolare
che vada bene per le tue
capacità.
Usa una categoria per trovare Usa il motore di ricerca per le
siti che parlano di musica.
ultime novità su un cd appena
uscito.
Usa una categoria per trovare Usa il motore di ricerca se
le agenzie di viaggio.
cerchi un itinerario particolare.
Usa una categoria per avere Usa il motore di ricerca per
una lista dei siti dei maggiori trovare una citazione da un
quotidiani.
articolo.
Usa una categoria per trovare Usa il motore di ricerca per
il sito di un personaggio trovare una persona di cui
famoso.
conosci solamente il nome.
Usa una categoria per trovare Usa il motore di ricerca per
per trovare un sito di ricette. trovare una particolare ricetta.
42
Le directories di AltaVista
43
Le directories di Google
44
Metamotori:




Fanno lavorare gli altri
Utili per uscire dal tran tran
Per trovare più informazioni
Ultima spiaggia?
45
Metacrawler
46
Integratori come Copernic






Molto utile
www.copernic.com
Sottomette le richieste a vari motori,
aggiungendo del suo..
Ricerca per categorie
Opera in locale sul tuo PC.
Versione base gratuita
47
Copernic (“Integratore”)
48
Copernic, un gioiello!



Copernic usa siti specifici, ritiene che ci
siano info più pertinenti/più aggiornate
Info che i normali motori non trovano!
Categorie: MP3s, notizie locali,
enciclopedie, giochi, downloads, viaggi
etc.
49
Copernic

La versione base opera una metaricerca
che prende i risultati da molti altri
motori AltaVista, Excite, Fast Search, Lycos, WebCrawler,
MSN Web Search, Yahoo!, Hotbot, GoTo, FindWhat e l’ Open
Directory Project. (….)

Validazione “dead links”, ricerche su
categorie (enciclopedie, immagini, mp3,
indirizzi di posta…)
50
Motori e pubblicità






Normale pubblicità (banners)
Come “Quattroruote” e la Fiat?
Pagamenti per alzare il punteggio delle
pagine
Trasparenti o no.
Paid placement e
Paid inclusion
51
Non dimentichiamo i siti
specializzati: esempi







GSMbox.it
Html.it
Pignascuola.it
www.istruzione.it
www.mit.edu
Findarticles.com
Elibrary.com
52
Morale:
•Motori diversi; tecniche diverse
•Scegline almeno un paio
•Studiateli BENE
•Usa i metamotori e gli “integratori”
•Cercate nei siti specializzati
•Ah, … l’inglese è importantissimo!!
53
Esercizi




Su Altavista elenca le categorie di
documenti che si possono ricercare.
Cerca la stessa cosa su Altavista e su
Google, valuta le differenze
Prova metacrawler e paragonalo ad AV
e Google
Trova immagini su google usando la
ricerca avanzata
54
Esercizi II



Trova altri metamotori oltre a
metacrawler
Studia la ricerca avanzata su google e
su Altavista, elenca le principali
differenze
http://www.google.it/intl/it/help.html
55
Esercizi (Newsgroups)






Attiva il newsreader di explorer, specifica
come News server “News.tin.it”
Scegli un paio di newsgroups a piacere e
abbonati, leggi i posts.
Cerca nei newsgroups italiani una fiat punto
(o altro veicolo) in vendita.
Trova un newsgroup di prova italiano ed
inserisci un messaggio di prova
Visita i Newsgroups News.answers e
comp.answers Cosa contengono?)
Cerca la FAQ sui newsgroups Italiani e leggila
56
Esercizi III




Ricerca sia su google che su altavista foto di
“gatto” e “cat” (per esempio), valutare le
differenze numero di foto trovate, pertinenza
etc.
Cerca un dizionario di inglese online
(possibilmente parlante) su web
Prova l’opzione “pagine simili” di google
Cerca siti web contenenti informazioni
sull’esame di maturità
57
Esercizi IV





Inserisci gli opportuni metatags nelle
tue pagine web
Cerca i metatags nei sorgenti di pagine
web note.
Trova una pagina web molto pesante
Prova cosa “aggiunge di suo” copernic
Cerca a chi è intestato il dominio
www.itismeucci.it
58
Esercizi V


Trova un filmato realmedia
“streamabile” sotto i 56Kbps e
visualizzalo,
Trova informazioni sul funzionamento di
“carnivore”, il sistema CIA di
sorveglianza della posta elettronica.
59
Motori di Ricerca
Quando non sai, sappi dove (e
come) cercare!
60
Fine
61
Altavista: Uso della funzionalità di ricerca avanzata
1. Digitare le parole chiave o le espressioni “booleana” nella
casella ricerca
2. Specificare la modalità di visualizzazione nel menù
“Ordina per”
3. Specificare l’intervallo di tempo che si vuole usare per la
ricerca
4. Selezionare dal menù la lingua desiderata
5. Selezionare “siti italiani” o “su tutto il web”
6. Cliccare sul pulsante “Cerca”
62
Scarica

Versione scaricabile (PPT)