Cercare informazioni sul Web
Organizzazione dell’informazione
tramite gerarchie
• Classificazione gerarchica
• L’informazione è raggruppata in un piccolo
numero di categorie, ognuna descritta
semplicemente (classificazione di primo livello)
• L’informazione in ogni categoria è suddivisa in
sotto-categorie (classificazione di secondo
livello), e così via
• Alla fine le classificazioni saranno così piccole
che sarà possibile scorrere un’intera categoria
per trovare l’informazione desiderata
5-2
5-3
Caratteristiche importanti
delle classificazioni
• Le descrizioni devono coprire tutte le
informazioni categorizzate e facilitare
eventuali ricerche.
• Le sotto-categorie non devono usare tutte la
stessa classificazione.
• L’informazione contenuta in una categoria
definisce il modo migliore di classificarla.
• Non c’è un modo univoco di classificare
l’informazione.
5-4
Progettare una gerarchia
• Regole generali per la progettazione
delle gerarchie e terminologia
– la radice è posta in alto
• "salire” lungo la gerarchia significa che la
classificazione diventa più inclusiva (insiemi
vasti di elementi più generici)
• "scendere” lungo la gerarchia che la
classificazione diventa più specifica
• il simbolo di maggiore (>) è usato
comunemente per indicare la navigazione
verso il basso lungo la gerarchia
5-5
Livelli in una gerarchia
• Una gerarchia a un livello non ha sotto-directory
• Per contare i livelli, occorre ricordare che:
– c’è sempre una radice
– ci sono sempre “foglie” - le categorie stesse
– la radice e le foglie non contano come livelli
• I gruppi si possono sovrapporre (un elemento può
apparire in più categorie) o essere partizionati (ogni
categoria appare solo una volta)
• Il numero dei livelli può variare a seconda delle
categorie
5-6
5-7
5-8
5-9
Ottenere informazioni
con una ricerca sul Web
•
Come funziona un motore di ricerca
–
È costituito da due parti principali:
1. Crawler: visita i siti Internet, seguendo i collegamenti e
costruendo un indice del contenuto del Web
2. Query processor: cerca nell’indice le occorrenze delle
parole chiave inserite dall’utente e restituisce
le pagine web che le contengono
•
I motori di ricerca più famosi sono: Google,
Yahoo!, Alta Vista, Excite e InfoSeek
5-10
5-11
I crawler
•
Quando un crawler visita un sito web:
–
Per prima cosa identifica tutti i link che puntano
ad altre pagine
–
Controlla di non aver visitato recentemente
queste pagine
–
Se non è così, le aggiunge a una lista di pagine
da processare
–
Memorizza in un indice tutte le parole chiave
utilizzate nella pagina
5-12
Elaboratori di interrogazioni
• Riceve alcune parole chiave dall’utente
e le cerca nell’indice
• Anche se la pagina non è stata ancora
esaminata dal crawler, potrebbe
comunque essere presente perché
collegata con un link a una pagina già
considerata
5-13
Page ranking
• Un’idea di Google: PageRank
– Ordina i link secondo la rilevanza
– La rilevanza è calcolata in base al numero
di collegamenti che puntano alla pagina
(più link puntano alla pagina, più essa è
importante)
• ogni collegamento a una pagina è considerato
un "voto" per quella pagina
• Google considera anche il ranking della pagina
che sta “votando”
5-14
Formulare la domanda giusta
• Scegliere le parole giuste e sapere
come il motore di ricerca le userà
• Parole o frasi?
– i motori di ricerca generalmente
considerano ogni parola separatamente
– per cercare una frase esattamente com’è
scritta possiamo racchiuderla tra virgolette
5-15
Operatori logici
• AND, OR, NOT
– AND: dice al motore di ricerca di restituire solo le pagine
che contengono entrambe le parole
tailandese AND ristorante
– OR: dice al motore di ricerca di trovare le pagine che
contengono una parola o l’altra, e ovviamente anche quelle
che le contengono entrambe
– NOT: esclude le pagine che contengono una data parola
• NOT è un operatore prefisso; va messo prima della
parola da escludere
5-16
5-17
Cinque consigli per una ricerca
efficace
• Definite chiaramente quale tipo di pagina state
cercando (un’organizzazione, un’azienda, una pagina
di riferimento ecc.)
• Cercate di immaginare quale tipo di organizzazione
potrebbe pubblicare la pagina che desiderate.
• Potreste essere in grado di indovinare l’URL
• Elencate i termini che hanno la maggiore probabilità
di comparire nella pagina che state cercando.
• Valutate i risultati
• Prima di esaminare le pagine, valutate l’efficacia della
ricerca
• Considerate una strategia in due passate.
• Fate una ricerca ad ampio raggio e poi selezionate i risultati
5-18
Quanto è affidabile il Web?
• Chiunque può pubblicare sul Web ciò che
vuole
• Molta dell’informazione disponibile è falsa,
fuorviante, ingannevole, faziosa, diffamatoria
o disgustosa
• Come facciamo a sapere se le pagine che
troviamo sono affidabili?
5-19
Non date nulla per scontato
• I nomi dei domini registrati possono essere
ingannevoli o intenzionalmente truffaldini
• Occorre verificare l’identità della persona o
dell’organizzazione che pubblica la pagina web
5-20
Caratteristiche dei siti affidabili
• I siti web risultano più credibili se hanno queste
caratteristiche:
– Esistenza reale nel mondo fisico. Il sito fornisce un indirizzo,
numero di telefono e indirizzo di posta elettronica.
– Certificazione. Il sito include riferimenti, citazioni o
credenziali, nonché collegamenti a siti altrettanto certificati.
– Chiarezza. Il sito è ben organizzato, facile da navigare e
fornisce servizi come una ricerca interna.
– Aggiornamento. Il sito è stato aggiornato di recente.
– Professionalità. La grammatica, l’ortografia, la punteggiatura
e l’aspetto grafico sono corretti; tutti i link funzionano.
• Tenete presente che un sito potrebbe esibire tutte
queste qualità ed essere tuttavia non autorizzato
5-21
Scarica

Lez06-CercareInfoWeb..