Cercare informazioni sul Web Organizzazione dell’informazione tramite gerarchie • Classificazione gerarchica • L’informazione è raggruppata in un piccolo numero di categorie, ognuna descritta semplicemente (classificazione di primo livello) • L’informazione in ogni categoria è suddivisa in sotto-categorie (classificazione di secondo livello), e così via • Alla fine le classificazioni saranno così piccole che sarà possibile scorrere un’intera categoria per trovare l’informazione desiderata 5-2 5-3 Caratteristiche importanti delle classificazioni • Le descrizioni devono coprire tutte le informazioni categorizzate e facilitare eventuali ricerche. • Le sotto-categorie non devono usare tutte la stessa classificazione. • L’informazione contenuta in una categoria definisce il modo migliore di classificarla. • Non c’è un modo univoco di classificare l’informazione. 5-4 Progettare una gerarchia • Regole generali per la progettazione delle gerarchie e terminologia – la radice è posta in alto • "salire” lungo la gerarchia significa che la classificazione diventa più inclusiva (insiemi vasti di elementi più generici) • "scendere” lungo la gerarchia che la classificazione diventa più specifica • il simbolo di maggiore (>) è usato comunemente per indicare la navigazione verso il basso lungo la gerarchia 5-5 Livelli in una gerarchia • Una gerarchia a un livello non ha sotto-directory • Per contare i livelli, occorre ricordare che: – c’è sempre una radice – ci sono sempre “foglie” - le categorie stesse – la radice e le foglie non contano come livelli • I gruppi si possono sovrapporre (un elemento può apparire in più categorie) o essere partizionati (ogni categoria appare solo una volta) • Il numero dei livelli può variare a seconda delle categorie 5-6 5-7 5-8 5-9 Ottenere informazioni con una ricerca sul Web • Come funziona un motore di ricerca – È costituito da due parti principali: 1. Crawler: visita i siti Internet, seguendo i collegamenti e costruendo un indice del contenuto del Web 2. Query processor: cerca nell’indice le occorrenze delle parole chiave inserite dall’utente e restituisce le pagine web che le contengono • I motori di ricerca più famosi sono: Google, Yahoo!, Alta Vista, Excite e InfoSeek 5-10 5-11 I crawler • Quando un crawler visita un sito web: – Per prima cosa identifica tutti i link che puntano ad altre pagine – Controlla di non aver visitato recentemente queste pagine – Se non è così, le aggiunge a una lista di pagine da processare – Memorizza in un indice tutte le parole chiave utilizzate nella pagina 5-12 Elaboratori di interrogazioni • Riceve alcune parole chiave dall’utente e le cerca nell’indice • Anche se la pagina non è stata ancora esaminata dal crawler, potrebbe comunque essere presente perché collegata con un link a una pagina già considerata 5-13 Page ranking • Un’idea di Google: PageRank – Ordina i link secondo la rilevanza – La rilevanza è calcolata in base al numero di collegamenti che puntano alla pagina (più link puntano alla pagina, più essa è importante) • ogni collegamento a una pagina è considerato un "voto" per quella pagina • Google considera anche il ranking della pagina che sta “votando” 5-14 Formulare la domanda giusta • Scegliere le parole giuste e sapere come il motore di ricerca le userà • Parole o frasi? – i motori di ricerca generalmente considerano ogni parola separatamente – per cercare una frase esattamente com’è scritta possiamo racchiuderla tra virgolette 5-15 Operatori logici • AND, OR, NOT – AND: dice al motore di ricerca di restituire solo le pagine che contengono entrambe le parole tailandese AND ristorante – OR: dice al motore di ricerca di trovare le pagine che contengono una parola o l’altra, e ovviamente anche quelle che le contengono entrambe – NOT: esclude le pagine che contengono una data parola • NOT è un operatore prefisso; va messo prima della parola da escludere 5-16 5-17 Cinque consigli per una ricerca efficace • Definite chiaramente quale tipo di pagina state cercando (un’organizzazione, un’azienda, una pagina di riferimento ecc.) • Cercate di immaginare quale tipo di organizzazione potrebbe pubblicare la pagina che desiderate. • Potreste essere in grado di indovinare l’URL • Elencate i termini che hanno la maggiore probabilità di comparire nella pagina che state cercando. • Valutate i risultati • Prima di esaminare le pagine, valutate l’efficacia della ricerca • Considerate una strategia in due passate. • Fate una ricerca ad ampio raggio e poi selezionate i risultati 5-18 Quanto è affidabile il Web? • Chiunque può pubblicare sul Web ciò che vuole • Molta dell’informazione disponibile è falsa, fuorviante, ingannevole, faziosa, diffamatoria o disgustosa • Come facciamo a sapere se le pagine che troviamo sono affidabili? 5-19 Non date nulla per scontato • I nomi dei domini registrati possono essere ingannevoli o intenzionalmente truffaldini • Occorre verificare l’identità della persona o dell’organizzazione che pubblica la pagina web 5-20 Caratteristiche dei siti affidabili • I siti web risultano più credibili se hanno queste caratteristiche: – Esistenza reale nel mondo fisico. Il sito fornisce un indirizzo, numero di telefono e indirizzo di posta elettronica. – Certificazione. Il sito include riferimenti, citazioni o credenziali, nonché collegamenti a siti altrettanto certificati. – Chiarezza. Il sito è ben organizzato, facile da navigare e fornisce servizi come una ricerca interna. – Aggiornamento. Il sito è stato aggiornato di recente. – Professionalità. La grammatica, l’ortografia, la punteggiatura e l’aspetto grafico sono corretti; tutti i link funzionano. • Tenete presente che un sito potrebbe esibire tutte queste qualità ed essere tuttavia non autorizzato 5-21