Ricercare in Internet L’ago nel pagliaio INTERNET Quasi ogni volta in cui hai sentito parlare di Internet o del World Wide Web hai probabilmente sentito pronunciare il termine "cyberspace.". È una parola di cui si è abusato ma poche persone ne conoscono l'origine e il significato. L'origine della parola "cyber" proviene dal greco "kubernetes" che significa "navigatore". Cybernauta …. Navigatore Quando si naviga è importante avere chiaro in mente qual è il luogo di destinazione ma anche …. mantenere traccia della strada percorsa. Quando furono definiti gli standard di Internet si cercò di rendere agevole la memorizzazione degli indirizzi della macchine: ogni computer sarebbe stato individuato da una serie di cifre, le persone avrebbero però potuto richiamare questo indirizzo attraverso un "alias". Così avvenne. Per raggiungere il sito hotmail puoi digitare 64.4.14.250 ma è molto più facile ricordare l'alias, cioè l'indirizzo www.hotmail.com. In entrambi i modi si arriva allo stesso risultato. MOTORI DI RICERCA Non sempre è facile sapere l’alias dei siti dove è possibile trovare le informazioni che si stanno cercando; Per muoversi e ricercare le informazioni nel mare di dati presenti nella rete globale bisogna avvalersi di strumenti adeguati; Per orientare i “navigatori” nel mare della rete sono stati creati i Motori di ricerca. Motori di ricerca Altavista AltaVista è il motore di ricerca che vanta il primato di essere stato il primo a superare il tetto dei 100 milioni di pagine Web censite (oggi ne censisce 550 milioni). Molto sofisticata è anche la procedura di registrazione delle pagine Web, una specifica procedura scandaglia il Web ed inserisce 10 milioni di nuove pagine ogni giorno. Il motore di indicizzazione è in grado di esaminare un miliardo di caratteri l'ora, provvedendo anche ad indentificare la lingua originaria delle pagine (caratteristica unica tra i motori di ricerca) e fornire così un criterio di impostazione in più per gli utenti. Google La caratteristica di Google, è quella di selezionare i risultati di ricerca valutando l'importanza di ogni pagina web con metodi matematici, in base ad un controllo di oltre 500 milioni di variabili e di 2 miliardi di termini. Questa tecnologia, chiamata PageRank ed attualmente in fase di brevetto, controlla non solo il contenuto della pagina web, ma verifica anche altri eventuali siti che hanno un link verso la pagina: in base alla quantità ed al tipo di link, la pagina riceve una valutazione più o meno alta. Go.Com Go Network è nata sulle basi di Infoseek I suoi punti di forza sono senz'altro una buona facilità d'uso ed un'attenzione particolare a fornire un risultato delle ricerche il più vicino possibile alla richieste degli utenti. Infoseek è ad esempio uno dei pochissimi motori di ricerca che considera varianti e sinonomi di una parola: se viene fatta una ricerca sulla parola watch, Infoseek cercherà anche siti che contengono i termini watches, clock, ecc. Yahoo Yahoo è un motore di ricerca che opera all’interno di un archivio in cui l’inserimento e la catalogazione dei siti viene fatta manualmente organizzando i siti per categorie e sottocategorie secondo una struttura ad albero. Questo motore di ricerca, ha il vantaggio di fornire siti che hanno un alto grado di aderenza alle richieste fatte, ma nello stesso tempo ha lo svantaggio di ricercare i siti su un archivio che non può essere per sua natura aggiornato velocemente ed è quindi possibile non rinvenire le pagine web più recenti Virgilio Virgilio censisce circa 100.000 siti italiani con l'aggiunta di 150 nuovi siti ogni giorno, ed offre una vastissima gamma di servizi funzionali e di orientamento. Il cuore di Virgilio è la sua directory, ossia un elenco di siti suddiviso in base alla loro tipologia, e strutturato in macro categorie a loro volta distinte in gruppi più analitici. La registrazione dei siti è effettuata manualmente da uno staff interno a Virgilio e ciò permette una classificazione efficiente e coerente con la suddivisione in categorie. Sono censiti solo i siti in lingua italiana, con l'unica esclusione di quelli i cui contenuti sono ritenuti non idonei, ad esempio quelli pornografici, violenti, ecc. La struttura basilare di Lycos è quella del classico search engine, con un database generato sia attraverso le richieste di registrazione fatte dagli utenti, sia mediante un programma detto spider che analizza automaticamente i siti Web e ne censisce le singole pagine. A differenza di altri motori di ricerca, la registrazione delle informazioni in Lycos non riguarda solo il testo contenuto nelle pagine Web, ma considera anche i riferimenti a singoli file quali immagini, documenti audio e video, ecc. Parallelamente all'archivio globale, Lycos gestisce un catalogo di siti suddiviso per argomenti ed una lista di siti ritenuti interessanti e valutati in base ai contenuti Lycos Excite Excite recensisce i siti che contengono cataloghi, ricerca i gruppi di discussione Usenet e classifica anche la pubblicità. La selezione si basa su una tecnologia molto potente denominata ICE (Intelligente Concept Extraction, estrazione intelligente dei concetti), e che consente di cercare non solo le pagine contenenti specificamente delle parole chiave, ma anche dei siti che trattano argomenti correlati con le parole oggetto della ricerca. Oggi parlare di Excite significa in realtà parlare di un network di siti che, include anche il motore Web Crawler, la directory Magellan, ed il motore di ricerca tematico City.net. Come Ricercare La ricerca può essere: – Semplice Quando viene ricercata una parola o un’espressione o un insieme di parole collegate tra loro con degli operatori Booleani o connettivi logici – Avanzata Quando nella ricerca vengono immessi altri criteri di selezione più complessi, al fine di affinare l’aderenza dei risultati Quali sono gli Operatori Booleani? AND = E OR = O NOT = E NON ADJ = ADIACENTE A NEAR = VICINO A AND = E Ricerca i documenti che contengono tutti i termini: es. roma AND vaticano trova i documenti che contengono sia il termine "roma" che il termine "vaticano". Equivale al segno più (+) es. roma+vaticano OR = O Ricerca i documenti che contengono, indifferentemente, uno dei termini : es. roma OR vaticano trova i documenti che contengono il termine "roma" e tutti i documenti che contengono il termine "vaticano". È l’operatore usato per default dai principali motori di ricerca NOT = E NON Ricerca i documenti che non contengono il termine preceduto dal NOT: es. roma NOT vaticano trova i documenti che contengono il termine "roma", ma non contengono il termine "vaticano". Equivale al segno meno (-) es. roma-vaticano n.b. - Alcuni motori richiedono AND NOT invece del semplice NOT ADJ, NEAR = ADIACENTE A, VICINO A ADJ (per adjacent) e NEAR sono gli operatori di prossimità e si utilizzano per collegare due o più termini che, nei documenti che stiamo cercando, devono presentarsi vicini o prossimi (per es., separati da un massimo di N parole --> il n° dei termini frapposti tra i due dipende dalle regole del motore di ricerca), ma in qualsiasi ordine: es. roma NEAR vaticano trova i documenti che contengono i termini "roma" e "vaticano" uno di seguito all'altro, in qualsiasi ordine, oppure all'interno di una frase, ma separati da non più di N parole. Altri suggerimenti " " ( ) racchiudendo una stringa di ricerca all'interno delle virgolette o delle parentesi tonde si ricerca l'esatta frase immessa: es. "i rapporti tra roma e il vaticano“ oppure (i rapporti tra roma e il vaticano) trova i documenti che contengono esattamente l'espressione "i rapporti tra roma e il vaticano" Connettivi logici Per apprendere meglio l’uso corretto degli operatori booleani nei motori di ricerca, approfondiamo i concetti di congiunzione, disgiunzione e negazione che sono alla base della logica delle proposizioni