Mail USB pen-drives and players eMule Informatica Applicata Prof.Emanuela Zilio 1 Come trovare e valutare l’informazione Le pagine informative immesse su Web sono decine di milioni, riguardano gli argomenti più vari, e provengono da fornitori di informazione di natura assai eterogenea. Si pongono dunque due problemi: come riuscire a trovare l'informazione che vogliamo in questa sterminata massa di documenti? come valutare la sua qualità, la sua veridicità ed affidabilità? Informatica Applicata Prof.Emanuela Zilio 2 Problema 1:valutare l’informazione Su questo secondo problema diciamo subito che non esistono ricette infallibili. Tutto sta nella capacità del navigatore di valutare, aiutato dall'esperienza e dal buon senso, ciò che ha individuato sulla rete. Ad esempio, se ci si collega alle pagine della NASA, si può avere la ragionevole certezza che le informazioni lì fornite siano affidabili e di livello scientifico. Se invece stiamo consultando la pagina personale di un appassionato di astronomia che sostiene di aver scoperto la vita su Marte, forse è meglio prendere con le molle le sue affermazioni. Informatica Applicata Prof.Emanuela Zilio 3 Problema 1:valutare l’informazione Gli 0100101110101101.ORG sono un gruppo italiano di net artisti nato probabilmente nel 1998 a Bologna, ed ha scelto l’arte come forma di critica sociale. Informatica Applicata Prof.Emanuela Zilio 4 Problema 1:valutare l’informazione Per tutto il 1999, digitando su qualsiasi browser (http://www.vaticano.org) si poteva accedere a un sito apparentemente ufficiale della Santa sede, esteticamente identico a quello ufficiale del Vaticano (www.vatican.va) ma con contenuti leggermente modificati: testi eretici, canzoni degli 883,informazioni turistiche per i pellegrini completamente sballate. Per 12 mesi migliaia di persone hanno consultato il sito senza rendersi conto della clamorosa beffa, rivelata soltanto quando, allo scadere del primo anno di contratto, Network Solutions non ne ha accettatoil rinnovo, rivendendolo a un'associazione cattolica. Informatica Applicata Prof.Emanuela Zilio 5 Problema 2: trovare l’informazione Quanto al primo problema — quello di 'scoprire' le pagine esistenti che si occupano di un determinato argomento — un ottimo aiuto ci viene dagli strumenti di ricerca delle informazioni disponibili in rete. Gli strumenti di ricerca delle informazioni su Web si dividono in due categorie che è bene non confondere: i cataloghi sistematici e i motori di ricerca. Informatica Applicata Prof.Emanuela Zilio 6 I cataloghi sistematici I cataloghi sistematici sono degli elenchi di siti e pagine Web organizzati in base ad uno schema di classificazione per argomento. Questi elenchi assomigliano molto agli schemi di classificazione usati dalle biblioteche per organizzare i loro libri. La classificazione dunque parte da categorie molto generali, ad esempio, 'arti e letteratura', e scende fino a categorie molto particolari, ad esempio gli 'scritti di Dante Alighieri', passando per un certo numero di categorie intermedie. Informatica Applicata Prof.Emanuela Zilio 7 Arbitrarietà Poiché questi elenchi sono compilati da esseri umani, e poiché (a differenza della classificazione bibliotecaria) non esistono standard riconosciuti, la scelta delle categorie e l'inserimento di una pagina in una categoria piuttosto che in altra può differire da un catalogo all'altro, e soprattutto dal nostro modo di vedere le cose. L'uso di un catalogo (o directory) di risorse, dunque, richiede una certa abilità. Informatica Applicata Prof.Emanuela Zilio 8 Esempio Se ad esempio non troviamo la 'letteratura italiana' nella categoria 'Arti e letteratura', possiamo cercare nella categoria 'Paesi', per scendere ad 'Italia', e cercare in quel contesto una voce del tipo 'letteratura' o 'cultura'. Con po' di esperienza, i cataloghi sistematici si rivelano degli ottimi strumenti per trovare su Internet informazioni su temi ed argomenti di una certa rilevanza. Informatica Applicata Prof.Emanuela Zilio 9 Dove trovarli Il più noto e completo tra questi cataloghi è Yahoo (il cui indirizzo è http://www.yahoo.com. Nato come esperimento universitario per iniziativa di due giovani studenti dell'università di Stanford (David Filo e Jerry Yang), è divenuto in pochi anni uno dei siti più visitati della rete (ed una miniera d'oro per i due, che nel frattempo si sono laureati). Informatica Applicata Prof.Emanuela Zilio 10 Yahoo Informatica Applicata Prof.Emanuela Zilio 11 e in Italia? I motori di ricerca italiani maggiormente utilizzati sono Libero e Virgilio http://www.virgilio.it. Tuttavia non sono veri motori di ricerca giacché si limitano ad usare Google. Libero lo usa evidenziandone chiaramente il logo, mentre Virgilio (Virgilio.it è peraltro diventato un redirect su Alice.it) ne usa i risultati senza evidenziarne la fonte ed aggiungendo solo propri risultati sponsorizzati (cosa facilmente verificabile dal confronto fra i risultati di Virgilio e quelli di Google, che si differenziano solo in caso di temporaneo disallineamento dei datacenter di Google stesso). Informatica Applicata Prof.Emanuela Zilio 12 Virgilio Informatica Applicata Prof.Emanuela Zilio 13 I motori di ricerca I motori di ricerca, invece, sono degli enormi archivi che indicizzano interamente (trasformano cioè in un elenco di parole corredate delle indicazioni circa la loro collocazione originaria) il contenuto testuale di milioni e milioni di singole pagine Web e che possono essere interrogati. La ricerca in questo caso avviene indicando uno o più termini chiave che, a nostro giudizio, delimitano il concetto o il tema di nostro interesse. Informatica Applicata Prof.Emanuela Zilio 14 I principali motori di ricerca Esistono numerosi motori di ricerca attivi sul web. Quello attualmente più utilizzato, su scala mondiale (con un indice che supera gli 8 miliardi di pagine), è Google; molto usati anche MSN (motore di ricerca della Microsoft) e Yahoo!. Informatica Applicata Prof.Emanuela Zilio 15 I principali motori di ricerca C'è stato il tentativo di creare il primo motore di ricerca europeo, Quaero, come competitore di Google con una iniziativa franco-germanica. Un progetto da 400 milioni di dollari abbandonato dopo pochi mesi per la rinuncia da parte dei tedeschi. Informatica Applicata Prof.Emanuela Zilio 16 I principali motori di ricerca La maggior parte dei motori di ricerca che opera sul web è gestito da compagnie private che utilizzano algoritmi proprietari e database tenuti segreti. Esistono comunque diversi tentativi di dar vita a motori di ricerca fondati sul software libero, alcuni esempi sono: HTdig, Nutch, Egothor e OpenFTS. Informatica Applicata Prof.Emanuela Zilio 17 I principali motori di ricerca: funzionamento Il lavoro dei motori di ricerca si divide principalmente in tre fasi: analisi del campo d'azione (tramite l'uso di crawler appositi); catalogazione del materiale ottenuto; risposta alle richieste dell'utente; Informatica Applicata Prof.Emanuela Zilio 18 Risultati della ricerca Talvolta i motori di ricerca sul web forniscono anche risultati sponsorizzati, ovvero mostrano in maggiore evidenza nelle SERP (Search Engine Result Pages, Pagine dei risultati dei motori di ricerca) siti web di aziende che pagano per risultare tra i primi risultati quando si cercano termini (detti keyword o parole chiave) che sono in relazione all'ambito di competenza dell'azienda stessa. Informatica Applicata Prof.Emanuela Zilio 19 motori di ricerca: ricerca avanzata La possibilità di raffinazione della ricerca varia da motore a motore, ma la maggior parte permette di utilizzare operatori booleani: ad esempio è possibile cercare "Ganimede AND satellite NOT coppiere" per cercare informazioni su Ganimede inteso come pianeta e non come figura mitologica. Informatica Applicata Prof.Emanuela Zilio 20 motori di ricerca: ricerca avanzata Su Google e sui motori più moderni è possibile raffinare la ricerca - lingua del documento, delle parole o frasi presenti o assenti, formato dei file (Microsoft Word, PDF, PostScript, ecc.), data di ultimo aggiornamento È anche possibile cercare contenuti presenti in un determinato sito, ad esempio “Ganimede site:nasa.gov” cercherà le informazioni su Ganimede presenti sul sito della NASA. Informatica Applicata Prof.Emanuela Zilio 21 Risultati della ricerca Come risultato si ottiene un elenco di pagine che contengono i termini indicati (il tutto, ovviamente, sotto forma di pagina Web con link attivi alle pagine elencate). Se vogliamo ad esempio cercare le pagine che si occupano di Lewis Carroll (l'autore di Alice nel paese delle meraviglie), potremo fornire al motore di ricerca le due parole 'Lewis' e 'Carroll'. Informatica Applicata Prof.Emanuela Zilio 22 Come costruire una query AND-OR In molti casi è possibile combinare le parole fornite utilizzando i cosiddetti operatori logici. AND OR NOT Informatica Applicata Prof.Emanuela Zilio 23 Come costruire una query AND AND: una ricerca con chiave '(Lewis AND Carroll)' ci fornirebbe tutte le pagine in cui compaiono entrambi i nomi. Informatica Applicata Prof.Emanuela Zilio 24 Come costruire una query OR OR: Ma, se sappiano che Lewis Carroll è uno pseudonimo del reverendo Dodgson potremmo fare una ricerca del tipo 'Lewis AND Carroll OR Dodgson', che ci restituirebbe le pagine in cui compaiono o i primi due termini insieme o il secondo o entrambi. Informatica Applicata Prof.Emanuela Zilio 25 Come costruire una query NOT NOT: escludiamo le pagine che contengono una certa chiave. Esistono anche altri operatori (ad esempio quello di prossimità 'NEAR'), ma i principali sono questi. Tenete presente però che il modo di utilizzarli varia da un motore di ricerca ad un altro. Informatica Applicata Prof.Emanuela Zilio 26 Filtrare i risultati Un altro aspetto di cui occorre tenere conto nell'uso di questi strumenti è il fatto che la ricerca viene effettuata da un programma. Il programma utilizzato non farà altro che cercare la sequenza di lettere da noi fornite nel suo archivio, senza capire assolutamente il loro significato. Così se cerchiamo “Dante”, troveremo sia le pagine dedicate al “sommo poeta”, sia le pagine dedicate al pittore e scrittore preraffaellita Dante Gabriele Rossetti, sia le pagine personali dei tanti Dante Rossi, o John Dante, appassionati di Internet. Informatica Applicata Prof.Emanuela Zilio 27 “Età” dei risultati Ricordate che gli archivi dei motori di ricerca vengono aggiornati periodicamente in modo automatico: può dunque capitare che non vengano presentate pagine di recente creazione, o che (assai più spesso) vengano elencate pagine che non sono più presenti sulla rete (la mortalità delle pagine Web è altissima). Informatica Applicata Prof.Emanuela Zilio 28 Motori di ricerca: prospettive future Le più recenti innovazioni nella produzione di algoritmi e di sistemi di Information Retrieval si basano sull'analisi semantica dei termini e sulla conseguente creazione di reti semantiche. Lo stesso Google ha adottato sistemi per la prevenzione dell'errore e la contestualizzazione dei risultati. È lecito prevedere che nel giro di alcuni anni i motori di ricerca baseranno le proprie tecnologie sia sull'analisi quantitativa dei contenuti (le parole in sé), sia soprattutto su quella qualitativa (il senso delle parole). Per muoversi in questa direzione Google ha acquisito Oingo (un tempo noto come "il motore dei concetti") e la tecnologia dell'azienda che lo creò, la Applied Semantics. Informatica Applicata Prof.Emanuela Zilio 29 Dove trovarli Tra i più noti e potenti motori di ricerca vi ricordiamo Google, (http://www.google.com) Yahoo (http://www.yahoo.com) MSN (http://it.msn.com) Windows Live Search(http://www.live.com) Virgilio (http://www.alice.it) Altavista (http://www.altavista.com) Tutti indicizzano decine di milioni di pagine (almeno stando alle stime fornite sugli stessi siti) ed offrono raffinati sistemi per delimitare le ricerche sia con operatori sia per data, lingua, collocazione di rete e così via. Informatica Applicata Prof.Emanuela Zilio 30