Mail
USB pen-drives and players
eMule
Informatica Applicata
Prof.Emanuela Zilio
1
Come trovare e valutare l’informazione
Le pagine informative immesse su Web sono decine di
milioni, riguardano gli argomenti più vari, e provengono
da fornitori di informazione di natura assai eterogenea. Si
pongono dunque due problemi:
 come riuscire a trovare l'informazione che
vogliamo in questa sterminata massa di documenti?
 come valutare la sua qualità, la sua veridicità ed
affidabilità?
Informatica Applicata
Prof.Emanuela Zilio
2
Problema 1:valutare l’informazione
Su questo secondo problema diciamo subito che
non esistono ricette infallibili. Tutto sta nella
capacità del navigatore di valutare, aiutato
dall'esperienza e dal buon senso, ciò che ha
individuato sulla rete.
Ad esempio, se ci si collega alle pagine della NASA,
si può avere la ragionevole certezza che le
informazioni lì fornite siano affidabili e di livello
scientifico. Se invece stiamo consultando la pagina
personale di un appassionato di astronomia che
sostiene di aver scoperto la vita su Marte, forse è
meglio prendere con le molle le sue affermazioni.
Informatica Applicata
Prof.Emanuela Zilio
3
Problema 1:valutare l’informazione
Gli 0100101110101101.ORG sono un gruppo italiano di
net artisti nato probabilmente nel 1998 a Bologna, ed ha
scelto l’arte come forma di critica sociale.
Informatica Applicata
Prof.Emanuela Zilio
4
Problema 1:valutare l’informazione
Per tutto il 1999, digitando su qualsiasi browser
(http://www.vaticano.org) si
poteva accedere a un sito
apparentemente ufficiale della Santa sede,
esteticamente identico a quello ufficiale del
Vaticano (www.vatican.va) ma con contenuti
leggermente modificati: testi eretici, canzoni
degli 883,informazioni turistiche per i
pellegrini completamente sballate. Per 12 mesi
migliaia di persone hanno consultato il sito
senza rendersi conto della clamorosa beffa,
rivelata soltanto quando, allo scadere del
primo anno di contratto, Network Solutions
non ne ha accettatoil rinnovo, rivendendolo a
un'associazione cattolica.
Informatica Applicata
Prof.Emanuela Zilio
5
Problema 2: trovare l’informazione
Quanto al primo problema — quello di 'scoprire' le pagine
esistenti che si occupano di un determinato argomento —
un ottimo aiuto ci viene dagli strumenti di ricerca delle
informazioni disponibili in rete.
Gli strumenti di ricerca delle informazioni su Web si
dividono in due categorie che è bene non confondere: i
cataloghi sistematici e i motori di ricerca.
Informatica Applicata
Prof.Emanuela Zilio
6
I cataloghi sistematici
I cataloghi sistematici sono degli elenchi di siti e pagine Web
organizzati in base ad uno schema di classificazione per
argomento. Questi elenchi assomigliano molto agli schemi di
classificazione usati dalle biblioteche per organizzare i loro
libri.
La classificazione dunque parte da categorie molto generali,
ad esempio, 'arti e letteratura', e scende fino a categorie
molto particolari, ad esempio gli 'scritti di Dante Alighieri',
passando per un certo numero di categorie intermedie.
Informatica Applicata
Prof.Emanuela Zilio
7
Arbitrarietà
Poiché questi elenchi sono compilati da
esseri umani, e poiché (a differenza
della classificazione bibliotecaria) non
esistono standard riconosciuti, la scelta
delle categorie e l'inserimento di una
pagina in una categoria piuttosto che in
altra può differire da un catalogo
all'altro, e soprattutto dal nostro modo
di vedere le cose. L'uso di un catalogo
(o directory) di risorse, dunque,
richiede una certa abilità.
Informatica Applicata
Prof.Emanuela Zilio
8
Esempio
Se ad esempio non troviamo la 'letteratura italiana' nella
categoria 'Arti e letteratura', possiamo cercare nella
categoria 'Paesi', per scendere ad 'Italia', e cercare in
quel contesto una voce del tipo 'letteratura' o 'cultura'.
Con po' di esperienza, i cataloghi sistematici si rivelano
degli ottimi strumenti per trovare su Internet
informazioni su temi ed argomenti di una certa
rilevanza.
Informatica Applicata
Prof.Emanuela Zilio
9
Dove trovarli
Il più noto e completo tra questi cataloghi è Yahoo (il
cui indirizzo è http://www.yahoo.com.
Nato come esperimento universitario per iniziativa di
due giovani studenti dell'università di Stanford (David
Filo e Jerry Yang), è divenuto in pochi anni uno dei siti
più visitati della rete (ed una miniera d'oro per i due,
che nel frattempo si sono laureati).
Informatica Applicata
Prof.Emanuela Zilio
10
Yahoo
Informatica Applicata
Prof.Emanuela Zilio
11
e in Italia?
I motori di ricerca italiani maggiormente utilizzati sono Libero e
Virgilio http://www.virgilio.it. Tuttavia non sono veri motori di
ricerca giacché si limitano ad usare Google. Libero lo usa
evidenziandone chiaramente il logo, mentre Virgilio (Virgilio.it è
peraltro diventato un redirect su Alice.it) ne usa i risultati senza
evidenziarne la fonte ed aggiungendo solo propri risultati
sponsorizzati (cosa facilmente verificabile dal confronto fra i
risultati di Virgilio e quelli di Google, che si differenziano solo in
caso di temporaneo disallineamento dei datacenter di Google
stesso).
Informatica Applicata
Prof.Emanuela Zilio
12
Virgilio
Informatica Applicata
Prof.Emanuela Zilio
13
I motori di ricerca
I motori di ricerca, invece, sono degli enormi archivi che
indicizzano interamente (trasformano cioè in un elenco di
parole corredate delle indicazioni circa la loro
collocazione originaria) il contenuto testuale di milioni e
milioni di singole pagine Web e che possono essere
interrogati.
La ricerca in questo caso avviene indicando uno o più
termini chiave che, a nostro giudizio, delimitano il
concetto o il tema di nostro interesse.
Informatica Applicata
Prof.Emanuela Zilio
14
I principali motori di ricerca
Esistono numerosi motori di ricerca attivi sul web.
Quello attualmente più utilizzato, su scala mondiale (con
un indice che supera gli 8 miliardi di pagine), è Google;
molto usati anche MSN (motore di ricerca della Microsoft)
e Yahoo!.
Informatica Applicata
Prof.Emanuela Zilio
15
I principali motori di ricerca
C'è stato il tentativo di creare il primo motore di ricerca
europeo, Quaero, come competitore di Google con una
iniziativa franco-germanica. Un progetto da 400 milioni
di dollari abbandonato dopo pochi mesi per la rinuncia
da parte dei tedeschi.
Informatica Applicata
Prof.Emanuela Zilio
16
I principali motori di ricerca
La maggior parte dei motori di ricerca che opera sul web
è gestito da compagnie private che utilizzano algoritmi
proprietari e database tenuti segreti.
Esistono comunque diversi tentativi di dar vita a motori
di ricerca fondati sul software libero, alcuni esempi
sono: HTdig, Nutch, Egothor e OpenFTS.
Informatica Applicata
Prof.Emanuela Zilio
17
I principali motori di ricerca: funzionamento
Il lavoro dei motori di ricerca si divide principalmente in
tre fasi:
 analisi del campo d'azione (tramite l'uso di crawler
appositi);
 catalogazione del materiale ottenuto;
 risposta alle richieste dell'utente;
Informatica Applicata
Prof.Emanuela Zilio
18
Risultati della ricerca
Talvolta i motori di ricerca sul web forniscono anche
risultati sponsorizzati, ovvero mostrano in maggiore
evidenza nelle SERP (Search Engine Result Pages, Pagine
dei risultati dei motori di ricerca) siti web di aziende
che pagano per risultare tra i primi risultati quando si
cercano termini (detti keyword o parole chiave) che
sono in relazione all'ambito di competenza dell'azienda
stessa.
Informatica Applicata
Prof.Emanuela Zilio
19
motori di ricerca: ricerca avanzata
La possibilità di raffinazione della ricerca varia da
motore a motore, ma la maggior parte permette di
utilizzare operatori booleani: ad esempio è possibile
cercare "Ganimede AND satellite NOT coppiere" per
cercare informazioni su Ganimede inteso come
pianeta e non come figura mitologica.
Informatica Applicata
Prof.Emanuela Zilio
20
motori di ricerca: ricerca avanzata
Su Google e sui motori più moderni è possibile
raffinare la ricerca
-
lingua del documento,
delle parole o frasi presenti o assenti,
formato dei file (Microsoft Word, PDF, PostScript, ecc.),
data di ultimo aggiornamento
È anche possibile cercare contenuti presenti in un
determinato sito, ad esempio “Ganimede site:nasa.gov”
cercherà le informazioni su Ganimede presenti sul sito della
NASA.
Informatica Applicata
Prof.Emanuela Zilio
21
Risultati della ricerca
Come risultato si ottiene un elenco di
pagine che contengono i termini indicati (il
tutto, ovviamente, sotto forma di pagina
Web con link attivi alle pagine elencate).
Se vogliamo ad esempio cercare le pagine
che si occupano di Lewis Carroll (l'autore di
Alice nel paese delle meraviglie), potremo
fornire al motore di ricerca le due parole
'Lewis' e 'Carroll'.
Informatica Applicata
Prof.Emanuela Zilio
22
Come costruire una query AND-OR
In molti casi è possibile combinare le parole fornite
utilizzando i cosiddetti operatori logici.
AND
OR
NOT
Informatica Applicata
Prof.Emanuela Zilio
23
Come costruire una query AND
AND:
una ricerca con chiave '(Lewis AND Carroll)' ci fornirebbe
tutte le pagine in cui compaiono entrambi i nomi.
Informatica Applicata
Prof.Emanuela Zilio
24
Come costruire una query OR
OR: Ma, se sappiano che Lewis Carroll è uno pseudonimo
del reverendo Dodgson potremmo fare una ricerca
del tipo 'Lewis AND Carroll OR Dodgson', che ci
restituirebbe le pagine in cui compaiono o i primi
due termini insieme o il secondo o entrambi.
Informatica Applicata
Prof.Emanuela Zilio
25
Come costruire una query NOT
NOT: escludiamo le pagine che contengono una
certa chiave. Esistono anche altri operatori (ad
esempio quello di prossimità 'NEAR'), ma i principali
sono questi. Tenete presente però che il modo di
utilizzarli varia da un motore di ricerca ad un altro.
Informatica Applicata
Prof.Emanuela Zilio
26
Filtrare i risultati
Un altro aspetto di cui occorre tenere conto nell'uso di
questi strumenti è il fatto che la ricerca viene effettuata
da un programma. Il programma utilizzato non farà altro
che cercare la sequenza di lettere da noi fornite nel suo
archivio, senza capire assolutamente il loro significato.
Così se cerchiamo “Dante”, troveremo sia le pagine
dedicate al “sommo poeta”, sia le pagine dedicate al
pittore e scrittore preraffaellita Dante Gabriele Rossetti,
sia le pagine personali dei tanti Dante Rossi, o John
Dante, appassionati di Internet.
Informatica Applicata
Prof.Emanuela Zilio
27
“Età” dei risultati
Ricordate che gli archivi dei motori di ricerca
vengono aggiornati periodicamente in modo
automatico: può dunque capitare che non
vengano presentate pagine di recente
creazione, o che (assai più spesso) vengano
elencate pagine che non sono più presenti sulla
rete (la mortalità delle pagine Web è altissima).
Informatica Applicata
Prof.Emanuela Zilio
28
Motori di ricerca: prospettive future
Le più recenti innovazioni nella produzione di algoritmi e di sistemi
di Information Retrieval si basano sull'analisi semantica dei
termini e sulla conseguente creazione di reti semantiche. Lo
stesso Google ha adottato sistemi per la prevenzione dell'errore
e la contestualizzazione dei risultati.
È lecito prevedere che nel giro di alcuni anni i motori di ricerca
baseranno le proprie tecnologie sia sull'analisi quantitativa dei
contenuti (le parole in sé), sia soprattutto su quella qualitativa
(il senso delle parole).
Per muoversi in questa direzione Google ha acquisito Oingo (un
tempo noto come "il motore dei concetti") e la tecnologia
dell'azienda che lo creò, la Applied Semantics.
Informatica Applicata
Prof.Emanuela Zilio
29
Dove trovarli
Tra i più noti e potenti motori di ricerca vi ricordiamo
 Google,
(http://www.google.com)
 Yahoo
(http://www.yahoo.com)
 MSN
(http://it.msn.com)
 Windows Live Search(http://www.live.com)
 Virgilio
(http://www.alice.it)
 Altavista
(http://www.altavista.com)
Tutti indicizzano decine di milioni di pagine (almeno stando alle stime
fornite sugli stessi siti) ed offrono raffinati sistemi per delimitare le
ricerche sia con operatori sia per data, lingua, collocazione di rete e
così via.
Informatica Applicata
Prof.Emanuela Zilio
30
Scarica

2_motori_di_ricerca_e_devices_1