Internet ed il World Wide Web
Monica Bianchini
Dipartimento di Ingegneria dell’Informazione
E-mail: [email protected]
Sommario
Introduzione: le reti di calcolatori
Internet: indirizzamento e protocolli di
comunicazione
Il World Wide Web: come funziona e a
cosa serve
Ricerca di informazione sul Web
Parte 1
Introduzione
Introduzione  1
 Una rete è costituita da due o più computer collegati
tra loro in modo tale da permettere flusso di
informazione
 La più grande rete esistente al mondo è Internet:
ogni computer connesso ad Internet è in grado di
comunicare con tutti i computer collegati
Introduzione  2
 “Internet ha rivoluzionato il mondo dei calcolatori e
della comunicazione come nulla aveva fatto prima. È
allo stesso tempo capacità di diffusione a livello
mondiale,
un
meccanismo
per
disseminare
informazioni ed un mezzo per collaborazione ed
interazione fra individui ed i loro calcolatori, senza
riguardo alla collocazione geografica.” (Leiner et al.,
“A brief history of the Internet”, Feb. `97,
http://www.isoc.org/internet–history)
 Internet offre una notevole varietà di servizi
informativi: posta elettronica, ftp, login remoto,
accesso a newsgroup, etc.; il WWW è di gran lunga il
più conosciuto
Reti locali
 Una rete locale — LAN (Local Area Network) — connette
dispositivi hardware che si trovano fisicamente vicini, nello stesso
edificio o nella stessa università
 Per le LAN, il proprietario delle macchine è anche il proprietario
dei mezzi di comunicazione: non occorre acquistare servizi forniti
da terzi, come la compagnia telefonica
 Il modello più diffuso di LAN è chiamato Ethernet
 Sono oltre 60 milioni nel mondo gli utenti stimati delle LAN basate
su Ethernet
Reti geografiche
 Una rete geografica — WAN (Wide Area Network) — connette
dispositivi che possono essere ai poli opposti della stessa città o in
città vicine (in questo caso si parla più propriamente di MAN —
Metropolitan Area Network) o dall’altra parte dell’oceano
 Poiché le WAN attraversano proprietà pubbliche, gli utenti di una
WAN devono acquistare servizi di telecomunicazione
 Le WAN sono connesse tramite
linee di comunicazione punto–a–
punto che collegano direttamente
due calcolatori, anziché per
mezzo
di
canali
condivisi,
normalmente utilizzati per le
LAN
Servizi di rete
 Condivisione delle risorse — sia fisiche (memorie di massa,
periferiche) che logiche (dati, software)
 Condivisione delle informazioni — accesso ad informazioni
remote, di carattere scientifico, medico, legale, commerciale
 Posta elettronica — conveniente (può essere scritta/letta a
qualsiasi ora del giorno e della notte), veloce (un messaggio dagli
USA arriva in meno di un minuto), economica (i costi di
trasmissione non dipendono dalla distanza); “documenti” di
qualsiasi tipo (file, archivi, foto, musica) possono essere acclusi
in allegato
Parte 2
Internet
La storia di Internet  1
 Internet è la rete telematica più grande del mondo, per
estensione geografica e per numero di utenti
 Nel periodo della guerra fredda, il governo USA sollecitò la
creazione di DARPA, Defense Advanced Research Project
Agency, una struttura del Dipartimento della Difesa con il
compito di mantenere le comunicazioni in caso di attacco
nucleare
 Fu Paul Baran a ipotizzare, in un documento dal titolo On
Distributed Communication Networks, la creazione di una rete
priva di autorità centrale, in cui tutti i nodi fossero
indipendenti, di pari gerarchia ed in grado di originare, passare e
ricevere messaggi (indipendentemente dalla tipologia dei
computer collegati)
La storia di Internet  2
 I messaggi dovevano essere scomposti in pacchetti, ognuno dei
quali in grado di raggiungere la propria destinazione seguendo un
percorso qualsiasi, qualora quello stabilito fosse interrotto
 Nel 1965, il DARPA finanziò uno studio sulle reti cooperative di
computer
 Nel 1969, il Dipartimento della Difesa commissionò ARPANET,
con lo scopo di promuovere la ricerca per un piano di rete
nazionale militare; il primo collegamento fu stabilito tra due
computer dell’Università della California (UCLA) e dello Stanford
Research Institute
La storia di Internet  3
 Internet non è gestita da alcuna istituzione politica,
culturale o economica, ma da un gruppo di volontari,
conosciuto come ISOC (Internet Society )
 Fornire le dimensioni di Internet è impossibile: si calcola vi
siano centinaia di milioni di utenti, localizzati in ogni paese
del mondo; la crescita esponenziale di Internet continua
Le tappe fondamentali
1969  primo nodo di ARPANET
1971  ARPANET conta 15 nodi
1972  ARPANET congiunge 37 nodi
1973  prima connessione internazionale
fra Inghilterra e Norvegia
1976  la regina Elisabetta è il primo
capo di stato a spedire e-mail;
Jimmy Carter e Walter Mondale
coordinano la campagna elettorale
via e-mail (4$ a messaggio)
1979  fu inaugurata Usenet
1982  nasce il protocollo TCP/IP
1983  la rete conta più di mille nodi;
MILNET (rete militare) si scinde
da ARPANET (rete di ricerca del
mondo universitario)
1984  nasce la prima comunità virtuale, The
Well (Whole Earth Electronic Link)
1987  10000 host; nasce NSFnet (58 kbps)
1989  100000 host
1990  ARPANET diviene Internet, Tim
Berners-Lee del CERN di Ginevra
progetta il WWW; nasce l’HTML
1991  primi software di navigazione (Gopher)
1992  nasce il protocollo HTTP
1993  prima versione (gratuita) di Mosaic, il
primo browser grafico
1994  Netscape distribuisce gratuitamente
via Internet, la versione beta del
Navigator
1995  Microsoft realizza Explorer, sulla base
di Mosaic
Internet: la rete delle reti
 Conseguentemente ad ARPANET, nacquero HEPNet (High
Energy Physics Network), CSNET (Computer Science Network),
SPAN (Space Physics Access Network), etc., per supportare lo
scambio di informazione scientifica nelle specifiche aree di
ricerca
 La proliferazione rapida e non pianificata di reti indipendenti
causa incompatibilità e ostacola la comunicazione fra utenti di
reti distinte
 Internetworking — ogni WAN è libera di gestire autonomamente
la comunicazione al suo interno, ma deve utilizzare uno schema
comune di indirizzamento e protocolli identici per interfacciarsi
alle altre reti
 Internet diviene la rete delle reti — reti distinte si
interconnettono attraverso gateway, che realizzano la
connessione effettiva e forniscono i servizi di routing fra le
diverse WAN
Indirizzamento
 Uno schema globale e gerarchico di indirizzamento identifica
univocamente ogni utente ovunque localizzato nel mondo:
[email protected]
identifica l’utente “Monica (Bianchini)”, con un account su un
calcolatore il cui indirizzo di rete è rappresentato da ciò che sta
a destra di at, @; il calcolatore è situato nel Dipartimento di
Ingegneria dell’Informazione (dii) dell’Università di Siena (unisi),
in Italia (it)
 Lo schema gerarchico di indirizzamento, che procede dallo
specifico al generale, è chiamato Domain Name System (DNS)
 Nella realtà, gli indirizzi di Internet sono numeri binari a 32 bit:
gli indirizzi simbolici — più facili da memorizzare — sono
convertiti automaticamente negli indirizzi numerici prima della
trasmissione di dati sulla rete
Protocolli di comunicazione
 In informatica, le regole comuni per lo scambio di informazioni
vengono definite protocolli — “usi e norme che regolano le
formalità, il diritto di precedenza e di cerimoniale diplomatico ”:
definizione che si adatta perfettamente al contesto della
trasmissione dell’informazione
 TCP/IP — Transmission Control Protocol/Internet Protocol,
descrive le regole e le procedure cui le diverse WAN devono
attenersi per indirizzamento, formato dei messaggi, routing e
controllo degli errori: è il linguaggio comune parlato dalle reti di
tutto il mondo
Internet: la diffusione  1
 Dalle origini al gennaio 2000, Internet è cresciuto fino a più di
72.4 milioni di calcolatori localizzati in ogni parte del mondo, ed
il DNS include estensioni per 239 paesi, territori e
possedimenti, compresi il continente antartico (.aq), Guinea
Bissau (.gw), le isole Cocos (.cc), Pitcairn (.pn), etc.
 Secondo uno studio dell’americana Telcordia Technologies, il
numero degli Internet host presenti nel mondo avrebbe
superato i 100 milioni nel 2000
 Questo dato rappresenta un incremento del 45% rispetto al 1999
 Nel 2000, gli utenti di Internet sono circa 3.4 per host, con un
totale mondiale vicino ai 350 milioni
 Negli USA il rapporto utenti/host è 2.4, nei paesi meno
industrializzati (come la Cina) arriva anche a 100
Internet: la diffusione  2
 Negli USA, l’ultima parte del DNS non identifica lo stato, ma il
tipo di sito: commerciale (.biz, .com), universitario (.edu),
governativo (.gov), militare (.mil), organizzazioni no profit (.org)
 I principali servizi offerti (tramite TCP/IP) sono il telnet, per
realizzare il login remoto, l’FTP (File Transfer Protocol) per il
trasferimento di file da macchine remote, l’SMTP (Simple Mail
Transfer Protocol ) per la posta, ed il World Wide Web per la
condivisione di informazione ipertestuale, che si avvale del
protocollo HTTP (HyperText Transfer Protocol )
 199095: In italia si passa da 650 a 45000 host
 Luglio 2000: 1574000 host in Italia
 Attualmente: Internet sta crescendo vertiginosamente (e sta
cambiando) ad opera della più importante applicazione sviluppata
dopo l’e–mail, il WWW
Parte 3
Il World Wide Web
Internet, ovvero… il World Wide Web  1
 WWW: Whatever, Wherever, Whenever
 WWW: World Wide Wait (l’attesa planetaria)
 Information Nirvana
 “Internet è la più grande anarchia operante nel mondo.” (Kevin Kelly)
 Internet è la passeggiata curiosa in un grande mercato delle pulci, dove ci
si può divertire a cercare notizie sugli extraterrestri, conoscere il canto
degli uccelli australiani o scambiarsi opinioni sul gioco delle bocce
 “Internet è l’equivalente dell’invenzione di una città.” (William Gibson)
 Ognuno proietta su Internet quello che fa (o avrebbe voluto fare) nella
vita “reale”: un ospedale virtuale, un supermercato elettronico, una galleria
con le emozioni vissute…
 “Il desiderio di Internet è così intenso che può essere compreso solo come
un fatto spirituale. Quel desiderio indica che c’è qualcosa che manca nella
nostra vita. E quello che manca è la voce umana. Il Web promette il ritorno
della voce umana.” (David Weinberger)
Internet, ovvero… il World Wide Web  2
 Ogni sito è un punto di vista su Internet
 Internet non è né buono né cattivo, ma un semplice mezzo per l’uso e
l’abuso; siamo noi che gli diamo l’anima, la nostra, buona o cattiva; inutile
lodare, inutile maledire
 “Sembra che il nuovo medium assomigli ad un test di Rorscahch, un blob
elettronico all’interno del quale ognuno proietta fantasie, desideri e
timori per la società. I tradizionalisti trovano le forze oscure della
degenerazione. I libertari trovano la mano pesante del governo. La
sinistra trova una nuova comunità, priva della materiale avarizia del
busisness privato.” (Eli Noam, direttore del Columbia Institute for
TeleInformation)
 Cercare informazioni su Internet equivale a versare un aperitivo con la
pompa della benzina
 Internet è la “Mecca dei grafomani”
 Internet è quel posto dove tutti navigano per trovare un motivo per
navigare
Internet, ovvero… il World Wide Web  3
 Il motore a vapore all’inizio non ha cambiato la vita che di poche
persone; ma quando è stato montato su una locomotiva e messo sulle
rotaie, la società intera è stata trasformata. Il computer è il motore a
vapore, Internet le rotaie. Saranno le rotaie di Internet a diffondere la
“rivoluzione digitale” e a cambiare il mondo.
 “La nuova Internet sarà questa: non più utenti che comunicano fra di
loro via computer, bensì computer in rete 24 ore su 24 che comunicano
tra loro per conto degli utenti.” (Philip Greenspun, MIT, Boston)
 Internet è quella realtà nella quale gli investitori pagano prezzi assurdi
per azioni di aziende di cui non sanno spiegare il business
 “La parola più ricercata su Internet: SEX” (Deb Levine, autrice di “The
Joy of Cybersex”)
 “Internet è un vero e proprio <<campo di prova>> per migliorare le
proprie capacità di <<flirting>> o fare errori relazionali senza rischiare
(si può rimanere anonimi), trovare supporto e costruire la propria
<<self-confidence>>.” (Deb Levine)
Il World Wide Web
 Grazie al Web stiamo assistendo ad una rivoluzione nell’accesso
alle fonti di informazione
 Cercare nel Web è come accedere ad un’enciclopedia di miliardi
di pagine senza un indice né un ordine apparente
 La e–revolution avrà un enorme impatto in tutti i campi del
sapere e nella nostra vita quotidiana
 Il Web ha cambiato completamente le nostre aspettative da una
fonte di informazione: il Web si modifica ed evolve
costantemente
 Come rappresentiamo e misuriamo il Web ha un severo impatto
nei metodi di ricerca che riusciamo a modellare
 3 utenti su 5 cercano nel Web sottoponendo query
(interrogazioni) a motori di ricerca come Google o Altavista
Il Web italiano  1
 Il motore di ricerca italiano Il Trovatore ha raccolto
i dati 2002 sulle dimensioni del Web italiano:
Dall’analisi di circa 260mila siti italiani è emerso che il
Web Italiano (it, sm, va) era costituito da circa 48
milioni di pagine
Aumentano considerevolmente i link che portano a
pagine non più esistenti (rispetto al 2001 viene
registrato un incremento del 110%: dai 700000 “File
not Found ”del 2001, ai 1472000 del 2002)
Il Web italiano  2
 Al 2002, sono circa 45.7 milioni le pagine Web
raggiungibili nella rete italiana: tra queste 553.000
pagine presentano un redirect verso un altro sito
contro le 500.000 del 2001, con un aumento del
10.6%  tendenza all’acquisto di domini o cambi di
provider
 52.000 pagine Web richiedono la password per
l’accesso, con un incremento del 73% circa rispetto al
2001, quando le pagine erano 30.000  aumento di
siti con accesso ristretto, procedura prevista per i
servizi a pagamento o per intranet aziendali
L’informazione ipertestuale  1
 Ipertesto — raccolta di documenti connessi da puntatori, gli
hyperlink; un documento contenente informazione ipertestuale è
una pagina, nel linguaggio del Web
 Lo standard linguistico per la scrittura di pagine è HTML —
Hypertext Markup Language
 Navigare sul Web significa accedere a pagine successive,
utilizzando i link per spostarsi da pagina a pagina
 I documenti ipertestuali possono essere
memorizzati ovunque nei miliardi di
computer collegati ad Internet e un link
è il nome di una pagina e l’indirizzo
Internet della
macchina su cui è
memorizzata
L’informazione ipertestuale  2
 Un link di un ipertesto fa riferimento ad un URL (Uniform
Resource Locator ),
protocollo://indirizzo_Internet/risorsa
“protocollo” indica la natura dell’informazione contenuta
nella pagina (http(s) : ipertesto; ftp: file download; news :
per informazioni da bollettini e newsgroup; mailto: web–
mail)
 “indirizzo_Internet” è l’indirizzo DNS della macchina
su cui la pagina è locata
 “risorsa” è l’identificativo della risorsa, un file
memorizzato sulla macchina specificata
http://www–dii.ing.unisi.it/people.html
L’informazione ipertestuale  3
 Quando si “clicca” su un link, la rete utilizza i protocolli TCP/IP–
HTTP per stabilire una connessione tra la macchina dell’utente e
la macchina remota il cui indirizzo Internet è puntato dall’URL
 Quando la connessione è stabilita, la pagina richiesta viene
trasferita alla macchina dell’utente e visualizzata sullo schermo:
il fetch (reperimento) delle pagine e la loro visualizzazione è
gestita da un browser (Netscape, MS Explorer)
 Il WWW è la “killer app ”, l’applicazione dalla crescita più rapida
e la più importante di Internet
Numero di anni per raggiungere 50.000.000 di utenti
38 years
13 years
16 years
4 years
Internet
Radio
Televisione
PC
Il commercio elettronico
 Termine applicato all’utilizzo del Web per lo scambio di merci,
informazioni e servizi nel settore commerciale
 I primi servizi offerti dall’e–commerce riguardavano soprattutto
aspetti di e–business, con l’emissione di bonifici, l’attivazione di
sportelli automatici per la gestione di transazioni finanziarie da siti
remoti, l’utilizzo di dispositivi di lettura alle casse per la raccolta
automatica di informazioni di vendita
 I POS (Point of Sale) per la lettura di carte di credito e Bancomat
sono esempi di servizi di e–business
 Più recentemente, con il WWW, si è assistito alla diffusione del
servizio in maniera capillare; i siti commerciali offrono tour interattivi
nei loro negozi virtuali
 In rete possono essere acquistati — con transazioni sicure — libri, cd
musicali, dvd, magliette, generi alimentari, che vengono rapidamente
recapitati a domicilio
Commercio elettronico in Italia
 Nella sua accezione più sommaria, il commercio elettronico è il
risultato di un insieme di transazioni commerciali svolte
attraverso un processo telematico
 Tuttavia, il Ministero dell'Industria,
dell'Artigianato lo definisce come…
del
Commercio
e
 «L'E-Commerce […] consiste nello svolgimento di attività commerciali
e di transazioni per via elettronica e comprende attività diverse
quali: la commercializzazione di beni e servizi per via elettronica, la
distribuzione on-line di contenuti digitali, l'effettuazione per via
elettronica di operazioni finanziarie e di borsa, gli appalti pubblici
per via elettronica ed altre procedure di tipo transattivo della
pubblica Amministrazione »
 Le società multizionali per tecnologiche avanzate (come Cisco e
Oracle) sono state tra le prime che hanno trasferito i loro
acquisti e gran parte delle loro vendite sul Web
Sicurezza in rete
 Dalla rapida crescita delle transazioni economiche sulla rete
proviene la necessità di incrementare la sicurezza ; se un hacker
rubasse i numeri delle carte di credito usate per acquisti on–line
o ottenesse l’accesso agli archivi di una banca, potrebbero
verificarsi perdite economiche catastrofiche
 La sicurezza in rete coinvolge:
 il problema dell’autenticazione (verifica dell’identità di chi
effettua la transazione)
 il problema della crittazione/decrittazione (per la sicurezza
dell’informazione durante la trasmissione)
 la tolleranza ai guasti (per la sicurezza delle transazioni in
presenza di guasti software/hardware)
Parte 4
Ricerca di informazione
sul Web
Perché non è facile trovare
informazione sul Web?
 Enorme massa di informazione —
20 miliardi di pagine (stimate), 3
milioni di pagine aggiunte ogni
giorno; il Web raddoppia ogni 2 anni
 L’informazione è spesso accessibile solo attraverso maschere di
ricerca
 I motori di ricerca indicizzano le pagine con circa 15 giorni di
ritardo
 Poca o nessuna possibilità di personalizzare i tool (strumenti) di
ricerca
Attualità e previsioni  1
Asilomar Report su ricerca su Database:
“The majority of human information will be on the Web in ten years. It will be an
exabyte (260 1018) spread across the planet in many formats. Absent new tools,
finding and understanding answers to our questions will be even harder than it is today.”
Nuove prospettive di calcolo:
“Internet è il computer, il browser, il sistema operativo, etc.  Universal & pervasive
computation.”
E-commerce:
 “By 2003, the Internet will become the predominant mechanism for conducting
business either to consumers or between businesses.” — Gartner Group
 “5% of the world's commerce, $3.2 trillion, will be Internet–based by 2003.” —
Forrester Research
Popular Press:
“The Internet is the Gutenberg press on steroids. Gutenberg wasn't about how many
Bibles were printed, but the fact that you no longer had to listen to the clerics. You could
read it yourself and make your own interpretations.” — W. Wacker
Attualità e previsioni  2
 Ci saranno più di 765 milioni di utenti nel mondo  118 ogni 1000
persone  alla fine del 2005, in base a quanto stimato dal CIA
(Computer Industry Almanac)
 La quota di utenti Internet statunitensi è destinata a calare dal
43% del totale di utenti nel mondo alla fine del 1999 al 27% per la
fine del 2005
 L’Europa dell’ovest sta crescendo più velocemente del nord America
ed è destinata a diventare la seconda area nel 2005 con più di 213
milioni di utenti
 La regione AsiaPacifico sta crescendo ancora più velocemente ed
avrà approssimativamente 190 milioni di utenti nel 2005
 La quota di utilizzatori in centro e sud America, e Africa, sta
crescendo più lentamente, in particolare in Africa (studi hanno
dimostrato che esiste una connessione diretta tra livello culturale,
occupazione ed utilizzo di Internet)
Internet interplanetario
Misurare il Web
 Statistiche utili: numero di pagine, di server, di domain name,
durata e dimensione delle pagine, duplicati, lingue
 Analisi della connettività: numero di link, raggiungibilità delle
pagine, “diametro” e struttura del Web
 Modelli matematici: grafi, sistemi evolutivi
 Dinamiche: numero di accessi, velocità di crescita, proprietà
emergenti
Il modello a papillon
Modello generato dalla
dalla raccolta di 200
milioni di pagine
Il raggio del “core” è
stimato pari a 19 clic
Stima delle dimensioni del Web
(Febbraio `99)
 Campionamento casuale dello spazio degli indirizzi: 2564, cioè
4.3 miliardi; testati 3.6 milioni di indirizzi IP
 Molti siti riproducono la stessa informazione con indirizzi IP
distinti (mirror) per ottenere ridondanza nell’informazione ed un
minor carico di accessi per sito
 Molti server non appartengono al “Publicly Indexable Web
(PIW)”  16 milioni di Web server di cui solo 2.8 milioni
appartengono al PIW
 Marzo 2003: 39.174.349 Web server
Quante pagine Web? (19992000)
 22.5 miliardi di pagine effettive
 Northern Light: 650 milioni di pagine nel Giugno ‘99
 Inktomi: oltre 800 milioni di pagine nel Giugno ’99; almeno 1
miliardo di pagine nel Gennaio ‘00
 Internet Archive: 1.2 miliardi di URL nel Giugno ‘99
 Google: 1 miliardo di pagine raccolte nel Giugno ‘00
Deep Web  1
 Il “deep Web” è rappresentato
da tutti i siti inaccessibili ai
motori di ricerca tradizionali:
500 miliardi di documenti
racchiusi in oltre 100.000 siti
che permettono di accedere
dinamicamente ad informazioni
strutturate nei propri archivi
 I motori di ricerca censiscono
solo le singole pagine statiche
dei siti, e cioè il “surface
Web”
Deep Web  2
 Il 95% del deep Web è accessibile liberamente ai navigatori della
rete
 Principali categorie di siti del deep Web: database medici,
finanziari, brevetti, etc. (54%); siti aziendali consultabili mediante
interrogazioni; libri, giornali, annunci; portali; biblioteche, librerie;
Yellow/White page e cataloghi
 Siti pubblici che compongono il deep Web:
Fonte
National Climatic Data Center
NASA
National Oceanographic Data Center
MP3.com
Amazon
Library Of Congress Online Catalog
Dimensioni archivio
366.000 Gb
219.000 Gb
32.940 Gb
4.300 Gb
461 Gb
116 Gb
Che tipo di informazione si trova sul
Web?
 Le homepage di 2500 server
Web sono state classificate
manualmente  83% siti
commerciali
 Il numero di siti su argomenti
specifici è abbastanza piccolo;
è perciò possibile creare motori
di ricerca verticali relativi ad
un singolo argomento
 Il 65% dei siti è in inglese
 Circa il 7% degli utenti
Internet sono di lingua tedesca,
 il 51% parlano inglese, e poco
più del 7% sono giapponesi
Motori di ricerca
 Ve ne sono probabilmente + di 3000, ma i 20 più usati coprono il
98% di tutte le ricerche
 AltaVista (estate, 1998):
Indicizza 0.8 Tb (il 30% dei dati raccolti)
37 milioni di interrogazioni al giorno
Tempo medio di risposta 0.6 secondi
20 computer a 64 bit, ciascuno dotato di 10 CPU, clock a 625
MHz, 12Gb RAM, 300 Gb RAID
 Google (primavera, 2000):
2500 PC, 30 nuovi acquisti al giorno, ogni PC dismesso
definitivamente dopo il primo guasto
L’architettura dei motori di ricerca
 Web crawler — colleziona documenti di testo, html, etc.
 Indexer — indicizza alcune delle pagine raccolte e, a fronte di ogni
interrogazione, fornisce una serie di documenti in ordine di
importanza
 Query engine — effettua
le query sul database locale
 Query interface — realizza
l’interfaccia per la formulazione delle interrogazioni
Confrontare i motori di ricerca
Criteri di valutazione
Indicizzazione delle pagine
Copertura
Freschezza dell’informazione
Velocità
Affidabilità
Facilità di utilizzo
Come i Web navigator usano i motori
di ricerca
 Le interrogazioni fatte in base ad un’unica chiave di ricerca sono
il 50%, mentre l’1% dei termini più usati è presente nel 10% delle
interrogazioni
 La categoria “sesso ” è nettamente la più richiesta
 Per una data ricerca, ciascun utente effettua, in media, 4.87
query
 In media, vengono utilizzati 2.11 termini per ricerca; nei normali
database, le interrogazioni sono tra 3 e 7 volte più articolate
 Gli operatori booleani (and e or ) sono usati 1 volta ogni 15 query,
ma il 33% delle volte non sono immessi in modo corretto
 I modificatori (+, , “ ”) sono usati 1 volta ogni 9 query, ma il 75%
delle volte l’utilizzo è scorretto
Informazione non reperibile dai
motori di ricerca
 L’hidden Web, è il Web nascosto dietro maschere di ricerca o
firewall
 Porzioni di Web non raggiungibili dalle altre pagine (pagine mai
puntate dall’esterno)
 Pagine a cui i robot dei motori di ricerca non possono accedere a
causa dei “Robots exclusion standards ”
 Il Web dinamico (deep Web), che varia più velocemente della
frequenza di aggiornamento dei database dei motori di ricerca
Copertura del Web per vari motori
di ricerca (2000)
Copertura rispetto alla dimensione
stimata del Web (2000)
Copertura dei motori di ricerca
 Copertura del miglior motore di ricerca (nel 2000): 16%
 Copertura combinata degli 11 motori di ricerca più famosi (nel
2000): 42% del PIW
 Stesso esperimento pubblicato su Science nell’Aprile ‘98
Miglior motore di ricerca: 34%
Copertura di 6 motori di ricerca combinati: 60%
Freschezza: link non validi (2000)
Northern Light:
Snap:
AltaVista:
HotBot:
Microsoft:
Infoseek:
Google:
Yahoo:
Excite:
Lycos:
EuroSeek:
9.8%
2.8%
6.7%
2.2%
2.6%
5.5%
7.0%
2.9%
2.7%
14.0%
2.6%
Media: 5.3%
Freschezza dell’informazione dei
motori di ricerca
Una nuova pagina viene indicizzata in media
dopo 57 giorni…
 L’ indicizzazione di pagine nuove o
modificate può avvenire dopo settimane
o mesi !
Bias nell’indicizzazione (2000)
Siti con più link entranti  authority  hanno maggiore probabilità di
essere indicizzati
Indicizzazione in base al dominio (2000)
Perché i motori non indicizzano tutto
il Web?
Limiti tecnologici
a) Banda/tempo per effettuare il download
b) Spazio su disco per memorizzare l’informazione
Vi è un limite oltre il quale non è economicamente
conveniente indicizzare di più…

Soluzione: Motori di ricerca specializzati, portali verticali
Una generazione avanti: Google
 Google tiene in considerazione l’informazione
topologica inclusa nell’ipergrafo del Web
 PageRank, il metodo di indicizzazione utilizzato
da Google, usa concetti simili a quelli classici
dell’editoria cartacea per valutare l’importanza
di una pagina; tiene conto di…
…quanti link puntano ad una pagina per deciderne l’importanza
 inoltre, link da pagine popolari sono più importanti
 Esamina il testo dei link della pagina per valutare la necessità di
sondarli in relazione alla stessa interrogazione
 Google raccoglie 6 miliardi di pagine (comunicato del 18.04.2004) e
ne indicizza 2: raggiunge così un numero di elementi web
indicizzati e ricercabili che supera quello di qualsiasi altro
concorrente
Le metaricerche
Search
Engine #1
Information
Need
Query
Search
Engine #2
Search
Engine #3
etc.
Fusion
Policy
Result
Set
 Un solo motore di ricerca copre una piccola porzione di Web
 richiesta di informazione a più sorgenti (motori di ricerca) in
parallelo
 Si aggregano i risultati tramite l’utilizzo di una opportuna funzione
di fusione
Suggerimenti per rendere popolare un
sito Web
 Registrare un proprio domain name e non far ospitare le proprie
pagine presso siti di provider
 Registrarsi a molti motori di ricerca
 Usare keywords (parole chiave) appropriate in titoli, heading
(intestazioni) e metatag (parole chiave dell’HTML)
 Utilizzare HTML in maniera semplice e appropriata
 Farsi “linkare ” da tutti gli amici e/o i partner commerciali
 Contattare (eventualmente) compagnie che vendono servizi per
migliorare l’indicizzazione del proprio sito
Guida pratica all’utilizzo di
Altavista
Introduzione  1
 È stato forse il più noto ed utilizzato fra i motori di ricerca
http://www.altavista.com
 Altavista, nato nel 1995, offre la possibilità di effettuare
ricerche avanzate (link Ricerca avanzata), di formulare preferenze
su dove le informazioni debbano essere ricercate, sulla loro
freschezza, sulla lingua e le modalità di presentazione
 Nella pagina iniziale di Altavista è presente un link alla pagina
Strumenti (link Altro>>), nella quale sono elencati vari percorsi di
ricerca per acquisire conoscenza e poter effettuare un uso
appropriato del motore
 La seguente presentazione descrive brevemente quanto riportato
nella pagina Strumenti di Altavista
Introduzione  2
 Dalla pagina Strumenti di Altavista:
 Ricerca avanzata: Crea richieste specifiche che comunichino
ad Altavista di cercare risultati più precisi
 Ricerca Webmaster: Trova le pagine del proprio sito nell’indice
di Altavista o trova le pagine collegate al proprio sito
 Ricerca con opzione SoloTesto: Effettua le ricerche nel Web
con la versione più veloce e senza immagini del motore di
ricerca Altavista
 Traduci: Traduce testi o interi siti Web
 Ricerca rapida: Inserisce la funzione di QuickSearch in
qualsiasi sito per cercare, con un solo clic, pagine Web,
immagini, video o notizie
 Impostazioni: Fornisce la possibilità di impostare la ricerca in
modo personalizzato
Introduzione  3
Inoltre…
 Funzione Filtro aiuta a filtrare materiale non desiderato dai
risultati della ricerca su Internet
 Quando il filtro è “Attivato”, Altavista esclude i risultati della
ricerca giudicati discutibili a causa di contenuto a sfondo sessuale,
violento e/o sgradevole
 Nota: con il filtro impostato su “Tutti” (i tipi di informazione:
pagine Web, immagini, audio e video) è possibile effettuare
ricerche sul Web solo in inglese, francese, tedesco e spagnolo; il
filtro funziona solo in lingua inglese; per eseguire la ricerca in
altre lingue, è preferibile lasciare il filtro disattivato
Introduzione  4
 Per ulteriori informazioni su ricerca, traduzione, aggiunta o
rimozione di URL ed impostazione di paese/lingua è di utile
consultazione la pagina Aiuto (“linkata” alla pagina iniziale ed a
tutte le pagine principali del motore di ricerca)
 Infine, a partire dalla pagina di Aiuto alla Ricerca, seguendo il link
Termini di ricerca speciali, si possono ottenere spiegazioni su come
utilizzare gli operatori booleani (ed altri) per effettuare
ricerche mirate sia semplici che avanzate
 Altavista permette quattro opzioni di ricerca specifica (oltre al
Web): Immagini, MP3/Audio, Video, Directory
Ricerche di base in Altavista  1
 SUGGERIMENTI:
Quando si inseriscono parole multiple nella casella di ricerca,
AltaVista cerca pagine Web che contengono tutte le parole
Più parole chiave garantiscono maggior precisione (Esempio:
Baltimore Ravens invece di Ravens )
Utilizzo di parole che si pensa possano apparire nella pagina
Web oggetto della ricerca; AltaVista inserisce nei suoi indici
tutte le parole di ogni pagina Web
Per cercare una frase esatta, racchiuderla tra virgolette
(Esempio: “essere o non essere ”)
Le lettere maiuscole e minuscole sono trattate allo stesso
modo; per osservare la differenza, racchiudere il termine di
ricerca tra virgolette
Ricerche di base in Altavista  2
 SUGGERIMENTI (continua…):
Le parole con punteggiatura vengono trattate come se
fossero racchiuse tra virgolette; tutti i segni di interpunzione
sono
trattati
allo
stesso
modo
(Esempio:
Ford.mustang/convertible fornisce gli stessi risultati di “ford
mustang convertible ”)
Per ottenere risultati in altre lingue, si può sia effettuare la
Traduzione della pagina Web, che selezionare la propria lingua
preferita nella casella di ricerca
Se si include un accento nella ricerca di una parola, AltaVista
cercherà solo parole che contengono quell’accento; se
l’accento viene omesso, AltaVista cercherà la parola sia con
che senza accento; ciò permette di effettuare ricerche di
parole francesi, tedesche o spagnole, attraverso tastiera
italiana (o inglese)
Ricerche avanzate in Altavista
 Maschera per la ricerca avanzata;
vengono specificati...
 …i
termini
della
ricerca,
eventualmente sotto forma di frase
(racchiusi fra virgolette) o connessi
tramite operatori logici (esempio:
Arachidi
AND
burro,
trova
documenti con entrambi i termini
arachidi e burro)
 …un
intervallo
temporale
dei
documenti di interesse
 …il tipo di file
 Inoltre: possono essere specificati
termini da evitare; in questo caso
Altavista seleziona tutte le pagine
che contengono i termini oggetto
della ricerca, ma non contengono il
set di parole contenuto in “nessuna
di queste parole”
Guida pratica all’utilizzo di
Google
Introduzione  1
 Le ricerche più frequenti effettuate attraverso il motore di
ricerca
http://www.google.com
vengono realizzate utilizzando un’unica parola chiave per la
formulazione della query
 Google offre tuttavia la possibilità di effettuare ricerche
avanzate, di formulare preferenze su dove le informazioni
debbano essere ricercate, sulla lingua e le modalità di
presentazione
 Nella pagina iniziale del motore di ricerca sono presenti link alle
pagine relative a Ricerca avanzata, Preferenze, Strumenti per le lingue,
Tutto su Google
Introduzione  2
In particolare…
— Visualizza la pagina che permette di impostare
parametri che limitano l’ambito della ricerca
Preferenze — Visualizza la pagina che permette di impostare le
preferenze per le ricerche, quali il numero predefinito di risultati
da visualizzare su ciascuna pagina, la lingua dell’interfaccia e della
ricerca, l’apertura o meno di una nuova finestra del browser per
produrre i risultati
Strumenti per le lingue — Visualizza la pagina che permette di limitare
la ricerca a pagine scritte in particolari lingue, di tradurre le
pagine nella propria lingua e di accedere all’interfaccia Google
nella propria lingua
Tutto su Google — La pagina contiene link significativi, in particolare
verso pagine che evidenziano le caratteristiche che differenziano
Google dagli altri motori di ricerca, e ne descrivono le modalità di
utilizzo, ma anche i particolari architetturali
 Ricerca avanzata



Introduzione  3
 Il pulsante
Mi sento fortunato
apre, a fronte di una particolare query, la pagina ritenuta più
significativa (segnalando sulla barra di fondo il numero totale
di pagine che rispondono all’interrogazione)
 Google permette quattro opzioni di ricerca specifica (oltre al
Web): Immagini, Gruppi, Directory, News
Ricerche di base in Google
 Per effettuare una ricerca con Google, occorre immettere
alcune parole descrittive, quindi premere il tasto Invio (oppure
fare clic sul pulsante Cerca con Google ) per elencare i risultati più
rilevanti
 Google utilizza tecniche di corrispondenza molto sofisticate per
trovare parole che siano importanti e rilevanti ai fini della
ricerca
 Quando Google analizza una pagina, esamina anche il contenuto
delle pagine associate  linkate, dando la precedenza a quelle in
cui i termini ricercati sono presenti in sequenza
Ricerche con “and” automatico e
visualizzazione del contesto di ricerca
 Google visualizza solo le pagine che contengono tutti i termini
ricercati, aggiungendo automaticamente l’operatore booleano
“and”
 Per limitare ulteriormente la ricerca, è sufficiente aggiungere
altri termini
 Tutti i risultati trovati da Google contengono una o più sintesi
della pagina Web, che mostrano il contesto in cui vengono
utilizzati i termini ricercati
Parole comuni
 Google ignora le parole ed i caratteri di uso comune (ad esempio
le congiunzioni, gli articoli, etc.), denominati anche “stop words”,
scartando automaticamente termini come http e .com, nonché
alcune singole cifre e lettere, poiché tale informazione non aiuta
a restringere il campo di ricerca, ma anzi contribuisce a
rallentare i tempi di risposta
 Utilizzare il segno “+” per includere parole comuni nella ricerca;
ricordarsi di lasciare uno spazio prima del segno “+” ; il segno “+”
può essere utilizzato anche per la ricerca di frasi
 Le frasi su cui effettuare la ricerca possono altrimenti essere
racchiuse fra doppi apici (virgolette)
Ricerca di radici di parole (Stemming)
 Per garantire la massima precisione nei risultati, Google non
supporta la ricerca di radici di parole (“stemming” ), né le
ricerche con caratteri jolly (*, ?, etc.)
 Google cerca solo le parole esatte digitate nel campo di ricerca;
se si inserisce “googl” o “googl*” , il risultato non sarà “googler”
o “googlin”
 Nei casi dubbi, provare ad usare sia il singolare che il plurale per
la ricerca; ad esempio “linea aerea” e “linee aeree”
Lettere maiuscole/minuscole o accenti
 Google non fa distinzione tra lettere minuscole e maiuscole,
poiché considera tutte le lettere come minuscole; ad esempio,
digitando “google”, “GOOGLE" e “GoOgLE" si ottengono sempre
gli stessi risultati
 Per impostazione predefinita, Google non riconosce accenti o
altri segni diacritici; in altre parole, se si digita [Muenchen] e
[München] si ottengono sempre gli stessi risultati
 Per fare una distinzione tra le parole, anteporre il segno +; ad
esempio [+Muenchen] rispetto a [+München]
Ricerche avanzate in Google
 Maschera per la ricerca avanzata; vengono specificati...
 …i termini della ricerca, eventualmente sotto forma di frase, o connessi
attraverso l’operatore OR
 …l’intervallo temporale dei documenti di interesse, il formato dei file, la lingua
ed il dominio di ricerca, la collocazione dell’informazione all’interno della pagina
 Inoltre: possono essere effettuate “ricerche per similitudine” o relative a
pagine che puntano ad una data pagina di riferimento
Scarica

Internet ed il World Wide Web - Dipartimento di Ingegneria dell