Sommario
Internet ed il World Wide Web
Introduzione: le reti di calcolatori
Internet: indirizzamento e protocolli di comunicazione
Il World Wide Web: come funziona e a cosa serve
Ricerca di informazione sul Web
1
Introduzione:
le reti di calcolatori
2
Introduzione  1
Una rete è costituita da due o più computer collegati tra
loro in modo tale da permettere flusso di informazione
La più grande rete esistente al mondo è Internet: ogni
computer connesso ad Internet è in grado di
comunicare con tutti i computer collegati
3
Introduzione  2
“Internet ha rivoluzionato il mondo dei calcolatori e della
comunicazione come nulla aveva fatto prima. È allo stesso
tempo capacità di diffusione a livello mondiale, un
meccanismo per disseminare informazioni ed un mezzo per
collaborazione ed interazione fra individui ed i loro
calcolatori, senza riguardo alla collocazione geografica.”
(Leiner et al., “A brief history of the Internet”, Feb. `97,
http://www.isoc.org/internet–history)
Internet offre una notevole varietà di servizi informativi:
posta elettronica, ftp, login remoto, accesso a newsgroup,
etc.; il WWW è di gran lunga il più conosciuto
4
Reti locali
Una rete locale — LAN (Local Area Network ) — connette
dispositivi hardware che si trovano fisicamente vicini, nello
stesso edificio o nella stessa università
Per le LAN, il proprietario delle macchine è anche il
proprietario dei mezzi di comunicazione: non occorre
acquistare servizi forniti da terzi, come la compagnia
telefonica
Il modello più diffuso di LAN è chiamato Ethernet
5
Reti geografiche
Una rete geografica — WAN (Wide Area Network ) — connette
dispositivi che possono essere ai poli opposti della stessa città o
in città vicine (in questo caso si parla più propriamente di MAN
— Metropolitan Area Network ) o dall’altra parte dell’oceano
Poiché le WAN attraversano proprietà pubbliche, gli utenti di
una WAN devono acquistare servizi di telecomunicazione
Le WAN impiegano linee di
comunicazione
punto–a–punto,
che collegano direttamente due
calcolatori,
anziché
canali
condivisi, normalmente utilizzati
per le LAN
6
Servizi di rete
Condivisione delle risorse — sia fisiche (memorie di massa,
periferiche) che logiche (dati, software)
Condivisione delle informazioni — accesso ad informazioni remote,
di carattere scientifico, medico, legale, commerciale
Posta elettronica — conveniente (può essere scritta/letta a qualsiasi
ora del giorno e della notte), veloce (un messaggio dagli USA arriva
in meno di un minuto), economica (i costi di trasmissione non
dipendono dalla distanza); “documenti” di qualsiasi tipo (file,
archivi, foto, musica) possono essere acclusi in allegato
7
Internet
8
La storia di Internet  1
Internet è la rete telematica più grande del mondo, per
estensione geografica e per numero di utenti
Nel periodo della guerra fredda, il governo USA sollecitò la
creazione di DARPA, Defense Advanced Research Project
Agency, una struttura del Dipartimento della Difesa con il
compito di mantenere le comunicazioni in caso di attacco
nucleare
Fu Paul Baran a ipotizzare, in un documento dal titolo On
Distributed Communication Networks, la creazione di una
rete priva di autorità centrale, in cui tutti i nodi fossero
indipendenti, di pari gerarchia ed in grado di originare,
passare e ricevere messaggi (indipendentemente dalla
tipologia dei computer collegati)
9
La storia di Internet  2
I messaggi dovevano essere scomposti in pacchetti, ognuno
dei quali in grado di raggiungere la propria destinazione
seguendo un percorso qualsiasi, qualora quello stabilito fosse
interrotto
Nel 1965, il DARPA finanziò uno studio sulle reti cooperative
di computer
Nel 1969, il Dipartimento della
Difesa commissionò ARPANET, con
lo scopo di promuovere la ricerca
per un piano di rete nazionale
militare; il primo collegamento fu
stabilito
tra
due
computer
dell’Università
della
California
(UCLA) e dello Stanford Research
Institute
10
La storia di Internet  3
Internet non è gestita da alcuna istituzione politica, culturale
o economica, ma da un gruppo di volontari, conosciuto come
ISOC (Internet Society )
Fornire le dimensioni di Internet è impossibile: si calcola vi
siano centinaia di milioni di utenti, localizzati in ogni paese
del mondo; la crescita esponenziale di Internet continua
11
Le tappe fondamentali
1969  primo nodo di ARPANET
1971  ARPANET conta 15 nodi
1972  ARPANET congiunge 37 nodi
1973  prima connessione internazionale
fra Inghilterra e Norvegia
1976  la regina Elisabetta è il primo
capo di stato a spedire e-mail;
Jimmy Carter e Walter Mondale
coordinano la campagna elettorale
via e-mail (4$ a messaggio)
1982  nasce il protocollo TCP/IP
1983  la rete conta più di mille nodi;
MILNET (rete militare) si scinde
da ARPANET (rete di ricerca del
mondo universitario)
1987  10000 host
1989  100000 host
1990  ARPANET diviene Internet, Tim
Berners-Lee del CERN di Ginevra
progetta il WWW
1991  primi software di navigazione
1992  nasce il protocollo HTTP
1993  prima versione (gratuita) di Mosaic,
il primo browser grafico
1994  Netscape distribuisce gratuitamente
via Internet, la versione beta del
Navigator
1995  Microsoft realizza Explorer
12
Internet: la rete delle reti
Conseguentemente ad ARPANET, nacquero HEPNet (High
Energy Physics Network), CSNET (Computer Science
Network), SPAN (Space Physics Access Network), etc., per
supportare lo scambio di informazione scientifica nelle
specifiche aree di ricerca: la proliferazione rapida e non
pianificata di reti indipendenti causa incompatibilità e ostacola
la comunicazione fra utenti di reti distinte
Internetworking — ogni WAN è libera di gestire
autonomamente la comunicazione al suo interno, ma deve
utilizzare uno schema comune di indirizzamento e protocolli
identici per interfacciarsi alle altre reti
Internet diviene la rete delle reti — reti distinte si
interconnettono attraverso gateway, che realizzano la
connessione effettiva e forniscono i servizi di routing fra le
diverse WAN
13
Indirizzamento
Uno schema globale e gerarchico di indirizzamento identifica
univocamente ogni utente ovunque localizzato nel mondo:
[email protected]
identifica l’utente “Monica (Bianchini)”, con un account su un
calcolatore il cui indirizzo di rete è rappresentato da ciò che sta a
destra di at, @; il calcolatore è situato nel Dipartimento di
Ingegneria dell’Informazione (dii) dell’Università di Siena (unisi), in
Italia (it)
Lo schema gerarchico di indirizzamento, che procede dallo specifico
al generale, è chiamato Domain Name System (DNS)
Nella realtà, gli indirizzi di Internet sono numeri binari a 32 bit: gli
indirizzi simbolici — più facili da memorizzare — sono convertiti
automaticamente negli indirizzi numerici prima della trasmissione di
dati sulla rete
14
Protocolli di comunicazione
In informatica, le regole comuni per lo scambio di
informazioni vengono definite protocolli — “usi e norme che
regolano le formalità, il diritto di precedenza e di cerimoniale
diplomatico ”: definizione che si adatta perfettamente al
contesto della trasmissione dell’informazione
TCP/IP — Transmission Control Protocol/Internet Protocol,
descrive le regole e le procedure cui le diverse WAN devono
attenersi per indirizzamento, formato dei messaggi, routing e
controllo degli errori: è il linguaggio comune parlato dalle reti
di tutto il mondo
15
Internet: la diffusione  1
Dalle origini al gennaio 2000, nei suoi primi dieci anni di vita,
Internet è cresciuto fino a più di 72.4 milioni di calcolatori
localizzati in ogni parte del mondo, ed il DNS include
estensioni per 239 paesi, territori e possedimenti, compresi il
continente antartico (.aq), Guinea Bissau (.gw), le isole
Cocos (.cc), Pitcairn (.pn), etc.
Secondo uno studio dell’americana Telcordia Technologies, il
numero degli Internet host presenti nel mondo avrebbe
superato i 100 milioni nel 2000
Questo dato rappresenta un incremento del 45% rispetto al
1999
Gli utenti di Internet sono circa 350 milioni
Nel primo semestre del 2004 gli Internet host sono oltre 285
milioni
16
Internet: la diffusione  2
Negli USA, l’ultima parte del DNS non identifica lo stato, ma il
tipo di sito: commerciale (.biz, .com), universitario (.edu),
governativo (.gov), militare (.mil), organizzazioni no profit
(.org)
I principali servizi offerti (tramite TCP/IP) sono il telnet, per
realizzare il login remoto, l’FTP (File Transfer Protocol ) per il
trasferimento di file da macchine remote, l’SMTP (Simple Mail
Transfer Protocol ) per la posta, ed il World Wide Web per la
condivisione di informazione ipertestuale, che si avvale del
protocollo HTTP (HyperText Transfer Protocol )
In Italia...
Nel quinquennio 199095 si passa da 650 a 45000 host
Luglio 2000: 1574000 host
Giugno 2004: 7447300 host
17
Il World Wide Web
18
Internet, ovvero… il WWW  1
WWW: Whatever, Wherever, Whenever
WWW: World Wide Wait (l’attesa planetaria)
Information Nirvana
“Internet è la più grande anarchia operante nel mondo.” (Kevin Kelly)
Internet è la passeggiata curiosa in un grande mercato delle pulci,
dove ci si può divertire a cercare notizie sugli extraterrestri, conoscere
il canto degli uccelli australiani o scambiarsi opinioni sul gioco delle
bocce
“Il desiderio di Internet è così intenso che può essere compreso solo
come un fatto spirituale. Quel desiderio indica che c’è qualcosa che
manca nella nostra vita. E quello che manca è la voce umana. Il Web
promette il ritorno della voce umana.” (David Weinberger)
19
Internet, ovvero… il WWW  2
Ogni sito è un punto di vista su Internet
Internet non è né buono né cattivo, ma un semplice mezzo per
l’uso e l’abuso; siamo noi che gli diamo l’anima, la nostra, buona o
cattiva; inutile lodare, inutile maledire
Cercare informazioni su Internet equivale a versare un aperitivo
con la pompa della benzina
Ognuno proietta su Internet quello che fa (o avrebbe voluto fare)
nella vita “reale”: un ospedale virtuale, un supermercato
elettronico, una galleria con le emozioni vissute…
Internet è la “Mecca dei grafomani”
Internet è quel posto dove tutti navigano per trovare un motivo per
navigare
Internet è quella realtà nella quale gli investitori pagano prezzi
assurdi per azioni di aziende di cui non sanno spiegare il business
20
Internet, ovvero… il WWW  3
Il motore a vapore all’inizio non ha cambiato la vita che di poche
persone; ma quando è stato montato su una locomotiva e messo
sulle rotaie, la società intera è stata trasformata. Il computer è il
motore a vapore, Internet le rotaie. Saranno le rotaie di Internet a
diffondere la “rivoluzione digitale” e a cambiare il mondo
“La nuova Internet sarà questa: non più utenti che comunicano fra
di loro via computer, bensì computer in rete 24 ore su 24 che
comunicano tra loro per conto degli utenti.” (Philip Greenspun, MIT,
Boston)
21
Il World Wide Web
Grazie al Web stiamo assistendo ad una rivoluzione
nell’accesso alle fonti di informazione
Cercare nel Web è come accedere ad un’enciclopedia di
miliardi di pagine senza un indice né un ordine apparente
La e–revolution avrà un enorme impatto in tutti i campi del
sapere e nella nostra vita quotidiana
Come rappresentiamo e misuriamo il Web ha un severo
impatto nei metodi di ricerca che riusciamo a modellare
3 utenti su 5 cercano nel Web sottoponendo query
(interrogazioni) a motori di ricerca come Google o Altavista
22
Il Web italiano  1
Secondo i dati presentati da Eurisko nel febbraio 2005 (in
base a ricerche fino a gennaio) il numero totale di persone
che accedono alla rete in Italia, anche occasionalmente,
sarebbe salito a 14.5 milioni, che si riducono a 13.6 se si
escludono gli accessi in situazioni esterne, come corsi di
formazione, presso amici, in biblioteca o “bar” – e a 9.7 se si
considerano le persone che dicono di collegarsi “almeno una
volta alla settimana”
Sono circa 4 milioni le persone che dicono di usare Internet
tutti i giorni
Il numero totale di “utenti dal lavoro, da casa o da scuola”
nel gennaio 2005 è aumentato del 5% rispetto al gennaio
2004 (in mesi precedenti si erano rilevati indici più alti – per
esempio un aumento del 15% nel giugno 2004 rispetto a un
anno prima)
23
Il Web italiano  2
Utenti Internet in Italia (gennaio 2001gennaio 2005)
Eurisko ritiene che il “potenziale di sviluppo” si collochi fra i
23 e i 24 milioni di persone (e che quindi l’attuale
“penetrazione” sia circa il 60 %)
L’andamento di Internet in generale, e particolarmente nei
paesi più evoluti, indica che siamo lontani da un’ipotetica
“soglia di saturazione”
24
Previsioni
Ci saranno più di 765 milioni di utenti nel mondo  118 ogni
1000 persone  alla fine del 2005, in base a quanto stimato
dal CIA (Computer Industry Almanac)
La quota di utenti Internet statunitensi è destinata a calare dal
43% del totale di utenti nel mondo alla fine del 1999 al 27%
per la fine del 2005
L’Europa dell’ovest sta crescendo più velocemente del nord
America ed è destinata a diventare la seconda area nel 2005
con più di 213 milioni di utenti
La regione AsiaPacifico sta crescendo ancora più velocemente
ed avrà approssimativamente 190 milioni di utenti nel 2005
La quota di utilizzatori in centro e sud America, e Africa, sta
crescendo più lentamente, in particolare in Africa (studi
sociologici hanno dimostrato che esiste una connessione diretta
tra livello culturale, occupazione ed utilizzo di Internet)
25
Internet interplanetario
26
L’informazione ipertestuale  1
Ipertesto — raccolta di documenti connessi da puntatori, gli
hyperlink ; un documento contenente informazione ipertestuale è
una pagina, nel linguaggio del Web
Lo standard linguistico per la scrittura di pagine è HTML —
Hypertext Markup Language
Navigare sul Web significa accedere a pagine successive,
utilizzando i link per spostarsi da pagina a pagina
I documenti ipertestuali possono essere
memorizzati ovunque nei miliardi di
computer collegati ad Internet e un link
è il nome di una pagina e l’indirizzo
Internet della macchina su cui è
memorizzata
27
L’informazione ipertestuale  2
Un link di un ipertesto fa riferimento ad un URL (Uniform
Resource Locator ),
protocollo://indirizzo_Internet/risorsa
“protocollo” indica la natura dell’informazione contenuta
nella pagina (http(s) : ipertesto; ftp: file download; news :
per informazioni da bollettini e newsgroup; mailto: web–
mail)
 “indirizzo_Internet” è l’indirizzo DNS della macchina su
cui la pagina è locata
 “risorsa” è l’identificativo della risorsa, un file
memorizzato sulla macchina specificata
http://www–dii.ing.unisi.it/people.html
28
L’informazione ipertestuale  3
Quando si “clicca ” su un link, la rete utilizza i protocolli
TCP/IP–HTTP per stabilire una connessione tra la macchina
dell’utente e la macchina remota il cui indirizzo Internet è
puntato dall’URL
Quando la connessione è stabilita, la pagina richiesta viene
trasferita alla macchina dell’utente e visualizzata sullo
schermo: il fetch (reperimento) delle pagine e la loro
visualizzazione è gestita da un browser (Netscape, MS
Explorer)
Il WWW è la “killer app ”, l’applicazione dalla crescita più
rapida e la più importante di Internet
29
Numero di anni per raggiungere
50.000.000 di utenti
38 years
13 years
16 years
4 years
Internet
Radio
Televisione
PC
30
Il commercio elettronico
Termine applicato all’utilizzo del Web per lo scambio di merci,
informazioni e servizi nel settore commerciale
I primi servizi offerti dall’e–commerce riguardavano soprattutto
aspetti di e–business, con l’emissione di bonifici, l’attivazione di
sportelli automatici per la gestione di transazioni finanziarie da siti
remoti, l’utilizzo di dispositivi di lettura alle casse per la raccolta
automatica di informazioni di vendita
I POS (Point of Sale) per la lettura di carte di credito e Bancomat
sono esempi di servizi di e–business
Più recentemente, con il WWW, si è assistito alla diffusione del
servizio in maniera capillare; i siti commerciali offrono tour
interattivi nei loro negozi virtuali
In rete possono essere acquistati — con transazioni sicure — libri,
cd musicali, dvd, magliette, generi alimentari, che vengono
rapidamente recapitati a domicilio
31
Commercio elettronico in Italia
Nella sua accezione più sommaria, il commercio elettronico
è il risultato di un insieme di transazioni commerciali svolte
attraverso un processo telematico
Tuttavia, il Ministero dell’Industria, del Commercio e
dell’Artigianato lo definisce come…
«L'E-Commerce […] consiste nello svolgimento di attività commerciali
e di transazioni per via elettronica e comprende attività diverse quali:
la commercializzazione di beni e servizi per via elettronica, la
distribuzione on-line di contenuti digitali, l'effettuazione per via
elettronica di operazioni finanziarie e di borsa, gli appalti pubblici per
via elettronica ed altre procedure di tipo transattivo della pubblica
Amministrazione »
Le società multinazionali per tecnologiche avanzate (come
Cisco e Oracle) sono state tra le prime che hanno trasferito i
loro acquisti e gran parte delle loro vendite sul Web
32
Sicurezza in rete
Dalla rapida crescita delle transazioni economiche sulla rete
proviene la necessità di incrementare la sicurezza ; se un hacker
rubasse i numeri delle carte di credito usate per acquisti on–line o
ottenesse l’accesso agli archivi di una banca, potrebbero verificarsi
perdite economiche catastrofiche
La sicurezza in rete coinvolge:
 il problema dell’autenticazione (verifica dell’identità di chi
effettua la transazione)
 il problema della crittazione/decrittazione (per la sicurezza
dell’informazione durante la trasmissione)
 la tolleranza ai guasti (per la sicurezza delle transazioni in
presenza di guasti software/hardware)
33
Ricerca di informazione
sul Web
34
Perché non è facile trovare
informazione sul Web?
Enorme massa di informazione —
20 miliardi di pagine (stimate), 48
milioni nel Web italiano, 3 milioni di
pagine aggiunte ogni giorno; il Web
raddoppia ogni 2 anni
L’informazione è spesso accessibile solo attraverso maschere
di ricerca
I motori di ricerca indicizzano le pagine con circa 15 giorni di
ritardo
Poca o nessuna possibilità di personalizzare gli strumenti di
ricerca
35
Il modello a papillon
Modello generato dalla
raccolta di 200 milioni
di pagine
Il raggio del “core” è
stimato pari a 19 clic
36
Deep Web
Il deep Web è rappresentato da
tutti i siti inaccessibili ai motori
di ricerca tradizionali: 500
miliardi di documenti racchiusi
in oltre 100.000 siti che
permettono
di
accedere
dinamicamente ad informazioni
strutturate nei propri archivi
I motori di ricerca censiscono
solo le singole pagine statiche
dei siti, e cioè il surface Web
37
Che tipo di informazione
si trova sul Web?
Le homepage di 2500 server Web
sono state classificate manualmente
 83% siti commerciali
Il numero di siti su argomenti
specifici è abbastanza piccolo; è
perciò possibile creare motori di
ricerca verticali relativi ad un singolo
argomento
Il 65% dei siti è in inglese
Circa il 7% degli utenti Internet sono
di lingua tedesca,  il 51% parlano
inglese, e poco più del 7% sono
giapponesi
38
Motori di ricerca
Ve ne sono probabilmente + di 3000, ma i 20 più usati
coprono il 98% di tutte le ricerche
Architettura dei motori di ricerca:
Web crawler: colleziona documenti di
testo, html, etc.
Indexer: indicizza alcune delle
pagine raccolte e, a fronte di ogni
interrogazione, fornisce una serie di
documenti in ordine di importanza
Query engine: effettua le query sul
database locale
Query interface: realizza l’interfaccia
per
la
formulazione
delle
interrogazioni
39
Confrontare i motori di ricerca
Criteri di valutazione
Indicizzazione delle pagine
Copertura
Freschezza dell’informazione
Velocità
Affidabilità
Facilità di utilizzo
40
Come i Web navigator usano
i motori di ricerca
Le interrogazioni fatte in base ad un’unica chiave di ricerca sono il
50%, mentre l’1% dei termini più usati è presente nel 10% delle
interrogazioni
La categoria “sesso ” è nettamente la più richiesta
Per una data ricerca, ciascun utente effettua, in media, 4.87 query
In media, vengono utilizzati 2.11 termini per ricerca; nei normali
database, le interrogazioni sono tra 3 e 7 volte più articolate
Gli operatori booleani (and e or ) sono usati 1 volta ogni 15 query,
ma il 33% delle volte non sono immessi in modo corretto
I modificatori (+, , “ ”) sono usati 1 volta ogni 9 query, ma il 75%
delle volte l’utilizzo è scorretto
41
Informazione non reperibile dai
motori di ricerca
L’hidden Web, è il Web nascosto dietro maschere di ricerca o
firewall
Porzioni di Web non raggiungibili dalle altre pagine (pagine
mai puntate dall’esterno)
Pagine a cui i robot dei motori di ricerca non possono
accedere a causa dei “Robots exclusion standards ”
Il Web dinamico (deep Web), che varia più velocemente
della frequenza di aggiornamento dei database dei motori di
ricerca
42
Perché i motori non indicizzano
tutto il Web?
Limiti tecnologici
a) Banda/tempo per effettuare il download
b) Spazio su disco per memorizzare l’informazione
Vi è un limite oltre il quale non è economicamente
conveniente indicizzare di più…

Soluzione: Motori di ricerca specializzati, portali verticali
43
Una generazione avanti: Google
Google tiene in considerazione l’informazione
topologica inclusa nell’ipergrafo del Web
PageRank, il metodo di indicizzazione utilizzato
da Google, usa concetti simili a quelli classici
dell’editoria cartacea per valutare l’importanza
di una pagina; tiene conto di…
…quanti link puntano ad una pagina per deciderne l’importanza
inoltre, link da pagine popolari sono più importanti
Esamina il testo dei link della pagina per valutare la necessità di
sondarli in relazione alla stessa interrogazione
Google indicizza più di 8 miliardi di pagine (gennaio 2005):
raggiunge così un numero di elementi web ricercabili che supera
quello di qualsiasi altro concorrente
44
Scarica

Internet ed il World Wide Web - Dipartimento di Ingegneria dell