Master Catalogazione AA 2009/10
M.A. Alberti
Gestione dell’informazione
World Wide Web:
la ragnatela globale
La rete e il World Wide Web
Master Catagolazione AA 2009/10
Maria A. Alberti
• WWW (detto web, ragnatela) è la rete
costituita dai server che forniscono accesso
alle loro informazioni tramite il protocollo
HTTP (HypertText Transfer Protocol)
• gli host si collegano ai server usando un
programma client detto browser (colui che
curiosa)
• host è ogni apparato collegato in rete: ospita programmi
applicativi sia di tipo client sia di tipo server
Master Catalogazione AA 2009/10
2
La rete e il Web
Storia del web
Storia del web
• 1992: Sviluppo del client con interfaccia a finestre in
ambiente Xwindow
• 1980: Tim Berners-Lee (CERN) sviluppa il
programma "Enquire-Within-Upon-Everything" che
consentiva di effettuare link tra diversi computer
connessi in rete
• 1989: Tim Berners-Lee diffonde due documenti per
raccogliere opinioni sul suo lavoro presso il CERN
• 1990: Il CERN appoggia ufficialmente il progetto
• viene coniato il nome World-Wide Web
• viene rilasciata la lista dei primi 26 server WWW
• 1993: Viene rilasciato il primo browser per Macintosh
• viene rilasciato X-Mosaic di Marc Andreessen (NCSA)
• i server HTTP sono circa 50
• 1994: Viene fondata la Mosaic Corporation (oggi
Netscape Corp.)
• i siti WWW sono 1.500
• si tiene il primo meeting del "W3Consortium" presso il MIT
• il CERN sospende il supporto del progetto WWW
• 1991: Sviluppo dei primi client ed apertura del WWW
server del CERN
• 2000: …Centinaia di milioni di pagine disponibili ?!?
Master Catalogazione AA 2009/10
Master Catalogazione AA 2009/10
3
La rete e il Web
• I protocolli precedentemente usati per il
trasferimento dei file (FTP, File Transfer
Protocol) prevedevano che i documenti
fossero copiati sulla macchina per essere
consultati
• le fasi di download e consultazione erano distinte
• Tramite il web è possibile consultare
direttamente dei documenti online
• il trasferimento dei documenti viene effettuato
automaticamente, in modo trasparente all’utente
La rete e il Web
5
La rete e il Web
Il successo del web
Il successo del web
Master Catalogazione AA 2009/10
4
La rete e il Web
• Consente di accedere in modo uniforme a
informazioni di varia natura
• immagini, animazioni, suoni, filmati ...
(multimedialità)
• Con l’introduzione di componenti attive (form,
applet, javascript, php,…) è anche possibile
utilizzare i browser web per trasmettere
informazioni dall’utente al server
Master Catalogazione AA 2009/10
6
La rete e il Web
1
Master Catalogazione AA 2009/10
M.A. Alberti
Gestione dell’informazione
Le basi tecnologiche
• Le tecnologie che hanno permesso l’ampia
diffusione del web sono:
• gestione degli ipertesti e della multimedialità
• disponibilità di programmi client multiprotocollo (i
browser)
• efficaci convenzioni per l’identificazione delle
risorse: indirizzi IP
• utilizzo di un protocollo HTTP nella connessione
browser-server particolarmente semplice
Master Catalogazione AA 2009/10
7
La rete e il Web
Architettura del web
Master Catalogazione AA 2009/10
Internet
• Internet - La Rete delle reti
• Progetto del Department of Defense USA
ARPANET
• (Defense) Advanced Research Project Agency
• risposta allo Sputnik sovietico del 1957; disegnata
per resistere a un attacco nucleare
• la resistenza ai guasti è garantita dalla natura punto-apunto con ridondanza di cammini
• sponsorizza la ricerca presso università e
laboratori di ricerca
• la rete è di uso esclusivo militare e di ricerca
Master Catalogazione AA 2009/10
9
La rete e il Web
8
La rete e il Web
Internet
• Collezione su scala mondiale di apparati
• Insieme comune di tecnologie di rete, protocolli e
applicazioni
• Anche su reti private o semi-private
• Intranets
• Reti private a una istituzione o azienda, con accesso
riservato ai membri.
• Extranets
• Reti che connettono diverse istituzioni ma ancora con
accesso riservato. Es: i fornitori o i grossisti di un’azienda
Master Catalogazione AA 2009/10
10
La rete e il Web
Internet
Internet
• 1974: viene proposto il protocollo TCP/IP per
superare le difficoltà di connessione tra reti
diverse
• Nodi ARPANET
• dicembre 1969
• integrato in Unix, UC at Berkeley
• UCSB, UCLA, SRI, Utah
• marzo 1971
• UCSB, UCLA, SRI, Utah, Stanford, SDC, Rand, Uillinois,
MIT, BBN, Lincoln Lab, Harvard, Burroghs, CASE, Carn
• 1983
• migliaia di nodi
• viene separata la MILNET
• 1990
• 1991: viene proposto il protocolo http e il
World Wide Web
• • • • CERN, Ginevra
la rete diventa anche commerciale
la dimensione raddoppia ogni anno
2000: milioni di host
• integra NSFNET, BITNET, HEPNET, SPAN, EARN
• ARPANET viene smantellata
Master Catalogazione AA 2009/10
La rete e il Web
11
La rete e il Web
Master Catalogazione AA 2009/10
12
La rete e il Web
2
Master Catalogazione AA 2009/10
M.A. Alberti
Gestione dell’informazione
Software delle Reti
Architettura delle Reti
• L‘insieme dei livelli e dei protocolli si chiama
architettura di rete
A
I like rabbits
Mi piacciono i conigli
interprete
interprete
Mi piacciono i conigli
segretario
Fax: ++39-…
mi piacciono i conigli
Master Catalogazione AA 2009/10
B
J’aime les lapins
segretario
Fax: ++39-…
mi piacciono i conigli
13
La rete e il Web
Software delle Reti
• stabiliscono come la comunicazione deve procedere e il
formato dei pacchetti
15
La rete e il Web
B
livello 4
interfaccia di livello 3-4
livello 3
interfaccia di livello 2-3
livello 2
interfaccia di livello 1-2
livello 1
protocollo di livello 4
protocollo di livello 3
protocollo di livello 2
protocollo di livello 1
• il livello x su A parla con il livello x di B
• ogni livello comunica fisicamente solo con i due
adiacenti, superiore e inferiore (se esistono)
tramite un‘interfaccia
Master Catalogazione AA 2009/10
14
La rete e il Web
• Pila dei protocolli
• insieme dei protocolli usati ai vari livelli di una rete
• ogni protocollo aggiunge un‘instestazione al
messaggio con le informazioni che servono al
livello omologo all‘altro capo della comunicazione
per interpretare il messaggio
Master Catalogazione AA 2009/10
16
La rete e il Web
Tipologia di Servizi
Software delle Reti
A
• il numero dei livelli e le loro funzionalità dipendono
dal tipo di rete
• le macchine comunicano logicamente per pari
livelli (peer)
Software delle Reti
• l‘interfaccia definisce le operazioni primitive e i
servizi che il livello sottostante offre a quello
soprastante
• le regole per la comunicazione sui vari livelli si
chiamano protocolli
Master Catalogazione AA 2009/10
• Organizzato a livelli per ridurne la
complessità
livello 4
livello 3
livello 2
• Servizi orientati alla connessione
• si stabilisce una connessione tra sorgente e
destinazione che dura per tutta la durata della
connessione
• come nel telefono
• i dati arrivano nell‘ordine in cui sono spediti
livello 1
mezzo fisico
Esempio di livelli, protocolli e interfacce
Master Catalogazione AA 2009/10
La rete e il Web
17
La rete e il Web
Master Catalogazione AA 2009/10
18
La rete e il Web
3
Master Catalogazione AA 2009/10
M.A. Alberti
Gestione dell’informazione
Tipologia di Servizi
Tipologia di Servizi
• Servizi privi di connessione
• non esiste connessione tra gli estremi permanente
durante la trasmissione
• come nel sistema postale
• i messaggi possono non arrivare nell‘ordine di
spedizione
• possono essere inaffidabili
• con e senza conferma di ricezione
Master Catalogazione AA 2009/10
19
La rete e il Web
• La qualità del servizio (QoS, Quality of
Service) caratterizza le prestazioni dei servizi
• alcuni servizi sono affidabili
• non perdono mai i dati
• garantiscono tempi di consegna
• garantiscono una certa capacità di trasmissione
(banda)
• trasmissione digitale di audio e video
Master Catalogazione AA 2009/10
La rete e il Web
L‘architettura TCP/IP
Servizi vs protocolli
• L‘architettura che ha portato a Internet
• Un servizio:
• Insieme di operazioni primitive che un livello
fornisce ad un livello superiore tramite l’interfaccia
• definisce le funzionalità che quel livello dispone
• Un protocollo:
• Insieme delle regole che governano il formato e il
significato dei blocchi di informazione e dei
pacchetti scambiati
Master Catalogazione AA 2009/10
20
21
La rete e il Web
L‘architettura TCP/IP
• Transmission Control Protocol/Internet Protocol
• definita nel 1974 da Vinton Cerf per superare
problemi di compatibilità tra protocolli esistenti
• Composta da 4 livelli
• • • • Applicazione diversi
Trasporto
TCP o altri UDP
Internet
IP
Rete (fisico)
Master Catalogazione AA 2009/10
22
La rete e il Web
L‘architettura TCP/IP
• Livello rete
• Livello internet
• qualunque protocollo in grado di trasportare
pacchetti che usano il protocollo Internet - IP
• l‘architettura non specifica alcun requisito
• Ethernet, Arpanet, packet radio
• usa l‘Internet Protocol
• definisce un tipo di pacchetto in cui spezza i dati
che riceve dal livello superiore
• dimensioni dello header e del payload, informazioni nello
header
• privo di connessione
• non garantisce l‘ordine di consegna
• non garantisce la consegna
• i pacchetti possono seguire percorsi diversi
• trasparente all‘utente finale
Master Catalogazione AA 2009/10
La rete e il Web
23
La rete e il Web
Master Catalogazione AA 2009/10
24
La rete e il Web
4
Master Catalogazione AA 2009/10
M.A. Alberti
Gestione dell’informazione
L‘architettura TCP/IP
L‘architettura TCP/IP
• Livello trasporto
• Livello trasporto
• frammenta in pacchetti la sequenza di byte da
trasmettere, la riorganizza all‘arrivo
• usa il Transport Control Protocol
• orientato alla connessione
• garantisce l‘ordine dei pacchetti
• garantisce la consegna
• garantisce la correttezza dei byte trasmessi
• ritrasmette in caso di errore
• controlla il flusso perché un ricevente lento non soffochi
a causa di un trasmittente veloce
Master Catalogazione AA 2009/10
25
La rete e il Web
L‘architettura TCP/IP
• usai protocolli di alto livello che i prodotti software
implementano per offrire servizi agli utenti finali
• ogni protocollo è associato ad una porta sulla
macchina che lo esegue
• la coppia <indirizzo della macchina, porta> individua
univocamente la connessione
• serve per smistare le varie connessioni ai vari protocolli
• la connessione viene stabilita solo se è presente il
servizio su quella data porta
27
La rete e il Web
L‘architettura TCP/IP
• NNTP: Network News Transport Protocol - news
• porta 119
• FTP: File Transfer Protocol - trasferimento file
• porta 21
• Telnet: collegamento terminale remoto
26
La rete e il Web
• Protocolli applicazione
• SMTP: Simple Mail Transfer Protocol - email
• porta 25
• POP: Post Office Protocol - lettura remota della
posta elettronica
• porta 110
• HTTP: HyperText Transfer Protocol - web
• porta 80
Master Catalogazione AA 2009/10
28
La rete e il Web
• Tecnologia nata su base informale che viene
ora regolata da istituzioni preposte allo
sviluppo degli standard
• World Wide Web Consortium (W3C)
• Internet Enginnering Task Force (IETF)
• DNS: Domain Name Service - rubrica
• www.ietf.org
• porta 53
La rete e il Web
Master Catalogazione AA 2009/10
• www.w3c.org
• porta 23
29
• video, audio
Istituzioni e organizzazioni
• Protocolli applicazione
Master Catalogazione AA 2009/10
• privo di connessione
• non garantisce l‘ordine dei pacchetti
• inaffidabile
• veloce
• non controlla la correttezza
• adatto per servizi in cui il tempo di risposta è più
importante della correttezza
L‘architettura TCP/IP
• Livello applicazione
Master Catalogazione AA 2009/10
• oppure usa lo User Datagram Protocol
La rete e il Web
Master Catalogazione AA 2009/10
30
La rete e il Web
5
Master Catalogazione AA 2009/10
M.A. Alberti
Gestione dell’informazione
Il protocollo del WEB
Come funziona il WWW
• Il protocollo di applicazione adottato dal web
e che regola la trasmissione dei documenti
ipertestuali si chiama HyperText Transfer
Protocol (HTTP)
• Si basa sul protocollo di trasporto TCP/IP
• I documenti devono però essere in uno
specifico formato: HyperText Markup
Language (HTML)
Master Catalogazione AA 2009/10
31
La rete e il Web
Architettura client-server
• In un’architettura client-server ci sono due
host connessi alla rete:
• un client che sottopone richieste al server
• un server in grado di rispondere alle richieste
formulate da un client
• Il funzionamento del World Wide Web non
differisce molto da quello delle altre
applicazioni Internet
• Anche in questo caso il sistema si basa
su una interazione tra un computer client ed
un server
Master Catalogazione AA 2009/10
32
La rete e il Web
Web: client-server
• Un web-server è un server su cui è in
esecuzione un programma in grado di
scambiare messaggi con un web-client
tramite il protocollo HTTP
• Ovviamente la comunicazione fra client e
server può avvenire solo se i due hanno
stabilito un protocollo comune di
comunicazione
• Un web-client è un programma (browser) in
grado di dialogare con un web-server
(usando il protocollo HTTP)
Master Catalogazione AA 2009/10
Master Catalogazione AA 2009/10
33
La rete e il Web
Connessione diretta ad Internet
• Per visitare un sito Web con
un browser, si deve
specificarne l’indirizzo
(esplicitamente o
selezionando un link)
34
La rete e il Web
Collegamento via modem
• Se siete collegati tramite un
modem, allora le
informazioni fra client e
server passano attraverso il
provider
• Il client invia la richiesta di
connessione, formulata nel
modo specificato da HTTP
• Ricevuta la richiesta, il
server Web trasmette le
informazioni al computer e il
browser provvede a
visualizzarle
Master Catalogazione AA 2009/10
La rete e il Web
35
La rete e il Web
Master Catalogazione AA 2009/10
36
La rete e il Web
6
Master Catalogazione AA 2009/10
M.A. Alberti
Gestione dell’informazione
Connessione browser-server web
• La connessione si realizza in cinque fasi:
• l’utente utilizza il browser per preparare una
richiesta
• il browser invia la richiesta (request)
• il server riceve la richiesta e opera per soddisfarla
Lo stato della richiesta
• Lo stato della richiesta corrente è visualizzato
nella barra di stato del browser
• Se l’indirizzo è sbagliato il browser segnalerà
un messaggio di errore
• recupera il documento richiesto
• il server invia una risposta (response)
• il browser riceve la risposta, la interpreta e la
visualizza
Master Catalogazione AA 2009/10
37
La rete e il Web
Master Catalogazione AA 2009/10
38
La rete e il Web
I browser
L’identificazione delle risorse
• Tutti i browser implementano il protocollo
HTTP, ma in genere sono multiprotocollo,
sono in grado cioè di comunicare con altri tipi
di server
• In genere fungono anche da client:
• Per poter essere utilizzate le varie risorse
disponibili sulla rete (i documenti sui server)
devono essere identificabili in modo univoco
• I browser identificano le risorse tramite
indirizzi detti URL (Uniform Resource Locator)
• Un indirizzo URL è così composto:
• • • • gopher
SMTP/POP/IMAP
FTP, telnet
NNTP
Master Catalogazione AA 2009/10
protocollo://server:porta_TCP:/file_path_completo
39
La rete e il Web
Master Catalogazione AA 2009/10
40
La rete e il Web
Esempio di indirizzo URL
Terminologia utile
• Dato che la porta associata al protocollo
HTTP è la 80 per default non è necessario
specificarla
• Il nome dei file index.html è implicito
• se non viene specificato il nome del file completo,
viene automaticamente cercato un file dal nome
• Utilizzando e configurando i browser ci si
imbatte spesso in alcuni termini che sono
importanti per un uso corretto del web
• • • • • proxy
motore di ricerca
cookie
applet
javascript
index.html
Master Catalogazione AA 2009/10
La rete e il Web
41
La rete e il Web
Master Catalogazione AA 2009/10
42
La rete e il Web
7
Master Catalogazione AA 2009/10
M.A. Alberti
Gestione dell’informazione
Funzione dei proxy
I proxy
• Un proxy è un server (host+sw) che svolge la
funzione di agente per gli utenti di altri
computer
• Configurando il proprio browser in modo che
usi un determinato proxy, le richieste di un
documento non saranno fatte direttamente
dal proprio computer al sito remoto, ma dal
server proxy, che si preoccupa poi di fornirci il
documento
Master Catalogazione AA 2009/10
43
La rete e il Web
I motori di ricerca
• Il motore di ricerca periodicamente guarda i
documenti sulla rete e li indicizza in base ad
delle parole chiave
• L’utente specifica delle parole chiave, e in
risposta il motore di ricerca gli fornisce una
lista di link ai documenti contenenti quella
parola chiave
45
La rete e il Web
Esempio
Master Catalogazione AA 2009/10
La rete e il Web
47
• se un utente richiede di caricare un documento
che è già presente nella cache, il proxy provvede
a spedirglielo direttamente senza contattare il sito
remoto, e quindi in tempi più brevi
• se il documento non è presente nella cache, il
proxy contatta il sito remoto, recupera il
documento, lo gira all’utente e lo memorizza nella
cache
Master Catalogazione AA 2009/10
44
La rete e il Web
I motori di ricerca
• Un motore di ricerca è un server che fornisce
un servizio di ricerca sulla rete per parole
chiave
Master Catalogazione AA 2009/10
• Il proxy dispone di una propria memoria
cache, nella quale memorizza tutti i
documenti recuperati negli ultimi tempi
• I motori di ricerca più famosi:
• http://www.google.com/
• http://www.altavista.com/
• http://www.yahoo.com/
• http://www.excite.com/
• http://www.lycos.it/
• http://www.virgilio.it/
• http://arianna.iol.it/
Master Catalogazione AA 2009/10
46
La rete e il Web
Una maschera di ricerca
La rete e il Web
Master Catalogazione AA 2009/10
48
La rete e il Web
8
Master Catalogazione AA 2009/10
M.A. Alberti
Gestione dell’informazione
Cookie
Critiche sui cookie
• Frammenti di testo inviati dal server al
browser del client e poi viceversa ogni volta
che il client accede ad un server
• Usati per la conservazione del valore di alcuni
parametri durante la navigazione
• Memorizza preferenze, siti preferiti, acquisti online preferenze
• in questo modo, il sito remoto potrà in seguito fornire
informazioni personalizzate
• http://www.google.it/support/websearch/bin/answer.py?
hl=it&answer=35851 per abilitare i cookie dai browser
Master Catalogazione AA 2009/10
49
La rete e il Web
Disabilitare i cookie
• Poiché sono usati per monitorare la
navigazione su internet sono oggetto di
dibattito sul diritto alla privacy
• Non sempre sono in grado di identificare
l'utente in modo accurato
• Potenzialmente possono essere oggetto di
attacchi informatici.
• Open Web Application Security Project sostiene che la
manipolazione dei cookie è uno dei 20 attacchi più utilizzati
dagli hacker soprattutto nei sistemi di e-commerce
Master Catalogazione AA 2009/10
50
La rete e il Web
Esempio da Google
• Se vengono disabilitati alcune funzionalità dei
siti possono non essere presenti
• Carrello spesa
• Le applicazioni più comuni memorizzano le
informazioni sulle abitudini dell'utente
all'interno dei siti che visita.
• Sono considerati accettabili se sono un servizio
per l’utente
Master Catalogazione AA 2009/10
51
La rete e il Web
Master Catalogazione AA 2009/10
52
La rete e il Web
Uso dei cookie
• Facendo shopping in un sito di vendita via
Internet, potete inserire i prodotti che vi
interessano nel carrello della spesa
• il server spedirà al vostro browser un cookie,che
conterrà l'indicazione della vostra scelta
• d'ora in poi, ogni volta che voi richiamate una
pagina dello stesso sito, il vostro browser
segnalerà al server che voi avete già selezionato
tale oggetto, rispedendogli il cookie
Master Catalogazione AA 2009/10
La rete e il Web
53
La rete e il Web
9
Scarica

La rete e il World Wide Web