Master Catalogazione AA 2009/10 M.A. Alberti Gestione dell’informazione World Wide Web: la ragnatela globale La rete e il World Wide Web Master Catagolazione AA 2009/10 Maria A. Alberti • WWW (detto web, ragnatela) è la rete costituita dai server che forniscono accesso alle loro informazioni tramite il protocollo HTTP (HypertText Transfer Protocol) • gli host si collegano ai server usando un programma client detto browser (colui che curiosa) • host è ogni apparato collegato in rete: ospita programmi applicativi sia di tipo client sia di tipo server Master Catalogazione AA 2009/10 2 La rete e il Web Storia del web Storia del web • 1992: Sviluppo del client con interfaccia a finestre in ambiente Xwindow • 1980: Tim Berners-Lee (CERN) sviluppa il programma "Enquire-Within-Upon-Everything" che consentiva di effettuare link tra diversi computer connessi in rete • 1989: Tim Berners-Lee diffonde due documenti per raccogliere opinioni sul suo lavoro presso il CERN • 1990: Il CERN appoggia ufficialmente il progetto • viene coniato il nome World-Wide Web • viene rilasciata la lista dei primi 26 server WWW • 1993: Viene rilasciato il primo browser per Macintosh • viene rilasciato X-Mosaic di Marc Andreessen (NCSA) • i server HTTP sono circa 50 • 1994: Viene fondata la Mosaic Corporation (oggi Netscape Corp.) • i siti WWW sono 1.500 • si tiene il primo meeting del "W3Consortium" presso il MIT • il CERN sospende il supporto del progetto WWW • 1991: Sviluppo dei primi client ed apertura del WWW server del CERN • 2000: …Centinaia di milioni di pagine disponibili ?!? Master Catalogazione AA 2009/10 Master Catalogazione AA 2009/10 3 La rete e il Web • I protocolli precedentemente usati per il trasferimento dei file (FTP, File Transfer Protocol) prevedevano che i documenti fossero copiati sulla macchina per essere consultati • le fasi di download e consultazione erano distinte • Tramite il web è possibile consultare direttamente dei documenti online • il trasferimento dei documenti viene effettuato automaticamente, in modo trasparente all’utente La rete e il Web 5 La rete e il Web Il successo del web Il successo del web Master Catalogazione AA 2009/10 4 La rete e il Web • Consente di accedere in modo uniforme a informazioni di varia natura • immagini, animazioni, suoni, filmati ... (multimedialità) • Con l’introduzione di componenti attive (form, applet, javascript, php,…) è anche possibile utilizzare i browser web per trasmettere informazioni dall’utente al server Master Catalogazione AA 2009/10 6 La rete e il Web 1 Master Catalogazione AA 2009/10 M.A. Alberti Gestione dell’informazione Le basi tecnologiche • Le tecnologie che hanno permesso l’ampia diffusione del web sono: • gestione degli ipertesti e della multimedialità • disponibilità di programmi client multiprotocollo (i browser) • efficaci convenzioni per l’identificazione delle risorse: indirizzi IP • utilizzo di un protocollo HTTP nella connessione browser-server particolarmente semplice Master Catalogazione AA 2009/10 7 La rete e il Web Architettura del web Master Catalogazione AA 2009/10 Internet • Internet - La Rete delle reti • Progetto del Department of Defense USA ARPANET • (Defense) Advanced Research Project Agency • risposta allo Sputnik sovietico del 1957; disegnata per resistere a un attacco nucleare • la resistenza ai guasti è garantita dalla natura punto-apunto con ridondanza di cammini • sponsorizza la ricerca presso università e laboratori di ricerca • la rete è di uso esclusivo militare e di ricerca Master Catalogazione AA 2009/10 9 La rete e il Web 8 La rete e il Web Internet • Collezione su scala mondiale di apparati • Insieme comune di tecnologie di rete, protocolli e applicazioni • Anche su reti private o semi-private • Intranets • Reti private a una istituzione o azienda, con accesso riservato ai membri. • Extranets • Reti che connettono diverse istituzioni ma ancora con accesso riservato. Es: i fornitori o i grossisti di un’azienda Master Catalogazione AA 2009/10 10 La rete e il Web Internet Internet • 1974: viene proposto il protocollo TCP/IP per superare le difficoltà di connessione tra reti diverse • Nodi ARPANET • dicembre 1969 • integrato in Unix, UC at Berkeley • UCSB, UCLA, SRI, Utah • marzo 1971 • UCSB, UCLA, SRI, Utah, Stanford, SDC, Rand, Uillinois, MIT, BBN, Lincoln Lab, Harvard, Burroghs, CASE, Carn • 1983 • migliaia di nodi • viene separata la MILNET • 1990 • 1991: viene proposto il protocolo http e il World Wide Web • • • • CERN, Ginevra la rete diventa anche commerciale la dimensione raddoppia ogni anno 2000: milioni di host • integra NSFNET, BITNET, HEPNET, SPAN, EARN • ARPANET viene smantellata Master Catalogazione AA 2009/10 La rete e il Web 11 La rete e il Web Master Catalogazione AA 2009/10 12 La rete e il Web 2 Master Catalogazione AA 2009/10 M.A. Alberti Gestione dell’informazione Software delle Reti Architettura delle Reti • L‘insieme dei livelli e dei protocolli si chiama architettura di rete A I like rabbits Mi piacciono i conigli interprete interprete Mi piacciono i conigli segretario Fax: ++39-… mi piacciono i conigli Master Catalogazione AA 2009/10 B J’aime les lapins segretario Fax: ++39-… mi piacciono i conigli 13 La rete e il Web Software delle Reti • stabiliscono come la comunicazione deve procedere e il formato dei pacchetti 15 La rete e il Web B livello 4 interfaccia di livello 3-4 livello 3 interfaccia di livello 2-3 livello 2 interfaccia di livello 1-2 livello 1 protocollo di livello 4 protocollo di livello 3 protocollo di livello 2 protocollo di livello 1 • il livello x su A parla con il livello x di B • ogni livello comunica fisicamente solo con i due adiacenti, superiore e inferiore (se esistono) tramite un‘interfaccia Master Catalogazione AA 2009/10 14 La rete e il Web • Pila dei protocolli • insieme dei protocolli usati ai vari livelli di una rete • ogni protocollo aggiunge un‘instestazione al messaggio con le informazioni che servono al livello omologo all‘altro capo della comunicazione per interpretare il messaggio Master Catalogazione AA 2009/10 16 La rete e il Web Tipologia di Servizi Software delle Reti A • il numero dei livelli e le loro funzionalità dipendono dal tipo di rete • le macchine comunicano logicamente per pari livelli (peer) Software delle Reti • l‘interfaccia definisce le operazioni primitive e i servizi che il livello sottostante offre a quello soprastante • le regole per la comunicazione sui vari livelli si chiamano protocolli Master Catalogazione AA 2009/10 • Organizzato a livelli per ridurne la complessità livello 4 livello 3 livello 2 • Servizi orientati alla connessione • si stabilisce una connessione tra sorgente e destinazione che dura per tutta la durata della connessione • come nel telefono • i dati arrivano nell‘ordine in cui sono spediti livello 1 mezzo fisico Esempio di livelli, protocolli e interfacce Master Catalogazione AA 2009/10 La rete e il Web 17 La rete e il Web Master Catalogazione AA 2009/10 18 La rete e il Web 3 Master Catalogazione AA 2009/10 M.A. Alberti Gestione dell’informazione Tipologia di Servizi Tipologia di Servizi • Servizi privi di connessione • non esiste connessione tra gli estremi permanente durante la trasmissione • come nel sistema postale • i messaggi possono non arrivare nell‘ordine di spedizione • possono essere inaffidabili • con e senza conferma di ricezione Master Catalogazione AA 2009/10 19 La rete e il Web • La qualità del servizio (QoS, Quality of Service) caratterizza le prestazioni dei servizi • alcuni servizi sono affidabili • non perdono mai i dati • garantiscono tempi di consegna • garantiscono una certa capacità di trasmissione (banda) • trasmissione digitale di audio e video Master Catalogazione AA 2009/10 La rete e il Web L‘architettura TCP/IP Servizi vs protocolli • L‘architettura che ha portato a Internet • Un servizio: • Insieme di operazioni primitive che un livello fornisce ad un livello superiore tramite l’interfaccia • definisce le funzionalità che quel livello dispone • Un protocollo: • Insieme delle regole che governano il formato e il significato dei blocchi di informazione e dei pacchetti scambiati Master Catalogazione AA 2009/10 20 21 La rete e il Web L‘architettura TCP/IP • Transmission Control Protocol/Internet Protocol • definita nel 1974 da Vinton Cerf per superare problemi di compatibilità tra protocolli esistenti • Composta da 4 livelli • • • • Applicazione diversi Trasporto TCP o altri UDP Internet IP Rete (fisico) Master Catalogazione AA 2009/10 22 La rete e il Web L‘architettura TCP/IP • Livello rete • Livello internet • qualunque protocollo in grado di trasportare pacchetti che usano il protocollo Internet - IP • l‘architettura non specifica alcun requisito • Ethernet, Arpanet, packet radio • usa l‘Internet Protocol • definisce un tipo di pacchetto in cui spezza i dati che riceve dal livello superiore • dimensioni dello header e del payload, informazioni nello header • privo di connessione • non garantisce l‘ordine di consegna • non garantisce la consegna • i pacchetti possono seguire percorsi diversi • trasparente all‘utente finale Master Catalogazione AA 2009/10 La rete e il Web 23 La rete e il Web Master Catalogazione AA 2009/10 24 La rete e il Web 4 Master Catalogazione AA 2009/10 M.A. Alberti Gestione dell’informazione L‘architettura TCP/IP L‘architettura TCP/IP • Livello trasporto • Livello trasporto • frammenta in pacchetti la sequenza di byte da trasmettere, la riorganizza all‘arrivo • usa il Transport Control Protocol • orientato alla connessione • garantisce l‘ordine dei pacchetti • garantisce la consegna • garantisce la correttezza dei byte trasmessi • ritrasmette in caso di errore • controlla il flusso perché un ricevente lento non soffochi a causa di un trasmittente veloce Master Catalogazione AA 2009/10 25 La rete e il Web L‘architettura TCP/IP • usai protocolli di alto livello che i prodotti software implementano per offrire servizi agli utenti finali • ogni protocollo è associato ad una porta sulla macchina che lo esegue • la coppia <indirizzo della macchina, porta> individua univocamente la connessione • serve per smistare le varie connessioni ai vari protocolli • la connessione viene stabilita solo se è presente il servizio su quella data porta 27 La rete e il Web L‘architettura TCP/IP • NNTP: Network News Transport Protocol - news • porta 119 • FTP: File Transfer Protocol - trasferimento file • porta 21 • Telnet: collegamento terminale remoto 26 La rete e il Web • Protocolli applicazione • SMTP: Simple Mail Transfer Protocol - email • porta 25 • POP: Post Office Protocol - lettura remota della posta elettronica • porta 110 • HTTP: HyperText Transfer Protocol - web • porta 80 Master Catalogazione AA 2009/10 28 La rete e il Web • Tecnologia nata su base informale che viene ora regolata da istituzioni preposte allo sviluppo degli standard • World Wide Web Consortium (W3C) • Internet Enginnering Task Force (IETF) • DNS: Domain Name Service - rubrica • www.ietf.org • porta 53 La rete e il Web Master Catalogazione AA 2009/10 • www.w3c.org • porta 23 29 • video, audio Istituzioni e organizzazioni • Protocolli applicazione Master Catalogazione AA 2009/10 • privo di connessione • non garantisce l‘ordine dei pacchetti • inaffidabile • veloce • non controlla la correttezza • adatto per servizi in cui il tempo di risposta è più importante della correttezza L‘architettura TCP/IP • Livello applicazione Master Catalogazione AA 2009/10 • oppure usa lo User Datagram Protocol La rete e il Web Master Catalogazione AA 2009/10 30 La rete e il Web 5 Master Catalogazione AA 2009/10 M.A. Alberti Gestione dell’informazione Il protocollo del WEB Come funziona il WWW • Il protocollo di applicazione adottato dal web e che regola la trasmissione dei documenti ipertestuali si chiama HyperText Transfer Protocol (HTTP) • Si basa sul protocollo di trasporto TCP/IP • I documenti devono però essere in uno specifico formato: HyperText Markup Language (HTML) Master Catalogazione AA 2009/10 31 La rete e il Web Architettura client-server • In un’architettura client-server ci sono due host connessi alla rete: • un client che sottopone richieste al server • un server in grado di rispondere alle richieste formulate da un client • Il funzionamento del World Wide Web non differisce molto da quello delle altre applicazioni Internet • Anche in questo caso il sistema si basa su una interazione tra un computer client ed un server Master Catalogazione AA 2009/10 32 La rete e il Web Web: client-server • Un web-server è un server su cui è in esecuzione un programma in grado di scambiare messaggi con un web-client tramite il protocollo HTTP • Ovviamente la comunicazione fra client e server può avvenire solo se i due hanno stabilito un protocollo comune di comunicazione • Un web-client è un programma (browser) in grado di dialogare con un web-server (usando il protocollo HTTP) Master Catalogazione AA 2009/10 Master Catalogazione AA 2009/10 33 La rete e il Web Connessione diretta ad Internet • Per visitare un sito Web con un browser, si deve specificarne l’indirizzo (esplicitamente o selezionando un link) 34 La rete e il Web Collegamento via modem • Se siete collegati tramite un modem, allora le informazioni fra client e server passano attraverso il provider • Il client invia la richiesta di connessione, formulata nel modo specificato da HTTP • Ricevuta la richiesta, il server Web trasmette le informazioni al computer e il browser provvede a visualizzarle Master Catalogazione AA 2009/10 La rete e il Web 35 La rete e il Web Master Catalogazione AA 2009/10 36 La rete e il Web 6 Master Catalogazione AA 2009/10 M.A. Alberti Gestione dell’informazione Connessione browser-server web • La connessione si realizza in cinque fasi: • l’utente utilizza il browser per preparare una richiesta • il browser invia la richiesta (request) • il server riceve la richiesta e opera per soddisfarla Lo stato della richiesta • Lo stato della richiesta corrente è visualizzato nella barra di stato del browser • Se l’indirizzo è sbagliato il browser segnalerà un messaggio di errore • recupera il documento richiesto • il server invia una risposta (response) • il browser riceve la risposta, la interpreta e la visualizza Master Catalogazione AA 2009/10 37 La rete e il Web Master Catalogazione AA 2009/10 38 La rete e il Web I browser L’identificazione delle risorse • Tutti i browser implementano il protocollo HTTP, ma in genere sono multiprotocollo, sono in grado cioè di comunicare con altri tipi di server • In genere fungono anche da client: • Per poter essere utilizzate le varie risorse disponibili sulla rete (i documenti sui server) devono essere identificabili in modo univoco • I browser identificano le risorse tramite indirizzi detti URL (Uniform Resource Locator) • Un indirizzo URL è così composto: • • • • gopher SMTP/POP/IMAP FTP, telnet NNTP Master Catalogazione AA 2009/10 protocollo://server:porta_TCP:/file_path_completo 39 La rete e il Web Master Catalogazione AA 2009/10 40 La rete e il Web Esempio di indirizzo URL Terminologia utile • Dato che la porta associata al protocollo HTTP è la 80 per default non è necessario specificarla • Il nome dei file index.html è implicito • se non viene specificato il nome del file completo, viene automaticamente cercato un file dal nome • Utilizzando e configurando i browser ci si imbatte spesso in alcuni termini che sono importanti per un uso corretto del web • • • • • proxy motore di ricerca cookie applet javascript index.html Master Catalogazione AA 2009/10 La rete e il Web 41 La rete e il Web Master Catalogazione AA 2009/10 42 La rete e il Web 7 Master Catalogazione AA 2009/10 M.A. Alberti Gestione dell’informazione Funzione dei proxy I proxy • Un proxy è un server (host+sw) che svolge la funzione di agente per gli utenti di altri computer • Configurando il proprio browser in modo che usi un determinato proxy, le richieste di un documento non saranno fatte direttamente dal proprio computer al sito remoto, ma dal server proxy, che si preoccupa poi di fornirci il documento Master Catalogazione AA 2009/10 43 La rete e il Web I motori di ricerca • Il motore di ricerca periodicamente guarda i documenti sulla rete e li indicizza in base ad delle parole chiave • L’utente specifica delle parole chiave, e in risposta il motore di ricerca gli fornisce una lista di link ai documenti contenenti quella parola chiave 45 La rete e il Web Esempio Master Catalogazione AA 2009/10 La rete e il Web 47 • se un utente richiede di caricare un documento che è già presente nella cache, il proxy provvede a spedirglielo direttamente senza contattare il sito remoto, e quindi in tempi più brevi • se il documento non è presente nella cache, il proxy contatta il sito remoto, recupera il documento, lo gira all’utente e lo memorizza nella cache Master Catalogazione AA 2009/10 44 La rete e il Web I motori di ricerca • Un motore di ricerca è un server che fornisce un servizio di ricerca sulla rete per parole chiave Master Catalogazione AA 2009/10 • Il proxy dispone di una propria memoria cache, nella quale memorizza tutti i documenti recuperati negli ultimi tempi • I motori di ricerca più famosi: • http://www.google.com/ • http://www.altavista.com/ • http://www.yahoo.com/ • http://www.excite.com/ • http://www.lycos.it/ • http://www.virgilio.it/ • http://arianna.iol.it/ Master Catalogazione AA 2009/10 46 La rete e il Web Una maschera di ricerca La rete e il Web Master Catalogazione AA 2009/10 48 La rete e il Web 8 Master Catalogazione AA 2009/10 M.A. Alberti Gestione dell’informazione Cookie Critiche sui cookie • Frammenti di testo inviati dal server al browser del client e poi viceversa ogni volta che il client accede ad un server • Usati per la conservazione del valore di alcuni parametri durante la navigazione • Memorizza preferenze, siti preferiti, acquisti online preferenze • in questo modo, il sito remoto potrà in seguito fornire informazioni personalizzate • http://www.google.it/support/websearch/bin/answer.py? hl=it&answer=35851 per abilitare i cookie dai browser Master Catalogazione AA 2009/10 49 La rete e il Web Disabilitare i cookie • Poiché sono usati per monitorare la navigazione su internet sono oggetto di dibattito sul diritto alla privacy • Non sempre sono in grado di identificare l'utente in modo accurato • Potenzialmente possono essere oggetto di attacchi informatici. • Open Web Application Security Project sostiene che la manipolazione dei cookie è uno dei 20 attacchi più utilizzati dagli hacker soprattutto nei sistemi di e-commerce Master Catalogazione AA 2009/10 50 La rete e il Web Esempio da Google • Se vengono disabilitati alcune funzionalità dei siti possono non essere presenti • Carrello spesa • Le applicazioni più comuni memorizzano le informazioni sulle abitudini dell'utente all'interno dei siti che visita. • Sono considerati accettabili se sono un servizio per l’utente Master Catalogazione AA 2009/10 51 La rete e il Web Master Catalogazione AA 2009/10 52 La rete e il Web Uso dei cookie • Facendo shopping in un sito di vendita via Internet, potete inserire i prodotti che vi interessano nel carrello della spesa • il server spedirà al vostro browser un cookie,che conterrà l'indicazione della vostra scelta • d'ora in poi, ogni volta che voi richiamate una pagina dello stesso sito, il vostro browser segnalerà al server che voi avete già selezionato tale oggetto, rispedendogli il cookie Master Catalogazione AA 2009/10 La rete e il Web 53 La rete e il Web 9