Il World Wide Web Il Web Claudio Fornaro ver. 1.3 1 La nascita del Web Il World Wide Web (ragnatela di estensione mondiale) o “WWW” o “Web” è un sistema di documenti ipertestuali collegati tra loro attraverso Internet Attraverso un Web browser l’utente visualizza pagine Web contenenti testo, immagini e altro contenuto multimediale, spostandosi dall’una all’altra mediante hyperlink. 2 Le idee di base del Web Creato verso il 1990 da Tim Berners-Lee (UK) e Robert Cailliau (BE) del CERN di Ginevra (CH) Tim Berners-Lee concepì il Web da un punto di vista semantico: il contenuto stesso deve essere auto-descritto mediante tecniche di mark-up 3 Il World Wide Web si basa sulla combinazione di 4 idee: L’ipertesto: formato di informazione che, da una parte del documento, permette di spostarsi ad un’altra parte del documento stesso o ad un altro documento per mezzo di collegamenti interni al testo stesso denominati “hyperlink” (o più comunemente link) 4 Le idee di base del Web Le idee di base del Web seguito: Il Resource Identifier: identificatore univoco utilizzato per localizzare sulla rete una particolare risorsa (un file, un documento, altro), viene comunemente chiamato URL o URI, benché ci siano sottili differenze tra i due termini seguito: Il modello di calcolo client-server: sistema in cui un programma client chiede ad un programma server di fornirgli risorse o servizi, ad esempio dati e file 5 Le idee di base del Web Struttura di base seguito: 6 Il linguaggio di Markup: opportuni codici inframmezzati al testo ne indicano la struttura, il significato (semantica), o l’aspetto grafico (linguaggio HTML) Un programma client genericamente detto user agent richiede risorse identificate dal loro URL (quali pagine Web e altri file) a predisposti server Web Se lo user agent ha interazione con l’utente e visualizza la risorsa sullo schermo dell’utente, viene chiamato browser Web 7 8 Struttura di base Struttura di base L’utente può quindi seguire i link presenti in ciascuna pagina per raggiungere le locazioni identificate dagli stessi link E’ inoltre possibile mandare informazioni al server Web (ad esempio compilando i web forms) affinché siano memorizzati o elaborati 9 Funzionamento del Web Le pagine Web sono generalmente organizzate in collezioni di materiale tematico su nodi della rete Internet detti siti Web L’azione del seguire link da un sito Web ad un altro viene talvolta detto “navigazione” (“surfing”) Nel linguaggio comune, spesso Internet e il Web sono considerati sinonimi 10 Funzionamento del Web La visualizzazione di una pagina normalmente inizia con l’indicazione dell’utente dell’URL a cui accedere, o scrivendo l’URL corrispondente alla pagina o seguendo un link associato ad essa 11 Il primo passaggio, trasparente per l’utente, consiste nell’accedere ai server del Domain Name System (DNS) per determinare l’indirizzo IP numerico corrispondente al nome del server Web indicato nell’URL Il browser quindi stabilisce una connessione TCP tra sé e il server Web 12 Funzionamento del Web Funzionamento del Web Il secondo passaggio consiste nella trasmissione da parte del client al server Web della richiesta della risorsa presente sul server stesso e specificata nell’URL Nel caso di una tipica pagina Web, questa viene mandata dal server al browser che la analizza e richiede gli altri file che completano quella pagina (immagini, etc.) Queste richieste addizionali possono essere connessioni indipendenti fatte dal browser al server (e non dovrebbero essere conteggiate nel numero di accessi al server) Ottenuti gli elementi che costituiscono la pagina, il browser disegna la pagina seguendo tenendo conto di tutte le informazioni scaricate (codice HTML, direttive CSS, altro) 13 La cache 14 La cache Quando si accede dopo un breve tempo alla stessa pagina Web, in genere questa non viene scaricata nuovamente dal server, ma viene usata una copia memorizzata sul proprio disco Il browser automaticamente (in modo nascosto, “cache”=“nascondere”) chiede al server Web se la pagina è stata modificata, se non lo è stata viene utilizzata la copia memorizzata (in cache) 15 La funzionalità della cache permette di ridurre notevolmente il traffico di rete verso Internet Il termine di validità (expiration) può essere indipendente per ciascuna risorsa (HTML, immagine, stylesheet, JavaScript, etc.) 16 La cache La cache La funzionalità di cache può essere effettuata da calcolatori appositi detti proxy a beneficio di tutti i calcolatori di una LAN Anche alcuni motori di ricerca (search engines) come Google o Yahoo! salvano in enormi cache il contenuto dei siti Web che indicizzano E’ il server Web che è in grado di stabilire se una risorsa è stata aggiornata E’ possibile inserire nelle pagine Web opportune direttive per richiedere al browser e ai proxy di non salvare una copia cache della pagina (es. le pagine di siti di Internet banking e news) 17 Corruttibilità dei link 18 Corruttibilità dei link Le risorse sul Web sono soggette nel tempo a modifiche, cancellazioni, rilocazioni Alcuni progetti hanno come scopo quello di memorizzare “istantanee” del contenuto del Web in giganteschi archivi, tra questi l’Internet Archive (dal 1996) 19 La corruttibilità è dovuta a: i link referenziano risorse mantenute da entità indipendenti la dimensione del Web rende impossibile monitorare tutti i link in real time non è prevista alcuna notifica quando una pagina viene rimossa o ridenominata 20 Layout del documento Layout del documento Le pagine HTML possono presentarsi in modi diversi a seconda del dispositivo utilizzato per la fruizione Quando è necessario un layout simile a quello che si avrebbe su carta, il formato HTML non è adeguato, il formato più utilizzato in questi casi è il Portable Document Format (PDF) della Adobe Systems Il formato PDF viene utilizzato per rappresentare documenti bidimensionali in modo fisso indipendente dal dispositivo e dalla risoluzione Ogni documento PDF contiene la descrizione completa del documento mediante: testo, font, immagini raster e vettoriali 21 Layout del documento 22 Motori di ricerca Nel file PDF non vengono memorizzati dettagli hardware e software del sistema utilizzato per crearli La visualizzazione dei file PDF è indipendente dai dettagli hardware e software del sistema utilizzato (purché anche i font utilizzati siano stati inclusi nel documento PDF) 23 Applicazioni in grado di ricercare informazioni presenti in un calcolatore, in una LAN o nel Web Le ricerche si basano sulla soddisfazione di alcuni criteri di ricerca espressi dall’utente (tipicamente parole chiave) I più comuni motori di ricerca indicizzano siti Web, altri anche newsgroup, database pubblici, etc. 24 Motori di ricerca Web Directory La lista dei risultati (pagine che contengono quelle parole chiave) sono ordinate per importanza con algoritmi segreti che hanno fatto la fortuna dei loro inventori (Google) I motori di ricerca indicizzano frequentemente il contenuto dei siti Web per poter operare velocemente e fornire risultati non obsoleti E’ un indice di siti Web organizzato in categorie e sottocategorie in base al contenuto Non è un motore di ricerca (sebbene lo stesso sito possa fornire entrambi i servizi, es. Yahoo!) e la classificazione non è automatica ma manuale 25 Web Syndication 26 Web Syndication Vendita a terzi di spazio (pagine o parti di esse) su un sito Web In genere questo termine viene utilizzato in riferimento ai Web Feed dove un sito di terze parti pubblica ad esempio un sommario degli ultimi aggiornamenti (ad es. le ultime notizie) 27 La fornitura di contenuto avviene secondo standard tecnologici (in genere viene usato il formato XML) Vantaggi per le due parti: Sito ospitante: offerta di maggiore contenuto, aggiornamento senza intervento proprio Sito ospite: distribuzione su molti più siti del proprio contenuto senza sforzo aggiuntivo e adattamenti al singolo 28 ospitante Web Syndication Web Feed Il gradimento degli utilizzatori deriva dalla disponibilità delle informazioni senza la necessità di fornire dati personali o di sottoscrivere il servizio I due metodi principali sono gli stessi dei Web Feed: RSS e Atom 29 Web Feed Forma di Web Syndication a richiesta dove il sito ospitante viene sostituito da un’applicazione dell’utente L’utente utilizza un aggregatore (feed reader) che, se necessario, registra l’utente presso il fornitore di Feed Gli aggregatori possono essere programmi indipendenti o estensioni dei browser o applicazioni three-tier 30 Web Feed L’aggregatore consulta i server dei Feed per verificare la presenza di nuovo contenuto e ne informa l’utente o scarica direttamente il feed per la visualizzazione La verifica di nuovo contenuto avviene periodicamente o su richiesta dell’utente 31 Vantaggi dei Web Feed sui siti Web: Gli utenti posso essere notificati automaticamente della presenza di nuovo contenuto senza interazione esplicita Le informazioni presentate tramite l’aggregatore hanno aspetto uniforme indipendentemente dal formato presente sui siti di origine I file multimediali possono essere scaricati automaticamente 32 Web Feed Il Web semantico Vantaggi dei Web Feed sulla posta eln: La sottoscrizione di un Feed non richiede in genere che l’utente debba fornire il suo indirizzo e-mail (minor esposizione a spam, virus, phishing, appropriazione di identità) Per attivare e cancellare la sottoscrizione ad un Feed non è necessario mandare richieste esplicite al server, ma è sufficiente agire sull’aggregatore Evoluzione del World Wide Web finalizzata all’elaborazione automatica dei contenuti (attualmente i contenuti sono solo fruibili e comprensibili dall’utente umano) Questo permette ai browser o altri programmi di cercare ed elaborare (ad es. combinare) i risultati 33 Il Web semantico Il Web semantico Il Web semantico si basa su: un modello di dati detto Resource Description Framework (RDF) diversi formati di scambio dati linguaggi di descrizione dei dati che facilitano la descrizione formale dei concetti, dei termini e delle relazioni all’interno di un determinato ambito: RDF Schema (RDFS) Web Ontology Language (OWL) 34 35 Esempio: “cerca i prezzi dei televisori HD di almeno 40 pollici nei negozi di Torino aperti il giovedì fino alle 20” Attualmente una ricerca come questa richiederebbe che il motore di ricerca conoscesse la struttura di ciascuno dei siti Web da cui recuperare i dati Lo standard RDF descrive le informazioni in forma appropriata per essere elaborate automaticamente 36 Il Web 2.0 Evoluzione del World Wide Web rispetto alla condizione precedente Insieme di tutte quelle applicazioni online che permettono uno spiccato livello di interazione tra il sito e l'utente attuato con brevi connessioni (blog, forum, chat, wiki, YouTube, Google, ecc.). 37