Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Relatore: Prof. Giuseppe Serazzi Correlatore: Ing. Giuliano Casale Tesina di Laurea di: Andrea Ferrari - Matr.: 638853 Milano, 20 aprile 2004 Internet oggi… Sviluppo di Internet cambia le tradizionali regole di comunicazione. “Darwinismo progettuale”. Necessità e desiderio di analizzare le applicazioni Web dal punto di vista dell’utente. Obiettivi Rappresentare e misurare il Web. Analizzare le caratteristiche cognitive ed il comportamento degli utenti. Ricavare informazioni da un sito Web: Analisi topologica – Analisi dei file di log del Sito del Politecnico di Milano – Metodologie per rappresentare il Web* Internet è basato su una struttura globale non consistente. Veloce sviluppo del Web alla portata di tutti. Disorientamento degli utenti. Usabilità critica sia per l’utente che per il webdesigner. Necessità di rappresentare globalmente un sito Web Sviluppo di diagrammi per il Web (metafore) * B. Wong, G. Marsden, 2000, Visualizing the Web: why we should abandon graphs and trees. Metodologie per rappresentare il Web (2) Grafi ciclici: Rete di nodi connessi. Disordine e difficoltà di lettura. Alberi gerarchici Struttura gerarchica (aggiunta iterativa di nodi “figli”) Struttura del Web implicitamente non gerarchica Metodologie per rappresentare il Web (3) Coni Alberi gerarchici 3D (o artifici per migliore rappresentazione 2D) Critica la rappresentazione dei legami non gerarchici Metodologie per rappresentare il Web (4) Alberi iperbolici Alberi in geometria non euclidea (lente “a occhio di pesce”) Difficoltà a contestualizzare la rappresentazione Metodologie per rappresentare il Web (5) Metafore moderne – Struttura 3D su una colonna verticale (barra di navigazione) Metodologie per rappresentare il Web (6) Metafore moderne – A diverse quote ventagli (sottoinsiemi di pagine) Metodologie per rappresentare il Web (7) – Metafore moderne Facile rappresentazione di sottositi. – Agevole rappresentazione di link non gerarchici Il concetto di metrica nell’ambiente Web* È importante misurare gli attributi degli oggetti che studiamo. È necessario definire metriche per il Web. Metriche banali (hopcount, frequenza di accessi, distribuzione dei click, ecc.) * D. Dhyani, Wee Keong Ng, S.S. Bhowmick, 2002, A survey of Web metrics. Analisi metrica attraverso i grafi: – – – Grafo di N nodi è rappresentabile con una matrice delle distanze C di dimensioni N x N. L’elemento cij rappresenta la distanza fra la pagina i e la pagina j del Sito. Nodi irraggiungibili sono posti a distanza K (costante arbitraria). Il concetto di metrica nell’ambiente Web: la centralità Rappresenta la connettività di un nodo ODi C ij ID i C ji j ROC i j C i ij j C ij j RIC i C i j C j ji ij Il nodo centrale è quello col valore maggiore di ROC o di RIC. Da esso è possibile costruire una gerarchia all’interno dell’ipertesto e migliorarne la navigabilità. Il concetto di metrica nell’ambiente Web: metriche globali Metriche di compattezza CP – Metriche di classe max C ij – max min – i max N 2 N K – j Valuta l’ordine lineare del grafo Siti altamente lineari sono spesso difficili da navigare min N 2 N Su una scala da 0 a 1 indica l’estensione dei rimandi all’interno dell’ipertesto. Valori distanti dagli estremi denotano buona usabilità e navigabilità. C S i ij j C ji j LAP N3 LAP 43 N N 4 N pari altrimenti Analisi topologica del sito Web del Politecnico di Milano Dati del problema: – – Matrice d’incidenza (ricavata dal web-server o con download con spider) Matrice delle distanze (ricavata con un algoritmo in backtracking che calcola il cammino minimo tra due nodi Limitazioni e problemi: – – Indici calcolati: Centralità – Compattezza e classe con script C++ Sito Web = 12.000 pagine Limitazione: grafo delle 100 pagine più visitate – – Matrici di 144 milioni di elementi! Tempo di calcolo per generare la matrice delle distanze: qualche anno!!! Dal file di log dei giorni 1, 2 e 3 aprile 2002 Cammino massimo tra due nodi = 10 pagine Analisi topologica del sito Web del Politecnico di Milano (2) Centralità: – – Home Page non è la pagina più connessa Pagine centrali 120 100 80 60 20 45 41 37 33 29 25 21 RIC 17 13 9 5 0 Indice della pagina Web Compattezza CP = 0,48 http://www.polimi.it/ eventiIniziative/settimana.php http://www.polimi.it/facolta/ing/leon ardo/didattica/ric_clit.html ROC Metriche globali: – 40 1 Centralità relativa – Ottimo compromesso che garantisce una buona usabilità Classe S = 0,045 Scarsa linearità garantisce una semplice navigabilità per Siti molto ampi. Differenze cognitive negli utenti del Web* Il Web è un ampio sistema non-lineare. Occorre valutare sempre – – performance del sistema abilità degli utenti Le differenze individuali fra gli utenti del Web sono le variabili più importanti da considerare per stabilire criteri di usabilità (Nielsen). Distinzioni di tipo cognitivo fra individui: – – Field-Independent (FI) Field-Dependent (FD) Distinzioni fra gli utenti dovute all’esperienza. Altre distinzioni (non interessanti). * Kyung-Sun Kim, Individual differences and information retrieval: implications on Web design; H. Habieb Mammar, F. Tarpin Bernard, Incorporating cognitive styles into adaptive multimodal interface. Differenze cognitive negli utenti del Web (2) Esperimento con 4 categorie di utenti. Utenti senza esperienza: – – – FI impiegano meno tempo FI visitano meno pagine FD utilizzano spesso il comando “Home” e i link ipertestuali Utenti con esperienza: – – – Non vi sono differenze fra FI e FD in termini di tempo Non vi sono differenze fra FI e FD nell’uso dei comandi di navigazione Marcato utilizzo di jump: FI navigano in modo ancora più non-lineare della natura stessa dell’ipertesto. L’esperienza degli utenti è fondamentale per lo sviluppo di stili di navigazione e ricerca on-line. La QoS percepita dagli utenti del Web* QoS orientata non solo al sistema ma alle aspettative degli utenti. Valutiamo la tolleranza degli utenti al ritardo: – – – – è misurabile? dipende dal compito da eseguire? ha conseguenze per il business? è influenzata dal design? * N. Bhatti, A. Bouch, A. Kuchinsky, Integrating userperceived quality into Web server desing. Valutazione velocità Latenza Latenza (non increment.) (incrementale) Alta 0 – 5 sec. 0 – 39 sec. Media > 5 sec. > 39 sec. Bassa > 10 sec. > 56 sec. Valutazione del ritardo dà 3 soglie di tolleranza: • • • < 0,1 sec.: risp. immediata 1 sec.: dialogo 10 sec.: ritardo inaccettab. Controllo della latenza non significativo – Forte dipendenza dalle abitudini degli utenti La QoS percepita dagli utenti del Web (2) La tolleranza al ritardo diminuisce con l’aumentare della durata della sessione. Ritardo massimo Tolleranza massima Ritardo (sec.) 30 25 20 15 10 5 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Num. di pagine nella sessione La tolleranza al ritardo dipende dall’attività che l’utente sta svolgendo e dall’idea che egli ha del modo in cui il web-server la deve eseguire. La tolleranza al ritardo aumenta quando l’utente in attesa riceve feedback continui da parte del web-server. La QoS percepita dagli utenti del Web (3) È possibile ottenere una funzione di utilità per la QoS: Ritardo di 6 sec. Ritardo di 10 sec. La scarsa QoS percepita ha effetti negativi – Ritardo di 16 sec. Utenti tolleranti (in %) – 100 – 80 60 sulla stima verso l’azienda rappresentata dal Sito sui prodotti e servizi offerti anche fuori dal Web sulla stima dell’impegno profuso per il Web 40 20 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Num. di pagine nella sessione – non vengono imputati altri elementi penalizzanti: traffico, ISP, modem, ecc. sulla percezione di sicurezza (transazioni) Analisi dei file di log del sito Web del Politecnico di Milano Analizziamo lo spezzone di log (1, 2 e 3 aprile ’02) Common Extended LogFile Format: remotehost rfc authuser date request Utilizzo di Microsoft Access per gestire il database e ricavare le misure d’interesse. status bytes referer user_agent 12.140.45.83 - - 2002/04/01:23:14:46 GET http://www.polimi.it/english/menu.html HTTP/1.0 200 8078 http://www.polimi.it/english/ Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; .NET CLR 1.0.3705) 12.140.45.83 - - 2002/04/01:23:14:47 GET http://www.polimi.it/counter/ HTTP/1.0 200 43 http://www.polimi.it/english/home.html Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; .NET CLR 1.0.3705) 12.140.45.83 - - 2002/04/01:23:14:47 GET http://www.polimi.it/english/images/fpoli_blu.jpg HTTP/1.0 200 24829 http://www.polimi.it/english/home.html Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; .NET CLR 1.0.3705) Analisi dei file di log del sito Web del Politecnico di Milano (2) Per ogni pagina del Sito ricaviamo dal log le seguenti misure: – – – – – – Dimensione (nominale e cumulativa) Tempo permanenza (medio e cumulativo) Entropia Numero di back uscenti Numero di richieste usc. Numero di primi accessi Calcoliamo le correlazioni fra tutte le possibili coppie di misure r x x yi y i 2 2 x x y y i i i i i Rappresentiamo il diagramma di dispersione con gli assi in scala logaritmica Analisi dei file di log del sito Web del Politecnico di Milano (3) con HomePage senza HomePage r 0,5437 r 0,9588 Home Page: – Dimensione della pagina (MB) 1000 100 dati oltremodo elevati sconsigliano il confronto con le altre pagine del Sito 10 1 0,1 valori non veritieri per misurare l’interesse degli utenti verso il suo contenuto: – url mnemonico – accesso preferenziale – spesso pagina predefinita di avvio 0,01 0,001 0,0001 1 10 100 1000 Num. di accessi alla pagina 10000 100000 amplificazione eccessiva delle correlazioni Analisi dei file di log del sito Web del Politecnico di Milano (4) 10000 Tempo medio di permanenza 1000 100000 Tempo cumul. di permanenza (sec.) Tempo cumul. di permanenza (sec.) Num. di richieste uscenti 10000 1000 – 100100 10000 10 10 1 – 1000 100 1 0,1 0,1 10 completa incorrelazione da tutti gli altri parametri valutare l’interesse degli utenti col tempo di permanenza non sembra quindi metrica valida. 1 10 100 1000 10000 Tempo cumulativo di permanenza – correlato al 94% con num. di richieste uscenti – correlato al 60% col num. di back uscenti – correlato al 70% col num. di primi accessi – Risultati in linea con le aspettative (profilo utente di tipo “professionale”) 100000 Tempo cumul. di permanenza (sec.) 0,01 1 1 10 100 1000 Numero di back 0,1 1 10 100 1000 Numero di accessi 10000 100000 Analisi dei file di log dei sito Web del Politecnico di Milano (5) 10000 Entropia – 1000 10000 – 100 1000 Numero di back Num. di richieste uscenti 10 – 100 1 – 110 elevata per pagine “indice” entropia nulla per pagine re-indirizzate automaticamente entropia nulla per pagine “foglia” del grafo completa 10 100 incorrelazione 1000 10000 100000 Num. dialtro accessi parametro alla pagina da ogni Accessi e uscite – correlaz. del 73% fra primi accessi e richieste uscenti – correlaz. del 65% fra primi accessi e back uscenti Dimensione pagine – 1 1 10 100 1000 Num. di accessi alla pagina 10000 100000 – sostanziale incorrelazione con gli altri parametri lascia spazi ad affinamenti futuri