Indici per la valutazione
della QoS
di applicazioni Web
POLITECNICO DI MILANO
Relatore: Prof. Giuseppe Serazzi
Correlatore: Ing. Giuliano Casale
Tesina di Laurea di:
Andrea Ferrari - Matr.: 638853
Milano, 20 aprile 2004
Internet oggi…

Sviluppo di Internet cambia le tradizionali regole di
comunicazione.

“Darwinismo progettuale”.

Necessità e desiderio di analizzare le applicazioni Web
dal punto di vista dell’utente.
Obiettivi



Rappresentare e misurare il Web.
Analizzare le caratteristiche cognitive ed il
comportamento degli utenti.
Ricavare informazioni da un sito Web:
Analisi topologica
– Analisi dei file di log
del Sito del Politecnico di Milano
–
Metodologie per
rappresentare il Web*




Internet è basato su una
struttura globale non
consistente.

Veloce sviluppo del Web
alla portata di tutti.
Disorientamento degli
utenti.
Usabilità critica sia per
l’utente che per il webdesigner.

Necessità di
rappresentare
globalmente un sito Web

Sviluppo di diagrammi
per il Web (metafore)
* B. Wong, G. Marsden, 2000, Visualizing the Web: why
we should abandon graphs and trees.
Metodologie per
rappresentare il Web (2)

Grafi ciclici:
Rete di nodi connessi.


Disordine e difficoltà di
lettura.
Alberi gerarchici
Struttura gerarchica (aggiunta
iterativa di nodi “figli”)

Struttura del Web
implicitamente non
gerarchica
Metodologie per
rappresentare il Web (3)

Coni
Alberi gerarchici 3D
(o artifici per migliore
rappresentazione 2D)

Critica la
rappresentazione dei
legami non gerarchici
Metodologie per
rappresentare il Web (4)

Alberi iperbolici
Alberi in geometria non euclidea
(lente “a occhio di pesce”)

Difficoltà a contestualizzare
la rappresentazione
Metodologie per
rappresentare il Web (5)

Metafore moderne
–
Struttura 3D su una colonna
verticale (barra di navigazione)
Metodologie per
rappresentare il Web (6)

Metafore moderne
–
A diverse quote ventagli
(sottoinsiemi di pagine)
Metodologie per
rappresentare il Web (7)

–
Metafore moderne
Facile rappresentazione di
sottositi.
–
Agevole rappresentazione
di link non gerarchici
Il concetto di metrica
nell’ambiente Web*



È importante misurare gli
attributi degli oggetti che
studiamo.
È necessario definire
metriche per il Web.
Metriche banali (hopcount, frequenza di
accessi, distribuzione dei
click, ecc.)
* D. Dhyani, Wee Keong Ng, S.S. Bhowmick, 2002,
A survey of Web metrics.

Analisi metrica
attraverso i grafi:
–
–
–
Grafo di N nodi è
rappresentabile con una
matrice delle distanze C di
dimensioni N x N.
L’elemento cij rappresenta
la distanza fra la pagina i
e la pagina j del Sito.
Nodi irraggiungibili sono
posti a distanza K
(costante arbitraria).
Il concetto di metrica
nell’ambiente Web: la centralità

Rappresenta la
connettività di un nodo
ODi   C ij ID i   C ji
j
ROC i 
j
C
i
ij
j
C
ij
j
RIC i 
C
i
j
C
j
ji
ij


Il nodo centrale è quello
col valore maggiore di
ROC o di RIC.
Da esso è possibile
costruire una gerarchia
all’interno dell’ipertesto e
migliorarne la
navigabilità.
Il concetto di metrica
nell’ambiente Web: metriche globali

Metriche di compattezza
CP 

–
Metriche di classe
max    C ij
–
max  min
–
i

max  N 2  N K
–

j
Valuta l’ordine lineare del
grafo
Siti altamente lineari sono
spesso difficili da navigare
min  N 2  N
Su una scala da 0 a 1 indica
l’estensione dei rimandi
all’interno dell’ipertesto.
Valori distanti dagli estremi
denotano buona usabilità e
navigabilità.
 C
S
i
ij
j
  C ji
j
LAP
N3

LAP   43
N  N
 4
N pari
altrimenti
Analisi topologica del sito Web
del Politecnico di Milano

Dati del problema:
–
–

Matrice d’incidenza
(ricavata dal web-server o
con download con spider)
Matrice delle distanze
(ricavata con un algoritmo
in backtracking che
calcola il cammino minimo
tra due nodi

Limitazioni e problemi:
–


–
Indici calcolati:
Centralità
– Compattezza e classe
con script C++
Sito Web = 12.000 pagine
Limitazione: grafo delle
100 pagine più visitate

–
–
Matrici di 144 milioni di
elementi!
Tempo di calcolo per
generare la matrice delle
distanze: qualche anno!!!
Dal file di log dei giorni 1,
2 e 3 aprile 2002
Cammino massimo tra
due nodi = 10 pagine
Analisi topologica del sito Web
del Politecnico di Milano (2)

Centralità:
–
–
Home Page non è la
pagina più connessa
Pagine centrali

120
100

80
60
20
45
41
37
33
29
25
21
RIC
17
13
9
5
0
Indice della pagina Web
Compattezza CP = 0,48

http://www.polimi.it/
eventiIniziative/settimana.php
http://www.polimi.it/facolta/ing/leon
ardo/didattica/ric_clit.html
ROC
Metriche globali:
–
40
1
Centralità relativa

–
Ottimo compromesso
che garantisce una
buona usabilità
Classe S = 0,045

Scarsa linearità
garantisce una semplice
navigabilità per Siti molto
ampi.
Differenze cognitive
negli utenti del Web*

Il Web è un ampio
sistema non-lineare.
Occorre valutare sempre
–
–

performance del sistema
abilità degli utenti
Le differenze individuali
fra gli utenti del Web
sono le variabili più
importanti da
considerare per stabilire
criteri di usabilità (Nielsen).

Distinzioni di tipo
cognitivo fra individui:
–
–


Field-Independent (FI)
Field-Dependent (FD)
Distinzioni fra gli utenti
dovute all’esperienza.
Altre distinzioni (non
interessanti).
* Kyung-Sun Kim, Individual differences and information
retrieval: implications on Web design; H. Habieb
Mammar, F. Tarpin Bernard, Incorporating cognitive
styles into adaptive multimodal interface.
Differenze cognitive
negli utenti del Web (2)


Esperimento con 4
categorie di utenti.
Utenti senza esperienza:
–
–
–
FI impiegano meno tempo
FI visitano meno pagine
FD utilizzano spesso il
comando “Home” e i link
ipertestuali

Utenti con esperienza:
–
–
–
Non vi sono differenze fra
FI e FD in termini di tempo
Non vi sono differenze fra
FI e FD nell’uso dei
comandi di navigazione
Marcato utilizzo di jump:
FI navigano in modo
ancora più non-lineare
della natura stessa
dell’ipertesto.
L’esperienza degli utenti è fondamentale per lo
sviluppo di stili di navigazione e ricerca on-line.
La QoS percepita
dagli utenti del Web*


QoS orientata non solo
al sistema ma alle
aspettative degli utenti.
Valutiamo la tolleranza
degli utenti al ritardo:
–
–
–
–
è misurabile?
dipende dal compito da
eseguire?
ha conseguenze per il
business?
è influenzata dal design?
* N. Bhatti, A. Bouch, A. Kuchinsky, Integrating userperceived quality into Web server desing.
Valutazione
velocità
Latenza
Latenza
(non increment.)
(incrementale)
Alta
0 – 5 sec.
0 – 39 sec.
Media
> 5 sec.
> 39 sec.
Bassa
> 10 sec.
> 56 sec.

Valutazione del ritardo
dà 3 soglie di tolleranza:
•
•
•

< 0,1 sec.: risp. immediata
1 sec.: dialogo
10 sec.: ritardo inaccettab.
Controllo della latenza
non significativo
–
Forte dipendenza dalle
abitudini degli utenti
La QoS percepita
dagli utenti del Web (2)

La tolleranza al ritardo
diminuisce con
l’aumentare della durata
della sessione.
Ritardo massimo

Tolleranza massima
Ritardo (sec.)
30
25

20
15
10
5
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
Num. di pagine nella sessione
La tolleranza al ritardo
dipende dall’attività che
l’utente sta svolgendo e
dall’idea che egli ha del
modo in cui il web-server
la deve eseguire.
La tolleranza al ritardo
aumenta quando l’utente
in attesa riceve feedback
continui da parte del
web-server.
La QoS percepita
dagli utenti del Web (3)

È possibile ottenere una
funzione di utilità per la
QoS:
Ritardo di 6 sec.
Ritardo di 10 sec.

La scarsa QoS percepita
ha effetti negativi
–
Ritardo di 16 sec.
Utenti tolleranti (in %)
–
100
–
80
60
sulla stima verso l’azienda
rappresentata dal Sito
sui prodotti e servizi offerti
anche fuori dal Web
sulla stima dell’impegno
profuso per il Web

40
20
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
Num. di pagine nella sessione
–
non vengono imputati altri
elementi penalizzanti: traffico,
ISP, modem, ecc.
sulla percezione di
sicurezza (transazioni)
Analisi dei file di log del sito Web
del Politecnico di Milano


Analizziamo lo spezzone
di log (1, 2 e 3 aprile ’02)
Common Extended
LogFile Format:
remotehost
rfc
authuser
date
request

Utilizzo di Microsoft
Access per gestire il
database e ricavare le
misure d’interesse.
status
bytes
referer
user_agent
12.140.45.83 - - 2002/04/01:23:14:46 GET http://www.polimi.it/english/menu.html
HTTP/1.0 200 8078 http://www.polimi.it/english/ Mozilla/4.0 (compatible; MSIE
6.0; Windows NT 5.0; .NET CLR 1.0.3705)
12.140.45.83 - - 2002/04/01:23:14:47 GET http://www.polimi.it/counter/ HTTP/1.0
200 43 http://www.polimi.it/english/home.html Mozilla/4.0 (compatible; MSIE 6.0;
Windows NT 5.0; .NET CLR 1.0.3705)
12.140.45.83 - - 2002/04/01:23:14:47 GET
http://www.polimi.it/english/images/fpoli_blu.jpg HTTP/1.0 200 24829
http://www.polimi.it/english/home.html Mozilla/4.0 (compatible; MSIE 6.0;
Windows NT 5.0; .NET CLR 1.0.3705)
Analisi dei file di log del sito Web
del Politecnico di Milano (2)

Per ogni pagina del Sito
ricaviamo dal log le
seguenti misure:
–
–
–
–
–
–
Dimensione (nominale e
cumulativa)
Tempo permanenza
(medio e cumulativo)
Entropia
Numero di back uscenti
Numero di richieste usc.
Numero di primi accessi

Calcoliamo le
correlazioni fra tutte le
possibili coppie di misure
r
 x
 x    yi  y 
i
2
2




x

x

y

y
 i
 i
i

i
i
Rappresentiamo il
diagramma di
dispersione con gli assi
in scala logaritmica
Analisi dei file di log del sito Web
del Politecnico di Milano (3)
con HomePage
senza HomePage
r  0,5437
r  0,9588

Home Page:
–
Dimensione della pagina (MB)
1000
100
dati oltremodo elevati
sconsigliano il confronto
con le altre pagine del Sito

10
1
0,1
valori non veritieri per
misurare l’interesse degli
utenti verso il suo
contenuto:
–
url mnemonico
– accesso preferenziale
– spesso pagina
predefinita di avvio
0,01
0,001

0,0001
1
10
100
1000
Num. di accessi alla pagina
10000
100000
amplificazione eccessiva
delle correlazioni
Analisi dei file di log del sito Web
del Politecnico di Milano (4)
10000
Tempo medio di
permanenza
1000
100000
Tempo cumul. di permanenza (sec.)
Tempo cumul. di permanenza (sec.)
Num. di richieste uscenti

10000
1000
–
100100
10000
10
10
1
–
1000
100
1 0,1
0,1
10

completa incorrelazione
da tutti gli altri parametri
valutare l’interesse degli
utenti col tempo di
permanenza non sembra
quindi
metrica
valida.
1
10
100
1000
10000
Tempo cumulativo di
permanenza
–
correlato al 94% con num.
di richieste uscenti
–
correlato al 60% col num.
di back uscenti
–
correlato al 70% col num.
di primi accessi
–
Risultati in linea con le
aspettative (profilo utente
di tipo “professionale”)
100000
Tempo cumul. di permanenza (sec.)
0,01
1
1
10
100
1000
Numero di back
0,1
1
10
100
1000
Numero di accessi
10000
100000
Analisi dei file di log dei sito Web
del Politecnico di Milano (5)
10000
Entropia
–
1000
10000
–
100
1000
Numero di back
Num. di richieste uscenti

10
–
100
1
–
110

elevata per pagine “indice”
entropia nulla per pagine
re-indirizzate
automaticamente
entropia nulla per pagine
“foglia” del grafo
completa
10
100 incorrelazione
1000
10000
100000
Num. dialtro
accessi parametro
alla pagina
da ogni
Accessi e uscite
–
correlaz. del 73% fra primi
accessi e richieste uscenti
–
correlaz. del 65% fra primi
accessi e back uscenti

Dimensione pagine
–
1
1
10
100
1000
Num. di accessi alla pagina
10000
100000
–
sostanziale
incorrelazione con gli
altri parametri
lascia spazi ad
affinamenti futuri
Scarica

Indici per la valutazione della QoS di applicazioni Web