La misurazione
Un aspetto importante nelle ricerche di mercato è la
misurazione dei fenomeni da analizzare.
Misurare significa assegnare un numero o
un’etichetta alle caratteristiche degli oggetti,
seguendo determinate regole.
La misurazione può essere ricondotta a 4 tipi di
scale di misura.
1
Le Scale di misura
La Scala di misura di una variabile è l’insieme delle
modalità previste per osservare un insieme di unità
statistiche.
Le modalità costituiscono i possibili risultati della
misurazione di una variabile.
Es. sesso: maschi – femmine
Voto all’esame di Statistica: 18,19,…,30
2
Le modalità devono essere:
o Formulate in maniera esplicita.
o In numero non inferiore a due.
o Mutuamente esclusive.
o Esaustive.
3
Le scale di misura possono essere :
Nominali
SCALE QUALITATIVE
Ordinali
Ad Intervallo
SCALE QUANTITATIVE
Di Rapporto
4
Scala nominale
Con le scale nominali, le unità sono classificate in
funzione dell’appartenenza ad una particolare modalità.
Ad esempio, se sono maschi oppure femmine, se sono
cattolici, oppure buddista, oppure musulmano, oppure
protestante, oppure laico.
Si possono assegnare dei codici, dei numeri, alle
modalità, però si tratta di una pura convenzione,
svolgono il ruolo di etichette.
5
Consumo di carburante per km
Marche
Consumo
Fiat 500
1
Fiat Punto
2
Lancia Delta
3
Mercedes 180
4
Bmw sr.5
5
Confrontando il valore 3 con il 5, essendo essi
diversi, si potrà solo dire che il consumo di
carburante della Lancia Delta differisce da quello
della Bmw.
6
Scala ordinale
Con la scala ordinale gli oggetti vengono elencati
secondo un certo ordine, ma non è possibile valutare
la differenza tra di essi.
Cioè, in una graduatoria si può riconoscere l’oggetto
che occupa il primo posto, quello che occupa il
secondo, il terzo e così via, ma non si può affermare di
quanto l’oggetto che è al primo posto è superiore o
inferiore a quello che è al secondo posto.
7
Consumo di carburante per km
Marche
Consumo
Fiat 500
1
Fiat Punto
2
Lancia Delta
3
Mercedes 180
4
Bmw sr.5
5
Se al valore 1 corrisponde
un consumo di carburante
per km. minore di quello
relativo al valore 2 e così
via, la misurazione
avviene su scala ordinale.
In questo caso i valori possono essere anche ordinati
dando luogo alla seguente relazione d’ordine tra il
consumo di carburante per i tipi di auto considerati:
Fiat 500<Fiat Punto<Lancia Delta<Mercedes Benz<Bmv
8
Scala ad intervallo
La scala ad intervallo permette il confronto tra le
differenze dei valori numerici mentre non consente il
loro confronto diretto.
Anni
1999
2000
2001
2002
2003
2004
2
2
9
Consumo di carburante per km
Marche
Consumo
Fiat 500
1
Fiat Punto
2
Lancia Delta
3
Mercedes 180 5-3=2
4
Bmw sr.5
5
Non è possibile dire
che
la
Mercedes,
consuma il doppio
della Fiat Punto
4-2=2
MA
La differenza tra il
consumo della Bmw
e della Lancia Delta è
uguale alla differenza
tra il consumo della
Mercedes e della Fiat
Punto
10
Scala di rapporti
Essa consente il confronto tra i singoli valori numerici,
rilevandone la proporzionalità.
Consumo di carburante per km
Marche
Consumo
Fiat 500
1
Fiat Punto
2
Lancia Delta
3
Mercedes 180
4
Bmw sr.5
5
Il consumo di carburante
della Bmw è 5 volte
quello della Fiat 500
oppure che il consumo
della Lancia Delta è 1,5
quello della Fiat Punto.
11
Le misure di somiglianza e dissomiglianza
In una tabella definita dall’insieme S dei individui e
dall’insieme V delle variabili si possono utilizzare 2
ottiche di sintesi:
o evidenziare la somiglianza che intercorre tra gli
S individui tramite un indice di sintesi,
o evidenziare la relazione che intercorre tra le
variabili.
12
Tabella dei dati
V1
V2
…
Vp
S1
X11
X12
X1j
X1p
S2
X21
X22
X2j
X2p
S3
…
…
Sn
Xij
Xn1
Xn2
Xnj
Xnp
13
Esempio di tabella di dati
Rappresentazione grafica della tabella di dati
20
Consumi
A
B
C
Reddito Consumo
10
3
5
10
20
15
15
C
B
10
A
5
0
0
5
10
15
20
25
Reddito
14
La misura della somiglianza tra coppie di oggetti può
assumere una delle seguenti forme:
Similarità
Dissimilarità
Distanze
15
Indice di similarità
È un’applicazione SxS in R+
È simmetrico se W (s,s’) = W (s’, s)
La similarità è massima se s=s’
L’indice di similarità è, in genere, normalizzato e assume
valori tra 0 e 1.
A
B
C
D
E
Matrice di similarità o
di somiglianza
A
1
B
0,3 1
 quadrata
 simmetrica
C
0,8 0,2 1
D
0,6 0,8 0,5 1
E
0,7 0,4 0,6 0,9 1
16
Variabili nominali
Nel caso di variabili nominali occorre costruire dalla
tabella iniziale una nuova tabella in cui la modalità della
variabile osservata viene codificata in forma binaria:
1 se l’individuo possiede la modalità,
0 se non la possiede.
La somiglianza si misura ricorrendo a coefficienti di
associazione.
17
Esempio
Variabili
Individui
1
2
3
4
5
a b c d e f
g
0 1 0 1 1 0 0
0 0 0 0 0 1 1
1 0 0 1 0 0 1
1 1 0 1 1 0 0
0 1 1 0 0 1 1
4
3
1
0
1
a 2
c 2
0
b 1
d 2
Somiglianza tra
l’individuo 3 e 4.
Le lettere: a, b, c, d
rappresentano il numero di
caratteri
che
sono
simultaneamente presenti o
non presenti nelle unità i e j.
18
Gli indici di somiglianza che si possono calcolare si
suddividono in due categorie, a seconda che tengono
conto o meno della frequenza d.
j
i
1
0
1
a
c
0
b
d
19
Indici che non considerano d
Coefficiente di Jaccard
a
2
J ij 

 0,4
a  b  c 2 1 2
Varia tra 0 e 1
Coefficiente di Dice
2a
2 2
Dij 

 0,57
2a  b  c (2  2)  1  2
Varia tra 0 e 1
20
Indici che considerano d
Coefficiente semplice di somiglianza
ad
22
Sij 

 0,57
a  b  c  d 2 1 2  2
Varia tra 0 e 1
21
Indice di dissimilarità
È un’applicazione SxS in R+
È simmetrico se W’ (s,s’) = W’ (s’, s)
La dissimilarità tra s e s è nulla
L’indice di dissimilarità è, in genere, normalizzato e
assume valori tra 0 e 1.
Matrice di dissimilarità o
di dissomiglianza
 quadrata
 simmetrica
A
B
C
D
E
A
0
B
0,3 0
C
0,8 0,2 0
D
0,6 0,8 0,5 0
E
0,7 0,4 0,6 0,9 0
22
Funzioni di distanza
Se la funzione di dissimilarità w’ verifica anche le
seguenti proprietà, si parla d funzioni di distanza:
w’(s,s’)=0  s=s’
disuguaglianza triangolare:
in presenza di tre individui: s, s’, s’’,
w’ (s,s’)  w’ (s,s’’) + w’ (s’, s’’)
La dissimilarità tra s e s’ è minore o uguale alla
somma della dissimilarità tra s e s’’ e tra s’ e s’’.
23
Y
w’ (s,s’)
 w’ (s,s’’) + w’ (s’, s’’)
S’
S
0
S’’
X
24
Come si calcola la distanza tra O e O’?
N. componenti Consumo
O
3
10
O'
5
30
25
La distanza tra i punti O e O’ si
calcola applicando il teorema di
Pitagora al triangolo rettangolo
OO’O’’, in cui le misure dei cateti
OO’’ e O’O’’ sono date dalle
differenze delle coordinate dei
due punti.
N. Componenti
5
O’
3
O
0
O’’
1
10
Consumo
30
26
Dati i punti O e O’ rispettivamente di coordinate (o1, o2) e
(o’1, o’2), discende che la lunghezza di OO’’ è misurata da (o’1
- o1) e di O’O’’ da (o’2 - o2) per cui applicando al triangolo
rettangolo OO’O’’ il teorema di Pitagora si ha:
OO'  (o1 'o1 ) 2  (o' 2 o 2 ) 2
E’ sempre possibile effettuare la
somma sotto radice?
N. Componenti
O’
o’2
o2
0
O
o1
O’’
o’1
Consumo
27
Variabili espresse in unità di misura diverse,
oppure
variabili misurate con la stessa unità di misura, ma con
intensità diverse.
Eliminazione della diversa variabilità:
dividere l'intensità del carattere per un indice di variabilità
(in genere lo scostamento quadratico medio).
Eliminazione della diversa intensità:
dividere l'intensità del carattere per la propria media.
28
In entrambi i casi si ottengono dei valori che
prescindono dall’unità di misura e, quindi, dei
numeri puri.
Tali operazioni rendono possibile il calcolo della
distanza di due punti in uno spazio.
Lo spazio in questo caso viene detto spazio metrico
e le variabili risultano metriche.
29
Funzioni di distanza
Distanza di Minkowski
d ( si, sj )  t
t
p
| s
ir
 sjr |t
r 1
dove
- si e sj sono due generiche unità
- p sono le variabili (r=1,…,p)
- t è un intero  1
 Per t = 1
Distanza della città
a blocchi o metrica
di Manhattan
 Per t = 2
p
d 1 si, sj    sir  sjr
r 1
d si, sj  
2
Distanza euclidea
p
2


s
ir

s
jr

r 1
30
Le formule appena viste fanno riferimento a
variabili che non che presentano problemi dovuti a
diverse unità di misura o a diversa intensità del
carattere.
Se sono presenti tali problemi, si ricorre a distanze
di tipo quadratico che, in forma generale, si
possono esprimere:
d si, sj   si  sj ' Qsi  sj 
2
Q è una matrice simmetrica ed
invertibile che trasforma uno spazio non
metrico in uno spazio metrico in cui è
possibile calcolare la distanza tra punti
ed è specificata di volta in volta a
seconda del tipo di problema.
31
Per eliminare la variabilità dovuta a diverse unità di
misura, Q assume la forma di matrice diagonale V, dove
gli elementi della diagonale principale sono i reciproci
della varianza di ciascuna variabile, 1/s2kk, con k=1, 2, ...,
p, mentre tutti gli altri elementi sono nulli.
V1
V1 1/s 211
V2
V3
…
Vk
0
0
…
0
V2
0
1/s222
0
…
0
V3
0
0
1/s233
…
0
…
…
…
…
1/s2ij
…
Vk
0
0
0
… 1/s2kk
32
Per eliminare la correlazione la matrice Q diventa l'inversa
della matrice di varianze e covarianze delle variabili,
ottenendo la distanza di Mahalanobis:
d si , s j   si  s j 'V
2
 1
s  s 
i
j
33
La somiglianza nello spazio delle variabili
Il legame esistente tra due generiche variabili vi e
vj è evidenziato dalla misura della covarianza.
Se le variabili sono standardizzate, la covarianza
diventa correlazione:
cov vi, vj
cor vi, vj 
sisj
34
Geometricamente, la relazione che intercorre tra due
punti dello spazio variabili è misurata dal coseno
dell'angolo formato dai vettori sottostanti ai punti.
cos2
Vi
Vj
 vi, vj 2
cov vi, vj 


si 2 sj 2
vi vj
2
Il quadrato di cos  è dato dal rapporto
tra il prodotto interno dei due vettori e
il prodotto delle norme dei due vettori.

cov vi, vj
 cor vi, vj
cos 
sisj
35
Il prodotto interno di due vettori, i cui elementi sono
valori centrati, fornisce la covarianza, mentre il
prodotto interno tra un vettore e se stesso fornisce
la norma del vettore, che rappresenta la varianza
della variabile ed il risultato del rapporto coincide
con il coefficiente di correlazione lineare.
36
Scarica