La misurazione Un aspetto importante nelle ricerche di mercato è la misurazione dei fenomeni da analizzare. Misurare significa assegnare un numero o un’etichetta alle caratteristiche degli oggetti, seguendo determinate regole. La misurazione può essere ricondotta a 4 tipi di scale di misura. 1 Le Scale di misura La Scala di misura di una variabile è l’insieme delle modalità previste per osservare un insieme di unità statistiche. Le modalità costituiscono i possibili risultati della misurazione di una variabile. Es. sesso: maschi – femmine Voto all’esame di Statistica: 18,19,…,30 2 Le modalità devono essere: o Formulate in maniera esplicita. o In numero non inferiore a due. o Mutuamente esclusive. o Esaustive. 3 Le scale di misura possono essere : Nominali SCALE QUALITATIVE Ordinali Ad Intervallo SCALE QUANTITATIVE Di Rapporto 4 Scala nominale Con le scale nominali, le unità sono classificate in funzione dell’appartenenza ad una particolare modalità. Ad esempio, se sono maschi oppure femmine, se sono cattolici, oppure buddista, oppure musulmano, oppure protestante, oppure laico. Si possono assegnare dei codici, dei numeri, alle modalità, però si tratta di una pura convenzione, svolgono il ruolo di etichette. 5 Consumo di carburante per km Marche Consumo Fiat 500 1 Fiat Punto 2 Lancia Delta 3 Mercedes 180 4 Bmw sr.5 5 Confrontando il valore 3 con il 5, essendo essi diversi, si potrà solo dire che il consumo di carburante della Lancia Delta differisce da quello della Bmw. 6 Scala ordinale Con la scala ordinale gli oggetti vengono elencati secondo un certo ordine, ma non è possibile valutare la differenza tra di essi. Cioè, in una graduatoria si può riconoscere l’oggetto che occupa il primo posto, quello che occupa il secondo, il terzo e così via, ma non si può affermare di quanto l’oggetto che è al primo posto è superiore o inferiore a quello che è al secondo posto. 7 Consumo di carburante per km Marche Consumo Fiat 500 1 Fiat Punto 2 Lancia Delta 3 Mercedes 180 4 Bmw sr.5 5 Se al valore 1 corrisponde un consumo di carburante per km. minore di quello relativo al valore 2 e così via, la misurazione avviene su scala ordinale. In questo caso i valori possono essere anche ordinati dando luogo alla seguente relazione d’ordine tra il consumo di carburante per i tipi di auto considerati: Fiat 500<Fiat Punto<Lancia Delta<Mercedes Benz<Bmv 8 Scala ad intervallo La scala ad intervallo permette il confronto tra le differenze dei valori numerici mentre non consente il loro confronto diretto. Anni 1999 2000 2001 2002 2003 2004 2 2 9 Consumo di carburante per km Marche Consumo Fiat 500 1 Fiat Punto 2 Lancia Delta 3 Mercedes 180 5-3=2 4 Bmw sr.5 5 Non è possibile dire che la Mercedes, consuma il doppio della Fiat Punto 4-2=2 MA La differenza tra il consumo della Bmw e della Lancia Delta è uguale alla differenza tra il consumo della Mercedes e della Fiat Punto 10 Scala di rapporti Essa consente il confronto tra i singoli valori numerici, rilevandone la proporzionalità. Consumo di carburante per km Marche Consumo Fiat 500 1 Fiat Punto 2 Lancia Delta 3 Mercedes 180 4 Bmw sr.5 5 Il consumo di carburante della Bmw è 5 volte quello della Fiat 500 oppure che il consumo della Lancia Delta è 1,5 quello della Fiat Punto. 11 Le misure di somiglianza e dissomiglianza In una tabella definita dall’insieme S dei individui e dall’insieme V delle variabili si possono utilizzare 2 ottiche di sintesi: o evidenziare la somiglianza che intercorre tra gli S individui tramite un indice di sintesi, o evidenziare la relazione che intercorre tra le variabili. 12 Tabella dei dati V1 V2 … Vp S1 X11 X12 X1j X1p S2 X21 X22 X2j X2p S3 … … Sn Xij Xn1 Xn2 Xnj Xnp 13 Esempio di tabella di dati Rappresentazione grafica della tabella di dati 20 Consumi A B C Reddito Consumo 10 3 5 10 20 15 15 C B 10 A 5 0 0 5 10 15 20 25 Reddito 14 La misura della somiglianza tra coppie di oggetti può assumere una delle seguenti forme: Similarità Dissimilarità Distanze 15 Indice di similarità È un’applicazione SxS in R+ È simmetrico se W (s,s’) = W (s’, s) La similarità è massima se s=s’ L’indice di similarità è, in genere, normalizzato e assume valori tra 0 e 1. A B C D E Matrice di similarità o di somiglianza A 1 B 0,3 1 quadrata simmetrica C 0,8 0,2 1 D 0,6 0,8 0,5 1 E 0,7 0,4 0,6 0,9 1 16 Variabili nominali Nel caso di variabili nominali occorre costruire dalla tabella iniziale una nuova tabella in cui la modalità della variabile osservata viene codificata in forma binaria: 1 se l’individuo possiede la modalità, 0 se non la possiede. La somiglianza si misura ricorrendo a coefficienti di associazione. 17 Esempio Variabili Individui 1 2 3 4 5 a b c d e f g 0 1 0 1 1 0 0 0 0 0 0 0 1 1 1 0 0 1 0 0 1 1 1 0 1 1 0 0 0 1 1 0 0 1 1 4 3 1 0 1 a 2 c 2 0 b 1 d 2 Somiglianza tra l’individuo 3 e 4. Le lettere: a, b, c, d rappresentano il numero di caratteri che sono simultaneamente presenti o non presenti nelle unità i e j. 18 Gli indici di somiglianza che si possono calcolare si suddividono in due categorie, a seconda che tengono conto o meno della frequenza d. j i 1 0 1 a c 0 b d 19 Indici che non considerano d Coefficiente di Jaccard a 2 J ij 0,4 a b c 2 1 2 Varia tra 0 e 1 Coefficiente di Dice 2a 2 2 Dij 0,57 2a b c (2 2) 1 2 Varia tra 0 e 1 20 Indici che considerano d Coefficiente semplice di somiglianza ad 22 Sij 0,57 a b c d 2 1 2 2 Varia tra 0 e 1 21 Indice di dissimilarità È un’applicazione SxS in R+ È simmetrico se W’ (s,s’) = W’ (s’, s) La dissimilarità tra s e s è nulla L’indice di dissimilarità è, in genere, normalizzato e assume valori tra 0 e 1. Matrice di dissimilarità o di dissomiglianza quadrata simmetrica A B C D E A 0 B 0,3 0 C 0,8 0,2 0 D 0,6 0,8 0,5 0 E 0,7 0,4 0,6 0,9 0 22 Funzioni di distanza Se la funzione di dissimilarità w’ verifica anche le seguenti proprietà, si parla d funzioni di distanza: w’(s,s’)=0 s=s’ disuguaglianza triangolare: in presenza di tre individui: s, s’, s’’, w’ (s,s’) w’ (s,s’’) + w’ (s’, s’’) La dissimilarità tra s e s’ è minore o uguale alla somma della dissimilarità tra s e s’’ e tra s’ e s’’. 23 Y w’ (s,s’) w’ (s,s’’) + w’ (s’, s’’) S’ S 0 S’’ X 24 Come si calcola la distanza tra O e O’? N. componenti Consumo O 3 10 O' 5 30 25 La distanza tra i punti O e O’ si calcola applicando il teorema di Pitagora al triangolo rettangolo OO’O’’, in cui le misure dei cateti OO’’ e O’O’’ sono date dalle differenze delle coordinate dei due punti. N. Componenti 5 O’ 3 O 0 O’’ 1 10 Consumo 30 26 Dati i punti O e O’ rispettivamente di coordinate (o1, o2) e (o’1, o’2), discende che la lunghezza di OO’’ è misurata da (o’1 - o1) e di O’O’’ da (o’2 - o2) per cui applicando al triangolo rettangolo OO’O’’ il teorema di Pitagora si ha: OO' (o1 'o1 ) 2 (o' 2 o 2 ) 2 E’ sempre possibile effettuare la somma sotto radice? N. Componenti O’ o’2 o2 0 O o1 O’’ o’1 Consumo 27 Variabili espresse in unità di misura diverse, oppure variabili misurate con la stessa unità di misura, ma con intensità diverse. Eliminazione della diversa variabilità: dividere l'intensità del carattere per un indice di variabilità (in genere lo scostamento quadratico medio). Eliminazione della diversa intensità: dividere l'intensità del carattere per la propria media. 28 In entrambi i casi si ottengono dei valori che prescindono dall’unità di misura e, quindi, dei numeri puri. Tali operazioni rendono possibile il calcolo della distanza di due punti in uno spazio. Lo spazio in questo caso viene detto spazio metrico e le variabili risultano metriche. 29 Funzioni di distanza Distanza di Minkowski d ( si, sj ) t t p | s ir sjr |t r 1 dove - si e sj sono due generiche unità - p sono le variabili (r=1,…,p) - t è un intero 1 Per t = 1 Distanza della città a blocchi o metrica di Manhattan Per t = 2 p d 1 si, sj sir sjr r 1 d si, sj 2 Distanza euclidea p 2 s ir s jr r 1 30 Le formule appena viste fanno riferimento a variabili che non che presentano problemi dovuti a diverse unità di misura o a diversa intensità del carattere. Se sono presenti tali problemi, si ricorre a distanze di tipo quadratico che, in forma generale, si possono esprimere: d si, sj si sj ' Qsi sj 2 Q è una matrice simmetrica ed invertibile che trasforma uno spazio non metrico in uno spazio metrico in cui è possibile calcolare la distanza tra punti ed è specificata di volta in volta a seconda del tipo di problema. 31 Per eliminare la variabilità dovuta a diverse unità di misura, Q assume la forma di matrice diagonale V, dove gli elementi della diagonale principale sono i reciproci della varianza di ciascuna variabile, 1/s2kk, con k=1, 2, ..., p, mentre tutti gli altri elementi sono nulli. V1 V1 1/s 211 V2 V3 … Vk 0 0 … 0 V2 0 1/s222 0 … 0 V3 0 0 1/s233 … 0 … … … … 1/s2ij … Vk 0 0 0 … 1/s2kk 32 Per eliminare la correlazione la matrice Q diventa l'inversa della matrice di varianze e covarianze delle variabili, ottenendo la distanza di Mahalanobis: d si , s j si s j 'V 2 1 s s i j 33 La somiglianza nello spazio delle variabili Il legame esistente tra due generiche variabili vi e vj è evidenziato dalla misura della covarianza. Se le variabili sono standardizzate, la covarianza diventa correlazione: cov vi, vj cor vi, vj sisj 34 Geometricamente, la relazione che intercorre tra due punti dello spazio variabili è misurata dal coseno dell'angolo formato dai vettori sottostanti ai punti. cos2 Vi Vj vi, vj 2 cov vi, vj si 2 sj 2 vi vj 2 Il quadrato di cos è dato dal rapporto tra il prodotto interno dei due vettori e il prodotto delle norme dei due vettori. cov vi, vj cor vi, vj cos sisj 35 Il prodotto interno di due vettori, i cui elementi sono valori centrati, fornisce la covarianza, mentre il prodotto interno tra un vettore e se stesso fornisce la norma del vettore, che rappresenta la varianza della variabile ed il risultato del rapporto coincide con il coefficiente di correlazione lineare. 36