Dott.ssa Caterina Gurrieri Le relazioni tra caratteri Data una tabella a doppia entrata, grande importanza riveste il misurare se e in che misura le variabili in essa riportata sono in qualche modo legate tra loro. Si parla a tal proposito di Dipendenza se tra due variabili esiste un rapporto di causa ed effetto (es. reddito percepito e spesa per il tempo libero) Interdipendenza se tra due variabili non esiste un rapporto di causa ed effetto, ovvero se non è possibile definire un antecedente e un conseguente (es. colore degli occhi e colore dei capelli) Indipendenza se si ha assenza di legame tra i due caratteri Si distingue ancora tra Misure di correlazione per studiare i legami tra due variabili quantitative misurate su scala a intervalli o su scala a rapporti Misure di cograduazione per studiare i legami tra variabili almeno qualitative ordinali Misure di associazione per analizzare le relazioni anche tra fenomeni espressi su scala nominale Misurare l’indipendenza Data una tabella di contingenza, due variabili X e Y si dicono indipendenti se le modalità di X non influenzano il verificarsi delle modalità di Y, e viceversa l’indipendenza statistica è una relazione bidirezionale: se X è indipendente da Y anche Y è indipendente da X. In assenza di indipendenza statistica si parla di connessione: le due variabili X e Y tendono ad influenzarsi reciprocamente e tra di loro esiste una qualche relazione generica l’indipendenza statistica e la connessione sono concetti che si escludono reciprocamente. Misure di associazione Le misure di associazione valutano il legame esistente tra due caratteri attraverso l’analisi congiunta delle frequenze dei caratteri stessi. Tali misure si basano, inoltre, sulle differenze esistenti tra frequenze osservate e frequenze teoriche, ovvero le frequenze che si presenterebbero in situazione di perfetta indipendenza. Tali differenze sono dette contingenze e la loro somma è sempre nulla. Indice chi-quadrato di Pearson Per valutare se e in che misura due variabili X e Y sono tra loro indipendenti si utilizza il c.d. indice di associazione chi-quadrato (χ2), che si basa sul confronto tra le frequenze assolute osservate fij (contenute nella tabella di contingenza) e le frequenze teoriche fij’ che si osserverebbero in caso di perfetta indipendenza tra X e Y. In formula si ha che 2 i j cij2 f ij ' Dove cij sono le differenze (contingenze) tra le frequenze assolute osservate fij e le frequenze teoriche fij’. Data una generica tabella a doppia entrata, Modalità del carattere Y Modalità del carattere X 1 2 … j … c 1 f11 f12 … f1j … f1c f 1. 2 f21 f22 … f2j … f2c f 2. … … … … … … … fi1 fi2 … fij … fic f i. … … … … … … … fr1 fr2 … frj … frc f r. f.2 … f.j … f.c f.. … i … r f.1 Da essa si otterranno le frequenze teoriche di ogni cella, tali che i marginali di riga e di colonna restino costanti, secondo la formula f ij ' f i f j f Tali valori vengono riportati in una tabella, detta di indipendenza. Le differenze tra le frequenze osservate e quelle teoriche vengono riportate in una ulteriore tabella, detta delle contingenze. ATTENZIONE: tabella di contingenza ≠ tabella delle contingenze! Il χ2 assume - valore = 0 se i caratteri sono perfettamente indipendenti (dunque le contingenze sono nulle) - valore > 0 se i caratteri sono associati (il valore sarà tanto maggiore quanto più grande sarà la differenza tra le frequenze osservate e quelle teoriche). Per stabilire se la connessione tra X e Y è alta o bassa è possibile ricorrere alla normalizzazione dell’indice. A tal fine è necessario rapportare il valore di χ2 ottenuto al suo massimo, che è nmin r 1, c 1 Dove r è il numero delle righe della tabella e c il numero delle colonne Nella sua forma normalizzata, il χ2 sarà allora espresso come 2 ~ 2 nmin r 1, c 1 ESEMPIO Ad una società di ricerche è stata commissionata un’indagine per verificare l’esistenza di una relazione tra la zona di residenza (X) e la marca di automobile acquistata (Y). Con un’indagine campionaria su 500 individui sono stati rilevati i dati relativi a - Zona di residenza, distinguendo tra - centro urbano - periferia - area rurale - Marca di automobile acquistata, distinguendo tra - General Motors - Ford - Chrysler - marchio europeo - marchio asiatico I risultati dell’indagine sono riportati nella seguente tabella General motors Ford Chrysler Marchio europeo Marchio asiatico Centro urbano 64 40 26 8 62 200 Periferia 53 35 24 6 32 150 Area rurale 53 45 30 6 16 150 170 120 80 20 110 500 SOLUZIONE Per verificare se esiste una relazione tra le due variabili rilevate occorre in primo luogo calcolare le frequenze teoriche cij secondo la formula f ij ' f i f j f Tali frequenze teoriche sono riportate nella successiva tabella di indipendenza Tabella di indipendenza General motors Ford Chrysler Centro urbano =200*170/500=68 =200*120/500=48 =200*80/500=32 Periferia =150*170/500=51 =150*120/500=36 =150*80/500=24 Area rurale =150*170/500=51 =150*120/500=36 =150*80/500=24 170 120 80 Marchio europeo Marchio asiatico Centro urbano =200*20/500=8 =200*110/500=44 200 Periferia =150*20/500=6 =150*110/500=33 150 Area rurale =150*20/500=6 =150*110/500=33 150 20 110 500 A questo punto si può creare la tabella delle contingenze, in cui vengono riportate le differenze tra le frequenze osservate e quelle teoriche Tabella delle contingenze General motors Ford Chrysler Marchio europeo Marchio asiatico Centro urbano =64-68=-4 =40-48=-8 =26-32=-6 =8-8=0 =62-44=18 0 Periferia =53-51=2 =35-36=-1 =24-24=0 =6-6=0 =32-33=-1 0 Area rurale =53-51=2 =45-36=9 =30-24=6 =6-6=0 =16-33=-17 0 0 0 0 0 0 ATTENZIONE. I totali di riga e di colonna di una tabella delle contingenze sono sempre pari a 0 Sostituendo nella formula i valori ottenuti è possibile calcolare il valore di χ2, che in questo caso è i j 2 cij2 f ij ' 4 2 2 2 2 2 8 2 12 9 2 6 2 0 2 6 2 0 2 0 2 0 2 18 2 12 17 2 68 51 51 48 36 36 32 24 24 8 6 6 44 33 33 2 2 16 4 4 64 1 81 36 36 324 1 289 68 51 51 48 36 36 32 24 44 33 33 2 0,235 0,078 0,078 1,333 0,028 2,25 1,125 1,5 7,364 0,030 8,757 Da cui 2 22,778 Volendo normalizzare l’indice occorre rapportarlo al suo massimo, che si calcola come nmin r 1, c 1 Poiché nella colonna sono presenti 3 righe e 5 colonne, il massimo in questo caso 500 3 1 1000 Il valore dell’indice normalizzato è allora 22,778 2 ~ 0,022 1000 Tale valore indica che esiste un basso livello di associazione tra Zona di residenza e Marca dell’auto acquistata. NB. Si ricorda che essendo normalizzata, quest’ultima misura assume valori compresi tra 0 e 1. Principali misure alternative Poiché il valore massimo del χ2 dipende dalla numerosità della tabella e dalle dimensioni della stessa, spesso viene trasformato in altre misure. Contingenza quadratica media, che è indipendente dalla numerosità ma non dalla forma della tabella. In formula assume la forma 2 2 f Tale indice assume valore 0 in caso di indipendenza. Il suo valore massimo, invece, è pari a 1 se il numero di righe o di colonne è uguale a 2, altrimenti è maggiore di 1. Nel caso proposto nell’esercizio precedente esso assumerebbe il valore 22,778 0,045 500 2 Anche in questo caso il valore ottenuto indica che siamo in presenza di una debole associazione tra Zona di residenza e Marca di auto acquistata. Per avere un indice normalizzato, e dunque con un valore che vari tra 0 e 1, si può usare il seguente Indice medio di contingenza V di Cramer, che in formula assume la forma V 2 f min( r 1, c 1) Poiché 2 f 2 Allora l’indice V di Cramer può essere scritto anche come V 2 min( r 1, c 1) Poiché 2 f 2 Allora l’indice V di Cramer può essere scritto anche come V 2 min( r 1, c 1) Il valore di tale indice varia tra 0 (massima indipendenza) e 1 (massima associazione). Tornando ai dati dell’esempio precedente, si avrà dunque che V 0,045 0,15 2 Che indica, ancora una volta, bassa associazione tra i caratteri. Naturalmente, allo stesso risultato si sarebbe giunti utilizzando la formula alternativa V 2 f min( r 1, c 1) 22,778 0,022 0,15 500 2 Misure di cograduazione Qualora si intenda approfondire l’analisi della connessione esistente tra due variabili qualitative ordinali X e Y, è possibile ricorrere al concetto di cograduazione. Si parla di cograduazione (o di contrograduazione) quando i due fenomeni in esame tendono ad associare le rispettive modalità in modo che a modalità crescenti dell’uno corrispondano preferibilmente modalità crescenti (o decrescenti) dell’altro (in relazione alla scala ordinale che le caratterizza). In particolare, si distingue tra Concordanza (o relazione diretta) se a valori elevati di X corrispondono più frequentemente valori elevati di Y e a valori bassi di X corrispondono più frequentemente valori bassi di Y Discordanza (o relazione indiretta) se a valori elevati di X corrispondono più frequentemente valori bassi di Y e a valori bassi di X corrispondono più frequentemente valori alti di Y Indice di cograduazione rho di Spearman Si basa sul concetto di rango (posto d’ordine) e fornisce la formula per il calcolo della cograduazione tra due variabili. Per definire il rango si ordinano i caratteri in senso non decrescente (ovvero dal più piccolo al più grande) e si assegna ad ogni unità statistica il rango, ovvero quel numero che indica la posizione dell’unità all’interno dell’ordinamento per modalità, facendo attenzione al caso in cui più unità presentino la stessa modalità. In questo ultimo caso, il rango sarà definito dalla media delle posizioni dei soggetti con la stessa modalità. Una volta assegnati i ranghi è possibile calcolare il coefficiente rho di Spearman, che in formula assume la forma n s 1 6 (R i 1 Xi RYi ) 2 n (n 2 1) dove RXi e RYi sono, rispettivamente, il rango della variabile X e il rango della variabile Y per il medesimo soggetto i (i=1,2,…,n). Il coefficiente rho di Spearman assume valori compresi tra –1 e +1 Se ρ = -1 contrograduazione massima: a modalità crescenti (decrescenti) di X corrispondo modalità decrescenti (crescenti) di Y e viceversa Se ρ = +1 cograduazione è massima: a modalità crescenti (decrescenti) di X corrispondono modalità crescenti (decrescenti) di Y Se ρ = 0 X e Y sono indipendenti statisticamente (ma non vale il viceversa). ESEMPIO Nella tabella successiva sono riportati i dati relativi al gradimento di un servizio (X) e al titolo di studio (Y) di 20 individui. Calcolare l’indice rho di Spearman. Gradimento Titolo di studio 1 Basso Licenza scuola media inf. 2 Medio Diploma 3 Basso Diploma 4 Alto Licenza scuola media inf. 5 Alto Licenza scuola media inf. 6 Alto Licenza scuola media inf. 7 Basso Diploma 8 Basso Diploma 9 Medio Licenza scuola media inf. 10 Basso Licenza scuola media inf. 11 Alto Diploma 12 Alto Laurea I livello 13 Medio Laurea I livello 14 Medio Diploma 15 Basso Licenza scuola media inf. 16 Basso Laurea I livello 17 Medio Diploma 18 Basso Laurea I livello 19 Alto Diploma 20 Alto Diploma SOLUZIONE Per calcolare il valore della rho di Spearman occorre innanzitutto creare le graduatorie per i due caratteri analizzati e assegnare a ciascuna modalità un rango. Dopo aver ordinato in ordine non decrescente le modalità, quindi, si assegneranno prima le posizioni e poi i ranghi. I risultati sono riportati nelle tabelle successive. - Gradimento Gradimento Ordinamento numerico 1 Basso 1 3 Basso 2 7 Basso 3 8 Basso 4 10 Basso 5 15 Basso 6 16 Basso 7 18 Basso 8 2 Medio 9 9 Medio 10 13 Medio 11 14 Medio 12 17 Medio 13 4 Alto 14 5 Alto 15 6 Alto 16 11 Alto 17 12 Alto 18 19 Alto 19 20 Alto 20 Rango = (1+2+3+4+5+6+7+8)/8 = 4,5 = (9+10+11+12+13)/5 = 11 = (14+15+16+17+18+19+20)/7 = 17 -Titolo di studio Titolo di studio Ordinamento numerico 1 Licenza s.m.inf. 1 4 Licenza s.m.inf. 2 5 Licenza s.m.inf. 3 6 Licenza s.m.inf. 4 9 Licenza s.m.inf. 5 10 Licenza s.m.inf. 6 15 Licenza s.m.inf. 7 2 Diploma 8 3 Diploma 9 7 Diploma 10 8 Diploma 11 11 Diploma 12 14 Diploma 13 17 Diploma 14 19 Diploma 15 20 Diploma 16 12 Laurea I livello 17 13 Laurea I livello 18 16 Laurea I livello 19 18 Laurea I livello 20 Rango = (1+2+3+4+5+6+7)/7 = 4 = (8+9+10+11+12+13+14+15+16)/9 = 12 = (17+18+19+20)/4 = 18,5 A questo punto è possibile creare una ulteriore tabella in cui, per ogni unità statistica, è riportato il rango in ciascuna delle due graduatorie. Nell’ultima colonna sono riportati i valori di (RX-RY)2, necessari per il calcolo dell’indice. RX RY (RX-RY)2 1 4,5 4 = (4,5-4)2 = 0,25 2 11 12 =(11-12)2 = 1 3 4,5 12 =(4,5-12)2 = 56,25 4 17 4 =(17-4)2 = 169 5 17 4 =(17-4)2 = 169 6 17 4 =(17-4)2 = 169 7 4,5 12 =(4,5-12)2 = 56,25 8 4,5 12 =(4,5-12)2 = 56,25 9 11 4 =(11-4)2 = 49 10 4,5 4 (4,5-4)2 = 0,25 11 17 12 =(17-12)2 = 25 12 17 18,5 =(17-18,5)2 = 2,25 13 11 18,5 =(11-18,5)2 = 56,25 14 11 12 =(11-12)2 = 1 15 4,5 4 (4,5-4)2 = 0,25 16 4,5 18,5 17 11 18 4,5 18,5 19 17 12 =(17-12)2 = 25 20 17 12 =(17-12)2 = 25 12 Totale =(4,5-18,5)2 = 196 =(11-12)2 = 1 =(4,5-18,5)2 = 196 1254 E’ adesso possibile calcolare il valore dell’indice rho di Spearman sostituendo i valori nella formula n s 1 6 s 1 6 2 ( R R ) Xi Yi i 1 n (n 2 1) 1264 1264 1 6 1 6 0,158 1 0,950 0,05 2 7980 20 (20 1) Poiché il valore del coefficiente è prossimo allo 0, è possibile affermare che tra le due variabili esiste una bassa cograduazione. Misure di correlazione Nel caso in cui si intenda approfondire l’analisi del legame esistente tra due variabili quantitative (continue o discrete) X e Y così da cogliere oltre all’intensità anche l’eventuale natura lineare (proporzionale) del legame, è possibile ricorrere al concetto di correlazione lineare. Si dice che X e Y sono correlate positivamente (o negativamente) quando i due fenomeni in esame tendono ad associare le rispettive modalità in modo che a modalità crescenti dell’uno corrispondano preferibilmente modalità proporzionalmente crescenti (o decrescenti) dell’altro. Covarianza Un primo modo di misurare il legame tra due variabili quantitative X e Y è quello di analizzare la covarianza delle stesse variabili, ovvero la media aritmetica dei prodotti degli scostamenti delle variabili X e Y dalle rispettive medie. In formula si indica come n COV ( X , Y ) (x i 1 i X )( yi Y ) n In caso di distribuzione in classi diventa k COV ( X , Y ) h ( x i 1 j 1 i X )( y j Y ) nij n Dove nij indica la frequenza assoluta nella cella ij-esima, con cui va ponderato il prodotto degli scarti di X e degli scarti di Y. Il valore massimo che la covarianza può assumere è uguale al prodotto degli scarti quadratici medi dei due caratteri esaminati. In simboli si avrà allora che COV(X,Y) ≤σ(X)*σ(Y) In generale, la covarianza - assume valore 0 quando tra i caratteri esaminati non esiste un legame di tipo lineare (per cui se la covarianza assume valore 0 non esclude altri tipi di legame) - assume il massimo in valore assoluto positivo quando i punti sono quando i punti sono tutti allineati su una retta crescente e negativo quando i punti sono tutti allineati su una retta decrescente ATTENZIONE La covarianza risente dell’unità di misura in cui è espressa, per cui non è possibile fare confronti tra distribuzioni doppie diverse. Essa, inoltre, risente anche dell’ordine di grandezza delle variabili, per cui non permette nemmeno di dire se il variabile tra le variabili stesse è stretto o meno. Coefficiente di correlazione lineare di Bravais e Pearson Il coefficiente di correlazione lineare r misura l’intensità del legame lineare (interpretabile graficamente da una retta) tra due variabili quantitative X e Y, ovvero il grado di proporzionalità esistente tra X e Y. Si calcola come rapporto tra la covarianza tra X e Y e il rapporto degli scarti quadratici medi. In formula esso è allora rXY COV ( X , Y ) ( X ) (Y ) Il coefficiente di correlazione lineare assume valori compresi tra -1 e +1 in particolare, r=-1 perfetta correlazione negativa: la relazione tra X e Y è di assoluta proporzionalità inversa e può essere perfettamente interpretata da una retta con pendenza negativa r=+1 perfetta correlazione positiva: la relazione tra X e Y è di perfetta proporzionalità diretta e può essere perfettamente interpretata da una retta con pendenza positiva r=0 i due fenomeni sono incorrelati (non esiste legame lineare tra X e Y) ATTENZIONE Il coefficiente di correlazione lineare è fortemente influenzato dai valori anomali, per cui è opportuno calcolare il suo valore con e senza outliers, in modo da verificare l’effetto che essi hanno sul risultato finale. ESEMPIO Si considerino i caratteri X e Y riportati nella tabella successiva. Si rappresentino graficamente e si stabilisca se sono linearmente dipendenti. In caso affermativo si calcoli l’entità di tale dipendenza. X Y 3 280 8 430 12 500 14 600 16 800 19 900 24 1200 28 1280 26 1300 33 1350 SVOLGIMENTO Rappresentiamo i dati relativi ai due caratteri X e Y attraverso un diagramma a dispersione. La disposizione dei punti nel grafico già suggerisce l’esistenza di una relazione di dipendenza lineare tra X ed Y. Per verificare puntualmente la presenza di dipendenza lineare tra i due caratteri, calcoliamo la covarianza tra X e Y applicando la formula n COV ( X , Y ) (x i 1 i X )( yi Y ) n Poiché per il calcolo della covarianza è necessario conoscere il valore degli scarti dalla media dei valori sia di X che di Y, occorre preliminarmente calcolare le medie delle due variabili. Si avrà dunque che n n ( X ) x i 1 n i 183 18,3 10 (Y ) y i 1 n i 8640 864 10 A questo punto abbiamo tutti gli elementi per calcolare i valori necessari per calcolare la covarianza. Alla tabella originaria, quindi, si aggiungono tre colonne che riportano, rispettivamente, gli scostamenti dalla media di X, gli scostamenti dalla media di Y e i prodotti degli scostamenti. X Y xi-μ yi-μ (xi-μ)(yi-μ) 3 280 -15,3 -584 8935,2 8 430 -10,3 -434 4470,2 12 500 -6,3 -364 2293,2 14 600 -4,3 -264 1135,2 16 800 -2,3 -64 147,2 19 900 0,7 36 25,2 24 1200 5,7 336 1915,2 28 1280 9,7 416 4035,2 26 1300 7,7 436 3357,2 33 1350 14,7 486 7144,2 0 0 33458 Sostituendo i valori ottenuti alla formula, si avrà che n COV ( X , Y ) (x i 1 i X )( yi Y ) n 33458 3345,8 10 Poiché la covarianza di X ed Y è diversa da 0, si deduce che esiste dipendenza lineare tra le due variabili. Il segno positivo della covarianza informa anche del fatto che esiste una dipendenza lineare positiva: a valori crescenti della X sono associati valori crescenti della Y. Per valutare l’entità di tale dipendenza lineare, tuttavia, è necessario calcolare il coefficiente di correlazione lineare: rXY COV ( X , Y ) ( X ) (Y ) Per calcolare il valore di r occorre conoscere preliminarmente il valore della varianza di X e della varianza di Y. Conoscendo già l’entità degli scarti dalla media di X e di Y, è sufficiente calcolare i quadrati e rapportarli a n. I risultati dei calcoli sono riportati nella tabella successiva X Y xi-μ yi-μ (xi-μ)2 (yi-μ)2 3 280 -15,3 -584 234,09 341056 8 430 -10,3 -434 106,09 188356 12 500 -6,3 -364 39,69 132496 14 600 -4,3 -264 18,49 69696 16 800 -2,3 -64 5,29 4096 19 900 0,7 36 0,49 1296 24 1200 5,7 336 32,49 112896 28 1280 9,7 416 94,09 173056 26 1300 7,7 436 59,29 190096 33 1350 14,7 486 216,09 236196 0 0 806,1 1449240 In base ai dati della tabella precedente si ottiene che n 2 x i (X ) i 1 n 806,1 80,61 8,98 10 n (Y ) 2 y i i 1 n 1449240 144924 380,69 10 Da cui rXY COV ( X , Y ) 3345,8 3345,8 0,98 ( X ) (Y ) 8,98 380,69 3418,6 Il coefficiente di correlazione lineare ha un valore molto prossimo ad 1, rivelando una dipendenza lineare molto forte tra i due caratteri. Il segno positivo del coefficiente di correlazione lineare, inoltre, conferma che la dipendenza lineare è positiva. ATTENZIONE In alcuni casi è necessario ponderare r tenendo conto della diversa importanza che i vari aspetti ricoprono. Si parla in tal caso di coefficiente di correlazione lineare ponderata, definito come covarianza ponderata tra gli scostamenti standardizzati, con peso ωi delle unità statistiche. La formula diventa in questo caso n rXY z ( x ) z ( y ) i 1 i i n i 1 i i