Associazione tra due variabili Oltre a descrivere un singola variabile, la statistica descrittiva è utile anche per descrivere contemporaneamente due variabili, ossia per capire il grado di associazione tra due variabili. • Variabili quantitative: si parla di correlazione tra variabili e si utilizza il grafico di dispersione • Variabili qualitative: si parla di dipendenza tra variabili e si usa la tabella di frequenza doppia Variabili quantitative SOGGETTI 1 2 3 4 5 6 ANSIA 5 2 1 3 7 6 DEPRESSIONE 7 5 2 5 9 8 La relazione tra due variabili quantitative si rappresenta sul “grafico di dispersione”, utilizzando i punteggi di ciascun soggetto in X e in Y come coordinate. Per interpretare il grafico si usano le medie delle due variabili, che vanno a formare 4 quadranti. Grafico crescente: ansia e depressione 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 Grafico decrescente: ansia e voto 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 Punteggi sparsi: ansia e intelligenza 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 Il grafico di dispersione • Quando la nuvola di punti è inclinata verso l’alto, da sinistra a destra, vi è una relazione crescente : le variabili sono direttamente proporzionali. • Quando la nuvola di punti è inclinata verso il basso, da sinistra a destra, vi è una relazione decrescente : le variabili sono inversamente proporzionali. • Quando la nuvola di punti è sparsa, ossia vi sono dei punti in tutti i quadranti, vi è assenza di correlazione. La correlazione • La correlazione è un “valore” che esprime la relazione lineare tra due variabili quantitative, ossia indica se e quanto due variabili “variano” insieme. • È necessario pertanto calcolare la “covarianza” e poi, per standardizzare, ossia dividere per il prodotto delle due deviazioni standard. • Essendo un coefficiente standardizzato varia tra -1 e 1. -1<r<-0,5 Correlazione alta e negativa -0,5<r<0,5 Assenza di correlazione 0,5<r<1 Correlazione alta e positiva Calcolo della varianza La varianza indica quanto variano i punteggi di una variabile e consiste nel calcolare la somma degli scarti quadratici, diviso N 2 X X X X N Per calcolare la covarianza, invece, bisogna considerare due variabili contemporaneamente. Per calcolare la correlazione, la covarianza deve essere standardizzata per il prodotto delle due deviazioni standard. Calcolo del coefficiente r X X Y Y rxy N XY rxy= Coefficiente di correlazione di Pearson Numeratore = covarianza (σ2XY) Denominatore = prodotto delle deviazioni standard Calcolo del coefficiente r Sog 1 2 3 4 5 6 X 5 2 1 3 7 6 Y 7 5 2 5 9 8 Ẍ 4 Ȳ 6 (X-4) (Y-6) 1 -2 -3 -1 3 2 1 -1 -4 -1 3 2 (X-4) (Y-6) 1 2 12 1 9 4 Σ29 Cov=29/6 Cov=4,83 (X-4)2 (Y-6)2 1 1 4 1 9 16 1 1 9 9 4 4 Σ28/6 Σ32/6 σ=√4,67 σ=√5,33 σx σy 2,16 2,31 σxσy 4,99 Coefficiente r X X Y Y rxy N XY 29 4,83 6 4,99 4,99 rxy=0,97 Essendo r compreso tra 0,5 e 1, e come anticipato dal grafico la correlazione è alta e positiva. Formule alternative: punti z (da non usare) rxy zx z y N Procedura: 1) Calcolare i punti z per X e Y; 2) Moltiplicare i punti z relativi allo stesso soggetto; 3) Sommare tutti i prodotti 4) Dividere per N Calcolo del coefficiente r: Punti z Sog 1 2 3 4 5 6 X 5 2 1 3 7 6 Y 7 5 2 5 9 8 Zx Zy Zx Zy 0,46 -0,93 -1,39 -0,46 1,39 0,93 0,43 -0,43 -1,73 -0,43 1,30 0,87 0,2 0,4 2,4 0,2 1,8 0,8 Σ5,8 Ẍ 4 σx 2,16 Ȳ 6 σy 2,31 σxσy 4,99 5,8 rxy 6 rxy 0,97 Formula alternativa “semplificata” (da non usare) rxy XY X Y N XY Procedura: 1)Moltiplicare ciascun punteggio di X per il relativo punteggio di Y 2)Sommare tali prodotti 3)Dividere per N 4)Sottrarre per il prodotto delle medie di X e Y 5)Dividere il numeratore per il prodotto delle DS Calcolo del coefficiente r: f. sempl. S 1 2 3 4 5 6 X 5 2 1 3 7 6 Y 7 5 2 5 9 8 X*Y 35 10 2 15 63 48 Σ173 Mx 4 σx 2,16 My 6 σy 2,31 MxMy 24 σxσy 4,99 173 24 6 rxy 4,99 rxy 0,97 Interpretazione di r • Il coefficiente r di Pearson è sempre compreso tra -1 ed 1. In particolare: -1<r<-0,5 -0,5<r<0,5 0,5<r<1 Correlazione alta e negativa: grafico decrescente Assenza di correlazione: assenza di linearità Correlazione alta e positiva: grafico crescente Esercitazione 1: Costruire il grafico di dispersione e calcolare la correlazione Soggetti Depressione Intelligenza 1 2 5 2 3 2 3 3 5 4 4 4 Grafico di dispersione 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 Commento: Possiamo supporre che vi sia assenza di correlazione, poiché i punti sono sparsi Calcolo del coefficiente r Sog 1 2 3 4 X Y Ẍ 3 Ȳ 4 2 3 3 4 5 2 5 4 (X-3) (Y-4) -1 0 0 1 1 -2 1 0 (X-3) (Y-4) -1 0 0 0 Σ-1 Cov=-1/4 Cov=-0,25 (X-3)2 (Y-4)2 1 1 0 4 0 1 1 0 Σ2/4 Σ6/4 σ=√0,5 σ=√1,5 σx σy 0,71 1,22 σxσy 0,87 Calcolo del coefficiente r X X Y Y rxy N XY 1 4 0,25 0,29 0,87 0,87 Commento: Poiché il coefficiente r di Pearson è compreso tra –0,5 e +05 (r = -0,29) non vi è correlazione tra depressione e intelligenza. Testare l’associazione tra “disregolazione emotiva” (DERS) e “disturbo ossessivo compulso” (DOC) e commentare i risultati. Soggetti DERS DOC 1 4 3 2 5 2 3 4 3 4 3 4 5 2 3 6 3 4 7 6 1 8 2 4 9 1 5 10 3 2 11 2 4 12 2 4 13 2 4 14 3 3 Grafico di dispersione 6 5 4 3 2 1 0 0 1 2 3 4 5 6 Commento: Poiché la nuvola di punti si distribuisce in maniera decrescente, possiamo supporre che vi sia una correlazione alta e negativa. 7 Calcolo del coefficiente r Sog X Y (X-3) (Y-3,29) (X-3) (Y-3,29) (X-3)2 (Y-3,29)2 1 4 3 1 -0,29 -0,29 1 0,08 2 5 2 2 -1,29 -2,58 4 1,66 3 4 3 1 -0,29 -0,29 1 0,08 4 3 4 0 0,71 0 0 0,50 5 2 3 -1 -0,29 0,29 1 0,08 6 3 4 0 0,71 0 0 0,50 7 6 1 3 -2,29 -6,87 9 5,24 8 2 4 -1 0,71 1 0,50 9 -0,71 1 5 1,71 -3,42 4 2,92 10 -2 3 2 -1,29 0 0 1,66 11 0 2 4 12 2 4 13 2 4 14 3 3 -1 -1 -1 0 0,71 0,71 0,71 -0,29 -0,71 -0,71 -0,71 0 1 1 1 0 0,50 0,50 0,50 0,08 Calcolo del coefficiente r X X Y Y rxy N XY 16 1,14 14 0,84 1,31 1,03 1,35 Commento: Poiché il coefficiente r di Pearson è compreso tra -1 e –0,5 (r = -0,84) vi è correlazione alta e negativa tra disregolazione emotiva e disturbo ossessivo compulsivo.