Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati La regressione lineare semplice martedì 15 ottobre 2013 A cura di Matteo Forgiarini 1 Relazioni tra variabili Esercitazione N° 2 – La regressione lineare semplice Quando siamo interessati a studiare la relazione tra due variabili, occorre prendere in considerazione 3 caratteristiche principali: -La forma che assume la relazione. -La sua direzione. -L’entità osservata. In questo contesto verranno analizzate solo relazioni lineari: il modello matematico utilizzato è la retta di regressione, quindi si ipotizza una forma lineare. La direzione della relazione può essere positiva (i valori delle due variabili crescono in modo concorde) o negativa (al crescere dei valori di una variabile diminuiscono i valori dell’altra). L’entità della relazione fa riferimento alla quantificazione della relazione stessa: la relazione può essere molto forte o modesta; oppure può essere pari a zero, in questo caso si parla di relazione nulla, le variabili sono dunque indipendenti. 2 Varianza e correlazione Esercitazione N° 2 – La regressione lineare semplice Per analizzare la relazione tra le variabili occorre fare riferimento ai concetti di varianza e di correlazione. Cov(v, x) n i 1 n rxv (z i 1 iv (vi M v ) * ( xi M x ) n 1 0) * ( zix 0) n 1 n z i 1 iv * zix n 1 La correlazione può variare solo tra -1 ed 1; l’entità della relazione è quindi agevole da comprendere ed è possibile confrontare 2 o più valori fra loro. La direzione della relazione è indicata dal segno del valore della correlazione: una correlazione positiva indica che le variabili si “muovono” in modo concorde; una correlazione negativa indica che quando i valori di una variabile crescono, i valori dell’altra mininuiscono. 3 Scatter plot Esercitazione N° 2 – La regressione lineare semplice Menù:grafici->scatter plot prezzo da catalogo (lire) peso (in Kg) Spesso è utile costruire una matrice di grafici che permette di visualizzare la natura delle relazioni tra due o più variabili; ogni cerchietto rappresenta un “caso” che viene posizionato sul grafico usando i valori delle due variabili come coordinate cartesiane. potenza del motore Con questo strumento è possibile studiare la forma della relazione tra le coppie di variabili. peso (in Kg) prezzo da catalogo (lire) potenza del motore Per quantificare la relazione tra due variabili occorre calcolare la loro correlazione. 4 Esercitazione N° 2 – La regressione lineare semplice La correlazione Descriptive Statistics Mean pes o (in Kg) 1252,7653 lunghezza (cm) 447,3575 Std. Deviation 171,18530 26,76908 N 24 24 Correlations lunghezza (cm) pes o (in Kg) Pears on Correlation Sig. (2-tailed) Sum of Squares and Cross -products Covariance N Pears on Correlation Sig. (2-tailed) Sum of Squares and Cross -products Covariance N lunghezza (cm) 1 pes o (in Kg) ,762** ,000 16481,419 80331,158 716,583 24 ,762** ,000 3492,659 24 1 80331,158 674001,338 3492,659 24 29304,406 24 **. Correlation is s ignificant at the 0.01 level (2-tailed). La correlazione risulta significativa (p-value<0,001); Possiamo quindi rifiutare l’ipose nulla H0: corr(peso,lunghezza)=0 ed accettare H1: corr(peso,lunghezza)≠0 Si noti che la matrice di correlazione prodotta è quadrata e simmetrica: infatti corr(x,y)=corr(y,x). 5 I punteggi z Esercitazione N° 2 – La regressione lineare semplice Costruiamo 2 nuove variabili con i valori z delle variabili “lunghezza” e “peso”; Ora calcoliamo la varianza e la correlazione tra queste due nuove variabili. 6 La varianza dei punteggi z Correlations Zscore: lunghezza (cm) Zscore: pes o (in Kg) Pears on Correlation Sig. (2-tailed) Sum of Squares and Cross -products Covariance N Pears on Correlation Sig. (2-tailed) Sum of Squares and Cross -products Covariance N Esercitazione N° 2 – La regressione lineare semplice Descriptive Statistics Zscore: lunghezza (cm) 1 23,000 1,000 24 ,762** ,000 Zscore: pes o (in Kg) ,762** ,000 Mean ,0000000 ,0000000 Std. Deviation 1,00000000 1,00000000 N 24 24 17,530 ,762 24 1 17,530 23,000 ,762 24 1,000 24 **. Correlation is s ignificant at the 0.01 level (2-tailed). Zscore: lunghezza (cm) Zscore: pes o (in Kg) Come ci si attendeva la deviazione standard delle due variabili è 1; la correlazione calcolata è pari a quella tra le due variabili non standardizzate (cfr. slide 4); la varianza tra le due variabili è pari alla correlazione: le variabili sono infatti 7 standardizzate. La retta di regressione semplice Esercitazione N° 2 – La regressione lineare semplice Se esiste una correlazione significativa tra due variabili, è possibile ipotizzare che una variabile sia causa dell’altra. Chiamiamo variabile indipendente la variabile che causa un cambiamento dei valori dell’altra che per tanto è dipendente dalla prima variabile. Se si ipotizza che vi sia una relazione causale diretta tra le due variabili e che tale relazione abbia forma lineare, è possibile stimare i parametri della equazione di regressione semplice tra la variabile indipendente e la dipendente. Y=a + b*x a=intercetta; b=pendenza della retta L’intercetta viene calcolata con la formula: Nella regressione lineare semplice, se le due variabili sono standardizzate b corrisponde alla correlazione tra x e y cov( x, y) rxv s y sx a M y bxy M x Se x e y non sono standardizzate, b corrisponde alla covarianza tra x e y divisa per la varianza di x sy cov( x, y ) byx rxv sx s x2 8 La retta di regressione semplice Esercitazione N° 2 – La regressione lineare semplice Coefficientsa Model 1 (Cons tant) lunghezza (cm) Uns tandardized Coefficients B Std. Error -927,675 395,523 4,874 ,883 Standardized Coefficients Beta ,762 t -2,345 5,522 Sig. ,028 ,000 a. Dependent Variable: peso (in Kg) Intercetta (a) e pendenza (b) risultano significativamente diversi da zero: entrambi i p-values<0.05 Si noti che la pendenza standardizzata corrisponde alla corr(x,y). Model Summary Model 1 R R Square ,762 a ,581 Adjus ted R Square ,562 a. Predictors : (Constant), lunghezza (cm) Std. Error of the Es timate 113,31046 La proporzione di varianza della y spiegata dalla x corrisponde al quadrato della corr(x.y). 9 La retta di regressione semplice Esercitazione N° 2 – La regressione lineare semplice Chiediamo a spss di costruire il grafico della retta di regressione semplice con x=lunghezza e y=peso. 10 La retta di regressione semplice Esercitazione N° 2 – La regressione lineare semplice Linear Regression 1600,00 peso (in Kg) peso (in Kg) = -927,67 + 4,87 * lungh R-Square =0,58 1400,00 1200,00 1000,00 400,00 425,00 450,00 475,00 lunghezza (cm) a= -927.67; b= +4.87; la proporzione di varianza della y spiegata dalla x è=0.58 (58%). Le due variabili non sono standardizzate: risulta interessante verificare che le stime di a e b siano coerenti alle formule teoriche. 11 La retta di regressione semplice Esercitazione N° 2 – La regressione lineare semplice Linear Regression Zscore: peso (in Kg) 2,00000 Zscore: peso (in Kg) = 0,00 + 0,76 * Zlungh R-Square = 0,58 1,00000 0,00000 -1,00000 -1,00000 0,00000 1,00000 Zscore: lunghezza (cm) X= punteggi z:lunghezza; y=punteggi z:peso Le variabili sono standardizzate: la retta di regressione passa per l’origine degli assi, infatti a=0. La pendenza (b)=corr(x,y). 12 Correlazione e causazione Esercitazione N° 2 – La regressione lineare semplice Correlations lunghezza (cm) capienza bagagliaio (litri) pes o (in Kg) potenza del motore capienza s erbatoio (litri) prezzo da catalogo (lire) Pears on Correlation Sig. (2-tailed) N Pears on Correlation Sig. (2-tailed) N Pears on Correlation Sig. (2-tailed) N Pears on Correlation Sig. (2-tailed) N Pears on Correlation Sig. (2-tailed) N Pears on Correlation Sig. (2-tailed) N lunghezza (cm) 1 24 -,003 ,990 24 ,762** ,000 24 ,314 ,135 24 ,605** ,002 24 ,442* ,031 24 capienza bagagliaio (litri) -,003 ,990 24 1 24 -,003 ,990 24 ,043 ,842 24 ,119 ,579 24 ,009 ,968 24 capienza potenza s erbatoio prezzo da pes o (in Kg) del motore (litri) catalogo (lire) ,762** ,314 ,605** ,442* ,000 ,135 ,002 ,031 24 24 24 24 -,003 ,043 ,119 ,009 ,990 ,842 ,579 ,968 24 24 24 24 1 ,789** ,742** ,770** ,000 ,000 ,000 24 24 24 24 ,789** 1 ,691** ,837** ,000 ,000 ,000 24 24 24 24 ,742** ,691** 1 ,764** ,000 ,000 ,000 24 24 24 24 ,770** ,837** ,764** 1 ,000 ,000 ,000 24 24 24 24 **. Correlation is s ignificant at the 0.01 level (2-tailed). *. Correlation is s ignificant at the 0.05 level (2-tailed). La matrice di correlazione delle 6 variabili mostra che la correlazione tra “capienza del serbatoio” e “prezzo” è significativamente diversa da 0. Sembra dunque possibile ipotizzare un legame causale tra queste variabili. 13 Esercitazione N° 2 – La regressione lineare semplice Correlazione e causazione Model Summary Model 1 R R Square ,764 a ,583 Adjus ted R Square ,564 Std. Error of the Es timate 14452263,2 a. Predictors : (Constant), capienza s erbatoio (litri) Coefficientsa Model 1 (Cons tant) capienza s erbatoio (litri) Uns tandardized Coefficients B Std. Error -6,2E+07 1,8E+07 1654877 298280,5 Standardized Coefficients Beta ,764 t -3,366 5,548 Sig. ,003 ,000 a. Dependent Variable: prezzo da catalogo (lire) I due parametri della retta risultano significativamente diversi da 0; sembra possibile costruire la retta di regressione. Ma ha davvero senso il modello proposto? È davvero ipotizzabile che la capienza del serbatoio sia una causa diretta del prezzo dell’auto? Occorre riflettere: una correlazione significativa tra due variabili non è mai una condizione sufficiente perché vi sia un legame causale diretto tra le due variabili. Non sempre se sue variabili correlano in modo significativo è possibile ipotizzare un legame causale diretto; può succedere che vi siano altre variabili che intervengono nella relazione e rendono più complesso il legame: in questi casi un modello di causalità lineare non è sufficiente a spiegare la correlazione osservata. 14