Introduzione alla Regressione Lineare e alla Correlazione 1 esempio 1 Supponiamo di avere misurato la statura di 10 bambini di età compresa tra 6 e 12 anni e di riportare i dati su una tabella: soggetto 1 2 3 4 5 6 7 8 9 10 et€ (anni) X 6 6 7 8 8 9 10 10 11 12 statura (centimetri) Y 115 120 122 130 128 134 136 140 147 151 2 diagrammi di dispersione • un diagramma di dispersione è una rappresentazione grafica in cui si rappresentano i valori di due variabili • i valori della variabile indipendente (X) vengono rappresentati sull’asse orizzontale (asse delle ascisse) • i valori della variabile dipendente (Y) vengono rappresentati sull’asse verticale (asse delle ordinate) • ciascuna coppia di valori (X,Y) viene rappresentata sul grafico con un punto 3 esempio 1(2) Riportando i valori su un diagramma di dispersione otterremo il seguente grafico: 155 150 145 Altezza (cm) 140 135 130 125 120 115 110 5 6 7 8 9 10 11 12 13 Età (anni) 4 esempio 1(3) Si evidenzia una netta tendenza, tale per cui al crescere dell’età, si registra un aumento dell’altezza: 155 y = 5,5879x + 83,685 R2 = 0,9735 150 145 Altezza (cm) 140 135 130 125 120 115 110 5 6 7 8 9 10 11 12 13 Età (anni) 5 esempio 2 Fonte: www.venganza.org 6 tipi di relazioni 7 coefficiente di correlazione • il coefficiente di correlazione (lineare) misura l’intensità della relazione (lineare) tra due variabili X e Y; • i valori che esso assume sono compresi tra –1 e +1; • quando vale +1 significa perfetta correlazione positiva: i valori della Y si dispongono esattamente su una retta con pendenza positiva; • quando vale –1 significa perfetta correlazione negativa: i valori della Y si dispongono esattamente su una retta con pendenza negativa 8 coefficiente di correlazione da un punto di vista matematico, il coefficiente di correlazione (Bravais-Pearson) è definito come cov XY r s X sY in cui: cov XY sX sY è la covarianza tra X e Y; è la deviazione standard di X è la deviazione standard di Y 9 covarianza • la covarianza esprime l’intensità con cui due variabili “variano insieme” • matematicamente si esprime con cov XY X X Y Y N in cui: X Y N è la media di X; è la media di Y; è la numerosità del campione 10 covarianza • la covarianza si può calcolare più comodamente con la formula semplificata: cov XY X Y XY N N in cui: XY è la somma dei prodotti XY; X è la somma dei valori di X; è la somma dei valori di Y Y 11 esempio 1(3) Dalla tabella dell’esempio 1 ricaviamo i seguenti valori: XY 11723 X 87 Y 1323 Con questi possiamo calcolare la covarianza: cov XY 87 1323 11723 10 21.29 10 12 esempio 1(4) Ora calcoliamo le deviazioni standard: X 87 X sx 87 795 2 10 2, 057 10 Y 1323 Y sy 795 2 2 176255 1323 176255 10 10 2 11, 65 13 esempio 1(5) A questo punto possiamo calcolare il coefficiente di correlazione: cov XY r s X sY 21.29 0.973 2.05 11.65 abbiamo ottenuto un’alta correlazione positiva. 14 esempio 2 10 soggetti di età superiore ai 60 anni sono stati sottoposti ad un test di abilità motorie con i seguenti risultati: soggetto 1 2 3 4 5 6 7 8 9 10 età (anni) X 60 65 72 80 67 75 77 79 81 77 abilità motorie Y 40 25 16 18 35 14 10 15 12 18 15 esempio 2 Si calcoli la correlazione tra età e punteggio di abilità motorie. soggetto 1 2 3 4 5 6 7 8 9 10 età (anni) X 60 65 72 80 67 75 77 79 81 77 abilità motorie Y 40 25 16 18 35 14 10 15 12 18 16 esempio 2 prima calcoliamo le somme: X 733 X Y 203 Y XY 14325 2 54183 2 5019 poi, da questi valori possiamo ricavare le deviazioni standard e la covarianza: s X 7,10 sY 9,99 cov XY 61,66 infine otteniamo la correlazione: cov XY r 0,87 s X sY 17 esempio 2 Riportando i valori su un diagramma di dispersione otteniamo: 18 esercizio Si calcoli il coefficiente di correlazione tra le due variabili riportate in tabella. soggetto 1 2 3 4 5 6 7 X 1 3 5 7 9 11 13 Y 7 4 13 16 10 22 8 19 esercizio prima calcoliamo le somme: X 49 X Y 80 Y XY 632 2 2 455 1138 poi, le deviazioni standard e la covarianza: s X 4,32 sY 6,11 cov XY 12 infine otteniamo la correlazione: cov XY r 0,45 s X sY 20 ATTENZIONE Il coefficiente r misura l’intensità della relazione lineare; se r è basso (vicino a zero) vuol dire che non c’è relazione lineare ma potrebbe esserci una relazione di altro genere. 21 esempio 3 In questo caso, anche se r = -0,2, risulta evidente che esista una relazione tra le due variabili. 22