X e Y: caratteri entrambi quantitativi X: variabile indipendente Y: variabile dipendente y f x f(x): espressione funzionale mirante a descrivere la legge di dipendenza di Y da X. Diagramma di dispersione x j , y j ; j 1,2,..., n Y yj . xj X Modello di dipendenza lineare: retta di regressione y b0 b YX x b0: ordinata all’origine (o termine noto) bYX: coefficiente angolare della retta di regressione, detto “coefficiente di regressione”. Riassume l’intensità della dipendenza di Y da X. Criterio di accostamento: metodo dei minimi quadrati yj:ordinata empirica di ascissa xj y *j b0 b YX x j :ordinata teorica di ascissa xj D n j 1 n * 2 yj yj y j b0 b YX x j j 1 2 min imo Grafico della n-pla di valori x j , y j Y yj . yj* b0 xj X b0 y b YX x x j y j nx y y j yx j x b YX n n j1 n j1 2 x j j1 nx 2 x j x n j1 Codev X, Y CovX, Y DevX V X 2 bYX indica di quanto varia in media Y per ogni variazione unitaria positiva di X; ha il segno codevianza. algebrico della bYX>0 retta ascendente; bYX<0 retta discendente; bYX=0 retta parallela all’asse delle ascisse (equazione della retta: y y): Y linearmente indipendente da X. Osservazione: la retta di regressione passa sempre per il centroide della nuvola di punti, poiché i valori medi x, y soddisfano l’equazione: y* b0 b YX x Scomposizione della devianza di Y DevY tot DevY regr DevY disp y j y 2 j 2 * yj y j *2 yj yj j b2YX x j x y j b0 b YX x j 2 2 j j R 2 : indice di determinazione lineare 2 R DevY regr DevY tot 2 0R 1 1 DevY disp DevY tot R 2 : frazione della variabilità di Y attribuibile alla dipendenza lineare da X. R 2 0 per DevY regr 0 (retta di regressione non inclinata e devianza di regressione nulla) R 2 1 per DevY disp 0 (tutta la variabilità di Y è dovuta alla dipendenza lineare da X e la devianza di dispersione è nulla). X: variabile dipendente Y: variabile indipendente ' b0 x b XY y x j y j nx y y j yx j x b XY n n j1 n j1 2 y j j1 ny 2 Codev X, Y DevY y j y n j1 2 I coefficienti angolari b YX e b XYhanno lo stesso segno algebrico, dato dalla codevianza, e differiscono per effetto della diversa variabilità dei due caratteri. Se b YX 0 , Y linearmente indipendente da X, anche b XY 0 , X linearmente indipendente da Y, e viceversa. L’indipendenza lineare è reciproca. Grafico delle rette: y* b0 b YX x * ' x b0 b XY y Y y x X Coefficiente di correlazione lineare (r) (Bravais-Pearson) Indicatore simmetrico della relazione lineare tra Y e X. Codev X, Y r DevX DevY 1 r 1 L’indice r ha il segno algebrico della codevianza Nel modello di regressione lineare semplice vale la relazione R2 r 2 r = +1: perfetta correlazione lineare positiva tra X e Y; punti empirici tutti allineati su una sola retta ascendente; r = -1: perfetta correlazione lineare negativa; punti empirici tutti allineati su una sola retta discendente; r = 0: assenza di correlazione lineare; rette di regressione ortogonali tra loro, con coefficienti angolari entrambi uguali a 0: caratteri linearmente indipendenti. 0 < r < +1: tendenziale correlazione positiva tra X e Y; rette di regressione entrambe ascendenti; coefficienti di regressione positivi (quanto più essi si riducono, tanto più le rette si aprono a forbice, espressione dell'attenuarsi della relazione lineare tra le variabili); -1 < r < 0: tendenziale correlazione negativa tra X e Y; rette di regressione entrambe discendenti: coefficienti di regressione negativi (l'angolo racchiuso dalle due rette è tanto minore quanto più si accentua la correlazione negativa). Relazioni che intercorrono tra il coefficiente di correlazione lineare (r) e i coefficienti di regressione: sY b YX r sX sX b XY r sY sX: scarto quadratico medio di X sY: scarto quadratico medio di Y r b YX b XY Dalla n-pla bivariata alla distribuzione bivariata x1 .. xh y1 n11 .. n1h : yi ni1 .. nih : yu nu1 .. nuh n01 .. n0h .. xv .. n1v n10 : .. niv ni0 : .. nuv nu0 .. n0v n xh , yi; nih; i 1,..., u; h 1,..., v In una yi , xh ;nih 1 x xhn0h nh 2 2 DevX xhn0h nx h 1 y yini0 n i 2 2 DevY yi ni0 ny i Codev X, Y xh yinih nx y i h Regressione lineare e correlazione: funzioni Excel - funzioni per l’analisi del modello di regressione lineare semplice y b0 b YX x - funzione matriciale applicabile sia al modello di regressione lineare semplice sia al modello di regressione lineare multipla y b0 b1x1 b2 x 2 ... bp xp Funzioni Excel per l’analisi del modello di regressione lineare semplice y* b0 b YX x - INTERCETTA(y,x): calcolo di b0 - PENDENZA(y,x): calcolo di bYX - TENDENZA(y;x;nuova_x;cost): calcolo dei valori teorici yj* di ascissa xj, j=1,...,n, o della previsione di Y in corrispondenza di un nuovo valore di X (cost=1 se modello con intercetta, 0 altrimenti) - RQ(y,x): calcolo dell’indice di determinazione lineare - COVARIANZA(Matrice1,Matrice 2): calcolo della covarianza fra X e Y - CORRELAZIONE(Matrice1,Matrice 2): calcolo del coefficiente di correlazione lineare di Pearson fra X e Y Funzione matriciale (sia modello di regressione lineare semplice sia modello di regressione lineare multipla) REGR.LIN(y,x,cost,stat) y variabile dipendente; x variabili indipendenti (se regressione semplice 1 sola colonna, se regressione multipla più colonne contigue); cost=1 se modello con intercetta, 0 altrimenti; stat=1 se si vogliono statistiche aggiuntive, 0 altrimenti Modello di regressione lineare semplice y* b0 b YX x OUTPUT DI REGR.LIN(y,x,1,0): bYX b0 OUTPUT DI REGR.LIN(y,x,1,1): bYX se1 2 R F Dev(Y)regr b0 se0 seY df Dev(Y)disp