La retta di regressione lineare. Felice Iavernaro Dipartimento di Matematica Università di Bari http://dm.uniba.it/∼iavernaro [email protected] 11 Luglio 2007 Felice Iavernaro (Univ. Bari) Regressione lineare 01/07/2007 1 / 10 La retta di regressione lineare: ESEMPIO (1/2) La seguente tabella riporta il peso e l’altezza delle studentesse di una terza classe di una scuola media inferiore. Peso Altezza 42 1.48 43 1.5 43.5 1.53 45 1.51 45 1.50 46.5 1.52 47 1.55 48 1.53 48.5 1.57 Ci chiediamo se per la classe esaminata le due grandezze, peso ed altezza, siano relazionate in qualche modo l’una con l’altra. Proviamo a rappresentare in un piano cartesiano i dati della tabella riportando sull’asse delle ascisse i valori dei pesi e sull’asse delle ordinate i corrispondenti valori delle altezze. Felice Iavernaro (Univ. Bari) Regressione lineare 01/07/2007 2 / 10 La retta di regressione lineare: ESEMPIO (2/2) Si evidenzia un andamento pressoché lineare e ci chiediamo se è possibile determinare una retta che meglio delle altre possa rappresentare analiticamente tale andamento. Felice Iavernaro (Univ. Bari) Regressione lineare 01/07/2007 3 / 10 La retta di regressione lineare: definizione Data una generica retta r del piano di equazione y = ax + b, misureremo la distanza dei punti (xi , yi ), i = 1, . . . n dalla retta r mediante la seguente quantità: F (a, b) = n X [(axi + b) − yi ]2 i=1 Tale quantità p dipende dai coefficienti a e b che definiscono la retta (l’espressione F (a, b)/n è detta scarto quadratico medio). Il nostro obiettivo è determinare quella retta (ovvero i coefficienti a e b) che rende minima la funzione F (a, b) Definizione Si definisce retta di regressione lineare la retta di equazione y = a∗ x + b ∗ tale che: F (a∗ , b ∗ ) = min F (a, b) a,b∈R Felice Iavernaro (Univ. Bari) Regressione lineare 01/07/2007 4 / 10 Interpretazione geometrica dello scarto quadratico medio Felice Iavernaro (Univ. Bari) Regressione lineare 01/07/2007 5 / 10 La retta di regressione lineare I coefficienti a∗ e b ∗ della retta di regressione lineare y = a∗ x + b ∗ sono le soluzioni del sistema di due equazioni nelle due incognite a e b: ∂F (a, b) = 0, ∂a ∂F (a, b) = 0. ∂b essendo F (a, b) = n X [(axi + b) − yi ]2 . Calcoliamo la prima equazione: i=1 n X ∂F (a, b) = 2 [(axi − b) − yi ] xi 0 = ∂a i=1 ! ! n n n X X X 2 = xi a + xi b − xi yi i=1 i=1 i=1 Si procede analogamente per la seconda. Felice Iavernaro (Univ. Bari) Regressione lineare 01/07/2007 6 / 10 La retta di regressione lineare Si ottiene cosı̀ il sistema lineare m X ! xi2 a + i=0 m X m X ! xi b = i=0 a + (m + 1) b i=0 xi yi i=0 ! xi m X = m X yi i=0 che risolto ci dà a∗ e b ∗ . C’è un modo molto più comodo e significativo di esprimere la soluzione. Felice Iavernaro (Univ. Bari) Regressione lineare 01/07/2007 7 / 10 La retta di regressione lineare Introducendo le quantità: m 1 X xi (valor medio delle ascisse xi ) x̄ = m+1 ȳ = 1 m+1 i=0 m X yi (valor medio delle ordinate yi ) i=0 m var(x) = 1 X (xi − x̄)2 m+1 (varianza di x) i=0 m cov(x, y) = 1 X (xi − x̄)(yi − ȳ ) m+1 (covarianza di x ed y) i=0 la soluzione del sistema è a∗ = cov(x, y) , var(x) b ∗ = ȳ − a0 x̄ OSSERVAZIONE: il punto (x̄, ȳ ) appartiene alla retta. Felice Iavernaro (Univ. Bari) Regressione lineare 01/07/2007 8 / 10 La retta di regressione lineare Per l’esempio precedente si ha: a∗ = 9.8121e − 003 Felice Iavernaro (Univ. Bari) b ∗ = 1.0758e + 000 Regressione lineare 01/07/2007 9 / 10 ESERCIZIO∗ La seguente tabella riporta il numero di pagine ed il prezzo (in Euro) di alcuni libri di una stessa casa editrice. Pagine Prezzo 480 13 550 15.4 436 13.2 344 10.8 792 18.3 832 16.5 324 10 368 11 324 7.2 464 19 544 14 320 11.5 384 13.2 Rappresentare in un piano cartesiano i dati della tabella riportando sull’asse delle ascisse il numero di pagine di ciascun libro e sull’asse delle ordinate i corrispondenti prezzi. Determinare l’equazione della retta di regressione lineare e rappresentarla sullo stesso grafico. Felice Iavernaro (Univ. Bari) Regressione lineare 01/07/2007 10 / 10