Regressione o Interpolazione Consente di rappresentare una relazione di dipendenza tra due variabili quantitative La velocità di un’automobile dipende dalla potenza L’inquinamento dipende dagli insediamenti industriali L’effetto di un medicinale dipende dalla dose Il consumo dipende dal reddito Esempio 18.2 – Resistenza carta Tabella 18.1 Resistenza a trazione e percentuale di fibra di legno nella carta. Resistenza Percentuale Resistenza Percentuale a trazione di fibra di a trazione di fibra di legno x legno x y y 4.3 1.0 23.4 5.5 7.6 1.5 26.3 6.0 13.8 2.0 27.5 6.5 16.6 3.0 29.0 7.0 18.0 4.0 31.8 8.0 20.7 4.5 36.6 9.0 23.3 5.0 35.9 10.0 i 35 i i i yi 30 25 20 15 10 xi 5 2 4 6 8 10 Esplicitare la relazione tra due variabili equivale a fare una rappresentazione schematica della realtà. Questo schema si definisce modello. Il modello quindi si definisce a partire da una variabile indipendente (o esplicativa) X e da una variabile dipendente Y Nell’esempio precedente la percentuale di fibra di legno è la variabile indipendente o esplicativa mentre la resistenza a trazione è la variabile indipendente Finalità del modello Descrivere ed interpretare un fenomeno Prevedere le osservazioni Regressione Il modello, che esprime la relazione che unisce due caratteri quantitativi, viene esplicitato attraverso una funzione matematica che esprime i valori assunti da un carattere in funzione dei valori assunti dall’altro carattere. Y=f(X)+ε ε rappresenta l’insieme degli effetti che altre variabili, non considerate nell’analisi, hanno su Y. Ex. Il consumo dipende dal reddito e dal risparmio. Il primo problema che si deve affrontare è quello dell’individuazione della funzione più adatta a descrivere la relazione tra la variabile dipendente e la variabile esplicativa Esempi: • f(X) = α + β X • f(X) = α log(X) • f(X) = α βX α e β sono detti parametri del modello La scelta della funzione può essere suggerita dalla • rappresentazione grafica delle coppie di valori osservati (xi, yi) • teoria e/o analisi precedenti Il modello statistico a cui si fa di solito riferimento è Y= α+β X+ε detto modello di regressione lineare semplice. α è l’intercetta del modello. Indica quanto vale Y quando X=0 β è il coefficiente angolare, detto coefficiente di regressione. Indica di quanto varia Y al variare di una unità di X. Solitamente α e β non sono noti ma devono essere individuati (o stimati) a partire dai valori osservati (xi, yi) 35 30 25 20 15 10 5 2 4 2 4 6 8 10 35 30 25 20 15 10 5 6 8 10 Stima dei parametri del modello di regressione ˆ y ˆx Cov ( X , Y ) ˆ var(X ) Proprietà di ̂ • varia tra - e + . Il segno dipende dalla covarianza tra X e Y • ha come unità di misura il rapporto tra l’unità di misura di Y e quella di X • se X e Y sono statisticamente indipendenti o indipendenti in media vale zero. Non è vero il viceversa XY 0 35 30 25 20 ˆ 0 15 10 5 10 8 6 4 2 ˆ 0 ŷ 13.632 0.080 x yi , i 12 . 11 XY 0 10 9 8 7 30 40 50 60 70 xi XY 0 ˆ 0 XY 1 Y X 25 Y 20 15 10 5 0 -8 -6 -4 -2 -5 0 2 4 6 -10 -15 -20 XY 1 Y X X 8 Esempio 18.2 - stima Tabella 18.2 – Calcoli per la stima della retta di regressione nell’esempio 18.2. i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Totale yi xi yi y 4.3 7.6 13.8 16.6 18.0 20.7 23.3 23.4 26.3 27.5 29.0 31.8 36.6 35.9 1.0 1.5 2.0 3.0 4.0 4.5 5.0 5.5 6.0 6.5 7.0 8.0 9.0 10.0 -18.19 -14.89 -8.69 -5.89 -4.49 -1.79 0.81 0.91 3.81 5.01 6.51 9.31 14.11 13.41 xi x -4.21 -3.71 -3.21 -2.21 -1.21 -0.71 -0.21 0.29 0.79 1.29 1.79 2.79 3.79 4.79 xi x yi y xi x 76.58 55.24 27.89 13.02 5.43 1.27 -0.17 0.26 3.01 6.46 11.65 25.97 53.48 64.23 344.32 17.72 13.76 10.30 4.88 1.46 0.50 0.04 0.08 0.62 1.66 3.20 7.78 14.36 22.94 99.30 2 Esempio 18.2 - calcoli Yi xi i y 22.49 x 5.21 14 x x y y 344.32 i 1 i i 14 x x i 1 i 2 99.30 344.32 ˆ 3.47 99.30 ˆ 22.49 3.47 5.21 4.41 yˆi ˆ ˆ xi 4.41 3.47 xi