Università degli Studi di Genova Dipartimento di Economia La regressione come strumento di sintesi delle relazioni tra variabili Enrico di Bella ([email protected]) L’analisi bivariata L’analisi congiunta dei fenomeni è un procedura molto comune, che consente di esprimere il legame esistente tra due fenomeni. Ad esempio, si supponga di rilevare Statura (Y in cm) e Peso corporeo di 30 studenti di una classe. L’analisi bivariata I dati, una volta raccolti, si presentano di non agevole lettura: SOGGETTI 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 P S SOGGETTI P S 65 72 80 68 72 80 65 68 72 68 65 68 72 68 68 168 182 190 174 174 182 168 174 182 168 168 168 182 174 174 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 65 72 65 68 80 68 72 65 65 80 68 72 80 65 80 182 190 174 174 190 174 174 168 174 174 168 182 190 168 182 L’analisi bivariata Spesso quindi si preferisce utilizzare una sintesi dei dati attraverso una tabella a doppia entrata: S P 168 174 182 190 Totale 65 68 72 80 5 3 0 0 2 6 2 1 1 0 4 2 0 0 1 3 8 9 7 6 Totale 8 11 7 4 30 L’analisi bivariata La tabella a doppia entrata consente di studiare sia le distribuzioni marginali di statura e peso: S P 168 174 182 190 Totale 65 68 72 80 5 3 0 0 2 6 2 1 1 0 4 2 0 0 1 3 8 9 7 6 Totale 8 11 7 4 30 che la distribuzione congiunta dei due fenomeni: S P 168 174 182 190 Totale 65 68 72 80 5 3 0 0 2 6 2 1 1 0 4 2 0 0 1 3 8 9 7 6 Totale 8 11 7 4 30 L’analisi bivariata Sovente, tuttavia, la rappresentazione dei dati in tabelle di frequenza non è agevole in quanto il numero di modalità in cui si possono presentare i fenomeni sono estremamente numerosi e ci si può trovare di fronte a tabelle sparse, cioè popolate prevalentemente da zero. L’analisi bivariata Ad esempio: SOGGETTI P S SOGGETTI P S 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 64 64 80 65 66 66 66 67 67 68 69 69 70 71 71 160 153 170 152 150 154 156 154 156 157 161 161 158 158 158 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 71 71 73 73 73 73 74 74 75 75 76 77 78 80 82 163 165 164 162 164 169 166 170 169 171 173 174 174 182 177 L’analisi bivariata Ad esempio, la tabella corrispondente è la seguente: a doppia entrata Stature 150 152 153 154 156 157 158 160 161 162 163 164 165 166 169 170 171 173 174 177 182 64 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 65 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 66 1 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 67 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 68 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 69 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 70 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 71 0 0 0 0 0 0 2 0 0 0 1 0 1 0 0 0 0 0 0 0 0 Pesi 73 0 0 0 0 0 0 0 0 0 1 0 2 0 0 1 0 0 0 0 0 0 74 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 75 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 76 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 77 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 78 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 80 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 82 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 L’analisi bivariata La quale, se andiamo a ricercare le celle in cui le frequenze sono non nulle, rivela la seguente struttura: Stature 150 152 153 154 156 157 158 160 161 162 163 164 165 166 169 170 171 173 174 177 182 64 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 65 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 66 1 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 67 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 68 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 69 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 70 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 71 0 0 0 0 0 0 2 0 0 0 1 0 1 0 0 0 0 0 0 0 0 Pesi 73 0 0 0 0 0 0 0 0 0 1 0 2 0 0 1 0 0 0 0 0 0 74 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 75 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 76 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 77 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 78 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 80 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 82 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 L’analisi bivariata Potremmo andare a utilizzare tabelle per classi di intervallo, ma in generale si preferisce studiare i dati nella loro forma originaria ricorrendo ai diagrammi di dispersione (scatter plot): 65 70 pesi 75 80 Diagramma di dispersione dei dati 150 155 160 165 stature 170 175 180 L’analisi bivariata Per riprodurlo in R è sufficiente scrivere: NB: In R quando si va a capo con un invio automaticamente il simbolo > viene sostituito con un + ad indicare che il comando non è ancora stato concluso. L’analisi bivariata Altri comandi di R La covarianza Il primo indice che può essere calcolato per valutare il legame tra due fenomeni quantitativi X e Y è la COVARIANZA (indicata con COV(X,Y) oppure XY) cioè la media aritmetica del prodotto degli scarti delle intensità dalla propria media (momento misto centrale di secondo ordine): essendo: N il numero totale delle osservazioni Xi il valore assunto dal carattere X sulla i-ma unità Yi il valore assunto dal carattere Y sulla i-ma unità X la media aritmetica del carattere X P la media aritmetica del carattere Y La covarianza Riprendiamo l’esempio di Peso (P) e Statura (S) e aggiungiamo al grafico una linea verticale e una orizzontale in corrispondenza delle due medie P e S 65 70 pesi 75 80 Diagramma di dispersione dei dati 150 155 160 165 stature 170 175 180 La covarianza In R per ottenere quanto visualizzato è sufficiente digitare: La covarianza Come si può vedere, rispetto a questi nuovo riferimento si identificano 4 quadranti: II quadrante I quadrante 70 pesi 75 80 Diagramma di dispersione dei dati III quadrante 65 IV quadrante 150 155 160 165 stature 170 175 180 La covarianza Come si può vedere, rispetto a questi nuovo riferimento si identificano 4 quadranti: 65 70 pesi 75 80 Diagramma di dispersione dei dati 150 155 160 165 stature 170 175 180 La covarianza Pertanto: Quando vi è un eccesso di punti nel primo e terzo quadrante rispetto a quelli nel secondo e quarto la covarianza è positiva. Viceversa, quando vi è un eccesso di punti nel secondo e quarto quadrante rispetto a quelli nel primo e terzo la covarianza è negativa. La covarianza COVARIANZA NEGATIVA 10 10 20 20 y y 30 30 40 40 COVARIANZA POSITIVA 5 10 x 15 20 5 10 x 15 20 La covarianza La covarianza può essere anche nulla, quando gli scarti positivi e negativi si compensano. Tale situazione può essere legata a caratteristiche di non co-variazione dei fenomeni, ma anche si presenta anche in casi in cui la co-variazione è presente ma non lineare. Esempi: COVARIANZA NULLA 15 y 10 0 5 -1 0 -2 y 1 20 2 25 COVARIANZA NULLA -2 -1 0 1 x 2 3 -4 -2 0 x 2 4 Alcune note Ovviamente: Inoltre: 21 Alcune note Da cui si ricava anche che: 22 La covarianza Ricorrendo alla diseguaglianza di Cauchy-Schwartz: 2 N N 2 N 2 a i bi a i bi i 1 i 1 i 1 si ricava che: N ) y )( x ( Y i X i i 1 N2 2 N i 1 N ( x )( y ) i X i Y i 1 2 N N xi X ( yi Y ) 2 2 i 1 N 2 = XY X Y N La covarianza Da cui: | XY| X Y X Y XY + X Y 1 XY +1 X Y X Y XY X Y X Y X Y X Y 1 XY +1 X Y Il coefficiente di correlazione La quantità: XY = X Y Detta coefficiente di correlazione, rappresenta l’intensità del legame esistente tra due fenomeni. -1 < < 0 =0 0< <1 =1 80 70 y 70 80 50 10 60 15 60 y y 20 30 20 y 30 20 10 10 y 40 25 40 90 50 90 30 = -1 5 10 x 15 20 5 10 x 15 20 5 10 x 15 20 5 10 x 15 20 5 10 x 15 20 I modelli di regressione Valutata la sussistenza di un legame di dipendenza tra i fenomeni può essere utile trovare una sua sintesi matematica. Ad esempio: Peso = a + b Statura (retta di regressione) Peso = a + b Statura + c Statura2 (parabola di regressione) Peso = a + b Statura + c Ore_di_attività_sportiva (piano di regressione) I modelli di regressione Il principio di fondo che sottosta a concetto di regressione è che nello studio dei fenomeni è possibile riscontrare della dispersione, della variabilità che misuriamo attraverso la varianza. Perché un certo fenomeno assume valori differenti? L’analisi di regressione ricerca le cause di questa variabilità imputando a queste una quota parte della variabilità del fenomeno dipendente. I modelli di regressione Siano Y una variabile detta dipendente ed X un’altra variabile detta indipendente, o esplicativa. Se si osserva che i due fenomeni Y ed X sono tra loro collegati è possibile immaginare che esista tra loro un legame di questa natura: 𝑌 =𝑓 𝑋 +𝑒 =𝑌+𝑒 Ovvero: i valori assunti dal fenomeno dipendente, sono legati ai valori che assume il fenomeno indipendente, con una componente residuale dovuta ad altre cause. I modelli di regressione Per esempio: Variabile dipendente Variabile/variabili indipendenti Altre ragioni Peso Statura Tipologia di alimentazione, problemi di salute, ore di sport praticato settimanalmente, problemi psicologici, … Numero di viaggiatori negli aeroporti Giorno della settimana, essere in un periodo di festività o di ferie, ciclo economico Viaggi per ritrovare parenti, promozioni in atto sui prezzi dei biglietti, … Vendite di un prodotto Investimenti in marketing Posizionamento del prodotto a scaffale, prezzo del prodotto rispetto ai concorrenti, … I modelli di regressione Quali che siano le ragioni ritenute più utili per spiegare la variabilità di Y, una volta che sono state specificate sotto forma di variabili indipendenti, tutto ciò che viene escluso dal modello è ERRORE, residuo dovuto a ragioni che non siamo riusciti per vari motivi ad includere nel modello: Se ho ben individuato le cause della variazione di residuo della regressione sarà piccolo. Viceversa, variabili che ho individuato per spiegare (ecco chiamano anche esplicative) la variabilità di Y sono tal fine, la componente d’errore sarà grande. Y allora il se la o le perché si inefficaci a La retta di regressione La retta di regressione è il modello più semplice per spiegare la dipendenza di un fenomeno (Y) da un altro (X). Consideriamo il solito scatter plot di Statura e Peso. 65 70 pesi 75 80 Diagramma di dispersione dei dati 150 155 160 165 stature 170 175 180 La retta di regressione Le rette su un piano che esprimano il legame di dipendenza di Y da X sono infinite, a meno che non venga definito un criterio di ottimalità: 65 70 pesi 75 80 Diagramma di dispersione dei dati 150 155 160 165 stature 170 175 180 La retta di regressione Questo criterio è la celebre condizione di accostamento dei minimi quadrati ordinari (MQO - OLS): Qualunque sia il modello rappresentato da questa condizione consente di trovare il valore dei parametri che soddisfa il precedente vincolo. La retta di regressione La condizione OLS specifica di trovare la retta di regressione tale da rendere minima la somma dei quadrati delle distanze qui rappresentate: 65 70 pesi 75 80 Diagramma di dispersione dei dati 150 155 160 165 stature 170 175 180 La retta di regressione Quindi si ha che: Che è una quantità nota a meno dei due parametri a e b. E possibile dimostrare che questa quantità è convessa e quindi il suo minimo viene raggiunto ponendo uguali a zero le due derivate parziali, rispetto ad a e a b: La retta di regressione La retta di regressione Ricordando che: La retta di regressione La retta di regressione i 1 2 3 4 si 160 153 170 152 pi 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 150 154 156 154 156 157 161 161 158 158 158 163 165 164 162 164 169 166 170 169 171 173 174 174 182 177 66 66 66 67 67 68 69 69 70 71 71 71 71 73 73 73 73 74 74 75 75 76 77 78 80 82 TOTALI 64 64 80 65 s i - S p i - P (s i - S )(p i - P ) (s i - S )2 (p i - P )2 -3,37 -7,60 25,59 11,33 57,76 -10,37 -7,60 78,79 107,47 57,76 6,63 8,40 55,72 44,00 70,56 -11,37 -6,60 75,02 129,20 43,56 -13,37 -9,37 -7,37 -9,37 -7,37 -6,37 -2,37 -2,37 -5,37 -5,37 -5,37 -0,37 1,63 0,63 -1,37 0,63 5,63 2,63 6,63 5,63 7,63 9,63 10,63 10,63 18,63 13,63 0,00 -5,60 -5,60 -5,60 -4,60 -4,60 -3,60 -2,60 -2,60 -1,60 -0,60 -0,60 -0,60 -0,60 1,40 1,40 1,40 1,40 2,40 2,40 3,40 3,40 4,40 5,40 6,40 8,40 10,40 0,00 Medie 74,85 52,45 41,25 43,09 33,89 22,92 6,15 6,15 8,59 3,22 3,22 0,22 -0,98 0,89 -1,91 0,89 7,89 6,32 15,92 19,15 25,95 42,39 57,42 68,05 156,52 141,79 1071,40 35,71 COV(S,P) 178,67 87,73 54,27 87,73 54,27 40,53 5,60 5,60 28,80 28,80 28,80 0,13 2,67 0,40 1,87 0,40 31,73 6,93 44,00 31,73 58,27 92,80 113,07 113,07 347,20 185,87 1922,97 64,10 VAR(S) 31,36 31,36 31,36 21,16 21,16 12,96 6,76 6,76 2,56 0,36 0,36 0,36 0,36 1,96 1,96 1,96 1,96 5,76 5,76 11,56 11,56 19,36 29,16 40,96 70,56 108,16 707,20 23,57 VAR(P) S = 163,3667 P = 71,6 a= -19,4214 b= 0,55716 65 70 pesi 75 80 La retta di regressione 150 155 160 165 stature 170 175 180 La bontà della retta di regressione è quella parte di variabilità di Y che è spiegabile attraverso il legame di dipendenza da X specificato dal modello. è quella parte di variabilità di Y che non è interpretabile attraverso il legame di dipendenza ma è dovuto ad altre cause residuali. La bontà della retta di regressione 75 65 70 pesi 80 Scatterplot dei valori osservati 150 155 160 165 170 175 180 stature 0 -6 -4 -2 ^ P P 2 4 Scatterplot dei residui di regressione 150 155 160 165 stature 170 175 180 La bontà della retta di regressione Un modello sarà tanto migliore quanto più i valori teorici si avvicinano a quelli reali. modello meno buono -50 0 50 100 Y 50 Y 100 150 200 modello buono 0 5 10 15 X 20 25 30 0 5 10 15 X 20 25 30 La bontà della retta di regressione La bontà di un modello può essere valutata tramite il rapporto tra la varianza spiegata dal modello stesso e la varianza totate, quantità detta coefficiente di determinazione: R2 = 0 indica che il modello non spiega nulla della variabilità di Y le cui ragioni vanno ricercate nella componente residuale (errore) R2 = 1 indica che il modello spiega perfettamente la variabilità di Y e che quindi, conoscendo X siamo perfettamente in grado di conoscere Y. Un buon modello è tale per cui R2 > 0.8 La bontà della retta di regressione Si osservi che: Altri modelli lineari La classe dei modelli lineari può essere abbondantemente estesa: I parametri di questi modelli possono essere stimati ricorrendo alla condizione di accostamento dei minimi quadrati ordinari. Altri modelli lineari Le formule per il calcolo dei coefficienti non sono più agevolmente risolvibili per sostituzione e quindi il sistema di equazioni normali viene risolto ricorrendo al calcolo matriciale. Altri modelli lineari Ad esempio, nel caso del piano di regressione la condizione di accostamento dei minimi quadrati ordinari porta a: N f 2 y i a bx i cz i 0 i 1 a N f 2 y i a bx i cz i x i 0 i 1 b N f y i a bxi cz i z i 0 c 2 i 1 N N N y i Na b x i c z i i 1 i 1 iN1 N N N 2 x i y i a x i b x i c x i z i i 1 i 1 i 1 iN1 N N N y i z i a z i b x i z i c z i2 i i 1 i 1 i 1 1 Z2 XY XZ YZ X2 YZ XY XZ Z a Y X 2 2 2 2 X2 Z2 XZ X Z XZ Z2 XY XZ YZ b 2 X2 Z2 XZ X2 YZ XY XZ c 2 2 2 X Z XZ Altri modelli lineari In R, comunque, la sintassi rimane estremamente semplice. Ad esempio avendo 5 variabili esplicative (X1, X2, X3, X4, X5), scriviamo e una dipendente (Y), scriviamo: lm(Y ~ X1 + X2 + X3 + X4 + X5) ricavando intercetta e i 5 coefficienti del modello: Cenni di inferenza Intuitivamente si può ben comprendere che anche i parametri dei modelli di regressione e tutta l’analisi di correlazione collegata siano oggetto di analisi inferenziali. Ad ogni campione proveniente dalla popolazione corrispondono valori diversi e quindi anche diversi valori dei parametri. Cenni di inferenza Intuitivamente si può ben comprendere che anche i parametri dei modelli di regressione e tutta l’analisi di correlazione collegata siano oggetto di analisi inferenziali. Ad ogni campione proveniente dalla popolazione corrispondono valori diversi e quindi anche diversi valori dei parametri. Ad esempio: generiamo 6 campioni di ampiezza 10 dalla popolazione di 30 unità. Sulla base dei dati raccolti calcoliamo i coefficienti della retta e confrontiamo graficamente i risultati. In rosso sono rappresentati i valori campionati mentre in grigio quelli non campionati. Cenni di inferenza 160 165 170 175 180 75 150 155 160 165 170 175 180 150 165 170 Campione 4 Campione 5 Campione 6 165 170 stature 175 180 180 175 180 75 65 70 pesi 75 65 70 pesi 75 70 160 175 80 stature 65 155 160 stature pesi 150 155 stature 80 155 80 150 65 70 pesi 75 65 70 pesi 65 70 pesi 75 80 Campione 3 80 Campione 2 80 Campione 1 150 155 160 165 170 stature 175 180 150 155 160 165 170 stature Cenni di inferenza 75 65 70 pesi 65 70 pesi 75 80 10 campioni di ampiezza 5 80 Dati Originali 150 155 160 165 170 175 180 150 155 160 165 170 175 180 10 campioni di ampiezza 10 10 campioni di ampiezza 15 75 65 70 pesi 65 70 pesi 75 80 stature 80 stature 150 155 160 165 170 stature 175 180 150 155 160 165 170 175 180 stature Cenni di inferenza 75 65 70 pesi 65 70 pesi 75 80 1000 campioni di ampiezza 10 80 1000 campioni di ampiezza 5 150 155 160 165 170 175 180 150 155 160 165 170 175 180 1000 campioni di ampiezza 15 1000 campioni di ampiezza 20 75 65 70 pesi 65 70 pesi 75 80 stature 80 stature 150 155 160 165 170 stature 175 180 150 155 160 165 170 175 180 stature