TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli Lezione B.10 Regressione e inferenza: il modello lineare In questa lezione.. In questa lezione riprenderemo il modello di regressione lineare in una prospettiva inferenziale. Dopo un brevissimo cenno alla configurazione e alle ipotesi del modello lineare, ci eserciteremo a leggere nei tabulati di esercizi di regressione lineare semplice e multipla le informazioni sul segno e la significatività delle relazioni stimate. Il modello lineare e sue ipotesi Facendo scendere in campo X possiamo arricchire il modello nel seguente modo: La componente sistematica coglie la dipendenza di Y da Yi = µi + εi X, mentre la componente casuale rappresenta la µi = f(Xi) componente sistematica variabilità di Y che rimane εi ~ N(0, σ2) errore casuale “non spiegata” da X. Più sinteticamente il modello può anche essere scritto nel seguente, più familiare, modo: Yi = + βXi + εi ove si è posto f(Xi) = + β Xi, ovvero si è assunto che la dipendenza di Y da X sia di tipo lineare. Riassumiamo le ipotesi alla base del modello: 1. E(εi) = 0 (gli errori casuali oscillano attorno allo 0) 2. Var(εi) = σ2 per ogni i (ipotesi di omoscedasticità) 3. Cov(εi, εj) = 0 (gli errori sono incorrelati tra di loro) 4. εi hanno distribuzione normale Inoltre i valori xi sono considerati fissi e misurati con precisione. Stima dei parametri I parametri e β si riferiscono alla popolazione. Con i dati campionari, ricorrendo al criterio dei minimi quadrati (fatte salve le precedenti ipotesi da 1 a 3), possiamo ottenere i seguenti stimatori (il teorema di Gauss-Markov ci garantisce essere corretti e di minima varianza nella classe degli stimatori lineari non distorti): a y bx n b covYX / varX ( xi x)( yi y) 11 n ( xi x)2 11 Queste formule coincidono nella sostanza con quelle già viste nella regressione descrittiva (lezione 6). La differenza è che qui quello che otteniamo non sono i parametri veri della popolazione ma loro stime. Stimati i parametri, i valori previsti dal modello saranno: Scostamenti (residui) tra osservazioni e modello: Inoltre, stimatore di σ2 : yˆ a bx ei yi (a bxi ) yi yˆi 2 s 2 ei /( n 2) (yi - yˆi )2 /( n 2) Un esempio già esplorato Riprendiamo l’esempio visto nella lezione in cui è stata introdotta la regressione in ambito descrittivo. I dati si riferivano a 10 atleti e l’interesse era quello di valutare la relazione tra età e performance nel salto in alto. Supponiamo ora che tali 10 atleti non siano tutta la nostra popolazione di interesse, ma ne costituiscano solamente un suo campione casuale semplice. Con le formule appena viste otteniamo: b=3,04 ; a=160,35 ; s2 = 7,95 Dal punto di vista tecnico finora, dunque, nulla di nuovo. Dobbiamo però ancora trattare la parte relativa all’inferenza sui parametri… X (Età) Salto (Y) 18 212 18 218 18 215 19 218 19 220 20 218 20 224 21 220 21 226 22 229 I valori sono gli stessi già calcolati nella lezione 6. Ora però tali valori vanno intesi come le stime campionarie dei parametri (ignoti) della popolazione α e β. Incertezza sui parametri Concentriamo la nostra attenzione su β (misura dell’effetto di X su Y). Lo stimatore b, essendo non distorto ha valore atteso proprio pari a β. La sua varianza risulta inoltre la seguente: Tale varianza è ignota, dato che è ignoto σ2. Un suo stimatore corretto si dimostra essere: Stimatore dell’errore standard di conseguenza sarà: Nel nostro esempio: es(b) = √(7,95/18,4) = 0,657 Var(b) 2 2 (x x ) i s2 var(b) 2 (x x ) i s2 es (b) 2 (xi - x ) s (xi - x )2 Se oltre alle condizioni 1-3 alla base del modello, si aggiunge anche la quarta (normalità della distribuzione degli errori), si dimostra che gli stimatori a e b hanno anch’essi distribuzione normale. E’ possibile quindi agevolmente ottenere intervalli di confidenza. Intervalli di confidenza b es (b) In particolare la seguente quantità si distribuisce come una t di student con n-2 gradi di libertà. Pertanto un intervallo di confidenza al 95% per β sarà dato da: tn-2;0,05 es(b) IDC(β) = b ± tn-2;0,05 es(b) Nel nostro esempio: IDC(β) = b±t8; 0,05es(b) = 3,04±2,306·0,657 Si ottiene pertanto: b tn-2;0,05 es(b) Con probabilità 0,95 l’intervallo contiene l’ignoto parametro β. 0 1,51 3,04 1,51 4,55 L’intervallo [1,53 ; 4,55] non contiene lo 0: l’effetto di X su Y può quindi essere considerato significativo (al livello del 5%). 1,53 IDC(β) = 3,04 ± 1,51 Significatività dei parametri Per saggiare l’ipotesi nulla = 0 (che corrisponde all’ipotesi che X non abbia alcun effetto su Y) contro l’ipotesi alternativa ≠ 0, si può usare la seguente statistica test: t = b / es(b) che sotto ipotesi nulla ha distribuzione t di student con n-2 gradi di libertà (g.l.). Nel nostro esempio: t = 3,04 / 0,675 =4.63 A cui corrisponde (tavole della t di student con 8 g.l.) un p-value = 0,0017 (<0.05) Effetto significativo (a conferma di quanto già ottenuto con IDC). Come criterio generale, se il p-value (Pr > |t|) è molto basso (ad es. inferiore a 0,05) allora possiamo affermare che l’effetto di X su Y è significativamente diverso da 0. Se vale invece l’ipotesi nulla, ovvero = 0, la migliore previsione torna ad essere la media di Y? Esatto! Per = 0 i valori osservati (yi) possono essere adeguatamente rappresentati dal modello con sola intercetta: Yi = α + εi ; con α = µ Prova di ipotesi su modelli lineari Che significa, per una regressione lineare semplice, saggiare l’ipotesi nulla =0? Essa corrisponde all’ipotesi che X non abbia alcun effetto su Y. Se =0 la statistica t=b/es(b) sotto l’ipotesi H0 ha distribuzione t di Student con n-2 gradi di libertà. Se la statistica così ottenuta ha un valore esterno ai valori critici che corrispondono a un livello di significatività prefissato (per es. 5 o 1 permille) possiamo rifiutare l’ipotesi nulla: cioè la variabile explanans X influisce significativamente su Y. Supponiamo di estrarre un campione di 10 atleti di salto in alto per studiare le relazione che passa tra età e performance. Possiamo calcolare. Non ci interessano i calcoli intermedi (medie, varianze etc). I tabulati di un modello di regressione mi dicono che a=160,35, b=3,04 e es(b)=0,657. L’IDC al livello di significatività del 95% è: IDC(β) = 3,04 ± 1,51. L’IDC al livello di significatività del 95% non contiene quindi lo 0, dunque l’ipotesi nulla è da rigettare. In termini di test di ipotesi: t=3,04/0,675=4.63 cui corrisponde (tavole di t di Student con 8 g.l.) un p-value=0,0017<0,005: l’effetto dell’età X sulla performance Y è quindi significativo al 5 permille. X (Età) Salto (Y) 18 212 18 218 18 215 19 218 19 220 20 218 20 224 21 220 21 226 22 229 Es. 1: la disuguaglianza cresce dove è bassa l’occupazione femminile? regione Statistica totale N X=% donne lavoro Y=disuguaglianza 12 R2XY 0,33 X Y Italia 0,42 0,82 Portogallo 0,59 0,76 Gran Bret. 0,65 0,74 A +0,92 Grecia 0,44 0,68 B -0,555 Spagna 0,32 0,67 Es(B) 0,249 Irlanda 0,39 0,67 t student -2,231 Olanda 0,60 0,61 Austria 0,56 0,51 Belgio 0,60 0,50 Germania 0,53 0,50 Finlandia 0,72 0,45 Danimarca 0,78 0,42 Sign. .050 Idc 95% inf -1,110 Idc 95% sup -0.001 Mah! 0,9 0,8 0,7 0,6 0,5 0,4 0 -4 -3 -2 -1 0 1 2 3 4 0,3 0,4 0,5 0,6 0,7 0,8 Es. 2: contesti di disoccupazione spingono al suicidio? Statistica Nord Sud 19 9 10 R2XY 0,58 0,01 0,26 A -0,51 0,87 -0,00 B +1,72 0,157 0,911 Es(B) 0,354 1,978 0,540 t student 4,862 0,079 1,687 Sign. .000 .939 .130 Idc 95% inf ,973 -4,52 -,334 Idc 95% sup 2,465 +4,83 +2,16 N X Y regione X Y Piemonte 0,88 1,14 Marche 0,84 0,82 Lombardia 0,88 0,75 Lazio 0,70 0,60 Trentino 0,91 1,00 Abruzzi 0,76 0,61 Veneto 0,89 0,85 Molise 0,71 0,58 Friuli 0,85 1,23 Campania 0,58 0,38 Liguria 0,80 0,96 Puglie 0,70 0,48 Emilia 0,88 1,29 Basilicata 0,64 0,67 Toscana 0,84 0,86 Calabria 0,55 0,46 Umbria 0,83 1,01 Sicilia 0,63 0,67 Sardegna 0,65 0,86 regione Italia X= tasso occupazione 25-34 anni; Y=suicidi / milione ab (‘92). Solo nordsud 1,3 1,1 0,9 0,7 0,5 0,3 0 -4 -3 -2 -1 0 1 2 3 4 0,5 0,6 0,7 0,8 0,9 1 Es. 3: la diffusione di divorzi precorre il diffondersi delle convivenze? Statistica Italia NC Sud Nord CS N 18 11 7 8 10 R2XY ,77 ,61 ,33 ,52 ,59 A 7,47 22,7 5,83 34,8 -,95 B 0,51 0,33 ,398 ,205 ,689 Es(B) 0,07 ,089 ,254 ,081 ,201 t student 7,45 3,73 1,56 2,53 3,42 Sign. .000 .005 .178 ,044 .009 Idc 95% inf ,367 .131 -,25 ,007 .225 Idc 95% sup ,600 .535 1,05 ,403 1,15 X Y regione X Y Piemonte 90 56 Umbria 48 26 Lombardia 86 50 Marche 36 27 Trentino 71 50 Lazio 44 40 Veneto 37 38 AbruzziMol 17 16 Friuli 53 54 Campania 31 16 Liguria 118 55 Puglie 26 17 Emilia 97 60 Basilicata 25 9 Toscana 65 42 Calabria 21 14 Sicilia 36 20 Sardegna 33 24 regione X=Divorzi al 1988; Y=convivenze al 2001 Ancora nord-sud.. 0 -4 -3 -2 -1 0 1 2 3 4 60 50 40 30 20 10 0 0 20 40 60 80 100 120 Es. 4: la diffusione dei computer spiega quella dei cellulari? Statistica Country X Y Austria 25 18 Belgio 25 12 Francia 23 12 Germania 23 13 Olanda 29 13 Svizzera 30 17 7 9 Italia 16 24 Portogallo 10 18 Spagna 12 14 Danimarca 35 31 Finlandia 35 46 Europa Nord Sud Centro 15 5 4 6 R2XY ,423 ,789 ,787 ,167 A 1,28 -92 -,53 4,85 B ,826 3,75 1,49 0,361 Es(B) ,267 1,12 ,548 0,402 t student 3,09 3,35 2,72 0,897 Sign. .009 .044 .113 .421 Idc 95% inf ,248 ,192 -,87 -,76 Svezia 35 41 Idc 95% sup 1,40 7,31 3.85 1,48 UK 29 16 Norvegia 36 41 N X= computer; Y=cellulari Grecia Tre europe differenti! 50 45 40 35 30 25 20 15 10 5 0 0 5 10 15 20 25 30 35 40 0 -4 -3 -2 -1 0 1 2 3 4 Dalla regressione semplice a quella multipla Facciamo allora un passo avanti, e domandiamoci: qual è il valore aggiunto della regressione multipla? Ripartiamo dall’esempio sulla performance nel salto in alto. Finora abbiamo visto due distinte regressioni semplici: col primo abbiamo studiato la dipendenza di Y dall’età dell’atleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z). Ma quale differenza passa tra condurre: due distinte regressioni semplici di Y su X e di Y su Z, µi(X) = + YX Xi µi(Z) = + YZ Zi o invece una regressione multipla di Y su X e Z? µi(X,Z)= + YX Xi + YZ Zi Rispetto alle ipotesi alla base del modello di regressione semplice, nella regressione multipla si aggiunge l’assunzione di non collinearità tra le variabili esplicative (vedi lezione 7). Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta. Grossi problemi di stabilità della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearità). Coefficienti parziali Supponiamo di essere interessati alla dipendenza di Y da X. Con la regressione semplice misuriamo l’effetto “totale”di X su Y. Se inseriamo nel modello anche la variabile Z, l’effetto di X su Y viene ora calcolato “al netto dell’azione di Z” (ovvero: “a parità di Z”, “controllando rispetto a Z”). E’ formalmente più corretto scrivere il modello di regressione multipla nel seguente modo: µi(X,Z) = + YX.z Xi + YZ.x Zi dove YX.z è il “coefficiente parziale” di X (ovvero l’effetto di X su Y al netto di Z); mentre YZ.x è il “coefficiente parziale” di Z (ovvero l’effetto di Z su Y al netto di X). In generale l’effetto di X su Y calcolato nella regressione semplice (YX) non coincide con l’effetto di X su Y calcolato nella regressione multipla (YX.z). Inoltre nella regressione multipla l’effetto di X su Y dipende dalle altre variabili inserite nel modello (YX.z è in generale diverso da YX.w ed entrambi sono diversi da YX.zw). Leggere tabulati, interpretare dati 1: da che dipende esser ricchi? Vv Xi (esplicative) t student Signific. Idc 95%inf Idc 95%sup B Es(B) Età (classi 10 anni) +.008 .004 +1.928 .054 .000 .015 Dim. Famiglia -.149 .064 -2.319 .021* -.274 -.023 N. Figli in famiglia -.088 .073 -1,205 .228 -.232 +-055 Dim. Urbana +.039 .045 +0,869 .385 -.049 +.126 Tit. Studio madre +.313 .061 +5.089 .000*** +.192 +.433 Tit. Studio interv. +.508 .059 +8.671 .000*** +.393 +.623 R2 =.211 F = 42,87 N = 966 Sign: .000 Explanandum: reddito equivalente familiare mensile General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie Interviste a sole donne. Leggere tabulati, interpretare dati 2: da che dipende essere istruiti? Vv Xi (esplicative) t student Signific. Idc 95%inf Idc 95%sup B Es(B) Età (classi 10 anni) -.026 .002 -14.379 .000*** -.030 -.023 N. Figli in famiglia +.013 .024 +0.538 .591 -.034 +.060 Dim. Urbana +.101 .023 +4.322 .000*** +.055 +.146 Tit. Studio madre +.378 .031 +12.324 .000*** +.318 +.438 Reddito eq. Famigl. +.142 .016 +8.608 .000*** +.109 +.174 R2 =.477 F =175.53 N = 966 Sign: .000 Explanandum: livello di scolarità dell’intervistata General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie Interviste a sole donne. Leggere tabulati, interpretare dati 3: cosa causa disagio relazionale? Vv Xi (esplicative) t student Signific. B Es(B) Età (classi 10 anni) -.016 .009 -1.769 .077 Reddito eq. Famigl. -.251 .075 -3.360 .001** Dim. Famiglia -.390 .149 -2.627 .009** N. Figli in famiglia +.241 .167 +1.440 .150 Tit. Studio interv. -.279 .143 -1.955 .051 N. Legami forti -.188 .077 -2.448 .015* Peso neighb in rete -.007 .003 -2.162 .031* Dim. Urbana -.018 .101 -0.178 .859 Grado postfamilism -.086 .042 -2.055 .040* Tit. Studio madre -.113 .144 -0.787 .431 N = 811 R2 =.068 F =4.145 Idc 95%inf Idc 95%sup Ormai avete capito come funzionano gli Idc! Sign: .000 Explanandum: Scala 0-10 di disagio relazionale (fiducia, rapporti, futuro..) General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie Interviste a sole donne. Leggere tabulati, interpretare dati 4: quando usiamo psicofarmaci? Vv Xi (esplicative) t student Signific. B Es(B) Età (classi 10 anni) .010 .002 +5.023 .000*** Reddito eq. Famigl. -.008 .016 -0.468 .640 Dim. Famiglia -.038 .032 -1.185 .236 N. Figli in famiglia -.010 .037 -0.273 .785 Tit. Studio interv. .000 .031 -0.012 .990 N. Legami forti .044 .016 +2.669 .008** Dim. Urbana .045 .022 +2.003 .045* Densità della rete .013 .023 +0.570 .569 Tit. Studio madre -.033 .031 -1.060 .289 Disagio relazionale .013 .008 +1.625 .105 R2 =.075 F =6.578 N = 902 Idc 95%inf Idc 95%sup Ormai avete capito come funzionano gli Idc! Sign: .000 Explanandum: scala 0-3 uso di psicofarmaci General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie Interviste a sole donne. Leggere tabulati, interpretare dati 5: cosa spinge a chiacchierare? Vv Xi (esplicative) t student Signific. B Es(B) Età (classi 10 anni) .109 .039 +2.786 .005** N. Figli in famiglia .557 .464 +1.201 .230 Dim. Urbana 1.894 .451 +4.198 .000*** Reddito eq. Famigl -.008 .332 -0.025 .980 Tit. Studio interv. .324 .590 +0.550 .583 R2 = .028 F =5.985 N = 1060 Idc 95%inf Idc 95%sup Ormai avete capito come funzionano gli Idc! Sign: .000 Explanandum: durata dell’intervista General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie Interviste a sole donne.