TQuArs – a.a. 2010/11
Tecniche quantitative per l’analisi nella ricerca sociale
Giuseppe A. Micheli
Lezione B.10
Regressione e inferenza:
il modello lineare
In questa lezione..
In questa lezione riprenderemo il modello di
regressione lineare in una prospettiva inferenziale.
Dopo un brevissimo cenno alla configurazione e alle
ipotesi del modello lineare, ci eserciteremo a
leggere nei tabulati di esercizi di regressione lineare
semplice e multipla le informazioni sul segno e la
significatività delle relazioni stimate.
Il modello lineare e sue ipotesi
Facendo scendere in campo X possiamo arricchire il modello nel seguente modo:
La componente sistematica
coglie la dipendenza di Y da
Yi = µi + εi
X, mentre la componente
casuale
rappresenta
la
µi = f(Xi)
componente sistematica
variabilità di Y che rimane
εi ~ N(0, σ2) errore casuale
“non spiegata” da X.
Più sinteticamente il modello può anche essere scritto nel seguente,
più familiare, modo:
Yi =  + βXi + εi
ove si è posto f(Xi) =  + β Xi, ovvero si è assunto che la dipendenza
di Y da X sia di tipo lineare.
Riassumiamo le ipotesi alla base del modello:
1.
E(εi) = 0 (gli errori casuali oscillano attorno allo 0)
2.
Var(εi) = σ2 per ogni i (ipotesi di omoscedasticità)
3.
Cov(εi, εj) = 0 (gli errori sono incorrelati tra di loro)
4.
εi hanno distribuzione normale
Inoltre i valori xi
sono considerati
fissi e misurati
con precisione.
Stima dei parametri
I parametri  e β si riferiscono alla popolazione.
Con i dati campionari, ricorrendo al criterio dei minimi quadrati (fatte
salve le precedenti ipotesi da 1 a 3), possiamo ottenere i seguenti
stimatori (il teorema di Gauss-Markov ci garantisce essere corretti e
di minima varianza nella classe degli stimatori lineari non distorti):
a  y  bx
n
b  covYX / varX 
 ( xi  x)( yi  y)
11
n
 ( xi  x)2
11
Queste formule coincidono
nella sostanza con quelle già
viste nella regressione
descrittiva (lezione 6).
La differenza è che qui quello
che otteniamo non sono i
parametri veri della
popolazione ma loro stime.
Stimati i parametri, i valori previsti dal modello saranno:
Scostamenti (residui) tra osservazioni e modello:
Inoltre, stimatore di σ2 :
yˆ  a  bx
ei  yi  (a  bxi )  yi  yˆi
2
s 2   ei /( n  2)  (yi - yˆi )2 /( n  2)
Un esempio già esplorato
Riprendiamo l’esempio visto nella lezione in cui è stata
introdotta la regressione in ambito descrittivo.
I dati si riferivano a 10 atleti e l’interesse era quello di
valutare la relazione tra età e performance nel salto in
alto.
Supponiamo ora che tali 10 atleti non siano tutta la
nostra popolazione di interesse, ma ne costituiscano
solamente un suo campione casuale semplice.
Con le formule appena viste otteniamo:
b=3,04
;
a=160,35 ;
s2 = 7,95
Dal punto di vista tecnico finora, dunque,
nulla di nuovo.
Dobbiamo però ancora trattare la parte
relativa all’inferenza sui parametri…
X (Età)
Salto (Y)
18
212
18
218
18
215
19
218
19
220
20
218
20
224
21
220
21
226
22
229
I valori sono gli stessi già
calcolati nella lezione 6. Ora
però tali valori vanno intesi
come le stime campionarie
dei parametri (ignoti) della
popolazione α e β.
Incertezza sui parametri
Concentriamo la nostra attenzione su β (misura dell’effetto di X su Y).
Lo stimatore b, essendo non distorto ha
valore atteso proprio pari a β.
La sua varianza risulta inoltre la seguente:
Tale varianza è ignota, dato che è ignoto σ2.
Un suo stimatore corretto si dimostra essere:
Stimatore dell’errore standard
di conseguenza sarà:
Nel nostro esempio:
es(b) = √(7,95/18,4) = 0,657
Var(b) 
2
2
(x
x
)
 i
s2
var(b) 
2
(x
x
)
 i
s2
es (b) 

2
 (xi - x )
s
 (xi - x )2
Se oltre alle condizioni 1-3 alla base del modello, si aggiunge anche la
quarta (normalità della distribuzione degli errori), si dimostra che gli
stimatori a e b hanno anch’essi distribuzione normale.
E’ possibile quindi agevolmente ottenere intervalli di confidenza.
Intervalli di confidenza
b
es (b)
In particolare la seguente quantità si distribuisce
come una t di student con n-2 gradi di libertà.
Pertanto un intervallo di confidenza al 95% per β
sarà dato da:
tn-2;0,05 es(b)
IDC(β) = b ± tn-2;0,05 es(b)
Nel nostro esempio:
IDC(β) = b±t8; 0,05es(b) = 3,04±2,306·0,657
Si ottiene pertanto:
b
tn-2;0,05 es(b)
Con probabilità 0,95 l’intervallo
contiene l’ignoto parametro β.
0
1,51
3,04
1,51
4,55
L’intervallo [1,53 ; 4,55] non
contiene lo 0: l’effetto di X su Y
può quindi essere considerato
significativo (al livello del 5%).
1,53
IDC(β) = 3,04 ± 1,51
Significatività dei parametri
Per saggiare l’ipotesi nulla  = 0 (che corrisponde all’ipotesi
che X non abbia alcun effetto su Y) contro l’ipotesi alternativa
 ≠ 0, si può usare la seguente statistica test:
t = b / es(b)
che sotto ipotesi nulla
ha distribuzione t di student
con n-2 gradi di libertà (g.l.).
Nel nostro esempio:
t = 3,04 / 0,675 =4.63
A cui corrisponde (tavole della t di student
con 8 g.l.) un p-value = 0,0017 (<0.05)
Effetto significativo (a conferma di quanto
già ottenuto con IDC).
Come criterio generale, se il p-value (Pr > |t|) è molto basso (ad
es. inferiore a 0,05) allora possiamo affermare che l’effetto di X su Y
è significativamente diverso da 0.
Se vale invece
l’ipotesi nulla,
ovvero  = 0, la
migliore previsione
torna ad essere la
media di Y?
Esatto! Per  = 0 i valori osservati (yi)
possono essere adeguatamente
rappresentati dal modello con sola
intercetta: Yi = α + εi ; con α = µ
Prova di ipotesi su modelli lineari
Che significa, per una regressione lineare semplice, saggiare l’ipotesi nulla =0?
Essa corrisponde all’ipotesi che X non abbia alcun effetto su Y.
Se =0 la statistica t=b/es(b) sotto l’ipotesi H0 ha distribuzione t di Student con n-2 gradi di libertà. Se la statistica così ottenuta ha un valore esterno
ai valori critici che corrispondono a un livello di significatività prefissato (per es. 5
o 1 permille) possiamo rifiutare l’ipotesi nulla: cioè la variabile explanans X
influisce significativamente su Y.
Supponiamo di estrarre un campione di 10 atleti di salto in alto per
studiare le relazione che passa tra età e performance. Possiamo
calcolare. Non ci interessano i calcoli intermedi (medie, varianze etc).
I tabulati di un modello di regressione mi dicono che a=160,35,
b=3,04 e es(b)=0,657. L’IDC al livello di significatività del 95% è:
IDC(β) = 3,04 ± 1,51. L’IDC al livello
di significatività del 95% non contiene
quindi lo 0, dunque l’ipotesi nulla è da
rigettare. In termini di test di ipotesi:
t=3,04/0,675=4.63
cui corrisponde (tavole di t di Student
con 8 g.l.) un p-value=0,0017<0,005:
l’effetto dell’età X sulla performance Y
è quindi significativo al 5 permille.
X (Età)
Salto
(Y)
18
212
18
218
18
215
19
218
19
220
20
218
20
224
21
220
21
226
22
229
Es. 1: la disuguaglianza cresce dove
è bassa l’occupazione femminile?
regione
Statistica
totale
N
X=% donne lavoro
Y=disuguaglianza
12
R2XY
0,33
X
Y
Italia
0,42
0,82
Portogallo
0,59
0,76
Gran Bret.
0,65
0,74
A
+0,92
Grecia
0,44
0,68
B
-0,555
Spagna
0,32
0,67
Es(B)
0,249
Irlanda
0,39
0,67
t student
-2,231
Olanda
0,60
0,61
Austria
0,56
0,51
Belgio
0,60
0,50
Germania
0,53
0,50
Finlandia
0,72
0,45
Danimarca
0,78
0,42
Sign.
.050
Idc 95% inf
-1,110
Idc 95% sup
-0.001
Mah!
0,9
0,8
0,7
0,6
0,5
0,4
0
-4
-3
-2
-1
0
1
2
3
4
0,3
0,4
0,5
0,6
0,7
0,8
Es. 2: contesti di disoccupazione
spingono al suicidio?
Statistica
Nord
Sud
19
9
10
R2XY
0,58
0,01
0,26
A
-0,51
0,87
-0,00
B
+1,72
0,157
0,911
Es(B)
0,354
1,978
0,540
t student
4,862
0,079
1,687
Sign.
.000
.939
.130
Idc 95% inf
,973
-4,52
-,334
Idc 95% sup
2,465
+4,83
+2,16
N
X
Y
regione
X
Y
Piemonte
0,88
1,14
Marche
0,84
0,82
Lombardia
0,88
0,75
Lazio
0,70
0,60
Trentino
0,91
1,00
Abruzzi
0,76
0,61
Veneto
0,89
0,85
Molise
0,71
0,58
Friuli
0,85
1,23
Campania
0,58
0,38
Liguria
0,80
0,96
Puglie
0,70
0,48
Emilia
0,88
1,29
Basilicata
0,64
0,67
Toscana
0,84
0,86
Calabria
0,55
0,46
Umbria
0,83
1,01
Sicilia
0,63
0,67
Sardegna
0,65
0,86
regione
Italia
X= tasso occupazione 25-34 anni;
Y=suicidi / milione ab (‘92).
Solo nordsud
1,3
1,1
0,9
0,7
0,5
0,3
0
-4
-3
-2
-1
0
1
2
3
4
0,5
0,6
0,7
0,8
0,9
1
Es. 3: la diffusione di divorzi precorre
il diffondersi delle convivenze?
Statistica
Italia
NC
Sud
Nord
CS
N
18
11
7
8
10
R2XY
,77
,61
,33
,52
,59
A
7,47
22,7
5,83
34,8
-,95
B
0,51
0,33
,398
,205
,689
Es(B)
0,07
,089
,254
,081
,201
t student
7,45
3,73
1,56
2,53
3,42
Sign.
.000
.005
.178
,044
.009
Idc 95% inf
,367
.131
-,25
,007
.225
Idc 95% sup
,600
.535
1,05
,403
1,15
X
Y
regione
X
Y
Piemonte
90
56
Umbria
48
26
Lombardia
86
50
Marche
36
27
Trentino
71
50
Lazio
44
40
Veneto
37
38
AbruzziMol
17
16
Friuli
53
54
Campania
31
16
Liguria
118
55
Puglie
26
17
Emilia
97
60
Basilicata
25
9
Toscana
65
42
Calabria
21
14
Sicilia
36
20
Sardegna
33
24
regione
X=Divorzi al 1988;
Y=convivenze al 2001
Ancora
nord-sud..
0
-4
-3
-2
-1
0
1
2
3
4
60
50
40
30
20
10
0
0
20
40
60
80
100
120
Es. 4: la diffusione dei computer spiega quella dei cellulari?
Statistica
Country
X
Y
Austria
25
18
Belgio
25
12
Francia
23
12
Germania
23
13
Olanda
29
13
Svizzera
30
17
7
9
Italia
16
24
Portogallo
10
18
Spagna
12
14
Danimarca
35
31
Finlandia
35
46
Europa
Nord
Sud
Centro
15
5
4
6
R2XY
,423
,789
,787
,167
A
1,28
-92
-,53
4,85
B
,826
3,75
1,49
0,361
Es(B)
,267
1,12
,548
0,402
t student
3,09
3,35
2,72
0,897
Sign.
.009
.044
.113
.421
Idc 95% inf
,248
,192
-,87
-,76
Svezia
35
41
Idc 95% sup
1,40
7,31
3.85
1,48
UK
29
16
Norvegia
36
41
N
X= computer; Y=cellulari
Grecia
Tre europe
differenti!
50
45
40
35
30
25
20
15
10
5
0
0
5
10
15
20
25
30
35
40
0
-4
-3
-2
-1
0
1
2
3
4
Dalla regressione semplice a
quella multipla
Facciamo allora un passo avanti, e domandiamoci: qual è il valore
aggiunto della regressione multipla?
Ripartiamo dall’esempio sulla performance nel salto in alto.
Finora abbiamo visto due distinte regressioni semplici:
 col primo abbiamo studiato la dipendenza di Y dall’età dell’atleta (X)
 col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z).
Ma quale differenza passa tra condurre:
due distinte regressioni
semplici di Y su X e di Y su Z,
µi(X) =  + YX Xi
µi(Z) =  + YZ Zi
o invece una regressione
multipla di Y su X e Z?
µi(X,Z)=  + YX Xi + YZ Zi
Rispetto alle ipotesi alla base del
modello di regressione semplice, nella
regressione
multipla
si
aggiunge
l’assunzione di non collinearità tra le
variabili esplicative (vedi lezione 7).
Due variabili sono collineari quando tra
esse esiste una dipendenza lineare
perfetta. Grossi problemi di stabilità
della stima nascono anche quando due
variabili esplicative sono tra di loro
molto correlate (quasi collinearità).
Coefficienti parziali
Supponiamo di essere interessati alla dipendenza di Y da X.
Con la regressione semplice misuriamo l’effetto “totale”di X su Y.
Se inseriamo nel modello anche la variabile Z, l’effetto di X su Y viene
ora calcolato “al netto dell’azione di Z” (ovvero: “a parità di Z”,
“controllando rispetto a Z”). E’ formalmente più corretto scrivere il
modello di regressione multipla nel seguente modo:
µi(X,Z) =  + YX.z Xi + YZ.x Zi
dove YX.z è il “coefficiente parziale” di X (ovvero l’effetto di X su Y
al netto di Z); mentre YZ.x è il “coefficiente parziale” di Z (ovvero
l’effetto di Z su Y al netto di X).
In generale l’effetto di X su Y calcolato nella regressione semplice (YX) non coincide con l’effetto di X su Y calcolato nella regressione multipla (YX.z). Inoltre nella
regressione multipla l’effetto di X su Y dipende dalle altre variabili inserite nel
modello (YX.z è in generale diverso da YX.w ed entrambi sono diversi da YX.zw).
Leggere tabulati, interpretare dati
1: da che dipende esser ricchi?
Vv Xi (esplicative)
t student
Signific.
Idc 95%inf
Idc 95%sup
B
Es(B)
Età (classi 10 anni)
+.008
.004
+1.928
.054
.000
.015
Dim. Famiglia
-.149
.064
-2.319
.021*
-.274
-.023
N. Figli in famiglia
-.088
.073
-1,205
.228
-.232
+-055
Dim. Urbana
+.039
.045
+0,869
.385
-.049
+.126
Tit. Studio madre
+.313
.061
+5.089
.000***
+.192
+.433
Tit. Studio interv.
+.508
.059
+8.671
.000***
+.393
+.623
R2 =.211
F = 42,87
N = 966
Sign: .000
Explanandum: reddito equivalente familiare mensile
General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie
Interviste a sole donne.
Leggere tabulati, interpretare dati
2: da che dipende essere istruiti?
Vv Xi (esplicative)
t student
Signific.
Idc 95%inf
Idc 95%sup
B
Es(B)
Età (classi 10 anni)
-.026
.002
-14.379
.000***
-.030
-.023
N. Figli in famiglia
+.013
.024
+0.538
.591
-.034
+.060
Dim. Urbana
+.101
.023
+4.322
.000***
+.055
+.146
Tit. Studio madre
+.378
.031
+12.324
.000***
+.318
+.438
Reddito eq. Famigl.
+.142
.016
+8.608
.000***
+.109
+.174
R2 =.477
F =175.53
N = 966
Sign: .000
Explanandum: livello di scolarità dell’intervistata
General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie
Interviste a sole donne.
Leggere tabulati, interpretare dati
3: cosa causa disagio relazionale?
Vv Xi (esplicative)
t student
Signific.
B
Es(B)
Età (classi 10 anni)
-.016
.009
-1.769
.077
Reddito eq. Famigl.
-.251
.075
-3.360
.001**
Dim. Famiglia
-.390
.149
-2.627
.009**
N. Figli in famiglia
+.241
.167
+1.440
.150
Tit. Studio interv.
-.279
.143
-1.955
.051
N. Legami forti
-.188
.077
-2.448
.015*
Peso neighb in rete
-.007
.003
-2.162
.031*
Dim. Urbana
-.018
.101
-0.178
.859
Grado postfamilism
-.086
.042
-2.055
.040*
Tit. Studio madre
-.113
.144
-0.787
.431
N = 811
R2
=.068
F =4.145
Idc 95%inf
Idc 95%sup
Ormai avete capito come
funzionano gli Idc!
Sign: .000
Explanandum: Scala 0-10 di disagio relazionale (fiducia, rapporti, futuro..)
General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie
Interviste a sole donne.
Leggere tabulati, interpretare dati
4: quando usiamo psicofarmaci?
Vv Xi (esplicative)
t student
Signific.
B
Es(B)
Età (classi 10 anni)
.010
.002
+5.023
.000***
Reddito eq. Famigl.
-.008
.016
-0.468
.640
Dim. Famiglia
-.038
.032
-1.185
.236
N. Figli in famiglia
-.010
.037
-0.273
.785
Tit. Studio interv.
.000
.031
-0.012
.990
N. Legami forti
.044
.016
+2.669
.008**
Dim. Urbana
.045
.022
+2.003
.045*
Densità della rete
.013
.023
+0.570
.569
Tit. Studio madre
-.033
.031
-1.060
.289
Disagio relazionale
.013
.008
+1.625
.105
R2 =.075
F =6.578
N = 902
Idc 95%inf
Idc 95%sup
Ormai avete capito come
funzionano gli Idc!
Sign: .000
Explanandum: scala 0-3 uso di psicofarmaci
General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie
Interviste a sole donne.
Leggere tabulati, interpretare dati
5: cosa spinge a chiacchierare?
Vv Xi (esplicative)
t student
Signific.
B
Es(B)
Età (classi 10 anni)
.109
.039
+2.786
.005**
N. Figli in famiglia
.557
.464
+1.201
.230
Dim. Urbana
1.894
.451
+4.198
.000***
Reddito eq. Famigl
-.008
.332
-0.025
.980
Tit. Studio interv.
.324
.590
+0.550
.583
R2 = .028
F =5.985
N = 1060
Idc 95%inf
Idc 95%sup
Ormai avete capito come
funzionano gli Idc!
Sign: .000
Explanandum: durata dell’intervista
General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie
Interviste a sole donne.
Scarica

TQA.B10.ModLineare - Dipartimento di Sociologia