TQuArs – a.a. 2010/11
Tecniche quantitative per l’analisi nella ricerca sociale
Giuseppe A. Micheli
Lezione B.11
Non linearità e quant’altro
In questa lezione..
In questa lezione ripartiremo dall’interpolazione di una nuvola di punti
mediante una funzione rettilinea, per passare a strategie di interpolazione un pochino più complesse ma più capaci di adattamento.
Esamineremo preliminarmente la funzione residuo e la sua utilità per
cogliere graficamente eventuali modelli differenti dalla retta. Dopodiché
accenneremo a tre strategie possibili:
L’intervento diretto (manuale) del ricercatore sui casi anomali.
L’interpolazione con una funzione polinomiale di ordine superiore
alla retta.
L’interpolazione con una funzione non lineare che sia però riconducibile al modello della retta
Concluderemo con un rapido accenno al problema della Ecological
Fallacy
Ripartiamo da un esempio
Partiamo da un problema apparentemente risolto al primo colpo. Siano dati per
N=9 individui l’età (X) e il reddito mensile in migliaia di euro (Y). Il diagramma
di dispersione mostra come una relazione rettilinea sia davvero ottima..
Xi
Yi
X i2
Y i2
Xi Yi
20
1,0
400
1,00
20,0
22
1,2
484
1,44
26,4
25
1,4
625
1,96
35,0
28
2,0
784
4,00
56,0
30
3,0
900
9,00
90,0
33
3,5
1089
12,25
115,5
35
4,5
1225
20,25
157,5
37
5,4
1369
29,16
199,8
40
6,8
1600
46,24
272,0
270
28,8
8476
125,3
972,2
30,0
3,2
941,78
13,92
108,02
VX=41,78; VY=3,682
CovXY=+12,022; rXY=+0,9693
bYX=+0,28777; aYX=-5,43298
R2YX=0,94!!!
8
7
6
5
4
3
2
1
0
18
22
26
30
34
38
42
Ogni anno in più in media 288mila lire di
incremento lineare di reddito. Ma si inizia a
guadagnare solo dopo i 19 anni...
Una interpolante soddisfacente
Caspita, il 94% della variabilità di Y è spiegato dalla relazione lineare con l’età:
Y =-5,43282+0,28776 X. Interpoliamo la retta MQ, calcolando il valore teorico di
Y per X=18 (Y=-0,25) e per X=42 (Y=6,65). Possiamo verificare che la somma dei
valori teorici è = alla somma dei valori osservati, che la somma degli scarti
semplici è zero, e che il rapporto tra la varianza residua VWR(Y)=0,223 e la
varianza totale VT(Y) è =0,06, cioè
VWR(Y)/ VT(Y) = 1- R2YX
)2
Xi
Yi
Y*i
(Yi-Y*i)
(Yi-Y*i
20
1,0
0,322
+0,678
0,4592
22
1,2
0,898
+0,302
0,0913
25
1,4
1,761
-0,361
0,1304
28
2,0
2,624
-0,624
0,3900
30
3,0
3,200
-0,201
0,0400
33
3,5
4,063
-0,563
0,3173
35
4,5
4,639
-0,139
0,0193
37
5,4
5,214
+0,186
0,0345
40
6,8
6,078
+0,722
0,5218
270
28,8
28,8
0
2,0037
30,0
3,2
0,223
8
7
6
5
4
3
2
1
0
-1 18
22
26
30
34
38
42
Una cartina di tornasole:
l’analisi dei residui
Un metodo per esplorare i limiti della regressione lineare consiste nell’esaminarne
i residui. Se chiamiamo Y la variabile osservata e  la funzione teorica
interpolante (per esempio Y=i=a+bxi), definiamo funzione residuo la
differenza =Y-. E’ intuitivo che
(Yi-i)=0.
Ma se la funzione teorica è stata stimata col criterio dei MQ (solo in quel caso),
allora la funzione residuo gode di altre proprietà notevoli:
(Yi-i)2 = 
 2 = minimo
Cioè, per costruzione, il ‘danno’ complessivo è il minore possibile. Inoltre
(Yi-i)(i-mY)=Cov(,)=0
e dato che i=a+bxi è linearmente dipendente da xi, vale anche:
Cov(,X)=0
Cioè i residui ottenuti col MMQ sono incorrelati con la funzione
teorica e con la variabile esplicativa.
Plottare i residui sulla variabile
esplicativa
‘Plottiamo’ i residui sui valori
teorici i o sulle Xi, di esse. Cioè
costruiamo un grafico coi residui
in ordinata, e in ascissa i
corrispondenti valori teorici di Y
(i) o direttamente i valori Xi
(dato che essi sono linearmente
connessi con i i).
Se i residui sono incorrelati con
i e con Xi, il grafico non
mostrerà particolari relazioni.
1
0,8
0,6
0,4
0,2
0
-0,2 18
-0,4
-0,6
-0,8
-1
42
Xi
i
20
+0,678
22
+0,302
25
-0,361
28
-0,624
30
-0,200
33
-0,563
35
-0,139
37
+0,186
40
+0,722
Guardiamo invece il grafico dei residui della regressione reddito-età, plottata
rispetto alle età. Esso evidenzia una chiara relazione curvilinea. Certo Cov(i,Xi)=0
per costruzione. Ma il grafico fa intravvedere altre relazioni o fa sospettare su
qualche dato inserito nel grafico.
Trasporre in grafico i residui consente di evidenziare l’eventuale inefficacia del
modello lineare semplice. Se esso è efficace, dovremmo trovare incorrelazione
degli errori e una varianza vincolata grossomodo costante per tutto il grafico.
Prima strategia: intervenire
sugli outliers
Che possiamo fare per migliore l’adattamento
della legge interpolante? La prima strada che si
può percorrere è quella di rimuovere dati che si
presumono spiccatamente anomali. Sta alla
sensibilità e alla responsabilità di chi elabora i dati
di percepire che uno o più di essi è anomalo.
Nell’esempio si può ritenere che la prima e la nona
osservazione mostrino redditi sistematicamente
più alti delle altre.
8
7
6
5
4
3
2
1
0
-1 18
La retta stimata è:
Y=-5,56+0,285X
22
26
30
34
38
42
1
0,8
0,6
0,4
0,2
0
-0,2 18
-0,4
-0,6
-0,8
-1
Xi
Yi
X i2
Y i2
Xi Yi
22
1,2
484
1,44
26,4
Il coefficiente di
determinazione è:
R2=0,951.
25
1,4
625
1,96
35,0
28
2,0
784
4,00
56,0
30
3,0
900
9,00
90,0
R2 è ancora migliorato! Ma l’arbitrarietà della manipolazione è davvero forte..
33
3,5
1089
12,25
115,5
35
4,5
1225
20,25
157,5
37
5,4
1369
29,16
199,8
210
21
6476
78,06
680,2
30,0
3
925,14
11,15
97,17
Seconda strategia: interpolare
una funzione polinomiale
Chiamiamo funzione polinomiale di grado N in x una generalizzazione della
funzione rettilinea in cui la variabile dipendente compare in tutte le potenze di ordine k=1,..,N: y=N(x)=a0+a1x+a2x2+..+aNxN = a+bx+cx2+..+kxN.
Sappiamo tutti che tra due punti (due coppie di osservazioni) passa esattamente
una sola retta, tra tre punti una sola parabola e così via. Ma non conviene procedere oltre la polinomiale di grado 3 per interpolare i dati: il costo (di calcolo, di
interpretabilità) supererebbe i vantaggi! Tanto più nelle distribuzioni statistiche congiunte, dove per ogni X non v’è un solo valore di Y, ma una distribuzione statistica.
10
Ma se due dei 3
punti corrispondono a una sola
X non c’è
funzio-ne
0
0
16 17 18 19 20 21 22 23 24 25
16 17 18 19 20 21 22 23 24 25
(retta,curvilinea)che si
Ma la cosa interessante di una interpolazione
polinomiale è che anche per essa si
adatti
possono determinare stime MMQ, che godono delle proprietà della retta MQ. In
particolare: Cov(,)=0 (l’interpolante polinomiale è incorrelata coi residui) e
VarWP(k)+VarBP(k)=VarT(Y) (se la polinomiale non ha intercetta vincolata la
varianza di Y è scomponibile tra una varianza ‘spiegata’ e una ‘residua’)
10
Tra questi tre
punti passa
una parabola
che si adatta
perfettamente ai dati…
Stima di una funzione
quadratica
Il calcolo di una polinomiale di ordine >1 è comunque una procedura onerosa per
la massa di calcoli necessari. Nessuno vi chiederà mai di calcolarvela a mano (con
la macchinetta da un dollaro), semmai vi si chiederà di saperne utilizzare le stime
in modo accorto. Ma – per capire come la stima si ottenga proprio con la stessa
procedura adottata per la retta MQ – accenniamo alla stima di una funzione
quadratica, o parabola.
Ricordate la stima della retta? Si cercavano i parametri aYX (intercetta all’origine)
e bYX (pendenza) della retta che minimizzano la funzione di danno quadratico: D
= (yj - i)2fij = (yj – aYX – bYX.xi)2fij = minimo.
Alla stessa stregua, per stimare la polinomiale Y=aYX+bYX.X+cYX.X2 che
meglio si adatta alla nuvola dei punti osservati, è sufficiente stimare i
parametri aYX (intercetta all’origine) bYX e cYX della curva che
minimizzano la funzione di danno quadratico:
D = (yj - i)2fij = (yj – aYX–bYX.xi-cYX. xi2)2 .fij = minimo
Calcoli intermedi per la stima
della parabola
Sappiamo che l’intercetta MQ della retta è pari a
aYX=mY–bYXmX e il coefficiente angolare bYX è:
bYX 
cov YX
m  mY m X
 YX
var X
m2 X  m x2
Nel calcolo della retta MQ entravano quindi in gioco, come calcoli intermedi, le medie delle variabili X, Y, X2, Y2, XY (le solite cinque colonne..)
I coefficienti della parabola MQ hanno allora le seguenti formule:
bYX 
covY , X var X 2  cov X , X 2 covY , X 2
var X var X 2  cov
E ovviamente
aYX=mY–bYXmX-cYXm2X
2
X ,X 2
cYX 
covY , X 2 var X  cov X , X 2 covY , X
var X var X 2  cov 2X , X 2
Le formule dei due coefficienti di
regressione sono speculari tra loro,
con poche inversioni di variabili
Un esempio di calcolo della
parabola
Abbiamo tutti i parametri intermedi per stimare la parabola MQ. Chi vuole può
verificare calcolo per calcolo che:
Y = a + bx + cx2 = 4,964 – 0,445x + 0,0123x2
I valori teorici stimati sono ora davvero vicini ai valori osservati. Infatti:
Xi
Yi
Y*i
(Yi-Y*i)
20
1,0
0,989
+0,011
22
1,2
1,132
+0,068
25
1,4
1,531
-0,131
28
2,0
2,151
-0,151
30
3,0
2,687
+0,313
33
3,5
3,675
-0,175
35
4,5
4,457
+0,043
37
5,4
5,337
+0,063
40
6,8
6,842
-0,042
28,8
0
varW P( 2 ) (Y ) 
( y
i
i
 i )2
N
 0,0201
Come nella regressione lineare semplice, dal principio
di scomposizione della varianza discende l’utilità di
una misura di adattamento della interpolante polinomiale di ordine k, simile al coefficiente di determinazione. Per k=2 si ha:
2
YX ( 2 )
R
 1
varW P( 2 ) (Y )
varT (Y )
 1  0,0055  0,9945
Terza strategia: interpolare una
funzione nonlineare
Le funzioni polinomiali non sono le uniche che merita interpolare nei dati. Altre
funzioni possono ‘fittare’ anche meglio i dati, e prestarsi a migliori interpretazioni.
E’ vero però che i modelli polinomiali (tra cui la retta) sono modelli lineari (Ml)
(in quanto vi intervengono linearmente i parametri della relazione) additivi (in
quanto intervengono solo in forma additiva) e come tali godono delle proprietà di
scomposizione della varianza che stanno alla base del metodo di stima ai MQ.
Tuttavia tra i modelli nonlineari dobbiamo distinguere due tipi diversi:
Modelli nonlineari intrinsecamente lineari (Mil) sono quelli riconducibili, mediante trasformazioni opportune delle variabili coinvolte, a funzioni
lineari dei parametri di regressione.
Modelli intrinsecamente nonlineari (Mnl) sono quelli in cui non esiste
trasformazione che consenta la linearizzazione.
Il vantaggio dei Mil sta proprio nel fatto che essi possono essere linearizzati e su
tale trasformata può essere applicata la procedura MQ di calcolo della funzione
lineare semplice.
Una procedura in tre passi di
interpolazione
L’interpolazione MQ su funzioni non lineari Mil si svolge quindi in tre step:
1.
Si trasformano le variabili Y e/o X in modo che la trasformata del
modello prescelto sia lineare.
2.
Si stimano i parametri MQ a partire dai dati linearizzati.
L’interpolante così stimata gode delle proprietà MQ se applicata ai
dati trasformati.
3.
Si calcola la funzione interpolante nonlineare sui dati originari, mediante la regola di trasformazione inversa.
Ma attenzione!!
I parametri stimati per le relazioni originali
(passo 3) non godono delle proprietà MQ
(che valgono solo per le relazioni linearizzate del passo 2). Pertanto per valutare il
grado di adattamento del modello occorrerà
passare attraverso la varianza residua
intorno all’interpolante teorica.
Esempi di funzioni Mil:
Esponenziale: y=aebx
Logaritmica: y=a+blogx
Iperbolica: y=x/(ax+b)
Logistica: y=ea+bx/(1+ea+bx)
Modelli non lineari linearizzabili
Ecco quattro modelli non lineari linearizzabili. In giallo il modello. In grigio la
trasformazione linearizzante (passo 1). In rosa la forma lineare corrispondente, su
cui si stima la retta MQ (passo 2). In azzurro le trasformazioni inverse con le quali
si risale alla funzione interpolante.
Nome
Esponen
ziale
Logarit
mica
Iperbo
lica
Logisti
ca
Modello
Trasformazione
linearizzante
Forma lineare
corrispondente
y  aebx
y   log y
A  log a
y   A  bx
y  a  b log x
x  log x
y  a  bx 
x
y
b  ax
y
a  bx
e
1  e a bx
x 
y 
1
x
1

y  a  bx

y
y
y   log
1 y
y   a  bx
Trasformazione
inversa
y  ey
a  eA
xe
x 
y 
y
x
1
x
1
ey
y

1 e
y
*
Un esempio di interpolazione
esponenziale
Sui soliti dati reddito-età interpoliamo una funzione esponenziale y=aebx.
PASSO 1: Per prima cosa operiamo la trasformazione: y*=logy.
PASSO 2: Sulle coppie di coordinate (xi,y*i) stimiamo la relazione lineare
y*° = A+bx = -2,047+0,100334x (R2 =0,996)
PASSO 3: con la trasformata inversa y°=ey*° risaliamo all’esponenziale:
y° = e-2,047+0,100334x = e-2,047.e0,100334x =
= 0,0817.e0,100574x
xi
yi
y*i=logy
y*°i
y°i=exp(y*°i)
yi - y°i
20
1,0
0
-0,040
0,961
+0,039
22
1,2
0,182
0,161
1,174
+0,026
25
1,4
0,336
0,462
1,587
-0,187
28
2,0
0,693
0,763
2,144
-0,144
30
3,0
1,099
0,963
2,621
+0,379
33
3,5
1,253
1,264
3,541
-0,041
35
4,5
1,504
1,465
4,328
+0,172
37
5,4
1,686
1,666
5,290
+0,110
40
6,8
1,917
1,967
7,147
-0,347
La somma ponderata dei
quadrati dei residui misura
la varianza residua:
(yi-y°i)2/N=VW=0,0407
Si noti che
VWR/VY = 0,0407/3,682 =
= 0,011  1- R2 = 0,009
Il problema della ecological
fallacy
Un ultimo, intrigante, problema. A lungo le
scienze sociali si sono cullate nell’illusione
che per stimare una relazione tra due variabili individuali, per es. tra reddito e consumo, fosse sufficiente calcolare analogo coefficiente di correlazione detta ecologica
cioè tra indicatori aggregati (reddito e consumo di differenti paesi, o regioni, o altra
aggregazione in un’analisi cross section).
La risposta che si da l’econometrica (Klein,
1946) è che la consistenza tra relazioni (blu)
micro e relazioni (verdi) macro si realizza
solo in casi improbabili (tutte le funzioni di
aggregazione (rosse) lineari additive), così
che la relazione aggregata va ritenuta
“contesto-dipendente”.
 yxT   xz   yz   yxBG  (1   )  (1   )   yxWG
2
xz
2
yz
Explanans
individuali
?
Explanans
aggregati
Explananda
individuali
?
?
Explananda
aggregati
Tra i coefficienti di correlazione ecologica e individuale esiste una relazione analitica precisa. Detta Z la
terza variabile (territori, gruppi) che
classifica l’appartenenza dei singoli,
Blalock (1964) mostra che:
Correlazione individuale e ecologica coincidono solo se c’è totale
omogeneità entro i gruppi.
Una simulazione
Facciamo un esempio ridotto all’osso. Non serve da- 8
re un significato a X, Y e Z: basta pensare Z come
6
indicatore di contesto. L’ellissoide blu mette in evidenza una buona correlazione positiva tra X e Y su
4
tutta la popolazione disaggregata: YXT=0,60.
Analizziamo ora non i dati ‘micro’ ma
2
X
Y
Z
le loro aggregazioni secondo le moA
2
2
0
dalità di Z. La correlazione ecologica
B
4
4
0
2
4
è ora perfetta: YXB=1,00.
C
6
6
Ma se studiamo la relazione tra X e Y entro ogni singolo contesto le tre ellissi ver8
di mostrano perfette correlazioni negati6
ve: YX(A)=YX(B)=YX(C)=-1! I rapporti di
dipendenza di Pearson (2YZ=0,8= 2XZ)
4
evidenziano la stretta dipendenza di X e Y
2
dal contesto. Se stimiamo la correlazione
‘entro’ (YXW) come media ponderata del0
le correlazioni trovate nei singoli contesti,
0
2
4
6
8
l‘identità
di Blalock trova piena conferma:
6
8
X
Y
Z
1
3
A
2
2
A
3
1
A
3
5
B
4
4
B
5
3
B
5
7
C
6
6
C
7
5
C
 yxT  xz  yz   yxBG  (1  xz2 )  (1   yz2 )   yxW G  0,8  0,8  1  0,2  0,2   1  0,60
Diffidare di regressioni
cross-section
Il termine ecological fallacy (Robinson, 1950) sottolinea il rischio di sviluppare
convincimenti (e politiche) a partire da presunte relazioni tra attributi ascritti agli
individui e loro comportamenti, calcolate con correlazioni ecologiche. Per esempio
(mostrava Robinson) la correlazione tra tassi di analfabetismo e di popolazione di
colore calcolata sulle 9 grandi ripartizioni degli USA era 0,95, calcolata sui 48
States scendeva a 0,77, mentre la correlazione individuale era stimata a 0,20..
Noi sappiamo che il coefficiente di correlazione risente della dimensione della popolazione studiata. Ma l’effetto dimensione non può spiegare la inversione del segno
della correlazione passando dal livello ecologico a quello aggregato. E questo è
quel che può avvenire, non solo in esempi costruiti a tavolino.
Esempio. Per spiegare il paradosso di una fecondità più
bassa nei paesi mediterranei a famiglia tradizionale, e più
alta nei paesi nordeuropei con modelli familiari più
indeboliti, McDonald (2000) rileva l’esistenza di una
correlazione positiva tra tassi di fecondità nazionali e grado
di equilibrio di potere nei rapporti di genere. Ma indagini
Survey entro i singoli paesi mostrano in genere come siano
proprio le coppie più “sbilanciate” in senso tradizionale ad
avere più figli. Dunque a una correlazione ecologica positiva
fanno da contraltare correlazioni individuali negative.
Morale:
diffidiamo
sempre di facili
interpretazioni
tratte da analisi
‘ecologiche’ o
cross-section!!
Scarica

TQA.B11.NonLinearities - Dipartimento di Sociologia