Cominciamo a “scavare” dentro un modello
che (dovremmo) conoscere bene
Il modello di regressione
n individui su cui è misurata una variabile Y
ad esempio l’acquisto di pane e vogliamo una misura sintetica,
(“piccola” misura  “modulus”  MODELLO),
che descrive il fenomeno “acquisto di pane
Numerose possibilità di descrivere il collettivo, ad esempio la media
Ma che modello è???? La misura individuale è data da:
yi     i
Come costruiamo il modello?
1. immaginiamo che “IN ASSENZA DI VARIABILITA’” tutti
acquisterebbero, ad esempio, lo stessa quantità di pane…che
ovviamente non conosciamo.
2. Però poi osserviamo quantità diverse negli individui e
giustifichiamo questa diversità immaginando (ipotizzando) un
MODELLO per la parte variabile
3. POI sulla base di questa ipotesi (MODELLO) attribuiamo un valore
alla quantità  di pane che tutti acquisterebbero.
Quali ipotesi?
Le sapete, però definiamole in un altro modo rispetto all’usuale:
1. Tutti “hanno bisogno” di una certa fissa quantità di pane
2. Ma… al momento di comprare (o anche prima) ognuno si discosta
da quella fissa quantità secondo una qualche “legge”
3. Cioè la tendenza comune si “manifesta” in modo variabile, se
vogliamo quantificare la tendenza comune NON OSSERVABILE
dobbiamo immaginare qualcosa sulla sua manifestazione, cioè
sulla sua variabilità
4. Se il MODELLO che immaginiamo per la variabilità è vero, allora
abbiamo un modo per arrivare alla quantità comune incognita
Potremmo anche immaginarci la cosa in questo modo con riferimento
alla vecchia TOMBOLA o alle estrazioni del LOTTO:
1. Ognuno “sa” quanto pane deve acquistare,
però data questa quantità
2. quando deve comprare si porta dietro un sacchettino di numeri
3. Il sacchettino contiene numeri positivi e negativi
4. Al momento dell’acquisto ognuno estrae un numero dal sacchetto e
somma algebricamente il numero estratto alla quantità fissa
5. Compra la quantità data dal risultato della somma/sottrazione
ALLORA IL MODELLO DELLA VARIABILITA’ E’ L’INSIEME DI IPOTESI
SULLA COMPOSIZIONE DEL SACCHETTO
POICHE’ SI PARLA DI ESTRAZIONE SARANNO IPOTESI SULLA
DISTRIBUZIONE STOCASTICA CHE ORIGINA DAL SACCHETTO
Usualmente nel nostro linguaggio parliamo di “RESIDUI” come la
differenza tra la quantità comune fissa e l’acquisto effettivo e
ipotizziamo che:
1.
2.
3.
4.
Il parametro di popolazione sia “fisso” e comune”
I residui abbiano media 0
Siano omoschedastici
Siano incorrelati
Vediamo cosa significa questo nei termini del “sacchetto”
D’ora in poi chiamerò “tombolino” ciascun numero contenuto nel
sacchetto
Comincio dal 2: I residui hanno media 0
implica che la somma dei tombolini sia pari a 0 qualunque sia il numero
degli stessi
Quindi questi sacchetti vanno bene:
-1
-2
-3
+3
+2
-4
-8
-12
+12
+8
+1
+4
0
0
Ma anche questo che, forse, ci piace meno…..
- 15
+5
+4
+3
+3
0
0
+20
-1
+3
0
0
Questo NO!
- 15
+5
0
0
1. I residui hanno media 0
Che vuol dire??? Ricordate l’esempio della legge dei grandi numeri)
•
Vuol dire che se ti osservo “tante” volte quando acquisti il pane la
media dei tuoi acquisti è il tuo “fabbisogno” di pane
Oppure SE è vera la ipotesi 1 (parametro fisso e comune):
•
Se osservo tanti “come te” (stessa popolazione) che acquistano il
pane la media degli acquisti di tutti è il fabbisogno di pane comune a
quella popolazione
ABBIAMO GIA’ UN MODO PER CALCOLARE  !
TUTTO FATTO? TUTTO RISOLTO? ….. MICA TANTO
Facciamo un esempio: 3 soggetti (A;B;C) tutti con lo stesso
sacchetto con i seguenti “tombolini”
-1
0
+1
Se osserviamo un atto di acquisto, le combinazioni possibili
sono e la somma delle deviazioni sarà:
A
B
C
0 0 0
0 1 -1
0 0 0
0
0
1
0
1
1
0
-1
1
0 0 0
0 1 -1
-1 -1 -1
1
0
0
1
1
0
1
-1
0
1
0
1
1
1
1
1 1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1
-1 0 1 -1 0 1 -1 0 1 -1 0 1 -1
1 -1 -1 -1 0 0 0 1 1 1 -1 -1 -1
TOT
0 1 -1
1
2
0
-1
1
2
0
2
3
1
0
-2
0
1
-1 -1
0
-2
0
1
-1 -2 -1 -3
8
Cioè la somma = 0
che consente il calcolo
corretto della media
è la più frequente
7 volte su 27 occasioni
Numero di casi
7
6
5
4
3
2
1
0
-3
-2
-1
0
Somma
1
2
3
Ma se immaginiamo un signor C più “stravagante” …
-1
Cioè A=B=
0
+1
e C=
-5
0
+5
le combinazioni possibili diventano:
A
B
C
0 0 0 0
0 1 -1 0
0 0 0 1
TOT 0 1 -1 1
0 0 0 0 0 5
1 -1 0 1 -1 0
1 1 -1 -1 -1 0
5 5 5
1 -1 0
0 0 1
5 5 5 5 5 -5 -5 -5 -5 -5
1 -1 0 1 -1 0 1 -1 0 1
1 1 -1 -1 -1 0 0 0 1 1
2
6
7
0 -1 0 -2 5
4
6
5
4
-4
-3
5
3 -5 -4 -6 -4 -3
Ora la somma = 0
Non è più la sola più
probabile
Abbiamo la stessa prob.
di calcolare la media “vera”
O una media sbagliata di
+ o – 3 punti
Numero di casi
4
3
2
1
0
-7
-6
-5
-2
-1 0
1
Somma
2
3
4
5
6
7
Quindi il modello funziona se la “composizione del sacchetto,
oltre ad avere media = 0
E’ anche “simile” cioè ha la stessa varianza o come si dice
con una bella parola è OMOSCHEDASTICA
Cioè se è vera la terza ipotesi
E l’INCORRELAZIONE??
Nella nostra metafora significa che i tre signori estraggono
indipendentemente, cioè non si fanno influenzare
Se ad esempio il Sig. B “copia” da A, cioè B non estrae, ma usa il
tombolino di A succede quanto segue:
a
0
0
0
1
1
1
-1
-1
-1
b
0
0
0
1
1
1
-1
-1
-1
c
0
1
-1
0
1
-1
0
1
-1
somma
0
1
-1
2
3
1
-2
-1
-3
Qui è ancora peggio:
I valori più probabili sono
“sbagliati”
numero di casi
3
2
1
0
-3
-2
-1
0
somma
1
2
3
In sintesi OLS è un modello piuttosto particolare, spesso non
abbiamo alternative ad accettare quelle ipotesi, tuttavia
dobbiamo essere coscienti della loro particolarità.
Se consideriamo la prima “il parametro è fisso e comune”
spesso ce la caviamo sostenendo che se così NON è
allora la popolazione è eterogenea, cioè non è un
collettivo, ci sono degli “infiltrati”
Peraltro, tutti o i test che verificano/falsificano questa ipotesi si basano
proprio sulla assunzione che vorremmo verificare. (ci torneremo)
In pratica cerchiamo di attenuare questo problema scegliendo un
algoritmo di stima che garantisce che i RESIDUI OSSERVATI (uno
per ogni unità, non quelli di CIASCUNA UNITA’) abbiano somma 0
Per quanto riguarda l’ipotesi di omoschedasticità e
incorrelazione la diagnosi è difficilissima, ma una volta
riconosciuto il tipo di malattia, la terapia è facile
Ci occuperemo della terapia tra poco, ma la cosa da tenere a
mente è che ci sono (molte) situazioni in cui sappiamo già
da prima che la malattia c’è, cioè che il modo in cui le
unità si comportano o si “fanno” osservare implica una
diversa variabilità individuale e/o una correlazione tra le
osservazioni
In questi casi la malattia non si può ignorare
MA RIPASSIAMO UN MOMENTO GLI OLS
n individui su cui è misurata una variabile Y
Numerose possibilità di descrivere il collettivo, ad esempio la MEDIA
Ma che modello è???? La misura individuale è data da:
yi     i
Per trovare un “buon valore” dobbiamo porre delle condizioni ad esempio:

Min S ( )    i    yi   
cioè
2
2


Min S ( )   ( yi2   2  2yi )   yi2  n 2  2  yi
derivando
 S ( )
 2 yi  2n  0

ˆ  a 
2  yi
2n
y


n
i

a è una stima che proprietà ha?:
yi 
1





y

a

y


y

n
i  i
  i  n   i n  yi  0
 n    i 
  yi  
     i 
E a   E     E  
  E 
 
n
  n 
  n 


 1     i
 1  n    i

1   yi
V (a )   
     
     
   
n  n
n
n
 n 
 n 

2
1    i     i 
 


n  n   n 
2
2
2
Il residuo è la “parte” stocastica della stime e quindi del modello.
2
Ma c’è un altro modo di vedere la stima: la misura individuale è data da
una parte costante + parte stocastica.
Se ricordiamo OLS, avremmo una esplicativa costante + residui
yi  xi   i
con xi  1, i
Per il collettivo (con X,Y, vettori/matrici):
Y  X  
 y1 
Y   y2 
 y3 
1
X  1
1
X '  1 1 1
Cerchiamo una stima a per : sappiamo che in forma matriciale la
soluzione che abbiamo trovato prima diventa:
ˆ  a  ( X ' X ) 1 X ' Y
1
1


1
X ' X  1 1 11  1  1  1  3 ( X ' X ) 
3
1
 y1  3
X ' Y  1 1 1 y2    yi
 y3  i 1
3
3
1
1
a  ( X ' X ) X ' Y   yi 
3 i 1
y
i 1
3
i
ˆ  a   X ' X  X ' Y
1
Ma si tratta di un caso particolare di una soluzione GENERALE
posto lo stesso vincolo di minimizzazione Min(’  ), nel caso di
eteroschedasticità si ottiene (torneremo sulla dimostrazione)
1
1
1
ˆ
  a  (X ' X ) X ' Y
con = matrice di Var/Covar degli 

È esattamente la rappresentazione dei nostri “tombolini”
Rappresenta (misura) tutta la nostra incertezza (variabilità e covariabilità)
sulle misurazioni singole
Ha dimensione nxn
Sulla diagonale principale ha l’incertezza sulla misura del singolo individuo
(ad esempio l’imprecisione del metro con cui abbiamo misurato Tizio)
Fuori dalla diagonale ha la misura della correlazione tra gli errori delle misure
tra diversi individui
(Ad esempio abbiamo misurato Tizio e Caio con lo stesso metro “sbagliato”)

Di solito (ad esempio OLS) non si “vede”….perchè????
Ricordiamo che la soluzione OLS è
1
ˆ
  b   X ' X  X 'Y
Perché OLS, è un caso particolare:
Se  è diagonale (tutti e soli valori uguali sulla diagonale), allora
diventa uno scalare e si può “semplificare”:
E’ una “regola” dell’algebra matriciale, ma vediamola con un esempio:
3 individui su cui abbiamo misurato una variabile Y, con un errore S²,
senza lacuna relazione tra gli errori per individui diversi:
 y1 
Y   y2 
 y3 
1
 s2

1
 0

0

1
X  1
1
0
1
s2
0

0

0

1
s 2 
X '  1 1 1
s 2

0
0

0
s2
0
0

0
s 2 
ˆ  a  ( X '  1 X ) 1 X '  1Y
1
1
X '   2
s
1
s2
1
s 2 
2
s
( X '  1 X ) 1 
3
3
1
X ' X  2
s
3
1
X ' Y   2
s
1
1
s2
 y1   yi
1    i 1
y  2
2  2 
s 
s
 y3 
3
2
s
1
1
1
a  (X ' X ) X ' Y 
3
OPLA’!
Media aritmetica!
3
y y
i 1
s2
i

i 1
i
3
, cioè la “raccolta” degli S², è svanito!
Va sempre tutto così liscio????? Mica tanto…
Immaginiamo che le 3 misure derivino da 3 campioni casuali semplici, come sappiamo
l’errore è direttamente proporzionale alla variabilità (per ora supponiamo uguale per tutti)
delle singole misure e inversamente proporzionale alla numerosità del campione:
(naturalmente se i tre campioni hanno numerosità uguale, siamo nel caso di prima), ma
se così non è……….
 y1 
Y   y2 
 y3 
 n1
 s2

1
 0

0

1
X  1
1
0
n2
s2
0

0

0

n3 
s 2 
X '  1 1 1
 s2

 n1

0

0

0
s2
n2
0

0


0
2
s 
n3 
ˆ  a  ( X '  1 X ) 1 X '  1Y
3
 n1
1
X '   2
s
n2
s2
n3 
s 2 
n
X '  1 X 
i 1
i
( X '  1 X ) 1 
s2
s2
3
n
i 1
 n1
1
X ' Y   2
s
n2
s2
 y1 
n3   
y 
2  2 
s 
 y3 
3
n y
i
i 1
i
s2
3
a  ( X '  1 X ) 1 X '  1Y 
s
OPPPSS!
n y n y
2
i 1
3
n
i 1
3
i
Media “PONDERATA”!
i
s2
i

i 1
3
i
i
n
i 1
i
, non scompare del tutto
i
Adesso abbiamo imparato il trucco:
Cosa succede se gli errori sono diversi?
s

0
0

2
1
0
2
2
s
0
0

0
s32 
1
 2
 s1
 1   0


0

0
1
s22
0

0

0

1

2
s3 
1
1
X '   2
 s1
1
s22
1
2
s3 
2 2
2 2
2 2
s

s
s

s
s
1
1 s2
1 3
2 3
X ' X 
s12 s22 s32
2 2 2
s
1
1
1 s2 s3
(X ' X )  2 2 2 2 2 2
s2 s3  s1 s3  s1 s2
2 2
2 2
2 2
s
y

s
s
y

s
s
y
y
y
y
1
3 1 s2
2 1 3
1 2 3
3
2
1
X ' Y  2  2  2 
s12 s22 s32
s1 s2 s3
y1s22 s32  y2 s12 s32  y3 s12 s22
s12 s22 s32

a 2 2 2 2 2 2
2 2 2
s1 s2 s3
s2 s3  s1 s3  s1 s2
2
s
y
 i j
i
j i
2
i
s
i
UHMMM! Una Media “PONDERATA” Strana !
, non scompare proprio per niente!!!!!
E se c’è correlazione? Dipende… a volte niente
s

r
r

2
1
3
r
s22
r
r
yi


r   a  i 1
3
2
s3 
A volte molto (notate la semplificazione S=1)
1 r 0
(r  1)( y1  2 y2  y3 )
   r 1 r   a 
4r  3
0 r 1
Ogni y viene moltiplicato per il numero di correlazioni  0,
4 è il numero totale di r  0, 3 è il numero di individui…….
UHMM le cose si complicano.......
n individui su cui sono misurate
Y (nx1) = 1 variabile dipendente
X (nxk)=K esplicative
Il modello che descrive il comportamento dell’individuo:
k
yi    p xip   i
p 1
E del collettivo:
Y  X  
Cerchiamo una stima
b per 
Distinguiamo il modello “vero” dalla stima:
Y  X  
" vero"
Y  Xb  e
" stima"
Per stimare

 dobbiamo fissare un criterio:
Min S (  )    i    yi    p xip 
2
2

cioè
Min S (  )  Y  X ' Y  X   Y ' Y  2Y ' X   ' X ' X 
derivando
 S (  )
 2Y ' X  2 X ' X  0

ˆ  b   X ' X 1 X ' Y
Questo implica una ipotesi sul rango della X che deve essere = k
Cioè le esplicative non possono essere tra loro dipendenti
Consideriamo un modello semplice:
i=1,…,5 n=5 individui
yi    xi   i
1
1

X  1

1
1
x1 
x2 
x3 

x4 
x5 
 y1 
y 
 2
Y   y3 
 
 y4 
 y5 
  yi 
X 'Y  

 xi yi 
2

x
  xi 
1
1

i
X ' X  


2
5 
5 xi  2 xi   xi
 5
X'X  
 xi
 X ' X 1 X 'Y 
 x 
x 
i
2
i
Alcune implicazioni:
1
Yˆ  X  X  X ' X  X ' Y  PY
con
P  X X ' X  X '
allora
e  Y  Yˆ  Y  PY  ( I  P)Y  MY
 Yˆ e ortogonali
1
Yˆ ' e  Y ' P ( I  P )Y  Y ' PY  Y ' PY  0
ma anche
X ' e  X ' ( I  P )Y  X ' Y  X ' X ( X ' X ) 1 X ' Y  X ' Y  X ' Y  0
Ma la prima colonna di X è una colonna di 1, moltiplicata per e
diventa la somma dei residui, quindi:
e
i
0
ipotesi
iniziale !!
B è una stima che proprietà ha?:
b   X ' X  X ' Y   X ' X  X ' ( X   )     X ' X  X ' 
1
1
1

b    X ' X  X '
allora
1
E b / X      X ' X  X ' E ( )  
1
essendo E ( )  0
per ipotesi
V (b / X )  E b   ' b      X ' X  X ' E  '  X  X ' X  
1
E  '   X ' X    2  X ' X 
1
1
Questo implica X non stocastiche e omoschedasticità
1
Riassumendo: ipotesi per OLS
1. Modello lineare
2. X e Y sono frutto di osservazioni indipendenti
3. X è di rango pieno
4. I residui hanno media = 0
5. I residui sono omoschedastici
6. X e non-stocastica
7. (non indispensabile) i residui hanno distribuzione normale
Un esempio:
1
X 
1

1
x1 
x2 

x3 

1
X'X  
 x1
X ' X 
1

 y1 

Y 
y
2



 y3 

1
x2
1
1 
1


x3 

1
x1 
 3

x2   
xi


x3 

x
x
  xi2


   xi
  xi 

3


1
3 xi2   xi 
2
i
2
i



Attenzione al denominatore
3 x   xi   3 xi2  3 x   3 xi2  9 x 2
2
2
i
2
ma
x
2
i
 3 x 2   x  3 xi2  9 x 2  3 x
X ' X 
1
2
1   xi


3 x   xi
  xi 

3 
1
X 'Y  
 x1
1
x2
B  X ' X 
1
 y1 
1      yi 
y2   



x
y
x3 
 y3   i i 
2
1   xi
X 'Y 

3 x   xi
  xi    yi 


3   xi yi 
2
1  xi  yi   xi  xi yi 



3 x  3 xi yi   xi  yi 
2


3
y
x
1

i  3 x  xi yi



3 x  3 xi yi  9 x y 
Consideriamo la seconda riga:
b2 
1
3 x
3 x y  9 xy 
i
i
ma
3 xi yi  9 x y  3 xy
quindi
 xy
b2 
x
Sistemiamo la prima riga della matrice
b1 
y  xi2  x  xi yi
x

y ( x  3 x 2 )  x ( xy  3 x y )
x
y x  3 x 2 y  x  xy  3 x 2 y )
x
  xy 
  y  x b2
b1  y  x 
 x 


un modello molto(!) semplice (2 osservazioni)
Y  
OLS
1

1 
1
1
 X ' X    1 1    2 
2
1 

 y1 
X ' Y  1 1    yi
 y2 
1
y

b
2
i
 media
OLS Caso particolare di un algoritmo più generale (vedremo in seguito)

Matrice Varianza/covarianza degli 
1
1
b  (X ' X )X ' Y
*
ESEMPIO DI CALCOLO
Scarica

Diapositiva 1