Stima di Massima Verosimiglianza: RICHIAMI
Dato un campione di osservazioni (x1….xn) si definisce funzione di verosimiglianza che
rappresenta la funzione di probabilita/densita del campione stesso:
in quest'ambito si ipotizza che essa sia funzione del vettore dei parametri , mentre le
realizzazioni campionarie x sono fisse e INDIPENDENTI. Per il teorema della probabilità
composte si ha:
In altri termini ipotizziamo (invertendo le assunzioni solite) che il parametro sia variabile,
naturalmente NON perché lo sia in sé, ma perché la sua manifestazione osservabile è
stocastica (in un certo senso torna fuori il concetto di superpopolazione)
E’ il concetto bayesiano di parametro e di “spazio” dei parametri.
Va sempre così bene? È sempre facile? NO! Per diversi modelli la soluzione del
sistema che uguaglia a 0 gli scores e soprattutto le derivate seconde sono troppo
complesse per essere risolte per via analitica e occorre ricorrere a metodi
numerici (li vedremo)
Ad es. modelli probit bivariati:
Quindi richiede una soluzione iterativa (numerica)
Un esempio di massimizzazione numerica di una MLE
L’esempio ha solo valore didattico, trattandosi della distribuzione
esponenziale sarebbe possibile una soluzione analitica
Reddito
Anni di istr
20,5
12
31,5
16
47,7
18
26,2
16
44
12
8,28
12
30,8
16
17,2
12
19,9
10
9,96
12
55,8
16
25,2
20
29
12
85,5
16
15,1
10
28,5
18
21,4
16
17,7
20
6,42
12
84,9
16
Distribuzione esponenziale:
f ( y )  e y
E ( y)  1 / 
V ( y)  1 /  2
Ipotizziamo un modello semplice:
yi    xi   i
 E ( yi / xi )    xi
1
 
  xi
1
f ( yi ) 
e  yi /(  xi )
  xi
Log-verosimiglianza:
n
n
yi
Ln( )   ln(  xi )  
i 1
i 1   xi
Log-veromiglianza
-88,3
9
10
11
12
13
14
15
16
17
-88,4
-88,5
Max =15.6
LogVer
-88,6
-88,7
-88,8
-88,9
-89
alfa
18
19
20
21
22
23
24
Test per stime MLE
Confronto tra un modello “generale” (con logveros. L)
e uno “vincolato” o “ridotto” (con logveros. Lv)
I modelli devono essere, quindi, “annidati” (nested)
Se i vincoli sono appropriati si avrà Lv  L
Likelihood Ratio test
Misura la riduzione di L connessa alla introduzione del vincolo, se il vincolo è valido, si
dovrebbe perdere poca informazione:
L 
LR  2 ln  v    2 (n.vincoli )
L
 Lv 
 Lv 
   1  2 ln    0
L
L
14
Valore del test LR
12
LR
10
8
6
4
2
0
0
0,1
0,2
0,3
0,4
0,5
L/Lv
0,6
0,7
0,8
0,9
1
Test di Wald
Misura il valore del vincolo in corrispondenza del parametro di max MLE, se il
vincolo è appropriato, il valore dovrebbe essere 0, cioè verifica se la stima
max MLE rispetta i vincoli: (Si stima del modello generale)


W  C ˆ  q  Var C ˆ  q  C ˆ  q 
H 0 : C ˆ  q  H 0 : C ˆ  q  0
1
'
dove
 
  Var ˆC ˆ
ˆ


C

Var C ˆ  q  
ˆ
 
'

ˆ
  
 2 (n.vincoli )
Test dei moltiplicatori di Lagrange
Misura il valore dei moltiplicatori di Lagrange, se il vincolo è appropriato, il valore
dovrebbe essere 0, cioè verifica se la stima max MLE rispetta i vincoli: (Si stima
del modello ristretto)



L * ˆ  Max L  vinc. C ˆ  LnL   C ˆ
soluzione :

L *  ln( L)  C ˆ 


  0
ˆ
ˆ
ˆ


  

L *
 C ˆ  0

Se i  sono “vicini” a 0 il vincolo non ha effetti sulla stima, allora si calcolano le
derivate di L nel punto di massimo vincolato, se sono prossime a 0 la perdita di
informazioni non è significativa
    
'
  ln L ˆv  ˆ
LM  
 I v
ˆ
  v 
1
 
  ln L ˆv 
  2 (n.vincoli )


ˆ
  v 
Derivata L
verosimiglianza
Vincolo su 
Riprendiamo il modello iniziale:
1
f ( yi ) 
e  yi /(  xi )
  xi
È una forma ristretta di un Gamma generalizzata con
Parametro =1

  xi  
f ( yi ) 
 
yi 1e  yi /(  xi )
Il vincolo è =1, se non vi è perdita di informazione allora tra
tutte le distribuzioni generate da una Gamma, quella
esponenziale è la più adatta
Utilizziamo i tre test per verificare:
H0 :   1
contro
H1 :   1
LIKELIHOOD RATIO:
Dalla stima MLE dei DUE modelli otteniamo:
Ln(L) non vincolato (Gamma) = -82.916
Ln(L) vincolato (esponenziale) = -88.436
LR=-2[-88.436-(-82.916)]=11.04  ²(1)
Il valore test è 3.842, quindi si rigetta H0
TEST DI WALD
 

 C ˆ
ˆ
W  Var C   q  
ˆ
 
'




 C ˆ 
ˆ
 Var   ˆ 

  
Dalla stima MLE del solo modello non vincolato:
ˆ  3.151
e Var ( ˆ )  0.6625
i vincoli :
c   q  0  cˆ   ˆ  1  0
cˆ 
1
ˆ
Var cˆ   q   Var ( ˆ )  0.6625
W  3.151  10.6625 3.151  1  6.984
1
  2 (1)
Il valore test è ancora 3.842, quindi si rigetta H0
TEST DEI MOLTIPLIPICATORI DI LAGRANGE:
    
'
  ln L ˆv  ˆ
LM  
I v

ˆ
  v 
1
 
  ln L ˆv 
  2 (n.vincoli )


ˆ
  v 
Dalla stima MLE del solo modello non vincolato:
l
l
 0.000 e
 0.02166
2


l
l
 7.914 e
 32.894
2


l
 0.6689

1
0.02166 0.6689 0.000
LM 0.000 7.914
 5.120



 0.6689 32.894 7.914
Il valore test è ancora 3.842, quindi si rigetta H0
  2 (1)
Scarica

Stime MLE e test