Elaborazione Statistica dei Dati Sperimentali
Facoltà di Scienze MM FF e NN, Università Sannio
Stima dei parametri
di una distribuzione
Giovanni Filatrella ([email protected])
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
1
Legame fra
statistica e probabilità
Statistics: Given the
information in your
hand, what is the box?
Probability: Given the
information in the box,
what is in your hand?
from: Statistics, Norma Gilbert, W.B. Saunders Co., 1976
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
2
Cos’è la statistica inferenziale?
Tratta i metodi per fare delle valutazioni sulla popolazione basate
sulle proprietà del campione estratto dalla popolazione
Terminologia:
– Stima: valutazione di un parametro della popolazione
– Test delle ipotesi: controllare un’ipotesi fatta su una caratteristica
ignota della popolazione
Esempi:
– Stima: Qual è il diametro di una lotto di pezzi prodotto?
– Test delle ipotesi: i pezzi sono conformi alle specifiche?
Ci sono due livelli di stime o test delle ipotesi:
– Qualitativo: usando i metodi della statistica descrittiva dare una
valutazione della correttezza delle affermazioni.
-Quantitativo: usando i metodi del calcolo delle probabilità asserire in
maniera riproducibile la ragionevolezza della stima (o delle ipotesi)
fatte.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
3
Stima puntuale dei parametri
Si sono fatte delle misure sperimentali:
x1, x2,…,xN
Che si suppone derivino da una distribuzione
di probabilità dipendenti da M parametri
f(x,l1,l2,...,lM):
Si definisce “Stimatore” T, una funzione
vettoriale che permette di valutare
(stimare) i parametri, cioè che colleghi i
parametri ai dati sperimentali.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
4
~
l1  T1 (x 1 , x 2 ,, x N )
~
l2  T2 (x 1 , x 2 ,, x N )
.
.
.
~
lM  TM (x 1 , x 2 ,, x N )
La stima dei parametri.
I valori trovati dipendono
dai dati specifici.
Le funzioni con le quali si
stimano i parametri sono
definite a prescindere
dagli esperimenti effettuati,
ma dipendono dalla
distribuzione che si suppone
abbia generato i dati.
I dati degli esperimenti
dipendono dalle misure
effettivamente svolte
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
5
Proprietà degli stimatori
~
Ovviamente li  li  0 , altrimenti
conosceremmo la distribuzione da cui sono
generati i dati sperimentali.
~
li  li è una quantità fluttuante – cioè
una variabile casuale di cui dobbiamo
scoprire le caratteristiche.
Importante: La distribuzione delle
~
differenze li  li non è la stessa delle
distribuzioni dei dati sperimentali xi.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
6
Terminologia degli stimatori
~
Stima: il valore numerico l calcolato a partire
dagli esperimenti effettuati
Stimatore: una funzione dei dati
~
l  Tl(x1,x2,…,xn) sperimentali osservati.
Poiché i dati osservati sono una variabile
casuale, lo stimatore è una variabile
casuale.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
7
La funzione di verosimiglianza
Definizione: Supponendo di conoscere i parametri
della distribuzione, potremmo calcolare la
probabilità di ottenere i dati sperimentali che
abbiamo ottenuto. Questa probabilità (o qualsiasi
grandezza ad essa proporzionale con costante di
proporzionalità positiva) si chiama
verosimiglianza. La verosimiglianza è una
funzione, perché in effetti non conosciamo i
parametri, e quindi non conosciamo neanche la
probabilità di ottenere una determinata sequenza
di dati sperimentali.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
8
Interpretazione della verosimiglianza
Per interpretare cosa intende
quantitativamente per verosimiglianza, si
può immaginare il seguente ragionamento:
Supponendo di conoscere il valore dei
parametri, qual è la probabilità che quei
parametri abbiano generato i dati che
sono stati trovati?
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
9
Metodo per ricavare gli stimatori:
Il principio di massima
verosimiglianza
Per trovare un metodo generale che colleghi i dati
sperimentali ai parametri della distribuzione di
probabilità che li ha generati si ragiona come segue:
La migliore stima che possiamo attribuire ai
valori dei parametri è quella che, se fosse
esatta, renderebbe massima la probabilità
di ottenere i dati sperimentali che abbiamo
ottenuto.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
10
Perché viene definito un principio e
non un teorema
Non è possibile dimostrare che il valore del
parametro della distribuzione che massimizza la
probabilità di realizzare i dati sperimentali sia
davvero il miglior valore della stima.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
11
Un problema concettuale connesso
al principio di massima
verosimiglianza
In questo approccio si scambia il ruolo dei dati
sperimentali e delle stime: le stime diventano dei
dati “certi” del problema.
Fatto questo ai dati sperimentali già ottenuti si
attribuisce una probabilità di verificarsi.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
12
La logica del principio di massima
verosimiglianza
Modello
Esperimenti
La realizzazione del modello teorico è
avvenuta secondo la più semplice delle
traiettorie, ovvero la più probabile 13
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
Un errore molto comune:
I valori ottenuti con il principio di massima
verosimiglianza sono i più probabili.
Non è vero perché sarebbe un’asserzione sulla
realtà, come se la realtà avesse una certa
probabilità di verificarsi, il che non è il caso.
Concettualmente si ragiona come se fosse:
Realtà 1
Esperimenti
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
Realtà 2
14
Definizioni per il principio di massima
verosimiglianza o Maximum Likelihood
Estimation (MLE)
Data una distribuzione di probabilità, dipendente
da M parametri f(x, l1,l2,.., lM), si introduce una
funzione di verosimiglianza che è la probabilità di
ottenere N misure, in funzione dei valori assunti
dai parametri, che è detta funzione di
verosimiglianza L:
N
L( x1 , x 2 ,..., x N ; l1 , l2 ,..., l M )   f ( xi , l1 , l2 ,..., l M )
i 1
variabili
parametri
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
15
Formulazione matematica del principio
Per interpretare la L come la probabilità di
ottenere i dati, dobbiamo valutare la funzione di
massima verosimiglianza in corrispondenza delle
N misure effettivamente svolte, così per questa
specifica serie di misure la funzione di
verosimiglianza diviene:
L( x1 , x 2 ,..., x N ; l1, l 2 ,..., l M )
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
16
Formulazione matematica del principio
A questo punto la L è comunque indeterminata
perché non si conoscono i valori dei parametri.
Il principio di massima verosimiglianza asserisce
che:
Assunto un modello (la f(x, l1,l2,.., lM)) i più
ragionevoli valori che si possono assegnare ai
parametri l, date le N misure, sono quelli che
rendono più plausibile il risultato delle misure:


~ ~
~
~ ~
~
l1 , l 2 ,..., l N : L( x1 , x 2 ,..., x N ; l1 , l 2 ,..., l M ) è Max 
L

l1
 0,
~
l1  l1
L
l1
~
l 2 l 2
L
 0, . . .,
l1
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
0
~
l M l M
17
In un grafico, per un solo
parametro:
L(x1,x2,...xN,l)
Risultato più ragionevole
per la stima del parametro l
lbest
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
l
18
Proprietà della verosimiglianza:
L1(x,l)
L2(x,l)
l1best
l
l2best
l
Sembra ovvio che uno stimatore costruito a
partire da L1 sia migliore di uno costruito
a partire da L2.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
19
La distribuzione di probabilità dei
parametri di Max Verosimiglianza
1.
2.
Dim. 1: supponendo di aver trovato la formula, se questa
è una combinazione di variabili casuali si può applicare il
Teorema del Limite Centrale, e quindi sarà Gaussiana
Dim. 2: senza entrare nei dettagli, sia P(l) la
distribuzione (ignota) di probabilità di l, allora:
~ dP(l)
~ d 2 P (l ) 1
~ 2
ln P(l)  ln P(l ) 
(l  l ) 
(
l

l
) 
2
dl l~
dl l~ 2
P (l )  e
d 2P (l ) 1
~ 2
(
l

l
)
dl2 l~ 2
Termine nullo per
definizione di Max Ver.
 d P (l ) 
Gaussiano   0,     dl2 ~ 

l

2
2
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
20
1
Stima dei parametri di una
distribuzione binomiale
Si supponga di fare N misure di una variabile
casuale che può assumere solo due valori
(“successo” ed “insuccesso”). Fra queste
misure, n corrispondono ad un successo.
Come posso stimare la probabilità di
successo p?
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
21
Stima diretta applicando la
“legge dei grandi numeri”
La frequenza delle osservazioni positive è
# di osservazio ni favorevoli
n
f
 p
# di osservazio ni
N
L’approssimare le frequenze alle probabilità
avviene per valori sufficientemente alti
del numero di osservazioni.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
22
Stima di p di una binomiale
utilizzando il principio di max
verosimiglianza
 N 
 N n
Nn
L(p)   p (1  p)
 log L(p)  log    n log p  ( N  n ) log (1  p)
n 
 n 
d log L(p)
1
1
 n ~  ( N  n ) ~ (1)  0 
dp
p
1 p
p~
p
n
~
~
~
 n (1  p )  p ( N  n )  p 
N
La “~” ricorda che è una
stima
In questo caso dunque il principio fornisce la
stessa formula, però non è basato
sull’ipotesi di infinite misure.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
23
Valutazione della bontà della
stima di p di una binomiale
Se il valore stimato è quello trovato come il
valore che massimizza la probabilità, è
naturale valutare la bontà della stima dalla
distribuzione delle probabilità attorno a
questo valore più probabile.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
24
La bontà di una stima di max
verosimiglianza:
L1(x,l)
L2(x,l)
lbest
l
lbest
l
La dispersione dei valori attorno al più
probabile, cioè un suo indice (2), è una
valutazione della bontà della stima.
Ex.: Var[L1]<Var[L2] => L1 è migliore di L2.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
25
Valutazione della bontà della
stima con il metodo di Max
Verosimiglianza
Nella “formula”per la stima:
n
~
p
N
Gli N tentativi sono in realtà N variabili casuali, con
~
una probabilità incognita p di successo ( p è una
stima!).
La stima è una somma di variabili casuali, e come
tale avrà una distribuzione circa gaussiana.
La varianza della gaussiana viene assunta come
una misura quantitativa della bontà della stima.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
26
La varianza della stima con il
metodo di Max Verosimiglianza
Ricapitoliamo il teorema del limite centrale, la
somma delle variabili casuali
X=Si Xi
tende ad essere Gaussiana per N , qualunque sia
la distribuzione delle Xi, con valore medio:
E[X]=Si E[ Xi]
e varianza
Var[X]=Si Var[ Xi]
Per utilizzarlo in questo contesto occorre dunque
stimare la varianza di ogni variabile casuale
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
27
Applicazione del teorema del
limite centrale alla stima
Avendo effettuato N misure, la stima:
1
~
p
N
N
n
i 1
i
 1 in caso di successo
ni  
0 in caso di insuccesso
E’ dunque la somma delle N variabili casuali ni. Ogni
variabile casuale (ogni singola misura) ha
probabilità di successo p (ignota), valore medio p
(vedi distribuzione binomiale) e varianza p(1-p)
(sempre della distribuzione binomiale).
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
28
Calcolo esplicito della varianza
della stima della probabilità
binomiale: ~p  1  n
N
La varianza della stima è dunque:
1
  2
N
2
~
p
N

i 1
2
ni
1
 2
N
N
i 1
i
N
1
p(1  p ) 
p1  p )

N
i 1
Anche se p non è nota (se fosse conosciuta
sapremmo già tutto della distribuzione incognita)
si può approssimare con la sua migliore stima:
1
1 ~
1 n 
n 
~
  p1  p )  p 1  p )   1  
N
N
N  N  N 
2
~
p
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
29
Problema
Perché compare N2?
1
  2
N
2
~
p
N

i 1
2
ni
1
 2
N
N
1
p(1  p ) 
p1  p )

N
i 1
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
30
Esempio numerico di stima di
una variabile binomiale
Supponiamo di voler stimare il numero di parole che
una persona conosce in una lingua. Per fare questo
apriamo un dizionario di 20000 voci a caso su 100
termini e controlliamo quante ne riconosce. La
stima è dunque:
1 100
~
p
ni

100 i 1
1
ni  
0
termine conosciuto
termine sconosciut o
Ed il numero di parole note viene stimato essere:
N ter min i  20000  ~
p
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
31
Esempio numerico di valutazione
della bontà della stima di una
variabile binomiale
A questo punto ci si potrebbe porre il problema: è
corretto controllare solo 100 termini? Per fare
questo è necessario valutare la deviazione
standard:
 ~p 
1

100
~p1  ~p )
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
32
Osservazioni sulla valutazione
della bontà della stima:
1) La migliore stima della probabilità di verificarsi
di un evento di tipo binomiale è:
1
~
p
N
N
n
i 1
i
2) La stima così ottenuta è affetta da un’incertezza
che è inversamente proporzionale alla radice del
numero di misure:
 ~p 
1

N

~
p1  ~
p)

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
33
Esercizi
**Supponiamo che la stima di parole
conosciute sia fatta per una lingua
straniera e che su 100 termini se ne
conoscano solo 12. Cosa si può dire sul
numero di parole note e l’incertezza su
questa valutazione?
*Cosa succede se si trovano 24 termini
noti su 200?
**Scrivere le formule generali per
questo problema.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
34
Stima dei parametri di una
distribuzione poissoniana
 n i 
L()  
e
i 1 n i !
N
 N  n i   N    n i    N 
 ni  
log L()  log 
e     log 
e         log   
 i 1 n i !
 i 1   n i !
  i 1 
 n i!  
  ni  
  N    log   
i 1 
 n i!  
N
~ n i 1 n ! 
N
N
 
d log L()
1
~
i

n i )
  N    n i

0



ni 
~
d
n i!  
N i 1
~
i 1 
 
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
35
Valutazione della bontà della
stima della media poissoniana
1
~ 
N
La varianza della stima è dunque:
1
  2
N
2
~

N

i 1
2
ni
1
 2
N
N
 
i 1
N
n
i 1
1

N
Anche se  non è nota anche in questo caso si può
approssimare con la sua migliore stima:
1
1 ~
   
N
N
2
~

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
36
i
Esercizi
**Ripetere l’esercizio della stima di
termini sconosciuti approssimando la
distribuzione con una poissoniana.
**Nello scegliere i termini a caso nel
dizionario, si deve evitare di scegliere due
volte lo stesso termine?
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
37
Stima dei parametri di una
distribuzione gaussiana: 
N
L(,  )  
2
i 1
1
 2
2

( x i  ) 2
e
2
2
( x  )
N

 i 2
1
 log L(,  2 )  log 
e 2
 i 1  2 2


N
( x i  ) 2  
( x i  ) 2
  1
N



 1 
 log 

22
22



e
  log 

   log  e
2
2


i 1
i 1
 
  2 

   2
N
 1  1
 2
N log 

2
  2  2
d log L()
1
 2
d
2
~
 
 (x
N
i 1
2


)
i




)
N
~ )( 1) )  0 

2
(
x


 i
i 1
N
N
1
~ 0
~
  x i  N
xi

N i 1
i 1
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
38
2



Stima dei parametri di una
distribuzione gaussiana: 2
 1  1
2
 2
log L(,  )  N log 
 2
2

2






d log L( 2 )
d ( 2 )

~2
 2 
N
1
 ~2 
~2
2
2
 )
i 1
 (x
N
2
 (x
N
i 1
2


)
i
)
)
2


)
0
i
N
1
2
~ 

)

x


 i
N i 1
2
Nota bene: la 2 viene stimata supponendo di
conoscere il valore aspettato , e non di stimarlo.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
39
Stima del parametro di una
2
distribuzione gaussiana  senza
conoscere a priori 
2
N


1
1
N
2
2
~


 
x

x

S
 i N
j
N  1 i 1 
N 1
j 1

N
In questo caso la stima differisce per aver diviso
per N-1 e non N come direbbe la legge dei grandi
numeri. Ovviamente per N   le formule
coincidono.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
40
Valutazione della bontà della
stima del valore aspettato di
una gaussiana: ~  N1  x
N
La varianza della stima è dunque:
1
  2
N
2
~

N

i 1
2
xi
i 1
i
x
1 2
  xi
N
Anche 2 non è nota, e anche in questo caso si può
approssimare con la sua migliore stima:
2
N


1 ~2
1
1
1
1
2
2
~



)
   
x

x

x



S
 i N

j
i

)
N
N N  1) i 1 
N
N

1
N 1
j 1
i 1

N
N
2
~

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
41
Perché conviene fare più misure
La deviazione standard della stima è circa:
 ~ 
1
S2
N 1
Poiché S2 tende ad 2 è un valore che rimane
all’incirca costante durante le misure. Quindi
l’incertezza della media diminuisce come la radice
quadrata di N.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
42
Scarica

stima dei parametri - Dipartimento di Fisica