Elaborazione Statistica dei Dati Sperimentali
Facoltà di Scienze MM FF e NN, Università del Sannio
Valutazione della
stima: gli intervalli di
confidenza
Giovanni Filatrella ([email protected])
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
1
Stima degli intervalli di
confidenza
Dati due valori del parametro incognito l , l1 e l2,
supponendo di conoscere la distribuzione di
probabilità dello stimatore di l, dipendente da N
esperimenti xi, trovare l1 e l2 significa trovare i
loro valori in modo che :
P(T l(x)|l1 l l2)=1-a
Importante:
Gli estremi dell’intervallo sono valori casuali e non
fissati. La procedura è generale ed indipendente
dai dati xi effettivamente ottenuti, ma i valori da
attribuire a l1 e l2 dipendono dagli specifici dati
sperimentali.
2
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
Esempio di applicazione
dell’intervallo di confidenza
densità di probabilità di Tx
“La percentuale x di fumatori in una scuola
superiore è compresa fra il 10% ed il 30%
ad un livello di significatività del 95%.”
95%
x1
x2
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
x
3
Livello di significatività degli
intervalli di confidenza
a è detto livello di significatività dell’intervallo
[l1,l2].
1-a è detto coefficiente o livello di confidenza
dell’intervallo [l1,l2].
Ex: per una variabile gaussiana a media 0, trovare
l’intervallo di confidenza al 68% del valore medio
significa stabilire che tale intervallo è:
N
1
2
l1 = x

i
N N - 1) i =1
N
1
2
l2 = 
x

i
N N - 1) i =1
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
4
Scelta degli estremi degli
intervalli di confidenza
Pur avendo scelto un determinato livello di
significatività l’intervallo [l1,l2] potrebbe
essere diverso, ad esempio non simmetrico
attorno a 0:
La scelta più opportuna dipende dallo
specifico problema.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
5
Esempi di intervalli di
confidenza non simmetrici
Un fertilizzante si suppone che migliori la
produttività media del frumento. Se è nota
la produttività senza fertilizzante
potrebbe essere interessante chiedersi a
che livello di confidenza l’uso del
fertilizzante migliori la produttività
abbastanza da ripagarne il costo:
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
6
Esempi di intervalli di
confidenza non simmetrici
densità di probabilità di Tx
Un fertilizzante si suppone che migliori la produttività
media del frumento. Se è nota la produttività senza
fertilizzante xo potrebbe essere interessante chiedersi a
che livello di confidenza l’uso del fertilizzante migliori la
produttività abbastanza da ripagarne il costo:
70%
x2=
x0
x1
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
x
7
Interpretazione degli intervalli
di confidenza
1.
Se si ripetessero le misure sullo stesso sistema con un
determinato valore del parametro incognito, allora 1-a
delle serie di misure indicherebbero degli intervalli che
effettivamente contengono il parametro “vero”.
2. Se si utilizzasse lo stesso metodo per la costruzione
degli intervalli su sistemi diversi, allora nella frazione 1a dei casi si indicherebbero intervalli contenenti il
valore corretto.
Non è corretto però dire che il valore vero del
parametro è contenuto nell’intervallo di confidenza
con probabilità a
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
8
Applicazione degli intervalli di
confidenza
Supponiamo di misurare la lunghezza di una
scrivania con un metodo soggetto ad errore
casuale, quindi ripetendo le misure i valori
trovati non sono sempre uguali. Ad esempio si è
ottenuto, in cm:
203 201 201 202 204
Fra quali valori è compresa la lunghezza della porta
al livello di significatività a=5%?
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
9
Passo 1: stima puntuale
Poiché supponiamo che le misure siano distribuite
gaussianamente, determinare il valore vero della
lunghezza della scrivania corrisponde a stimare
il valore aspettato della distribuzione delle
misure:
1
E[ x]  x =
N
N
 x ] = 202,2 cm
i =1
i
La migliore stima della lunghezza della scrivania è
202,2 cm
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
10
Passo 2: stima dell’incertezza
La stima che abbiamo effettuato è una valutazione,
cioè a sua volta una variabile casuale distribuita
gaussianamente la cui deviazione standard può
essere stimata essere:
s
1
N -1
S=
1
N -1
S =
2
 ]
1 N 2
2
x
x
= 0.68 cm

i
N - 1 N i =1
1
Il valore vero del parametro incognito è
distribuito gaussianamente con
valore aspettato E[x]  202.2 cm
deviazione standard s0.7 cm
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
11
Rappresentazione grafica dei
risultati ottenuti:
densità di probabilità
E[x]=202.2cm
s=0.7cm
201.5
202.2
202.9
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
L(cm)
12
Passo 3: intervallo di confidenza
Poiché ora conosciamo “tutto” della distribuzione di
probabilità del valore stimato, possiamo rispondere alla
domanda “quali sono le lunghezze nelle quali le mie
misure, al livello di significatività del 5%, possono essere
generate dalla lunghezza vera della scrivania”? :
P( ~ | 1    2 ) =
2
1
 s 2 e
1

~ -  )2
2s 2
d~ = 1 - a = 95%
Il problema viene così ricondotto a trovare
gli estremi di una distribuzione gaussiana tali
da racchiudere una probabilità del 95%.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
13
Un possibile intervallo di
confidenza:
Una scelta possibile è di chiedere che la probabilità
sia racchiusa in un intervallo simmetrico attorno
al valore di massima verosimiglianza:

1
~
P(  |    2 ) = 
e
 2 s 2

~ -  )2
2s
2
~
a


d~ = = 2.5%  2
 1.6
2
s
Stimando s e conoscendo la stima ~ si trova 2:
s  0.7cm, ~  202.2cm  2  1.6  0.7  202.2)cm = 203.5cm
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
14
Esercizi
Trovare 1 nell’esercizio precedente.
Se la scrivania deve essere inserita in una
rientranza, quale intervallo di confidenza è più
opportuno scegliere?
**Ad un livello di significatività dell’1%
l’intervallo di confidenza è più ampio? Perché?
Ripetere l’esercizio ad un livello di
significatività dell’1%.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
15
Scarica

Statistica inferenziale: intervalli di confidenza