Capitolo 8 Stima
Thursday, 10 May 12
Contenuto del capitolo
Proprietà degli stimatori
Correttezza - efficienza relativa - consistenza
Intervalli di confidenza
Per la media - per una proporzione
Come si determina l’ampiezza campionaria
Thursday, 10 May 12
Proprietà - correttezza
Esistono stimatori distorti?
La varianza campionaria se è calcolata come
P
2
N
.X
X/
i
i
n
è uno stimatore distorto della varianza della popolazione
Invece se è calcolata come
2
S D
P
i .Xi
n
1
2
N
X/
è uno stimatore corretto della varianza della popolazione
Thursday, 10 May 12
Esempio
Campione di n = 10 elementi da una normale con varianza 100
Stimatore con
denominatore 10
0
Thursday, 10 May 12
50
Stimatore con
denominatore 9
100
150
200
250
300
Efficienza
Dovendo scegliere tra due stimatori corretti si preferisce quello che
ha una varianza più piccola.
Se la popolazione ha distribuzione normale con media=mediana μ
sia la media campionaria
che la mediana campionaria M sono
stimatori corretti di μ.
Ma la media campionaria ha varianza minore della mediana:
N D
var.X/
2
=n var.M / ⇡ 1:57
2
=n
La media è più efficiente della mediana: se con un campione di
100 otteniamo un certo errore standard con la media campionaria,
con la mediana abbiamo bisogno di un campione di 157.
Thursday, 10 May 12
Stimatore consistente
Uno stimatore si dice consistente se la sua distribuzione
campionaria tende a concentrarsi sul parametro da stimare
all’aumentare della dimensione campionaria.
E’ una proprietà
asintotica
vero
parametro
Thursday, 10 May 12
Stimatore consistente
Due condizioni sono sufficienti. Al crescere di n
1) la media della distribuzione campionaria dello stimatore tende al
parametro da stimare
2) la varianza della distribuzione campionaria dello stimatore tende
a zero.
vero
parametro
Thursday, 10 May 12
Stimatore consistente
Due condizioni sono sufficienti. Al crescere di n
1) la media della distribuzione campionaria dello stimatore tende al
parametro da stimare
2) la varianza della distribuzione campionaria dello stimatore tende
a zero.
La media campionaria e consistente
La proporzione campionaria è consistente
La varianza campionaria è consistente
Thursday, 10 May 12
Stima per intervallo
Thursday, 10 May 12
Quantificazione dell’incertezza
Stima,
La stima è
un valore puntuale
Intervallo di stima,
Un intervallo di stima
è una coppia di valori (a,b)
che definiscono gli estremi
Thursday, 10 May 12
Errore standard
Lo stimatore è una variabile
aleatoria, l’ES è la dev. st.
Intervallo di confidenza
Un intervallo di confidenza
è una coppia
di variabile aleatorie che
con probabilità data contiene
il parametro
Esempio
Il tempo trascorso dai clienti in
un negozio è Normale
N. D‹;
D 6 min/
Si estrae un campione casuale di 16 clienti
La media campionaria è
10
xN D 25 min
20
30
xN D 25
Thursday, 10 May 12
40
Esempio
L’errore standard della stima è ES =
p
= 16 D 6=4 D 1:5 min
Un intervallo di stima per la media è
ŒxN
1:96ES; xN C 1:96ESç
Estremi: 25 - 1.96 * 1.5 = 22.06;
25 + 1.96 * 1.5 = 27.94
Nel campionamento ripetuto questi intervalli comprendono la
vera media nel 95% dei casi
P .XN
Thursday, 10 May 12
1:96ES <
< XN C 1:96ES/ D 0:95
il mio intervallo
Esempio
coverage: 96%
50
40
il mio intervallo è generato
da una procedura che nel 95% dei casi
copre la vera media
30
20
10
il mio intervallo
18
20
22
24
26
Vera media
Thursday, 10 May 12
28
30
il mio intervallo
Perché?
coverage: 96%
50
40
P
1:96 <
XN
ES
!
< 1:96 D 0:95
30
è equivalente a
20
P .XN
10
18
20
22
24
26
Vera media
Thursday, 10 May 12
28
30
1:96 ES <
< XN C 1:96 ES/ D 0:95
il mio intervallo
Interpretazione
coverage: 96%
50
40
Nel lungo andare gli intervalli costruiti come
la media più o meno 1.96 ES comprendono
la media incognita nel 95% dei casi
30
20
P .XN
10
18
20
22
24
26
Vera media
Thursday, 10 May 12
28
30
1:96 ES <
< XN C 1:96 ES/ D 0:95
il mio intervallo
Interpretazione sbagliata
coverage: 96%
50
ATTENZIONE! NON È VERO
che la media incognita ha probabilità 0.95
di cadere nel mio intervallo (22.06, 27.94)
40
30
P .22:06 <
< 27:94/ D 0:95
20
La media della popolazione è una quantità
fissa e non una variabile aleatoria
10
il mio intervallo
18
20
22
24
26
Vera media
Thursday, 10 May 12
28
30
il mio intervallo
Intervallo di confidenza
coverage: 96%
50
Siccome la procedura di costruzione degli
intervalli nel lungo andare comprende la
media incognita nel 95% dei casi
40
ho fiducia che il mio intervallo che è stato
ottenuto da questa procedura sia vincente
30
20
Per questo l’intervallo si chiama
intervallo di confidenza e 0.95 si dice
livello di confidenza
10
18
20
22
24
26
Vera media
Thursday, 10 May 12
28
30
Livelli di confidenza
Livello di
confidenza
80%
90%
95%
99%
99.9%
z˛=2
1.28
1.64
1.96
2.58
3.29
˛ D 0:05
LC D 0:95
0.95
0.025
0.025
-1.96
Thursday, 10 May 12
1.96
Livelli di confidenza
1
˛
z˛=2
80%
90%
95%
99%
99.9%
1.28
1.64
1.96
2.58
3.29
1
˛=2
z˛=2
Thursday, 10 May 12
˛
˛=2
z˛=2
Margine di errore
In un intervallo di confidenza la semiampiezza
z˛=2 ES D z˛=2 p D ME
n
il libro la chiama margine di errore
XN
Thursday, 10 May 12
ME
XN
XN C ME
IC per µ (X~Normale,
2
σ
non nota)
Quando si costruisce un IC per la media μ la deviazione std σ non
è di diretto interesse, ma è comunque un ingrediente necessario
perché entra nell’espressione dell’IC
Nella maggior parte delle applicazioni la deviazione std σ non è
nota e quindi per poter determinare l’IC per μ occorre rimpiazzare
σ con una sua stima
Thursday, 10 May 12
Stima della varianza
Lo stimatore corretto della varianza della popolazione σ2 è la
varianza campionaria, quella con il divisore n-1
gradi di
libertà
Sostituendo, lo stimatore dell’errore standard è
S
ES stimato D p
n
Thursday, 10 May 12
Cosa sono i gradi di libertà
Gli scarti dalla media campionaria
X1
N X2
X;
N : : : ; Xn
X;
XN
Non sono indipendenti fra loro perché la loro somma deve
essere zero.
Per esempio se ci sono tre osservazioni: 12, 1, ? con media = 5
Gli scarti dalla media sono 7, -4, ?
L’ultimo scarto per forza è -3 !
Sono libero di scegliere solo n-1 scarti dalla media, l’ultimo no.
Thursday, 10 May 12
IC per µ (X~Normale,
2
σ
non nota)
Alla base dell’intervallo di confidenza per la media di una
normale cob varianza nota c’è la relazione
P
!
XN
1:96 <
p < 1:96 D 0:95
= n
Normale Standard
Thursday, 10 May 12
IC per µ (X~Normale,
2
σ
non nota)
Non si può usare per l’intervallo di confidenza per la media di una
normale con varianza ignota
P
!
XN
1:96 <
p < 1:96 ¤ 0:95
S= n
Non è Normale Standard
ma t di Student
Thursday, 10 May 12
La distribuzione t di Student
p
La t di Student è una famiglia parametrica di v.a. continue che hanno
come supporto l’intero asse dei numeri reali
p
Il parametro della famiglia è un numero intero detto gradi di libertà
(gdl)
p
Ogni membro della famiglia (cioè, qualunque sia il numero di gdl) è una
distribuzione simmetrica con media 0, varianza appena maggiore di 1 e
code più pesanti rispetto alla Normale standard (cioè i valori lontani
dalla media hanno maggiore probabilità nella t che nella Normale
standard)
La t di Student è
sostanzialmente diversa dalla
Normale standard quando il
numero di gdl è piccolo
(meno di 20); al crescere del
numero di gdl la t diviene
sempre più simile alla
Normale standard, tanto che
per gdl>120 le due
distribuzioni presentano
differenze trascurabili
Levine, Krehbiel, Berenson Statistica II ed.© 2006
Apogeo
srl
Unifi
- Statistica
Ec.Az. PZ 2010/2011
Thursday, 10 May 12
39
Tavole della t di Student
Unifi - Statistica Ec.Az. PZ 2010/2011
Thursday, 10 May 12
40
Determinazione
del valore critico
della t con 20
gradi di libertà
(à leggere alla
riga 20)
necessario per un
livello di
confidenza del
95% (à α/
2=0.025 à
leggere alla
colonna 0.025)
Unifi - Statistica Ec.Az. PZ 2010/2011
Thursday, 10 May 12
41
La distribuzione t di Student
Esempio: valori critici che lasciano
sulla coda destra α=0.025
p
La t di Student ha code più pesanti della
Normale standard à per ogni data
probabilità α da lasciare sulla coda destra il
valore critico sulla t è più grande (= spostato
verso destra) rispetto alla Normale standard
p
La differenza nei valori critici è rilevante
quando il numero di gdl è piccolo e tende a
zero al crescere del numero di gdl
p
Nel caso dell’IC per µ si usa
n
quando σ è nota à valore critico z della Normale
standard
n
quando σ non è nota à valore critico t della t di
Student con gdl=n−1
L’IC per µ è più lungo quando σ non è nota (in quanto il valore critico è più grande:
questo riflette l’incertezza addizionale causata dalla necessità di stimare σ); la
differenza di lunghezza si riduce al crescere dell’ampiezza campionaria n (infatti
quanto più grande è n tanto più
stimatore
S è2010/2011
preciso)
Unifilo
- Statistica
Ec.Az. PZ
42
Thursday, 10 May 12
IC per µ (X~Normale,
2
σ
non nota)
Dunque, quando X~N(µ,σ2) con µ e σ2 entrambi ignoti e si dispone di
un campione casuale di X di ampiezza n, l’intervallo aleatorio che
include µ nel (1−α)100% dei campioni è
p
Una volta estratto il campione e calcolate media e deviazione standard,
l’intervallo risulta determinato
p
Intervallo di confidenza
al livello 1−α
Il valore critico tn−1,α/2 è il valore che, nella distribuzione t di Student con n
−1 gdl, lascia a destra α/2 (e a sinistra 1−α/2)
p
p
Se la distribuzione del carattere è Normale il livello di confidenza nominale 1−α
è esatto (= coincide con il livello effettivo)
Anche se la distribuzione del carattere non è Normale, in molti casi con un
campione di 30 unità il livello nominale 1−α è simile al livello effettivo
Unifi - Statistica Ec.Az. PZ 2010/2011
Thursday, 10 May 12
43
Esempio
Per controllare il processo produttivo di una falegnameria
vengono esaminate 10 tavole, il cui spessore medio è di
10.05 mm con deviazione standard campionaria di 0.05 mm.
p Si assume che lo spessore abbia distribuzione Normale e che
le 10 tavole siano un campione casuale
p
p
I gdl sono 10–1=9 à con un livello del 95% il valore critico
della t9 è 2.2622 per cui
p
Con un elevato livello di fiducia (95%) si può dire che lo
spessore medio delle tavole che escono dal processo produttivo
è compreso tra 10.014 mm e 10.086 mm
Unifi - Statistica Ec.Az. PZ 2010/2011
Thursday, 10 May 12
44
Scarica

Intervalli di confidenza