Lo stimatore
Si definisce stimatore la v.c. descritta dai diversi valori
che può assumere una stima al variare del campione
estratto.
T ( X )  T ( X 1 ,..... X n )
Mentre lo stimatore di un parametro è una v.c., la stima
è il valore assunto dallo stimatore in seguito all’estrazione
di un campione di n elementi ed il calcolo della statistica
al suo interno.
Per stimare il parametro incognito della popolazione è
possibile poter scegliere tra differenti stimatori associati a
differenti funzioni (v.c) dei dati campionari
Sarà scelto quello stimatore che riesce a fornire una stima
che abbia la massima probabilità di avvicinarsi al vero
valore del parametro da stimare
Le proprietà dello stimatore
Uno stimatore deve avere le seguenti proprietà:
Correttezza
Il suo valore atteso coincide con il parametro della
popolazione
Consistenza
E’ una proprietà asintotica. Uno stimatore è consistente
se al crescere della numerosità campionaria, la sua
distribuzione tende ad accentrarsi sempre più vicino al
parametro della popolazione.
Efficienza relativa
Nel confronto tra due stimatori corretti uno stimatore è
più efficiente dell’altro se presenta varianza più piccola.
Esperimenti di simulazione
Stima della media della popolazione
con deviazione standard nota
Come si ottiene un intervallo di confidenza dalla
distribuzione campionaria?
Per stimare m, viene estratto un campione di
numerosità n e la media x deve essere calcolata
Sotto certe condizioni, x si distribuisce in modo
normale (o approssimativamente normale)così:
x m
Z
 n
Noi sappiamo che
P(m  z  2


 x  m  z 2
)  1 
n
n
Da qui la relazione:
P( x  z  2


 m  x  z 2
)  1 
n
n
1-
dei valori x ottenuti estraendo tutti
i possibili campioni di numerosità n, determinano un
intervallo

 

x  z 2

n
, x  z 2
n 
che include il valore atteso della popolazione
Livello di Confidenza
1-
x  z 2
Limite inferiore

n
x
2z  2
x  z 2

n

n
Limite superiore

 

x  z 2 n , x  z 2 n 


Guardiamo la simulazione
Non tutti gli intervalli di confidenza sono corretti
150
UCL
100
LCL
50
0
Non tutti contengo all’interno il valore
atteso pari a 100
0
Il livello di confidenza è 90%,
e 10 dei 100 non contengono al loro interno m
100
4 sono i Livelli di confidenza comunemente utilizzati
Livello di
Confidenza
0,90
0,95
0,98
0,99

0,10
0,05
0,02
0,01
/2
0,05
0,025
0,01
0,005
z/2
1,645
1,96
2,33
2,575
Supponiamo di voler calcolare il valor medio di una distribuzione risultante dal
lancio di due dadi ripetuto 100 volte
La devianza standard è nota e pari a  = 1.71. Al livello di confidenza del 90%

l’intervallo di confidenza è:
x  z 2

n
1.71
 x  1.645
 x  .28
100
Con 100 lanci l’intervallo di confidenza è:
[media campionaria - .28,
media campionaria + .28]
Ricalcolare l’intervallo di confidenza al livello di confidenza di 95%
Soluzione
x  z 2

1.71
 x  1.96
 x  .34
n
100
• L’intervallo al 90% è = 2(.28) = .56
• L’intervallo al 95% è = 2(.34) = .68
• Perchè al 95% l’intervallo è maggiore, è più probabile
che includa il valore di m.
.95
.90
x  .28
x  .34
x  .28
x  .34
• Esempio
– Si vuole stimare il numero medio di ore alla
settimana passate dai bambini a guardare la
televisione
– Si intervistano 100 bambini
– Calcolare l’intervallo di confidenza al 95%, sapendo
che la devianza standard è  = 8.0
Soluzione
Il parametro da stimare è m (numero di ore settimanali passate davanti alla TV)
x  27.191.
1 -  =.95,  = .05.

8.0
x  z 2
 27.191  z .025
/2 = .025. Z.025 = 1.96
n
100
8.0
 27.191  1.96
 27.191  1.57  25.621, 28.761
100
• Analisi con Excel
Osserviamo l’istogramma.
Esso mostra che la variabile
Numero di ore passate davanti la
Tv, si distribuisce in modo
normale. L’uso della distribuzione
normale
per
il
calcolo
dell’intervallo è allora appropriato.
(Teorema del Limite Centrale)
10
20
30
40
50
60
More
Interpretazione dell’intervallo di confidenza
– E’ sbagliato dire che l’intervallo di
confidenza è un intervallo per il quale ci sono
1 -  possibilità che la media della
popolazione cada tra il limite inferiore e
quello superiore.
– Questo perchè m è un parametro e non una
variabile casuale.
L’ampiezza dell’intervallo
funzione di:
di
confidenza

Deviazione standard della popolazione

Livello di confidenza

Numerosità del campione
è
La numerosità campionaria
Possiamo controllare il variare dell’ampiezza
dell’intervallo di confidenza al variare della
numerosità campionaria
Possiamo invece stabilire l’intervallo campionario e
calcolare la numerosità campionaria necessaria
x 
Accuratezza della stima
La numerosità campionaria necessaria per
stimare la media è:
 z 2 
n

  
2
 
z 2
n
• Esempio
– Si vuole verificare il diametro dei bulloni
prodotti
dalla
propria
fabbrica
con
un’accuratezza di stima pari ad 1 mm.
– Quale deve essere la numerosità campionaria
con:
Ipotesi di distribuzione normale del diametro
dei bulloni
Livello di confidenza 99%
Deviazione Standard nota e pari a  = 6 mm.
=1 mm.
Soluzione
• L’accuratezza della stima è +/- 1 mm.
• Con un livello di confidenza del 99%  = .01,
allora z/2 = z.005 = 2.575.
2
 z 2 
2
.
575
(
6
)


n

 239



1


  
2
• Se si conosce la numerosità della popolazione
c’è la correzione per popolazioni finite
n
n*=
1 + n/N
• Esempio
– Si vuole verificare la percentuale di pezzi
difettosi prodotti dalla propria fabbrica con
un’accuratezza delle stima pari al 2%.
– Quale deve essere la numerosità campionaria
con:
Ipotesi di approssimazione alla distribuzione
normale standardizzata
Livello di confidenza 99%
Deviazione Standard nota e pari a  =10
=2
Soluzione
• L’accuratezza della stima è +/-2
• Con un livello di confidenza del 99%  = .01,
z/2 = z.005 = 2.575.
 z 2 
 2.575(10) 
n
 166
 

2


  
2
2
Esperimenti di simulazione
 Non distorsione della media campionaria
 Vogliamo dimostrare che la media campianaria è
uno stimatore corretto della media della
popolazione m, estraendo campioni di numerosità
4 utilizzando:
La Distribuzione binomiale con p = .3 e n = 10, per 100 campioni
La Distribuzione normale con m = 3 e s = .75, per 300 campioni
 E’ calcolata la media delle medie campionarie ed
è dimostrato per 10, 20, … campioni
Risultati simulati per una
distribuzione binomiale
m = np = 3.
3.2
3.15
3.1
3.05
3
2.95
2.9
Numero di campioni
10 20 30
100
3.02
3
2.98
Risultati simulati per una
distribuzione normale
m = 3.
2.96
2.94
2.92
10 30
100
300
 distorsione della varianza campionaria
 Vogliamo
dimostrare
che
la
varianza
campianaria non è uno stimatore corretto della
varianza della popolazione m, estraendo campioni
di numerosità 4 utilizzando:
 Confronteremo l’errore associato a s2 (corretto)
con l’errore
associato alla variabile casuale
campionaria v2
s
2
( x  x)


,
i
n 1
v
2
( x  x)


i
n
 I campioni sono estratti da una Distribuzione
binomiale con p = .3 e n = 10, per 100 campioni
Lo stimatore s2 approssima il valore reale della varianza 2.1
2.5
2
1.5
1
0.5
0
La variabile v2 è sempre al di sotto del valore reale della varianza
(l’andamento è però simile)
TEST D’IPOTESI
 La verifica di ipotesi vaglia il grado di attendibilità
che può essere attribuito a delle ipotesi, che
riguardano il valore di un parametro incognito di
una distribuzione
Esempio
Considerato che in un campione casuale di
consumatore il p% ha preferito un nuovo prodotto
come posso considerare valida tale ipotesi per la
popolazione?
Il concetto di test di ipotesi
 Ci sono due
ipotesi circa il parametro o i
parametri della popolazione.
H0 L’ipotesi nulla [ ad esempio m = 5]
H1 L’ipotesi alternativa [ ad esempio m <5]
 Le ipotesi possono essere:
 Semplici se si specifica in modo univoco la
distribuzione della popolazione oggetto di rilevazione
H 0 :   0
 Composte se si specificano diversi valori del
parametro
A loro volta possono essere
 Unidirezionali H 0 :   0
H 0 :   0
 Bidirezionali
Esempio
Supponiamo di voler verificare:.
Quello che vogliamo provare
– H0 L’ipotesi nulla [m = 5]
– contro H1 L’ipotesi alternativa [m <5]
1) Costruiamo, attraverso i risultati
campionari, la statistica relativa
al parametro ipotizzato
2) Ci domandiamo quale è il grado
di attendibilità delle osservazioni
campionarie, in modo da stabilire
se le differenze risultanti rispetto
alla
popolazione
siano
significative oppure dovute ad
errore campionario
m=5
x

Abbiamo due possibilità:.
– Rifiutare H0 (l’ipotesi nulla)
in favore
dell’ipotesi alternativa
– Accettare H0 (l’ipotesi nulla) a sfavore
dell’ipotesi alternativa

Possiamo commettere due tipi di errore:
– Errore di primo tipo - Rifiuto H0
(l’ipotesi nulla) quando essa è vera
– Errore di secondo tipo - Accetto H0
(l’ipotesi nulla) quando essa è falsa
Verifica di ipotesi sulla media di una
popolazione con varianza nota
Esempio 1
– Un nuovo sistema di gestione di carte di credito
sarà implementato in un ipermercato solo se la
spesa media mensili con carte di credito è
maggiore di 170 Euro
– Un campione di 400 estratti conto mensili viene
esaminato
– Si
suppone che la spesa mensile con carta di
credito abbia una distribuzione normale con  =
65 Euro
Il nuovo sistema sarà implementato?
Soluzione
– La
popolazione di interesse è l’ammontare di
spesa mensile effettuata con carta di credito
– Si vuole dimostrare che la spesa media mensile
con carta di credito è maggiore di 170 Euro
H1 : m > 170
Ipotesi alternativa
– L’
ipotesi nulla è relativa ad un solo valore del
parametro m :
H0 : m = 170
Ipotesi nulla
Una media campionaria di 178 è sufficientemente
più grande di 170 per affermare che la media della
popolazione è maggiore di 170?
m x  170 178
Se m è uguale a 170, allora m x  170 .La distribuzione
della media campionaria mostrerà questo
E’ lo stesso avere x  178 sotto l’ipotesi nulla (m = 170)?
Il metodo della regione di rifiuto
La regione di rifiuto è un range di valori:
se il valor test cade in questo range, l’ipotesi
nulla è rifiutata in favore dell’ipotesi
alternativa
Bisogna definire il valore di x che si ritiene sufficiente per
rifiutare l’ipotesi nulla x.L La regione di rifiuto sarà, dunque:
x  xL
La Regione di rifiuto è: x  x L
x  xL
Non rifiutiamo H0
xL
x  xL
Rifiutiamo H0
La Regione di rifiuto è : x  x L

m x  170
xL
z 
Rifiutiamo H0
qui
x L  170
65
400
x
 = P(commettere errore I tipo) = P(rifiutare H0 quando H0 è vera)
= P( x  x L dato che H0 è vera)
 P(Z  Z  )
La Regione di rifiuto è :
x  xL
 = 0.05
m x  170
xL
65
.
400
se   0.05, z.05  1.645.
xL  170  z
allora
xL  170  1.645
65
 175.34.
400
z 
x L  170
65
400
La Regione di rifiuto è :x  x L
rifiutiamo l ' ipotesi nulla
se x  175.34
 = 0.05
m x  170
x L  175.34 178
Conclusione
La media campionaria (178) è
maggiore del valore critico 175.34,
perciò c’è sufficiente evidenza
statistica per rifiutare H0 a favore di
H1, al livello di significatività del 5%
Il test statistico standardizzato
– Invece di utilizzare la statistica x , possiamo
utilizzare il valore standardizzato z
xm
z
 n
– Allora rifiuteremo la regione perchè
z  z
Test ad una coda
Esempio 1 - continua
Svolgiamo l’esercizio utilizzando il test statistico
standardizzato
H0: m = 170
H1: m > 170
– Test statistico:
z
x m

n

178  170
65
400
 2.46
– Regione di rifiuto: z > z.05  1.645.
– Conclusione: 2.46 > 1.645, così rifiutiamo
l’ipotesi nulla in
favore
dell’ipotesi
alternativa
Metodo del P-value
– Il p - value fornisce informazioni circa la
significatività
che
supporta
l’ipotesi
alternativa
Il p-value del test è la probabilità associata
al test statistico
Esempio 1 - continua
La probabilità di avere un test statistico
con un valore che delimita la regione di
rifiuto pari a 178 è:
 P( x  178)
178  170
 P( z 
)
65 400
 P( z  2.4615)  .0069
m x  170
x  178
Il p-value
Interpretazione del p-value
Dato che la probabilità che la media campionaria possa
assumere un valore maggiore di 178 quando m = 170 è
così piccola (.0069), ci sono ottime ragioni per credere
che m > 170.
L’evento
x  178 è raro sotto H0
con m x  170, ma…
…diventa più
probabile sotto H1,
con m x  170
Possiamo concludere
che più piccolo è il pvalue e più significatività
è a supporto dell’ipotesi
alternativa
H0 : m x  170
H1 : m x  170
x  178
Descrizione del p-value
– Se il p-value è minore di 1%, c’è una estrema
evidenza
statistica
a
supporto
dell’ipotesi
alternativa
– Se il p-value è compreso tra 1% e 5%, c’è una forte
evidenza
statistica
a
supporto
dell’ipotesi
alternativa
– Se il p-value è compreso tra 5% e 10%, c’è una
debole evidenza statistica a supporto dell’ipotesi
alternativa
– Se il p-value è maggiore del 10%, non c’è evidenza
statistica a supporto dell’ipotesi alternativa
Esempio 2
– Con un campione di 25 bottiglie si vuole
controllare che il contenuto medio delle
bottiglie prodotte non sia inferiore a 16 ml
come indicato sull’etichetta.
– Viene misurato il contenuto delle 25 bottiglie
– Da precedenti esperienze si sa che il
contenuto si distribuisce in modo normale
con deviazione standard pari a 0.4 ml
– Quando possiamo considerare non veritiera
l’indicazione sull’etichetta?
Soluzione
Vogliamo testare l’ipotesi nulla
H0: m = 16
Contro l’ipotesi alternativa
H1: m < 16
H0: m = 16
Allora
H1: m < 16
Il test statistico è
z
x m

n
Si seleziona il livello di significatività
 = 0.05
Si definisce la regione di accettazione
z < - z  1.645
Test ad una coda
Si rifiuta l’ipotesi nulla m =16, a favore
dell’ipotesi alternativa m < 16 quando
x è troppo piccolo
  0.05
x
16
Un campione con una media così lontana da 16,
È veramente un evento raro se m = 16.
  0.05
Regione di Rifiuto
z
x m

n

15.90  16
0.4
25
-1.25
-z = -1.645
 1.25
0
Il valore della statistica test non
cade
nell’area
di
rifiuto
per cui accettiamo l’ipotesi nulla
Non c’è sufficiente
evidenze per dire che
la
media
della
popolazione è minore
di 16ml.
p-value = P(Z < - 1.25) = .1056 > .05
  0.05
Regione di Rifiuto
z
x m

n

15.90  16
0.4
25
-1.25
-z = -1.645
 1.25
0
Esempio 3
• Il tempo richiesto per completare una parte di
produzione critica in una catena di produzione
si distribuisce in modo normale. Si pensa che la
media sia 130 sec.
– Testare se vera questa ipotesi con un
campione di 100 osservazioni la cui media è
di 126,8 sec. E conoscendo la deviazione
standard che è pari a 15 sec.
Soluzione
Vogliamo testare l’ipotesi nulla
H0: m = 130
Contro l’ipotesi alternativa
H1: m = 130
Definiamo la regione di accettazione
z < - z/2 o z > z/2
m  130
Dobbiamo stabilire i valori
x
/2  0.025
Per rifiutare l’ipotesi nulla
a favore di quella alternativa
x
130
x
/2  0.025
/2  0.025
z
x m

n

126.8  130
15
100
-z/2 = -1.96
/2  0.025
0 z/2 = 1.96
 2.13
Regione di
accettazione
Il valore del test statistico
cade nell’area di rifiuto
quindi rifiutiamo l’ipotesi
nulla
C’è sufficiente evidenza
statistica per affermare
che la media non è 130.
p-value = P(Z < - 2.13)+P(Z > 2.13)
= 2(.0166) = .0332 < .05
/2  0.025
z
x m

n

126.8  130
15
100
 2.13
-2.13
-z/2 = -1.96
/2  0.025
0
2.13
z/2 = 1.96
Come si calcola l’errore di II tipo
Il calcolo richiede che:
– La regione di rifiuto sia espressa nel valore
del parametro (non standardizzando)
– Il valore alternativo (sotto H1) sia specificato

m m0
xL
m m1
H0: m  m0
H1: m  m1 (m0 non è uguale a m1)
Riprendiamo l’ Esempio 1
La regione di rifiuto era x  175.34 con  = .05.
x  175.34
  .05
m0  170 175.34
x L  175.34
  P( x  175.34 con H 0 falso)
 P( x  175.34 con m  180)
…ma
H0 è falsa
175.34 m1  180
 P( z 
175.34  180
65
400
)  .0764
6.5.1 Gli effetti su
 al cambiamento di 
Diminuendo il livello di , cresce il valore di ,
e viceversa
1  2
1   2
Il valore di , può essere diminuito aumentando la
numerosità del campione
Aumentando la numerosità campionaria, la deviazione
Standard della media campionaria diminuisce
Così x diminuisce
L

z 
xxLxLxLxLxLxLL
1  2
xL  m
, allora
 n
xL  m  z
Come risultato  diminuisce

n
x LxxLxLxLL
Nell’esempio 6.1, aumentiamo il campione da 400 a 1000
xL  m  z 
  P( Z 

 170  1.645
n
173.38  180
65
1000
65
1000
 173.38
)  P( Z  3.22)  0
6 La potenza del test
La potenza del test è definita come 1 - .
Rappresenta la probabilità di rifiutare
l’ipotesi nulla quando essa è falsa
Verifica di ipotesi sulla media di una
popolazione
con
varianza
incognita
Quando non si conosce s si utilizza lo
stimatore campionario s e la statistica Z è
sostituita dalla statistica T
Z
x m

t
n
s
xm
s
n
Quando
la
popolazione
campionata
si
distribuisce in modo normale ,la statistica t si
distribuisce come una t di Student con n-1
gradi di libertà
La distribuzione t è unimodale
e simmetrica attorno allo zero
I gradi di libertà sono
funzione della numerosità
del campione
Con n>30 la distribuzione
di t si approssima ad una
normale
d.f. = n2
d.f. = n1
n1 < n2
0
A = .05
tA
t.100
t.05
t.025
t.01
t.005
3,078
1,886
.
.
1,325
6,314
2,92
.
.
1,725
12,706
4,303
.
.
2,086
31,821
6,965
.
.
2,528
.
.
.
.
.
.
.
.
.
.
200
1,286
1,282
1,653
1,645
1,972
1,96
2,345
2,326
63,657
9,925
.
.
2,845
.
.
2,601
2,576
Gradi di libertà
1
2
.
.
20

Verifica di ipotesi sulla varianza della
popolazione
In alcuni casi siamo interessati a fare
inferenza sulla variabilità del fenomeno.
In questo caso il parametro di interesse è 2
Ad esempio
- si vuole misurare la variabilità di un processo produttivo
per il controllo di qualità
- si vuole misurare la variabilità dei rendimenti finanziari
per prevederne il rischio
• La varianza campionaria corretta s2 è uno
stimatore corretto consistente ed efficiente
di 2
(n  1)s 2
• La statistica
ha una distribuzione
2

del Chi-quadrato con n-1 g.l., se la
2
popolazione si2distribuisce
(n  1) s in modo normale
 
g.l.  n  1
2

d.f. = 1
d.f. = 5
d.f. = 10
La tavola del 2
A =.01
A =.01
1 - A =.99
21-A
2 A
.010
.990
2.01,10  23.2093
Gradi di
libertà
1
.
.
10
.
.
2.995
2.990 2.975
2.010 2.005
0,0000393
0,0001571
0,0009821
.
.
6,6349
7,87944
2,15585
.
.
2,55821
.
.
3,24697
.
.
.
. 23,2093
.
.
.
25,1882
.
.
.
Verifica di ipotesi su frequenze
Quando la popolazione è caratterizzata da
variabili qualitative possiamo fare inferenza
solo sulla frequenza di un attributo nella
popolazione.
Il parametro p è utilizzato per alcolare la
probabilità con la distribuzione binomiale
– La statistica è
x
pˆ 
dove
n
x  il numero di successi
n  numerosità campione
– Sotto certe condizione , [np > 5 e n(1-p) > 5],
p̂ si approssima ad una normale, con
m = p and 2 = p(1 - p)/n.
• Statistica Test per p

Z
p p
p (1  p ) / n
dove np  5 e n(1  p )  5
• Intervallo di confidenza per p (al livello
di confidenza 1-)
pˆ  z / 2 pˆ (1  pˆ ) / n
con npˆ  5 e n(1  pˆ )  5
Scarica

ANALISI DEI DATI 2 - Dipartimento di Scienze Politiche e Sociali