Test di ipotesi
X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro
incognito.
Test Statistico: regola che sulla base di un campione di numerosità n (X1, …,Xn)
consente di decidere tra due ipotesi sul valore di q. Il campione è una variabile
casuale n-pla a componenti indipendenti e identicamente distribuite come X.
H0 : q  Q0 ipotesi nulla
(Q0 Q1 = Q)
H1 : q  Q1 ipotesi alternativa (Q0 Q1 = )
La regola consiste nel determinare una partizione dello spazio dei campioni in due
sottoinsiemi A (regione di accettazione) e R (regione di rifiuto) tale che se il
campione (X1, …,Xn)  A si accetta H0, se il campione (X1, …,Xn)  R si accetta
H1 (si rifiuta H0). La partizione dello spazio dei campioni è spesso determinata sulla
base di una funzione del campione t(X1, …,Xn) detta statistica-test.
accetto H0
rifiuto H0
H0 vera
H1 vera
errore seconda specie
errore prima specie
probabilità di commettere un errore prima specie a (ampiezza del test)
probabilità di commettere un errore seconda specie b, (1- b) potenza del test
Test di ipotesi
Probabilità di errore
accetto H0
rifiuto H0
H0 vera
1-b
a
H1 vera
b
1-a
Si fissa un valore per la probabilità di commettere un errore di
prima specie a.
Il test migliore minimizza la probabilità di commettere un errore di
seconda specie b.
Il test di ipotesi sul valor medio consiste nel determinare un
insieme di valori della media campionaria x (statistica-test) che
conducono a rifiutare l’ipotesi nulla e un insieme di valori della
media campionaria che conducono ad accettare l’ipotesi nulla.
Ipotesi
Un’ipotesi può essere:
• semplice, quando specifica un singolo valore per il parametro
incognito sia per H0 che per H1
• composta, specifica un intervallo di valori per il parametro
incognito
Sia X ~ N (, 2  16) allora H 0 :   5 è un’ipotesi semplice, mentre
H 0 :   5 è un’ipotesi composta.
Un’ipotesi composta può essere:
• unidirezionale, specifica valori del parametro in una sola direzione
• bidirezionale, quando specifica intervalli di valori in più direzioni
H0 :   5
è unidirezionale, mentre H 0 :   5 bidirezionale.
Test di ipotesi sul valor medio
X variabile casuale con valore medio E(X)= incognito e
varianza nota Var(X)= 2=225. Verificare le seguenti
ipotesi sul valore medio di X:
a=0.05
H0: =40=0
H1: =45=1
campione di numerosità n=36:
18 58 64 35 54 50 42 26 66 53 47 40 60 32 52 27 52 62 38
44 19 45 54 43 27 23 82 74 78 36 37 34 48 39 41 57
f ( x)  N (  ,  2 )
H0
H1
0= 40
45 = 1
x
Test di ipotesi sul valor medio
(x - ) (x* - )
Pr( x  x /   40 )=Pr(
>
/=40)


n
n
*
( x * - 40)
=Pr(Z>
)=Pr(Z>z1-a)=0.05
225
36
z1-a=1.645

x *   0  z1-a
n
225
( x - 40)
*
 44.1
>1.645
equivalente
R: x  x  40  1.645
36
225
36
225
( x - 40)
*
 44.1
A:
<1.645 equivalente A: x  x  40  1.645
36
225
36
R:
2
f ( x )  N ( , )
n
H0
H1
b
0= 40
a  0.05
44.1
zona di accettazione di H0
x*
livello di significatività osservato <a
45 = 1 46.02
zona di rifiuto di H0
225
x  40  1.645
 44.1
36
225
x  40  1.645
 44.1
36
x  46.02 appartiene alla zona di Rifiuto di H0
x
f ( z )  N (0, 1)
H0
H1
b
0= 0
a  0.05
1.645
zona di accettazione di H0
( x - 40)
 1.645
225
36
z*
2 = 1
z
zona di rifiuto di H0
( x - 40)
 1.645
225
36
(46.02 - 40) / 225 / 36  2.4 appartiene alla zona di Rifiuto di H0
Potenza del test
H0
H1
b
0= 40
a  0.05
45 = 1
44.1
zona di accettazione di H0
x
zona di rifiuto di H0
b = Pr(Accettare H0/ H0 falsa (o H1 vera))=
Pr( x  44.1 /   45 )=Pr(
( x -  ) (44.1 -  )
(44.1 - 45)
<
/=45)=Pr(Z<
)


225
n
n
36
=Pr(Z<-0.36)=0.3594
1-b =1-0.3594=0.6406
potenza del test
Funzione di potenza
Se l’ipotesi alternativa è composta la potenza del test è una
funzione
Si chiama funzione di potenza del test la funzione che descrive la
probabilità, al variare di q , di rifiutare H 0 e viene indicata con
 q )
Funzione di potenza
H0: =0
H1: >0
n numerosità campionaria, a ampiezza del test
b (  )  P( x   0  z1-a

n
/  )  P(
x-

 z1-a 
n
0 - 
 -
)  F ( z1-a  0
)


n
n
0 - 
1 - b (  )  1 - F ( z1-a 
) funzione crescente di a e 

1-b()
n
1
b(1)
1-b(1)
a
0
1

Test del rapporto delle massime verosimiglianze
Un test con livello di significatività pari a a e una funzione di
potenza   q ) è detto uniformemente più potente a livello a se:
  q )   q ),
q  Q1
per ogni altro test con uguale livello di significatività a e funzione di
potenza  q ).
Test uniformemente più potenti possono essere individuati mediante
l’approccio basato sul rapporto delle massime verosimiglianze.
Dato un problema di verifica d’ipotesi: H 0 : q  Q0 contro
statistica rapporto delle massime verosimiglianze è:
H1 : q  Q1 la
max
L X 1 , X 2 ..., X n ;q )
q Q
L( qˆ0 )
  X 1 , X 2 ..., X n ) 

max
L X 1 , X 2 ..., X n ;q ) L( q )
q Q
0
q̂ 0 è la stima di massima verosimiglianza di q con il vincolo q  Q0
q̂ è la stima di massima verosimiglianza non vincolata.
R={(X1, X2,.,Xn) tali che (X1, X2,.,Xn) k}
A={(X1, X2,.,Xn) tali che (X1, X2,.,Xn) >k}
k tale che l’ampiezza del test sia a
Test di ipotesi sul valor medio
X variabile casuale con valore medio E(X)= incognito e
varianza Var(X)= 2=225.
a=0.05
H0: =40=0
H1: =35=1
campione di numerosità n=36:
18 58 64 35 54 50 42 26 66 53 47 40 60 32 52 27 52 62
38 44 19 45 54 43 27 23 82 74 78 36 37 34 48 39 41 57
x  46.02
2
f ( x )  N ( , )
n
H1
H0
b
a  0.05
1= 35
zona di rifiuto di H0
225
x  40 - 1.645
 35.9
36
35.9
x*
40 = 0
zona di accettazione di H0
225
x  40 - 1.645
 35.9
36
x  46.02 appartiene alla zona di Accettazione di H0
x
Test di ipotesi sul valor medio
X variabile casuale con valore medio E(X)= incognito
e varianza Var(X)= 2=225.
H0: =40=0
H1: 40
a=0.1
campione di numerosità n=36:
18 58 64 35 54 50 42 26 66 53 47 40 60 32 52 27 52 62
38 44 19 45 54 43 27 23 82 74 78 36 37 34 48 39 41 57
x  46.02
H1
H0
a/2  0.05
35.9
zona di rifiuto di H0
x  40 - 1.645
225
 35.9
36
x  46.02
H1
a/2  0.05
0= 40
44.01
zona di accettazione di H0 zona di rifiuto di H0
35.9  x  44.1
x  40  1.645
appartiene alla zona di Rifiuto di H0
225
 44.1
36
Test di ipotesi sul valor medio di una variabile aleatoria di Bernoulli
X variabile casuale con valore medio E(X)= incognito e varianza Var(X)=  1- ).
H0: =0
H1: >0 oppure <0 oppure 0
1.
Z=
Test basato su Z Normale standardizzata:
(x -  )
 (1 -  )
n
(n>30)
Un intervento di manutenzione effettuata su 100 componenti è risultato efficace su 25. Verificare
l’ipotesi che la probabilità di efficacia sia 0.18 con una probabilità di errore di primo tipo a=0.05.
H0: =0.18
H1: 0.18
x =0.25
 2 =(0.18*0.82)/100
z0.025=1.96
R={ x tali che ( x -0.18)/(0.18*0.82)/100> 1.96}
R={ x tali che ( x -0.18)/(0.18*0.82)/100< -1.96}
A= R={ x tali che –1.96<( x -0.18)/(0.18*0.82)/100< 1.96}
1. Poiché (0.25-0.18)/(0.18*0.82)/100=1.72, l’ipotesi nulla è accettata.
Test di ipotesi sul confronto tra 2 valori medi:
campioni indipendenti
X1 variabile casuale con valore medio E(X1)=1 incognito
e varianza nota Var(X)= 12.
X2 variabile casuale con valore medio E(X2)= 2
incognito e varianza nota Var(X)= 22.
campione di numerosità n1 di X1
x1
campione di numerosità n2 di X2
x2
H0: 1=2
H1: 1 >(<, )2
a=0.05
f ( x)  N (  ,  2 )
2
1
x
2
f ( x )  N ( , )
n
2
1
x
 12  22
f ( x1 - x2 )  N ( 1 -  2 ,  )
n1 n2
H0
H1
a 0.05
0
( x1 - x2 )
zona di accettazione di H0
x1 - x2  1.96
1
2
n1

*
0
x1 - x2
zona di rifiuto di H0
2
2
n2
x1 - x2  1.96
 12
n1

 22
n2
Le valutazioni di un indice di affidabilità effettuate su due distinti ed indipendenti
gruppi di prodotti hanno fornito i seguenti risultati:
gruppo I:
gruppo II:
12 15 20 20 25 18 16 14 24 26 25 25
10 14 15 17 12 20 16 10 12 8
x I=20
s2I=22.66
x II=13.4 s2II=12.24
Verificare l’ipotesi che il valor medio dell’indice di affidabilità nel gruppo I è
significativamente superiore rispetto a quello del gruppo II con probabilità di errore
di primo tipo a=0.025 (varianze incognite e uguali).
H0: I-II=0
H1: I-II>0
x I=20
s2I=22.66
x II=13.4
s2II=12.24
t20,0.025=2.086
s2=[(12*22.66)+10*12.24)/20]=20.2
s2*(1/12+1/10)=4.45* (1/12+1/10)=1.91
R={x tali che
x I- xII/1.91>
2.086} A={x tali che
Poiché (20-13.4)/1.91=3.46, l’ipotesi nulla è rifiutata.
x I-x II
/1.91 2.086}
Test di ipotesi sul confronto tra 2 valori medi:
campioni appaiati
X1 variabile casuale Normale con valore medio E(X1)= 1 incognito e varianza
Var(X1)= 12.
X2 variabile casuale Normale con valore medio E(X2)= 2 incognito e varianza
Var(X2)= 22.
H0: 1=2 (H0: d=0 con d=X1-X2)
H1: 1>2 oppure 1<2 oppure 12 (d>0, d<0, d0)
test basato su t di Student di parametro n-1:
d

sˆd
n
d
sd
n -1
(x11,….,x1n) campione di ampiezza n generato da X1
(x21,….,x2n) campione di ampiezza n generato da X2
f (d )  tn-1
H0
H1
a 0.05
0
zona di accettazione di H0
d  t n -1,a
sˆd2
n
d
*
0
d
zona di rifiuto di H0
d  t n -1,a
sˆd2
n
I seguenti dati rappresentano gli errori commessi da 8 lettori ottici, in due prove distinte, prima e
dopo l’inserimento di un dispositivo:
Prima:
Dopo:
6 7 12 12 11 10 16 9
4 6 9 12 10 9 15 8
Verificare l’ipotesi che che il dispositivo abbia migliorato in modo significativo le prestazioni del
lettore con una probabilità di errore di primo tipo a=0.01.
H0: d=0 con d=Xprima-Xdopo
H1: d>0
Prima:
x
Dopo:
d=P-D
6 7 12 12 11 10 16 9
4 6 9 12 10 9 15 8
2 1 3 0 1 1 1 1
x d=10/8=1.25
sd=0.83
t7,0.01=2.99
R={ tali che ( x d-0)/( sd /n-1)> 2.99}
A={ tali che ( x d-0)/( sd /n-1< 2.99}
Poiché (1.25-0)/(0.83/7)=3.99, l’ipotesi nulla è rifiutata.
Test di ipotesi sul valor medio (ANOVA). Caso di k>2
campioni indipendenti: Analisi della Varianza ad 1 fattore
X1 variabile casuale Normale con valore medio E(X1)= 1 incognito e varianza
Var(X1)= 12.
X2 variabile casuale Normale con valore medio E(X2)= 2 incognito e varianza
Var(X2)= 22.
X3 variabile casuale Normale con valore medio E(X3)= 3 incognito e varianza
Var(X3)= 32.
H0: 1=23
H1: almeno due medie diverse
Test di ipotesi sul valor medio (ANOVA). Caso di k>2
campioni indipendenti: Analisi della Varianza ad 1 fattore
H0: 1=23
H1: almeno due medie diverse
Test basato su F di Fisher:
var ianza fra i gruppi /( k - 1)
[n1 ( x1 - x ) 2  n2 ( x2 - x ) 2  n3 ( x3 - x ) 2 ] /( k - 1)
Fk-1, n-k= F3-1, n-3=

[n1s12  n2 s22  n3 s32 ] /( n - k )
var ianza entro i gruppi /( n - k )
(x11,….,x1n1) campione di ampiezza n1 generato da X1
(x21,….,x2n2) campione di ampiezza n2 generato da X2
(x31,….,x3n3) campione di ampiezza n3 generato da X3
1 n1
x1   x1i
media campionaria del campione generato da X1
n1 i 1
1 n1
2
s1   ( x1i - x1 ) 2 varianza campionaria del campione generato da X1
n1 i 1
ANOVA
VARIABILE tempo di vita di un circuito
processo 1
6
5
7
6
4
6
processo 2
2
4
3
2
4
5
processo 3
2
4
2
3
4
1
7
*
6
*
5
*
*
4
*
*
*
3
*
*
2
*
*
1
*
1
2
3
3.9
H0: 1=23
H1: almeno due medie diverse
x 1=5.7
s21=0.9
x 2=3.3
s22=1.22
F2,15,0.01=6.36
x 3=2.7 x =3.9
s23=1.22
n1=n2=n3=6
n=18
k=3
1. F=11.2>6.36 =F2,15,0.01 si rifiuta l’ipotesi nulla.
2. La media della variabile è maggiore nel gruppo 1
3. La distribuzione della variabile deve essere ipotizzata normale.
4. Omoschedasticità
ANOVA
6,0
0,10
df
2
15
17
Media dei
quadrati
14,889
1,333
F
11,167
Sig.
,001
H0
F2,15
0,05
0,00
0,0
6.36
5,5
Media della VARIABILE NEI GRUPPI
Fra gruppi
Entro gruppi
Totale
Somma dei
quadrati
29,778
20,000
49,778
5,0
4,5
4,0
3,5
3,0
2,5
1,00
11.2
Accetto H0
GRUPPI
Rifiuto H0
2,00
3,00
Test di indipendenza
H0: X e Y indipendenti nij = ni0 n0j / n  i=1,.., r ; j=1,.., s
H1: X e Y non indipendenti almeno un nij  ni0 n0j / n
X/Y
y1
…
yj
…
ys
distr. marginale
di X
x1
n11
…
n1j
…
n1s
n10 
…
xi
…
…
…
…
…
ni1
…
nij
…
nis
…
…
…
…
…
xr
nr1
…
nrj
…
nrs
distr.
marginale
di Y
n 01 
r

i 1
n i1 … n 0 j 
r

i 1
n ij … n 0 s 
r
Test chi quadro basato su:
s
 2  
{ 2   (2r -1),( s -1),a }
1j
s
n
j 1
nr0 
ij
s
n
j 1
r
n
i 1
n
is
ni 0 n0 j
n
ni 0 n0 j
n
Rifiuto
j 1
…
(nij -
i 1 j 1
n
…
ni0 
…
s
)2
rj
Con riferimento alla seguente distribuzione di un collettivo di individui secondo il sesso (X) e l’opinione
sulla liberalizzazione dei servizi di telecomunicazioni TLC (Y), eseguire il test chi quadrato ( 2) con una
probabilità di errore di primo tipo a=0.05, commentare il risultato (relazione tra sesso e opinione sulla
liberalizzazione dei servizi di telecomunicazioni: quali modalità si attraggono e quali si respingono).
Ridistribuire le frequenze in modo da avere massima dipendenza tra le variabili.
femmine
maschi
a favore
2
8
contrari
8
1
indecisi
1
2
H0: sesso e opinione liberalizzazione servizi TLC indipendenti
H1: sesso e opinione liberalizzazione servizi TLC dipendenti
 2(2-1)*(3-1),0.05=5.991
R={ 2 > 5.991}
A={ 2 < 5.991}
 2 =9.378> 5.991. Si rifiuta l’ipotesi nulla.
Tavola di contingenza sesso * droghe leggere
0,10
H0
s es so
femmina
mas chio
0,05
Totale
0,00
0,0
5.991
9.378
Accetto H0
Rifiuto H0
Conteggio
Conteggio atteso
Res idui
Conteggio
Conteggio atteso
Res idui
Conteggio
Conteggio atteso
a favore
2
5,0
-3,0
8
5,0
3,0
10
10,0
droghe leggere
contrari
indecisi
8
1
4,5
1,5
3,5
-,5
1
2
4,5
1,5
-3,5
,5
9
3
9,0
3,0
Totale
11
11,0
11
11,0
22
22,0
Test di correlazione
Si consideri una v.c. doppia (X,Y) di cui si osserva un campione di numerosità n. Ogni osservazione è
costituita da una coppia (Xi,Yi) (i=1,..n) e pertanto l’intero campione sarà costituito dalle n coppie di v.c.
(X1,Y1),… (Xn,Yn).Si suppone che vi sia indipendenza tra le osservazioni campionarie, cioè tra le coppie di
v.c. relative a osservazioni differenti, mentre ovviamente le due v.c. (Xi,Yi) (i=1,..n) non sono in generale
indipendenti poiché tra esse intercorre la stessa relazione che vi è tra X e Y.
n
Il coefficiente di correlazione campionario è dato dalla:
1
dove la quantità: Sˆ xy 
n
 ( x - x )( y
n - 1 i 1
i
i
1 
i 1
r
n -1
( xi - x )( yi - y )
Sˆ x Sˆ y
Sˆ xy

Sˆ Sˆ
x
y
- y)
è la covarianza campionaria tra le v.c. X e Y, mentre le: S 2  1
x
n
 ( xi - x )2
n - 1 i 1
S y2 
sono le varianze campionarie corrette della varianza di X e della varianza di Y
1 n
( yi - y ) 2

n - 1 i 1
Test di correlazione
Se r=0, ossia le componenti la v.c. normale doppia (X,Y) sono indipendenti, si può provare che:
t
r
1- r 2
n-2
ha esattamente distribuzione t di Student con (n-2) gradi di libertà.
Se r 0 si può operare con una trasformazione di variable (“trasformata z di Fisher”):
Z
1 1 r
ln
2 1- r
che ha distribuzione approssimativamente Normale con media e varianza date da:
1
2
 Z  ln
1  r xy
1 - r xy
Z 
1
n-3
Campione di numerosità n=8 generato da una v.a. (X,Y) normale doppia:
(0.68, 2.7), (1.73, 3.51), (1.51, 3.62), (2.67, 4.51), (1.32, 3.28), (0.52, 2.71), (1.71, 3.95), (0.83, 3.01).
5
4
Y
3
2
1
0
0
1
2
3
X
4
Si supponga di voler verificare ad un livello di significatività 0.05 le ipotesi seguenti:
H0: r=0
H1: r 0
H0
f(t, n-2)
La regione di accettazione è data da (t6, 0.025 =2.447)
A: -2.447 
r
1- r
2
8 - 2  2.447
-2.447
0
Il coefficiente di correlazione campionario r vale 0.97. Si rifiuta l’ipotesi nulla.
Tra X e Y esiste una significativa correlazione positiva.
2.447
Campione di numerosità n=8 generato da una v.a. (X,Y) normale doppia:
(0.68, 2.7), (1.73, 3.51), (1.51, 3.62), (2.67, 4.51), (1.32, 3.28), (0.52, 2.71), (1.71, 3.95), (0.83, 3.01).
5
4
Y
3
2
1
0
0
1
2
3
X
4
Si supponga ora di voler verificare ad un livello di significatività 0.05 le ipotesi seguenti:
H0: r=0.5
H1: r 0.5
La regione di accettazione è data da (z1-0.025 =1.96)
A: -1.96 
H0
f(Z)
Z - z
z
 1.96
Z
1 1  0.97
ln
2 1 - 0.97
-1.96
1
2
 z  ln
1  0.5
1 - 0 .5
Il coefficiente di correlazione campionario r vale 0.97. Si rifiuta l’ipotesi nulla.
Tra X e Y esiste una significativa correlazione superiore a 0.5.
0
1.96
z 
1
8-3
Test per la verifica di ipotesi sul modello distributivo
H0: p(xi) = ni/ n i=1,.., r
H1: per almeno un ‘i’ p(xi)  ni/ n
X
x1
…
xi
…
xr
p(x)
p(x1)
…
p(xi)
…
p(xr)
1
X
x1
…
xi
…
xr
frequenza
n1
…
ni
…
nr
n
Test chi quadrato basato su:

2

r

i 1
Rifiuto { 
2
  (2r - 1 ), a }
( n i - n  p ( x i ))
n  p ( xi )
2
Si ritiene che in una certa popolazione la variabile X sia Normale con =174 e varianza  2 =16 .
Verificare l’ipotesi con il test  2 con a =0.01 sulla base dei seguenti dati:
X
frequenza
frequenza
osservata
attesa
 1 165
7
0.012
165-170
51
0.146
170-175
190
0.440
175-180
124
0.334
 180
28
0.068
 2 =3.77<  42,0.01 =13.227. L’ipotesi nulla non viene rifiutata.
Scarica

H 0