Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un campione di numerosità n (X1, …,Xn) consente di decidere tra due ipotesi sul valore di q. Il campione è una variabile casuale n-pla a componenti indipendenti e identicamente distribuite come X. H0 : q Q0 ipotesi nulla (Q0 Q1 = Q) H1 : q Q1 ipotesi alternativa (Q0 Q1 = ) La regola consiste nel determinare una partizione dello spazio dei campioni in due sottoinsiemi A (regione di accettazione) e R (regione di rifiuto) tale che se il campione (X1, …,Xn) A si accetta H0, se il campione (X1, …,Xn) R si accetta H1 (si rifiuta H0). La partizione dello spazio dei campioni è spesso determinata sulla base di una funzione del campione t(X1, …,Xn) detta statistica-test. accetto H0 rifiuto H0 H0 vera H1 vera errore seconda specie errore prima specie probabilità di commettere un errore prima specie a (ampiezza del test) probabilità di commettere un errore seconda specie b, (1- b) potenza del test Test di ipotesi Probabilità di errore accetto H0 rifiuto H0 H0 vera 1-b a H1 vera b 1-a Si fissa un valore per la probabilità di commettere un errore di prima specie a. Il test migliore minimizza la probabilità di commettere un errore di seconda specie b. Il test di ipotesi sul valor medio consiste nel determinare un insieme di valori della media campionaria x (statistica-test) che conducono a rifiutare l’ipotesi nulla e un insieme di valori della media campionaria che conducono ad accettare l’ipotesi nulla. Ipotesi Un’ipotesi può essere: • semplice, quando specifica un singolo valore per il parametro incognito sia per H0 che per H1 • composta, specifica un intervallo di valori per il parametro incognito Sia X ~ N (, 2 16) allora H 0 : 5 è un’ipotesi semplice, mentre H 0 : 5 è un’ipotesi composta. Un’ipotesi composta può essere: • unidirezionale, specifica valori del parametro in una sola direzione • bidirezionale, quando specifica intervalli di valori in più direzioni H0 : 5 è unidirezionale, mentre H 0 : 5 bidirezionale. Test di ipotesi sul valor medio X variabile casuale con valore medio E(X)= incognito e varianza nota Var(X)= 2=225. Verificare le seguenti ipotesi sul valore medio di X: a=0.05 H0: =40=0 H1: =45=1 campione di numerosità n=36: 18 58 64 35 54 50 42 26 66 53 47 40 60 32 52 27 52 62 38 44 19 45 54 43 27 23 82 74 78 36 37 34 48 39 41 57 f ( x) N ( , 2 ) H0 H1 0= 40 45 = 1 x Test di ipotesi sul valor medio (x - ) (x* - ) Pr( x x / 40 )=Pr( > /=40) n n * ( x * - 40) =Pr(Z> )=Pr(Z>z1-a)=0.05 225 36 z1-a=1.645 x * 0 z1-a n 225 ( x - 40) * 44.1 >1.645 equivalente R: x x 40 1.645 36 225 36 225 ( x - 40) * 44.1 A: <1.645 equivalente A: x x 40 1.645 36 225 36 R: 2 f ( x ) N ( , ) n H0 H1 b 0= 40 a 0.05 44.1 zona di accettazione di H0 x* livello di significatività osservato <a 45 = 1 46.02 zona di rifiuto di H0 225 x 40 1.645 44.1 36 225 x 40 1.645 44.1 36 x 46.02 appartiene alla zona di Rifiuto di H0 x f ( z ) N (0, 1) H0 H1 b 0= 0 a 0.05 1.645 zona di accettazione di H0 ( x - 40) 1.645 225 36 z* 2 = 1 z zona di rifiuto di H0 ( x - 40) 1.645 225 36 (46.02 - 40) / 225 / 36 2.4 appartiene alla zona di Rifiuto di H0 Potenza del test H0 H1 b 0= 40 a 0.05 45 = 1 44.1 zona di accettazione di H0 x zona di rifiuto di H0 b = Pr(Accettare H0/ H0 falsa (o H1 vera))= Pr( x 44.1 / 45 )=Pr( ( x - ) (44.1 - ) (44.1 - 45) < /=45)=Pr(Z< ) 225 n n 36 =Pr(Z<-0.36)=0.3594 1-b =1-0.3594=0.6406 potenza del test Funzione di potenza Se l’ipotesi alternativa è composta la potenza del test è una funzione Si chiama funzione di potenza del test la funzione che descrive la probabilità, al variare di q , di rifiutare H 0 e viene indicata con q ) Funzione di potenza H0: =0 H1: >0 n numerosità campionaria, a ampiezza del test b ( ) P( x 0 z1-a n / ) P( x- z1-a n 0 - - ) F ( z1-a 0 ) n n 0 - 1 - b ( ) 1 - F ( z1-a ) funzione crescente di a e 1-b() n 1 b(1) 1-b(1) a 0 1 Test del rapporto delle massime verosimiglianze Un test con livello di significatività pari a a e una funzione di potenza q ) è detto uniformemente più potente a livello a se: q ) q ), q Q1 per ogni altro test con uguale livello di significatività a e funzione di potenza q ). Test uniformemente più potenti possono essere individuati mediante l’approccio basato sul rapporto delle massime verosimiglianze. Dato un problema di verifica d’ipotesi: H 0 : q Q0 contro statistica rapporto delle massime verosimiglianze è: H1 : q Q1 la max L X 1 , X 2 ..., X n ;q ) q Q L( qˆ0 ) X 1 , X 2 ..., X n ) max L X 1 , X 2 ..., X n ;q ) L( q ) q Q 0 q̂ 0 è la stima di massima verosimiglianza di q con il vincolo q Q0 q̂ è la stima di massima verosimiglianza non vincolata. R={(X1, X2,.,Xn) tali che (X1, X2,.,Xn) k} A={(X1, X2,.,Xn) tali che (X1, X2,.,Xn) >k} k tale che l’ampiezza del test sia a Test di ipotesi sul valor medio X variabile casuale con valore medio E(X)= incognito e varianza Var(X)= 2=225. a=0.05 H0: =40=0 H1: =35=1 campione di numerosità n=36: 18 58 64 35 54 50 42 26 66 53 47 40 60 32 52 27 52 62 38 44 19 45 54 43 27 23 82 74 78 36 37 34 48 39 41 57 x 46.02 2 f ( x ) N ( , ) n H1 H0 b a 0.05 1= 35 zona di rifiuto di H0 225 x 40 - 1.645 35.9 36 35.9 x* 40 = 0 zona di accettazione di H0 225 x 40 - 1.645 35.9 36 x 46.02 appartiene alla zona di Accettazione di H0 x Test di ipotesi sul valor medio X variabile casuale con valore medio E(X)= incognito e varianza Var(X)= 2=225. H0: =40=0 H1: 40 a=0.1 campione di numerosità n=36: 18 58 64 35 54 50 42 26 66 53 47 40 60 32 52 27 52 62 38 44 19 45 54 43 27 23 82 74 78 36 37 34 48 39 41 57 x 46.02 H1 H0 a/2 0.05 35.9 zona di rifiuto di H0 x 40 - 1.645 225 35.9 36 x 46.02 H1 a/2 0.05 0= 40 44.01 zona di accettazione di H0 zona di rifiuto di H0 35.9 x 44.1 x 40 1.645 appartiene alla zona di Rifiuto di H0 225 44.1 36 Test di ipotesi sul valor medio di una variabile aleatoria di Bernoulli X variabile casuale con valore medio E(X)= incognito e varianza Var(X)= 1- ). H0: =0 H1: >0 oppure <0 oppure 0 1. Z= Test basato su Z Normale standardizzata: (x - ) (1 - ) n (n>30) Un intervento di manutenzione effettuata su 100 componenti è risultato efficace su 25. Verificare l’ipotesi che la probabilità di efficacia sia 0.18 con una probabilità di errore di primo tipo a=0.05. H0: =0.18 H1: 0.18 x =0.25 2 =(0.18*0.82)/100 z0.025=1.96 R={ x tali che ( x -0.18)/(0.18*0.82)/100> 1.96} R={ x tali che ( x -0.18)/(0.18*0.82)/100< -1.96} A= R={ x tali che –1.96<( x -0.18)/(0.18*0.82)/100< 1.96} 1. Poiché (0.25-0.18)/(0.18*0.82)/100=1.72, l’ipotesi nulla è accettata. Test di ipotesi sul confronto tra 2 valori medi: campioni indipendenti X1 variabile casuale con valore medio E(X1)=1 incognito e varianza nota Var(X)= 12. X2 variabile casuale con valore medio E(X2)= 2 incognito e varianza nota Var(X)= 22. campione di numerosità n1 di X1 x1 campione di numerosità n2 di X2 x2 H0: 1=2 H1: 1 >(<, )2 a=0.05 f ( x) N ( , 2 ) 2 1 x 2 f ( x ) N ( , ) n 2 1 x 12 22 f ( x1 - x2 ) N ( 1 - 2 , ) n1 n2 H0 H1 a 0.05 0 ( x1 - x2 ) zona di accettazione di H0 x1 - x2 1.96 1 2 n1 * 0 x1 - x2 zona di rifiuto di H0 2 2 n2 x1 - x2 1.96 12 n1 22 n2 Le valutazioni di un indice di affidabilità effettuate su due distinti ed indipendenti gruppi di prodotti hanno fornito i seguenti risultati: gruppo I: gruppo II: 12 15 20 20 25 18 16 14 24 26 25 25 10 14 15 17 12 20 16 10 12 8 x I=20 s2I=22.66 x II=13.4 s2II=12.24 Verificare l’ipotesi che il valor medio dell’indice di affidabilità nel gruppo I è significativamente superiore rispetto a quello del gruppo II con probabilità di errore di primo tipo a=0.025 (varianze incognite e uguali). H0: I-II=0 H1: I-II>0 x I=20 s2I=22.66 x II=13.4 s2II=12.24 t20,0.025=2.086 s2=[(12*22.66)+10*12.24)/20]=20.2 s2*(1/12+1/10)=4.45* (1/12+1/10)=1.91 R={x tali che x I- xII/1.91> 2.086} A={x tali che Poiché (20-13.4)/1.91=3.46, l’ipotesi nulla è rifiutata. x I-x II /1.91 2.086} Test di ipotesi sul confronto tra 2 valori medi: campioni appaiati X1 variabile casuale Normale con valore medio E(X1)= 1 incognito e varianza Var(X1)= 12. X2 variabile casuale Normale con valore medio E(X2)= 2 incognito e varianza Var(X2)= 22. H0: 1=2 (H0: d=0 con d=X1-X2) H1: 1>2 oppure 1<2 oppure 12 (d>0, d<0, d0) test basato su t di Student di parametro n-1: d sˆd n d sd n -1 (x11,….,x1n) campione di ampiezza n generato da X1 (x21,….,x2n) campione di ampiezza n generato da X2 f (d ) tn-1 H0 H1 a 0.05 0 zona di accettazione di H0 d t n -1,a sˆd2 n d * 0 d zona di rifiuto di H0 d t n -1,a sˆd2 n I seguenti dati rappresentano gli errori commessi da 8 lettori ottici, in due prove distinte, prima e dopo l’inserimento di un dispositivo: Prima: Dopo: 6 7 12 12 11 10 16 9 4 6 9 12 10 9 15 8 Verificare l’ipotesi che che il dispositivo abbia migliorato in modo significativo le prestazioni del lettore con una probabilità di errore di primo tipo a=0.01. H0: d=0 con d=Xprima-Xdopo H1: d>0 Prima: x Dopo: d=P-D 6 7 12 12 11 10 16 9 4 6 9 12 10 9 15 8 2 1 3 0 1 1 1 1 x d=10/8=1.25 sd=0.83 t7,0.01=2.99 R={ tali che ( x d-0)/( sd /n-1)> 2.99} A={ tali che ( x d-0)/( sd /n-1< 2.99} Poiché (1.25-0)/(0.83/7)=3.99, l’ipotesi nulla è rifiutata. Test di ipotesi sul valor medio (ANOVA). Caso di k>2 campioni indipendenti: Analisi della Varianza ad 1 fattore X1 variabile casuale Normale con valore medio E(X1)= 1 incognito e varianza Var(X1)= 12. X2 variabile casuale Normale con valore medio E(X2)= 2 incognito e varianza Var(X2)= 22. X3 variabile casuale Normale con valore medio E(X3)= 3 incognito e varianza Var(X3)= 32. H0: 1=23 H1: almeno due medie diverse Test di ipotesi sul valor medio (ANOVA). Caso di k>2 campioni indipendenti: Analisi della Varianza ad 1 fattore H0: 1=23 H1: almeno due medie diverse Test basato su F di Fisher: var ianza fra i gruppi /( k - 1) [n1 ( x1 - x ) 2 n2 ( x2 - x ) 2 n3 ( x3 - x ) 2 ] /( k - 1) Fk-1, n-k= F3-1, n-3= [n1s12 n2 s22 n3 s32 ] /( n - k ) var ianza entro i gruppi /( n - k ) (x11,….,x1n1) campione di ampiezza n1 generato da X1 (x21,….,x2n2) campione di ampiezza n2 generato da X2 (x31,….,x3n3) campione di ampiezza n3 generato da X3 1 n1 x1 x1i media campionaria del campione generato da X1 n1 i 1 1 n1 2 s1 ( x1i - x1 ) 2 varianza campionaria del campione generato da X1 n1 i 1 ANOVA VARIABILE tempo di vita di un circuito processo 1 6 5 7 6 4 6 processo 2 2 4 3 2 4 5 processo 3 2 4 2 3 4 1 7 * 6 * 5 * * 4 * * * 3 * * 2 * * 1 * 1 2 3 3.9 H0: 1=23 H1: almeno due medie diverse x 1=5.7 s21=0.9 x 2=3.3 s22=1.22 F2,15,0.01=6.36 x 3=2.7 x =3.9 s23=1.22 n1=n2=n3=6 n=18 k=3 1. F=11.2>6.36 =F2,15,0.01 si rifiuta l’ipotesi nulla. 2. La media della variabile è maggiore nel gruppo 1 3. La distribuzione della variabile deve essere ipotizzata normale. 4. Omoschedasticità ANOVA 6,0 0,10 df 2 15 17 Media dei quadrati 14,889 1,333 F 11,167 Sig. ,001 H0 F2,15 0,05 0,00 0,0 6.36 5,5 Media della VARIABILE NEI GRUPPI Fra gruppi Entro gruppi Totale Somma dei quadrati 29,778 20,000 49,778 5,0 4,5 4,0 3,5 3,0 2,5 1,00 11.2 Accetto H0 GRUPPI Rifiuto H0 2,00 3,00 Test di indipendenza H0: X e Y indipendenti nij = ni0 n0j / n i=1,.., r ; j=1,.., s H1: X e Y non indipendenti almeno un nij ni0 n0j / n X/Y y1 … yj … ys distr. marginale di X x1 n11 … n1j … n1s n10 … xi … … … … … ni1 … nij … nis … … … … … xr nr1 … nrj … nrs distr. marginale di Y n 01 r i 1 n i1 … n 0 j r i 1 n ij … n 0 s r Test chi quadro basato su: s 2 { 2 (2r -1),( s -1),a } 1j s n j 1 nr0 ij s n j 1 r n i 1 n is ni 0 n0 j n ni 0 n0 j n Rifiuto j 1 … (nij - i 1 j 1 n … ni0 … s )2 rj Con riferimento alla seguente distribuzione di un collettivo di individui secondo il sesso (X) e l’opinione sulla liberalizzazione dei servizi di telecomunicazioni TLC (Y), eseguire il test chi quadrato ( 2) con una probabilità di errore di primo tipo a=0.05, commentare il risultato (relazione tra sesso e opinione sulla liberalizzazione dei servizi di telecomunicazioni: quali modalità si attraggono e quali si respingono). Ridistribuire le frequenze in modo da avere massima dipendenza tra le variabili. femmine maschi a favore 2 8 contrari 8 1 indecisi 1 2 H0: sesso e opinione liberalizzazione servizi TLC indipendenti H1: sesso e opinione liberalizzazione servizi TLC dipendenti 2(2-1)*(3-1),0.05=5.991 R={ 2 > 5.991} A={ 2 < 5.991} 2 =9.378> 5.991. Si rifiuta l’ipotesi nulla. Tavola di contingenza sesso * droghe leggere 0,10 H0 s es so femmina mas chio 0,05 Totale 0,00 0,0 5.991 9.378 Accetto H0 Rifiuto H0 Conteggio Conteggio atteso Res idui Conteggio Conteggio atteso Res idui Conteggio Conteggio atteso a favore 2 5,0 -3,0 8 5,0 3,0 10 10,0 droghe leggere contrari indecisi 8 1 4,5 1,5 3,5 -,5 1 2 4,5 1,5 -3,5 ,5 9 3 9,0 3,0 Totale 11 11,0 11 11,0 22 22,0 Test di correlazione Si consideri una v.c. doppia (X,Y) di cui si osserva un campione di numerosità n. Ogni osservazione è costituita da una coppia (Xi,Yi) (i=1,..n) e pertanto l’intero campione sarà costituito dalle n coppie di v.c. (X1,Y1),… (Xn,Yn).Si suppone che vi sia indipendenza tra le osservazioni campionarie, cioè tra le coppie di v.c. relative a osservazioni differenti, mentre ovviamente le due v.c. (Xi,Yi) (i=1,..n) non sono in generale indipendenti poiché tra esse intercorre la stessa relazione che vi è tra X e Y. n Il coefficiente di correlazione campionario è dato dalla: 1 dove la quantità: Sˆ xy n ( x - x )( y n - 1 i 1 i i 1 i 1 r n -1 ( xi - x )( yi - y ) Sˆ x Sˆ y Sˆ xy Sˆ Sˆ x y - y) è la covarianza campionaria tra le v.c. X e Y, mentre le: S 2 1 x n ( xi - x )2 n - 1 i 1 S y2 sono le varianze campionarie corrette della varianza di X e della varianza di Y 1 n ( yi - y ) 2 n - 1 i 1 Test di correlazione Se r=0, ossia le componenti la v.c. normale doppia (X,Y) sono indipendenti, si può provare che: t r 1- r 2 n-2 ha esattamente distribuzione t di Student con (n-2) gradi di libertà. Se r 0 si può operare con una trasformazione di variable (“trasformata z di Fisher”): Z 1 1 r ln 2 1- r che ha distribuzione approssimativamente Normale con media e varianza date da: 1 2 Z ln 1 r xy 1 - r xy Z 1 n-3 Campione di numerosità n=8 generato da una v.a. (X,Y) normale doppia: (0.68, 2.7), (1.73, 3.51), (1.51, 3.62), (2.67, 4.51), (1.32, 3.28), (0.52, 2.71), (1.71, 3.95), (0.83, 3.01). 5 4 Y 3 2 1 0 0 1 2 3 X 4 Si supponga di voler verificare ad un livello di significatività 0.05 le ipotesi seguenti: H0: r=0 H1: r 0 H0 f(t, n-2) La regione di accettazione è data da (t6, 0.025 =2.447) A: -2.447 r 1- r 2 8 - 2 2.447 -2.447 0 Il coefficiente di correlazione campionario r vale 0.97. Si rifiuta l’ipotesi nulla. Tra X e Y esiste una significativa correlazione positiva. 2.447 Campione di numerosità n=8 generato da una v.a. (X,Y) normale doppia: (0.68, 2.7), (1.73, 3.51), (1.51, 3.62), (2.67, 4.51), (1.32, 3.28), (0.52, 2.71), (1.71, 3.95), (0.83, 3.01). 5 4 Y 3 2 1 0 0 1 2 3 X 4 Si supponga ora di voler verificare ad un livello di significatività 0.05 le ipotesi seguenti: H0: r=0.5 H1: r 0.5 La regione di accettazione è data da (z1-0.025 =1.96) A: -1.96 H0 f(Z) Z - z z 1.96 Z 1 1 0.97 ln 2 1 - 0.97 -1.96 1 2 z ln 1 0.5 1 - 0 .5 Il coefficiente di correlazione campionario r vale 0.97. Si rifiuta l’ipotesi nulla. Tra X e Y esiste una significativa correlazione superiore a 0.5. 0 1.96 z 1 8-3 Test per la verifica di ipotesi sul modello distributivo H0: p(xi) = ni/ n i=1,.., r H1: per almeno un ‘i’ p(xi) ni/ n X x1 … xi … xr p(x) p(x1) … p(xi) … p(xr) 1 X x1 … xi … xr frequenza n1 … ni … nr n Test chi quadrato basato su: 2 r i 1 Rifiuto { 2 (2r - 1 ), a } ( n i - n p ( x i )) n p ( xi ) 2 Si ritiene che in una certa popolazione la variabile X sia Normale con =174 e varianza 2 =16 . Verificare l’ipotesi con il test 2 con a =0.01 sulla base dei seguenti dati: X frequenza frequenza osservata attesa 1 165 7 0.012 165-170 51 0.146 170-175 190 0.440 175-180 124 0.334 180 28 0.068 2 =3.77< 42,0.01 =13.227. L’ipotesi nulla non viene rifiutata.