Università degli Studi del Piemonte Orientale Corso di Laurea in Infermieristica Corso integrato in Scienze della Prevenzione e dei Servizi sanitari Statistica Lezione 6 a.a 2011-2012 Dott.ssa Daniela Ferrante [email protected] La verifica di ipotesi Le ipotesi di ricerca sono un insieme di congetture o di supposizioni che possono essere il risultato di anni di osservazione da parte del ricercatore e che motivano la ricerca Le ipotesi statistiche sono ipotesi che possono essere formulate in modo da poter essere valutate da adeguate tecniche statistiche. 2 Procedimento 1. Il ricercatore formula un’ipotesi di lavoro, che costituisce la spiegazione di un fenomeno o indica il valore di un parametro. 2. Viene formulata l’ipotesi nulla, cioè l’affermazione che il ricercatore intende sottoporre a verifica, costruita in modo simmetrico all’ipotesi di lavoro e formulata in modo tale da poter essere negata dall’esperimento programmato. 3. Viene valutato dal ricercatore quanto è grande il rischio per lui accettabile di fornire una conclusione diversa dalla realtà (a lui ignota). 4. Viene disegnato l’esperimento e viene definita la dimensione del campione. 3 5. Viene scelto il test statistico appropriato. 6. Viene condotto l’esperimento. 7. Il risultato dell’esperimento viene letto e confrontato con la distribuzione di probabilità precedentemente calcolata. Se la probabilità di ottenere il risultato osservato (data l’ipotesi nulla) è inferiore alla soglia definita al punto 3 precedente, si conclude per il rifiuto dell’ipotesi nulla. 4 PROCEDIMENTO Formulare Ho Calcolare la statistica test sui dati Calcolare la plausibilità di Ho visti i dati Conclusione Rif Ho Non rif Ho 5 Errore di prima specie Fisso il livello di significatività α che è definito come la probabilità di rifiutare l’ipotesi nulla quando è vera: α è definito errore di prima specie. α = P(rif H0/H0) Poiché rifiutare l’ipotesi nulla quando è vera rappresenta un errore, dobbiamo quindi fissare un valore di α piccolo. Di solito α viene posto uguale a 0.05. 6 La statistica test è una statistica che può essere calcolata a partire dai dati del campione. Formula generale della statistica test = (statistica di interesse-parametro ipotizzato) / errore standard della statistica di interesse 7 Esempio Un campione casuale di 10 rapporti di pronto soccorso è stato scelto dai file di un servizio di ambulanza. Il tempo medio campionario è di 13 minuti. Assumiamo che la popolazione dei tempi sia distribuita normalmente con varianza uguale a 16. Si può concludere da questi dati che la media della popolazione sia diversa da 10 minuti. Fissiamo α = 0,05 8 Test a una coda o due code? Il ricercatore sulla base del tipo di domanda a cui deve rispondere decide di utilizzare un test unidirezionale o bidirezionale. Si usa un test bidirezionale quando il rifiuto dell’ipotesi nulla è dovuto sia a valori piccoli che a valori grandi della statistica test. ES. H0 : µ = 10 H1 : µ ≠ 10 Nel test bidirezionale (test a due code) la regione di rifiuto è divisa in due parti o due code della distribuzione della statistica test. 9 • Si usa un test unidirezionale quando il rifiuto dell’ipotesi nulla è causato o soltanto da valori sufficientemente piccoli o soltanto da valori sufficientemente grandi della statistica test ES. H0 : µ = 10 H1 : µ < 10 H0 : µ = 10 H1 : µ > 10 • Un test unidirezionale è un test in cui la regione di rifiuto si trova in una o in un’altra coda della distribuzione. 10 Quindi: Data la distribuzione della statistica test, rifiuto l’ipotesi nulla se il valore della statistica test cade nella regione di rifiuto, mentre non rifiuto l’ipotesi nulla se la statistica test cade nella regione di accettazione dell’ipotesi nulla. • Se l’ipotesi nulla non è rifiutata si può concludere che i dati sui quali si effettua il test statistico non forniscono prove sufficienti per rifiutarla. • Se invece l’ipotesi nulla viene rifiutata allora i dati saranno compatibili con l’ipotesi alternativa H1 (ipotesi di lavoro) che riteniamo vera dato che il test ha portato al rifiuto dell’ipotesi nulla. 11 N.B. Con la verifica di ipotesi non arriviamo ad una dimostrazione di un’ipotesi, ma otteniamo un’indicazione del fatto che l’ipotesi è supportata dai dati disponibili. • Per tornare al nostro esempio avendo formulato la nostra ipotesi nulla e l’ipotesi alternativa H0 : µ = 10 H1 : µ ≠ 10 e fissato l’errore di prima specie α=0.05 dobbiamo scegliere l’opportuna statistica test. Il test in questo caso sarà di tipo bidirezionale. Conosciamo la deviazione standard della popolazione σ; quindi utilizziamo come statistica test z. z = x − µ0 σ n 12 Calcoliamo il valore della statistica test: z= 13 − 10 = 2 .4 4 10 α=0.05 L’area compresa tra - ∞ e -2,4 e tra 2,4 e + ∞ viene definita p-value = 0,016 p<α Il valore della statistica test cade nella regione di rifiuto dell’ipotesi nulla quindi rifiuto H0 13 Se nel quesito precedente vogliamo verificare: H0 : µ = 10 H1 : µ < 10 allora dobbiamo utilizzare un test ad una coda. L’area della coda sinistra è pari a 0,05 0,5 0,4 L’area compresa tra - ∞ e 2,4 è il p-value = 0.9918 0,3 0,2 0,1 0,0 -4 -3,2 -2,4 -1,6 -0,8 0 0,8 1,6 2,4 3,2 4 z p>α -1,65 Il valore della statistica test cade nella regione di accettazione dell’ipotesi nulla quindi non rifiuto H0 14 Se nel quesito precedente vogliamo verificare: H0 : µ = 10 H1 : µ > 10 allora dobbiamo utilizzare un test ad una coda. L’area della coda destra è pari a 0,05 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 L’area compresa tra 2,4 e + ∞ è il p-value = 0.0082 X -5 -4 -3 -2 -1 0 1 2 3 4 5 p<α 1,65 Il valore della statistica test cade nella regione di rifiuto dell’ipotesi nulla quindi rifiuto H0 15 In generale quindi se il valore del p-value è maggiore di α non rifiutiamo l’ipotesi nulla, se invece è minore o uguale di α rifiutiamo l’ipotesi nulla. Sempre con riferimento all’esempio precedente, immaginiamo ora di voler verificare: H0 : µ = 10 H1 : µ ≠ 10 nel caso in cui non conosciamo la deviazione standard della popolazione ma conosciamo solo la deviazione standard campionaria pari a 10. In questo caso ricorriamo al test t di Student con (n-1) gradi di libertà 16 Calcoliamo il valore della statistica test: x − µ0 t= s n 0,5 13 − 10 t= = 0,95 10 10 La somma delle aree delle due code è pari a 0,05 0,4 0,3 0,2 0,1 0,0 T -4 -3,2 -2,4-1,6 -0,8 0 -2,26 L’area compresa tra -∞ e -0,95 e tra 0,95 e +∞ (pvalue) =0,37 0,8 1,6 2,4 3,2 4 p>α 2,26 Il valore della statistica test cade nella regione di accettazione dell’ipotesi nulla quindi non rifiuto H0 17 La verifica di ipotesi sulla differenza fra due medie “Si considerino due popolazioni di individui sottoposti a due diversi trattamenti farmacologici. Si vuole valutare ad esempio se tali trattamenti producono uguali effetti (ipotesi nulla) o diversi (ipotesi alternativa)” Estraggo un campione da ognuna delle due popolazioni ed effettuo le misurazione della variabile in studio sui due campioni calcolando quindi le medie delle due serie. Se le due medie sono diverse, si vuole valutare se tale differenza sia dovuta al caso e quindi i due trattamenti hanno lo stesso effetto oppure se effettivamente si osserva un effetto diverso tra i due trattamenti 18 Campioni indipendenti H0 : µ1 = µ2 oppure µ1 - µ2 = 0 H1 per un test ad una coda : H1 : µ1 >µ2 oppure µ1 < µ2 H1 per un test a due code : H1 : µ1 ≠ µ2 oppure µ1 - µ2 ≠ 0 19 Consideriamo il seguente caso relativamente a due campioni indipendenti: - Campionamento effettuato da popolazioni distribuite normalmente con varianza delle popolazioni non nota e omogeneità della varianza ossia t= ( x1 − x 2 ) − ( µ1 − µ 2 ) 0 sp2 sp2 + n1 n 2 σ 12 = σ 22 sp2 Gdl della t = (n1-1)+(n2-1) ( n1 − 1) s12 + ( n 2 − 1) s 2 2 = n1 + n2 − 2 20 Esempio Si intende misurare l’efficacia di un farmaco per il trattamento della depressione. Sono confrontati due gruppi: un gruppo al quale è stato somministrato il farmaco (n=33) e il gruppo placebo (n=43). La media della Hamilton Depression Scale è pari a 20.38 nel primo gruppo (s=3.91) e pari a 21.57 nel secondo (s=3.87). Stabilire se la differenza tra le due medie è statisticamente significativa a livello alfa=0,01 21 H0 : µ1 = µ2 H1 : µ1 ≠ µ2 t= ( x1 − x 2 ) − ( µ1 − µ 2 ) 0 sp sp + n1 n 2 2 sp 2 2 = ( 20 .38 − 21 .57 ) − 0 15,11 15,11 + 33 43 = −1.32 ( 32 ) 3 . 91 2 + ( 42 ) 3 . 87 2 = = 15 . 11 33 + 43 − 2 gl = 74 -1.32 >-2,85 quindi non rifiuto H0 22 Consideriamo i seguenti due casi relativamente a due campioni appaiati: • Vengono confrontati i valori presi sugli stessi soggetti in due momenti diversi oppure allo stesso soggetto vengono somministrati due trattamenti differenti • Il confronto tra trattamento e controllo viene effettuato per cercare di controllare possibili fonti di variabilità che potrebbero oscurare la vera differenza tra le due serie di misurazioni • I soggetti di un determinato gruppo sono appaiati con i soggetti di un altro gruppo in modo tale da rendere i due gruppi simili per alcune caratteristiche quali ad esempio età, sesso, etc. 23 Esempio • Ad 8 individui adulti è stata misurata la pressione arteriosa prima e dopo l’assunzione di un farmaco A B C D E F G H 200 191 9 174 170 4 198 177 21 170 167 3 179 159 20 182 151 31 193 176 17 209 183 26 C’è sufficiente evidenza statistica a supporto dell’ipotesi che ci sia una differenza? 24 La formulazione del problema fa capire che si tratta di un test a due code, con d − d0 16 , 37 − 0 t = = = 4 , 55 H0 : dmedio = 0 s 10 , 20 n 8 H1 : dmedio ≠ 0 d= 131 = 16,37 8 s = 10,20 Valore critico per 7 gdl ; test a due code; p<α quindi la probabilità che la differenza tra media osservata e media attesa sia casuale è <0,05 Si rifiuta H0. 25 Funzione excel TEST.T - Restituisce la probabilità associata a un test t di Student. 26 TEST.T(matrice1;matrice2;coda;tipo) Matrice1 è il primo insieme di dati. Matrice2 è il secondo insieme di dati. Coda specifica il numero di code di distribuzione. Se coda = 1, TEST.T utilizzerà la distribuzione a una coda. Se coda = 2, TEST.T utilizzerà la distribuzione a due code. Tipo è il tipo di test t da eseguire Se tipo è uguale 1 Accoppiato 2 Omoschedastico (varianza uguale di due campioni) 3 Eteroschedastico (varianza disuguale di due campioni) 27