Test di ipotesi Annibale Biggeri Dipartimento di Statistica Richiami: Definizioni • La distribuzione di probabilità di una statistica campionaria è chiamata la distribuzione campionaria della statistica • La deviazione standard della distribuzione campionaria è chiamata errore standard Teorema del Limite Centrale • Se Y è una variabile casuale con media e varianza 2 allora Y basato su campioni di dimensione n sarà distribuito Gaussianamente con media e varianza 2 / n , per n sufficientemente grande. 1 2 3 4 5 1 1,1 2,1 3,1 4,2 5,1 2 1,2 2,2 3,2 4,2 5,2 3 1,3 2,3 3,3 4,3 5,3 4 1,4 2,4 3,4 4,4 5,4 5 1,5 2,5 3,5 4,5 5,5 • I campioni sono diversi PERCHE’ i membri della popolazione da cui sono tratti sono diversi circa la caratteristica (variabile) rilevata (variabilità del fenomeno in studio) • Le medie campionarie sono diverse in ragione della variabilità del fenomeno e della dimensione campionaria (variabilità campionaria) 1 1 2 3 4 5 2 3 1 1.5 2 1.5 2 2.5 2 2.5 3 2.5 3 3.5 3 3.5 4 4 5 2.5 3 3 3.5 3.5 4 4 4.5 4.5 5 .2 .15 .15 Fraction Fraction .2 .1 .05 .1 .05 0 0 1 2 3 var2 4 5 1 2 3 var1 4 5 Esempio • Qual è la probabilità che l’IQ medio di una classe di 25 studenti superi 106 ? 106 100 Pr Y 106 Pr Z 3 Pr Z 2 1 0.9772 0.0228 Un esempio dalla letteratura Bennett et al. hanno condotto uno Studio Clinico Controllato Randomizzato per valutare la sicurezza dell’uso di lidocaina in soggetti con infarto miocardico acuto. 216 pazienti sono stati assegnati con procedura casuale a due gruppi (di 110 e 106 soggetti) trattati con lidocaina o con la miglior terapia disponibile. I decessi osservati nei due gruppi nel periodo di follow-up sono stati 7 e 3. L’ipotesi scientifica da saggiare è la seguente: La lidocaina è un farmaco sicuro ed efficace nel prevenire aritmie nella fase iniziale dell’infarto miocardico acuto ? Per saggiare l’ipotesi il ricercatore confronta i dati empirici con le previsioni teoriche. La percentuale di decessi osservata nel gruppo trattato con lidocaina non deve essere maggiore di quella osservata nel gruppo di controllo Ipotesi statistica • Una ipotesi statistica è una affermazione circa il valore di un parametro di una distribuzione di probabilità Test statistico • Un test statistico è una procedura volta a saggiare la verità o falsità di una ipotesi statistica. • E’ costruito secondo il ragionamento per assurdo (se A è falso allora B). • La strategia fondamentale nel test d’ipotesi consiste nel misurare quanto è distante il valore osservato di una statistica campionaria dal valore ipotizzato. • Se la distanza è grande concluderemo che il valore ipotizzato è incompatibile con i dati osservati e saremo portati a rifiutare l’ipotesi. • Per valutare la grandezza della distanza terremo in conto della variabilità delle osservazioni (2) e della dimensione del campione (n) • In generale se la statistica campionaria osservata è a più di due errori standard dal valore ipotizzato siamo portati a rifiutare l’ipotesi. Esempio • Il peso medio alla nascita di 78 neonati deceduti per SIDS era di 2994 gr. La deviazione standard del peso alla nascita nella popolazione è di 800 gr. , l’errore standard è pertanto 800/78=90.6 gr. • Ci si chiede se i bambini con SIDS hanno peso medio alla nascita diverso dalla media della popolazione (3300 gr.) Esempio (segue) • La distanza tra 2994 e 3300 è pari a 306 gr. • L’errore standard è 90.6 gr. Per cui la distanza osservata è a 306/90.6=3.38 errori standard. • Concluderemo che i dati osservati sono incompatibili con l’ipotesi che il peso medio alla nascita dei bambini con SIDS sia uguale a quello della popolazione. Esempio (Lidocaina trial) • 7/110 = 6.36 % vs 3/106 = 2.83 % sono una differenza di 3.53 % , con un campione totale di 216 soggetti e 10 decessi e una percentuale di decessi totale di 4.63 % ; err.standard (0.0463 x (1 – 0.0463) / 216 ) = 0.0143 • La distanza osservata in unità di err.standard è 0.0353/0.0143 = 2.469 • Concludiamo che i dati osservati non supportano l’ipotesi di eguale rischio di morte nei due gruppi Commenti • La distanza è stata espressa in unità pari all’errore standard. In modo equivalente possiamo associare un valore di probabilità per valori più estremi di quello osservato. Nel caso gaussiano a 1.96 corrisponde una probabilità (area) del 2.5% Commenti (segue) • Se, prima di eseguire il test, avessimo deciso di non rifiutare l’ipotesi se il valore della statistica campionaria fosse caduto entro due errori standard dal valore ipotizzato, allora avremmo suddiviso lo spazio campionario della nostra statistica in tre regioni. Definizione 1 • L’ipotesi nulla specifica un determinato valore per un parametro della popolazione Definizione 2 • La regione di rifiuto consiste nell’insieme di tutti i valori della statistica test per i quali l’ipotesi nulla viene rifiutata. I limiti della regione sono definiti i valori critici (soglia/e) Definizione 3 • L’errore di primo tipo si verifica quando l’ipotesi nulla viene rifiutata pur essendo vera. Definizione 4 • L’ipotesi alternativa specifica un determinato valore per un parametro della popolazione da considerarsi quando l’ipotesi nulla viene rifiutata. Definizione 5 • L’errore di secondo tipo si verifica quando l’ipotesi nulla NON viene rifiutata pur essendo FALSA. Definizione 6 • La potenza di un test è la probabilità di rifiutare l’ipotesi nulla quando essa è falsa. Definizione 7 • Il valore p nel contesto del test di ipotesi è il valore di probabilità in base al quale, qualora risulti inferiore ad , l’ipotesi nulla è rifiutata, oppure, qualora risulti maggiore di , non rifiutata. Notazioni • L’ipotesi nulla è indicata con H0 l’ipotesi alternativa con Ha o H1 • La probabilità di errore di primo tipo è indicata con e la probabilità di errore di secondo tipo con . La potenza è perciò Potenza 1 Formalizzazione Decisione Normale Diverso Stato di natura peso bambini SIDS Normale Diverso Corretta (1-) Errore II () Errore I () Corretta (1-) L’ipotesi nulla e quella alternativa possono essere scritte nel modo seguente: H 0 : gr. H a : gr. Le regioni di rifiuto e non rifiuto derivano dalla scelta sulla dimensione della distanza. Supponiamo di lasciare il valore “2 errori standard”, allora la regione di rifiuto sarà delimitata da 3300 2 90.6 3300 181 In termini di probabilità di errore di primo tipo: Pr I 1 Pr 3119 Y 3481 3481 3300 3119 3300 1 Pr Z 90.6 90.6 1 Pr 2 Z 2 0.0456 Mentre la probabilità di errore di secondo tipo sarà calcolabile solo avendo specificato un valore per l’ipotesi alternativa. Supponendo Ha:=3000gr. Abbiamo: Pr II 1 Pr 3119 Y 3481 3481 3000 3119 3000 1 Pr Z 90.6 90.6 1 Pr 1.31 Z 5.31 0.095 • La potenza è pertanto 1-0.095=0.905 • Queste valutazioni vengono fatte a priori, se i bambini con SIDS avessero peso medio alla nascita di 3000 gr. Allora un campione di solo 78 bambini avrebbe una potenza di crica il 90% di mettere in evidenza questa differenza (3000-3300) Schema riassuntivo H0:=3300gr. =800gr. (noto) Ha:=3000gr. n=78 Regione di rifiuto:±2 errori standard da 3300gr =0.0456 =0.095 1- =0.905 Si osserva Y 2994 quindi si rifiuta H0 • Di solito si specifica a priori il valore (0.05, 0.01, 0.001). E’ chiamato il livello di significatività • L’ipotesi alternativa può essere direzionale o no. A queste opzioni corrispondono test a una o due code. Queste dipendono dalle condizioni sperimentali.