ANALISI STATISTICA DI DATI CAMPIONARI Docente: Elisa Bianchini Centro di Coordinamento Sperimentazioni Cliniche U.O. Biostatistica Presidio Villa delle Rose Via Cosimo il Vecchio, 2 Firenze Tel:055/32 69 79 47 [email protected] DALLA LEZIONE PRECEDENTE… .. Lo scopo di una indagine è quello di produrre statistiche, ovvero descrizioni riassuntive di carattere quantitativo, riguardanti il collettivo di interesse …Nel caso di indagini campionarie l’obiettivo è quello di fare “inferenza” dal campione alla popolazione … Nella fase di astrazione dopo aver fissato le caratteristiche dell’indagine, in base agli obiettivi che questa si pone, è necessario fissare anche le modalità di analisi dei dati che verranno raccolti durante la fase di rilevazione …. Ai fini della pianificazione delle analisi è necessario conoscere il tipo di variabili che si intendono studiare, la loro classificazione e la loro distribuzione teorica …. L’obiettivo (o gli obiettivi) dell’indagine determina inoltre quali sono le metodologie di analisi adatte al suo raggiungimento …. La variabilità casuale insita in molti fenomeni fa si che quando si conducono delle indagini campionarie le statistiche campionarie ottenute siano affette da imprecisione IL PROCEDIMENTO INFERENZIALE …UN PO’ DI TERMINOLOGIA STATISTICA DESCRITTIVA: Insieme di dati statistici di sintesi di osservazioni ottenuti con l’intento di descrivere un determinato fenomeno (Tabelle, grafici e indici numerici) STATISTICA INFERENZIALE: Insieme delle operazioni e dei ragionamenti compiuti dal ricercatore per predire alcune caratteristiche(parametri) di una popolazione, non interamente esplorabile, attraverso la selezione da questa di un sotto insieme casuale di unità (campione) PARAMETRO: Valore assunto (θ) da una caratteristica misurata a livello di popolazione (totale, media, varianza, proporzione, correlazione,…) STIMATORE: si dice stimatore qualunque statistica T(X1,X2,…,Xn) , funzione degli elementi campionari, le cui determinazioni vengono utilizzate per ottenere una misura (stima puntuale) del parametro incognito θ . Quindi uno stimatore è una variabile casuale e possiede pertanto una distribuzione, valore atteso, varianza e così via …UN PO’ DI TERMINOLOGIA STIMA (STATISTICA): In senso stretto, è particolare valore ottenuto dall’applicazione di uno stimatore in una indagine o in un esperimento statistico. Il termine è usato per indicare anche l’insieme delle regole attraverso le quali è stato ottenuto quel particolare valore, ovvero lo stimatore stesso. La stima può riguardare un parametro, e in tal caso si parla di "stima puntuale", o un intervallo, e allora si parla di "stima intervallare". VERIFICA D’IPOTESI: Processo decisionale, basato sulla verifica di ipotesi statistiche con la realtà osservata, che porta ad accettare o rifiutare un’ipotesi (statistica) fissata sul valore dei parametri o sulla forma di una legge di distribuzione di una popolazione. ERRORE CAMPIONARIO: Differenza tra la stima e il corrispondente valore che si sarebbe ottenuto esaminando la totalità delle unità statistiche della popolazione. Si verifica giacché si osserva solo una parte delle unità della popolazione. L’errore diminuisce in valore all’aumentare della numerosità campionaria LA STIMA DEI PARAMENTRI LO SCOPO DELL’INFERENZA E’ QUELLO DI OTTENERE INFORMAZIONI SU UNA POPOLAZIONE DA CUI UN CAMPIONE E’ STATO ESTRATTO. L’INFERNZA SUI PARAMETRI PUO’ ESSERE FATTA ATTRAVERSO: - STIMA PUNTUALE - STIMA PER INTERVALLI - LA VERIFICA D’ IPOTESI Si formula una ipotesi riguardo al valore del parametro incognito e si verifica se l’ipotesi è supportata o meno dai dati. L’obiettivo è arrivare ad una decisione sottoforma di si/no riguardo a certe caratteristiche della popolazione) STIMA PUNTUALE Determina un valore numerico per il parametro a partire dal campione Quando si esegue l'esperimento e si osservano i dati, il valore osservato dello stimatore (che è un numero) è la stima puntuale del parametro Solitamente si usa • la media campionaria per stimare la media della popolazione • la varianza campionaria per stimare la varianza della popolazione • la frequenza relativa di successo (proporzione) per stimare la probabilità di successo • la differenza tra due medie campionarie per stimare la differenza tra due valori medi a livello di popolazione • rapporti tra probabilità osservate per la stima dell’associazioni tra caratteri legati da una relazione causa effetto STIMA PER INTERVALLO Tale procedura di stima determina un set di valori a partire dal campione che con una certa probabilità “(1-α)%” contiene il parametro incognito. “(1-α)%” indica il livello di confidenza, l’intervallo è detto intervallo di confidenza Gli estremi dell’intervallo dipendono dal campione estratto, quindi sono casuali Un intervallo di confidenza è quindi un insieme di valori plausibili per il parametro incognito sulla base dell’evidenza empirica. Attenzione: il livello di confidenza rappresenta il grado di affidabilità della procedura, non il grado di affidabilità del risultato corrispondente al singolo campione estratto. Generalmente si usa come livello di confidenza il 95% (α =5%) SIGNIFICATO DELLA STIMA PER INTERVALLO Ripetendo l’operazione di stima su più campioni, potrebbe capitare la cosa seguente Valore del parametro AMPIEZZA DELL’INTERVALLO L’ampiezza dell’intervallo è molto rilevante. Quanto più l’intervallo è stretto, tanto maggiore è il grado di precisione che caratterizza lo strumento statistico utilizzato. L’ampiezza dell’intervallo dipende quindi da • α : al diminuire di α (al crescere del livello di confidenza (1- α) l’ampiezza dell’intervallo aumenta • dalla variabilità del fenomeno studiato: al crescere della variabilità , cresce anche l’incertezza e quindi l’ampiezza dell’intervallo aumenta • n: al crescere di n aumenta la quantità di informazione disponibile e quindi l’ampiezza dell’intervallo diminuisce L’INTERVALLO DI CONFIDENZA PER LA MEDIA L’intervallo di confidenza per la stima della media di una distribuzione Normale a varianza incognita a livello di confidenza 1 − α ha la forma seguente: VALORE DELLA DISTRIBUZIONE T DI STUDENT con n-1 gradi di libertà ossia gli estremi dell’intervallo sono dati da S = l’errore standard, rappresenta l’unità di misura dell’errore casuale di stima commesso utilizzando la media campionaria come stimatore della media della popolazione campionata GRADI DI LIBERTA’: numero di informazioni indipendenti, relative al paramentro che si intende stimare, contenute nel campione. Mentre per la media abbiamo n osservazioni indipendenti, per stimare la varianza il numero di tali informazioni si riduce a n-1. La media campionaria è quel valore che annulla la somma degli scarti dei singoli dati campionari da se stessa. Quindi usati gli n valori per stimare la media, una volta che sono noti gli (n-1) scarti dalla media, l’ultimo non è informativo in quanto è vincolato a valere n 1 y n y ( yi y ) i 1 ESEMPIO Supponiamo di voler fare inferenza sul peso medio di neonati di 39 settimane di gestazione e di sesso maschile . Sapendo che il peso alla nascita è una v.c. Gaussiana, con media incognita (µ) e d.s. (σ) nota pari a 440 gr, si calcoli l’intervallo al 95% per µ a partire da un c.c.s estratto dalla popolazione, di numerosità 16. n = 16 Media Campionaria = 3434 gr s = 535 gr Limite superiore dell’ I.C. 95% = 3434 +2.12 *(535/√16) = 3719 Limite inferiore dell’ I.C. 95% = 3434 – 2.12 *(535/√16) = 3149 Intervallo di confidenza al 95%: [3149 - 3719] Il peso medio alla nascita dei neonati maschi alla 39° settimana di gestazione è un valore compreso tra 3149 e 3719. La probabilità che tale affermazione sia vera è pari a al 95% SIGNIFICATO DI UN I.C. AL 95% Dire che siamo confidenti al 95% che l’I.C. calcolato comprenda µ significa che: •SE SELEZIONIAMO 100 Campioni casuali dalla popolazione ed utilizziamo questi campioni per calcolare 100 diversi intervalli di confidenza per µ, circa 95 comprenderanno la media reale della popolazione, 5 no. •Si ricordi che lo stimatore Xmed è una variabile casuale, mentre µ è una costante, per cui l’I.C. è casuale ed ha una probabilità del 95% di contenere µ PRIMA che il campione sia selezionato. •Una volta estratto il campione, µ può essere compresa o meno nell’intervallo e dicendo che lo è, fissando il livello di confidenza al 95%, potremmo sbagliarci 5 volte su 100 Estrazione di 50 campioni di numerosità 20 da una distribuzione gaussiana con µ=0 e δ=1. Le barre rappresentano gli intervalli di confidenza al 95% per tutte le 50 medie campionarie calcolate. Dati i 50 campioni dell’esempio seguente, osserviamo che soltanto in tre casi (6% dei campioni) l’intervallo di confidenza non comprende la vera media di popolazione. I.C. PER UNA PROPORZIONE In modo analogo a quanto visto per la media, otteniamo il seguente intervallo per la probabilità p (proporzione) p Z / 2 p(1 p) , p Z / 2 n p(1 p ) n Z α/2 è il valore che delimita un’area di α/2 nella coda superore della distribuzione normale standardizzata ESEMPIO Si consideri di voler fare inferenza sulla distribuzione della sopravvivenza di a 5 anni dei pazienti al disotto dei 40 anni ai quali è stato diagnisticato un cancro al polmone. Questa distribuzione ha una media della popolazione p non nota. In un campione casuale di 52 pazienti, solo 6 sopravvivono a 5 anni, pertanto p =6/52 =0.115 STIMA PUNTUALE Dato che la dimensione del campione è sufficientemente grande per giustificare l’uso dell’approssimazione alla normale l’I.C. al 95% per p è ottenuto nel seguente modo (0.115-1.96√0.115((1-0.115))/52, 0.115-1.96√0.115((1-0.115))/52) = (0.028,0.202) STIMA INTERVALLARE …UN ESEMPIO DIVERTENTE! LA VERIFICA DELLE IPOTESI Il test delle ipotesi consente di verificare se, e quanto, una determinata ipotesi (di carattere biologico, medico, economico,...) è supportata dall’evidenza empirica. Il fenomeno studiato deve essere rappresentato mediante una distribuzione di probabilità e l’ipotesi sulle caratteristiche del fenomeno studiato è tradotta in ipotesi su uno o più parametri della distribuzione (test parametrico) Esempi di ipotesi: - La media ottenuta dal campione d’indaginè può essere uguale ad un certo valore fissato? - La differenza di peso in due gruppi trattati con media diversa è diversa da zero? - La proporzione di malati di tumore al polmone fumatori è diversa da quella di non fumatori? IL TEST D’IPOTESI LE IPOTESI: Vengono definite due ipotesi H0 IPOTESI NULLA H1 IPOTESI ALTERNATIVA Le ipotesi sul valore del parametro possono essere semplici: è specificato un solo valore (per es. μ = μ0) composte: sono specificati più valori unidirezionali (per es. μ > μ0) bidirezionali (per es. μ ≠μ0) L’ipotesi nulla è solitamente semplice, mentre l’ipotesi alternativa composta. IL TEST D’IPOTESI (2) LA REGOLA DI RIFIUTO: Prima di conoscere i dati del campione, viene definita una regola per il rifiuto o meno dell’ipotesi nulla. In genere, la regola consiste nel calcolare sui dati del campione una statistica test. Se la statistica test è inferiore ad una soglia stabilita, non si rifiuta H0. Se la statistica test calcolata supera la soglia, si rifiuta H0. La regola di decisione consiste quindi nel suddividere lo spazio campionario C in due regioni, C0 regione di accettazione, C1 regione di rifiuto sulla base dei possibili valori della statistica. LE CONCLUSIONI: Quando si verifichi che dati provenienti da un certo contesto, e rilevati in accordo con un sistema definitorio dato, sono conformi ad n’ipotesi formulata, non significa che l’ipotesi è provata, bensì che ha superato una prova. Si dice che la teoria da cui l’ipotesi discende è stata corroborata. COME AGISCE L’ERRORE DI CAMPIONAMENTO(1) Si possono commettere due tipi di errore utilizzando un test di ipotesi: Stato di Natura Azioni H0 è vera Si accetta H0 Si rifiuta H0 H0 è falsa DECISIONE CORRETTA Si commette Errore di II tipo Si commette Errore di I tipo DECISIONE CORRETTA COME AGISCE L’ERRORE DI CAMPIONAMENTO(2) Errore di I tipo: rifiuto un’ipotesi quando essa è vera Errore di II tipo: accettare un’ipotesi quando è falsa Probabilità di errore di I tipo: α = P(rifiutare H0|è vera H0) Probabilità di errore di II tipo: β = P(accetto H0|è falsa H0) La “regola” di rifiuto deve essere costruita in modo tale che α e β siano piccole. Dato che la minimizzazione contemporanea di α e β non è possibile, solitamente si fissa un α accettabile (1%, 5%,10%) e si minimizza β (max 20-30%). α viene anche chiamato livello di significatività LA POTENZA DEL TEST La potenza del test è data da 1 − ß = P(RIFIUTARE H0|è falsa H0) Indica la capacità del test di individuare l’ipotesi alternativa quando è vera. ß minimo (1- ß) massimo Quando si costruisce il sistema di ipotesi si ricerca quella suddivisione dello spazio campionario che rende massima la potenza del test. ESEMPIO DI TEST SU UNA MEDIA Per (1)giustificare la loro richiesta di aumento di stipendio, gli impiegati di una ditta di vendita per corrispondenza affermano di riuscire ad evadere, mediamente un ordine di acquisto ogni 13 minuti. Il direttore generale della ditta ha effettuato una verifica casuale sui tempi di evasione di 400 ordini registrando un tempo medio di evasione di 14 minuti e una variabilità, misurata in termini di varianza corretta, di 100 minuti. Cosa si può concludere riguardo alle richieste degli impiegati se si fissa una probabilità di errore di I tipo (livello di significatività) del 5%? Si deve sostanzialmente verificare se la media rilevata nel campione differisce, al livello di significatività del 5%, da quella dichiarata dagli impiegati. Il problema di verifica d'ipotesi è formalizzato nei termini seguenti ESEMPIO DI TEST SU UNA MEDIA (2) La regola di decisione è quella di rifiutare l'ipotesi H0 se il valore assunto (valore empirico) dalla v.c. test nello specifico campione è ≥ 1,65, di accettare se il valore empirico è < 1,65. La variabile casuale test di riferimento ha, nell'universo dei campioni, distribuzione del tipo t di Student con n-1 gradi di libertà Poiché si rifiuta l'ipotesi H0 concludendo che tempo medio richiesto per evadere un ordine è superiore ai 13 minuti dichiarati dagli impiegati. ESEMPIO DI TEST SUL CONFRONTO TRA PROPORZIONI (1) ESEMPIO DI TEST SUL CONFRONTO TRA PROPORZIONI (2) IL LIVELLO DI SIGNIFICATIVITA’ E P-VALUE Test a livello di significatività del 5% Supponiamo che sia vera l’ipotesi nulla. Se si estraggono più campioni, il 5% di questi mi porterà all’erroneo rifiuto dell’ipotesi nulla. La probabilità di rifiutare l’ipotesi nulla quando essa è vera per puro effetto del caso (variabilità campionaria) è pari a 0.05. P-value del test. si dice P-value la probabilità, supponendo vera H0, che la statistica test assuma valori “più estremi” di quello calcolato sullo specifico campione di cui disponiamo. osservato. Minore è il p-value, meno l’ipotesi nulla è supportata dai dati. In genere, se il p-value è minore di 0.05 rifiuto l’ipotesi nulla. INTERVALLO DI CONFIDENZA E TEST Esiste una stretta corrispondenza tra intervallo di confidenza al 95% e test di ipotesi a livello di significatività del 5%. Esempio: test sulla media Se decido di rifiutare l’ipotesi nulla quando il valore del parametro da essa specificato non è interno all’intervallo di confidenza al 95% per la media campionaria, sto rifiutando l’ipotesi nulla al livello di significatività del 5%. ESEMPIO Nell’esempio del peso medio dei neonati di 39 settimane di gestazione abbiamo trovato che l’IC al 95% per la media era [3218.5 - 3649.5] Qualsiasi valore di μ che giace in questo intervallo porterebbe ad un risultato non significativo del test, ovvero l’ipotesi nulla non sarebbe rifiutata. H0: μ=3230 H1: μ≠3230 NON RIFIUTO H0 Al contrario, per qualsiasi valore di μ che si trovi al di fuori dell’intervallo l’ipotesi nulla sarebbe rifiutata ad un livello α = 0.05 H0: μ=3200 H1: μ≠3200 RIFIUTO H0 LA DIMENSIONE DEL CAMPIONE Quanto deve essere grande un campione, per potere fornire risultati utili e significativi? Le tipologie più importanti di informazioni che più spesso si vogliono ottenere da un'indagine possono essere principalmente di due tipi: - la stima di una media, ovvero dell'ordine di grandezza del fenomeno che stiamo studiando: per esempio, il numero medio di volte in cui gli utenti ricorrono a un determinato servizio. La domanda da porre sarà più o meno questa: "Quante volte, nell’ultima settimana, lei o qualcun altro della sua famiglia ha utilizzato il servizio xy?". - la stima di una proporzione, ossia una percentuale: per esempio, la quota di famiglie che in un certo periodo hanno utilizzato un certo servizio. La domanda da fare potrebbe essere questa: "Lei o qualcun'altro della sua famiglia ha utilizzato il servizio xy negli ultimi sei mesi?". La distinzione tra i due parametri (media e proporzione) é importante, perché alcune fasi di calcolo della dimensione del campione sono differenti nelle due situazioni. I FATTORI DA CONSIDERARE Su cosa ci si deve basare per la scelta della dimensione campionaria? • Dipende dallo scopo dell’analisi statistica: Stima Voglio stime con precisione “accettabile”, la determinazione della dimensione campionaria si baserà sugli intervalli di confidenza relativi al parametro da stimare Test d’ipotesi Voglio test con errori di primo e secondo tipo “accettabili” la determinazione della dimensione campionaria si baserà sulla funzione di potenza del test relativo al paramentro di interesse. • Dalla varianza del carattre nella popolazione IL PROCEDIMENTO DA SEGUIRE Nella realtà operativa, la scelta dell'ampiezza di un campione scaturisce da un compromesso tra le esigenze di precisione e di sicurezza dei risultati da un lato, le necessità di contenere i costi e i tempi di svolgimento dell'indagine dall'altro. Il procedimento corretto da seguire per dimensionare un campione parte dalla individuazione della dimensione dell'universo di interesse, e dalla scelta del livello fiduciario e dell'errore di campionamento che si intendono accettare. CALCOLO DELLA DIMENSIONE DEL CAMPIONE PER LA STIMA DI UNA MEDIA Quando l’obiettivo dell’indagine è quello di fare inferenza su una media di un carattere, attraverso l’utilizzo di un test d’ipotesi, la dimensione adeguata campionaria si ottiene applicando la seguente formula z / 2 z n 1 0 2 CALCOLO DELLA DIMENSIONE DEL CAMPIONE PER LA STIMA DI UNA PROPORZIONE Quando l’obiettivo dell’indagine è quello di fare inferenza su una proporzione, attraverso l’utilizzo di un test d’ipotesi, la dimensione adeguata campionaria si ottiene applicando la seguente formula z / 2 p0 (1 p0 ) z n p1 p0 p1 (1 p1 ) Dove p0 è la proporzione sotto H0 e p1 è la proporzione sotto H1 2