L’inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione. Due forme di inferenza statistica sono: la stima il test di ipotesi La popolazione statistica è definita come l’insieme di tutte le possibili unità statistiche, sulle quali possiamo eseguire delle misure. Essa può perciò essere infinita. Concetto (frequentista) di probabilità Se un esperimento casuale è ripetuto un numero infinito di volte, la frequenza relativa di un certo risultato converge, con probabilità = 1, ad un unico limite fisso. (Legge dei grandi numeri) Si potrebbe allora dire che la probabilità di quel certo risultato è tale limite, se questa definizione non fosse circolare. Legge dei grandi numeri: in generale stabilisce che più il campione è grande, più è probabile che la media aritmetica campionaria approssimi la media della popolazione. Concetto (Bayesiano) di probabilità Secondo alcuni statistici, è possibile assegnare una probabilità ad un evento, anche quando non si dispone di una frequenza relativa che ce ne possa suggerire il valore. In questo caso la probabilità è desunta dall’esperienza di chi l’assegna, anche se tale esperienza non è formalmente costituita da una sequenza di esperimenti casuali. Assiomi di probabilità 1. 0 P A 1 A 2. [ A B Ø] [ P A B P A PB] Legge della somma 3. P A B P A PB | A Legge del prodotto Prevalenza di infezione da Helicobacter pylori in bambini di età pre-scolare, a seconda della presenza di ulcera nella madre Madre affetta Infezione da H.pylori Sì No Sì 6 112 No 16 729 Totale 22 841 Brenner H, Rothenbacher D, Bode G, Adler G, Parental history of gastric or duodenal ulcer and prevalence of Helycobacter pylori infection in preschool children: population based study.BMJ 1998; 316:665. Verifica della validità degli assiomi, sui dati di Brenner et al. P(HB) = P( HB madre affetta) + P( HB madre non affetta) 118/863 = 6/ 863 + 112/863 Legge della somma P (HB madre affetta) = P( HB | madre affetta) • P(madre affetta) 6/863 = 6/22 • 22/ 863 Legge del prodotto Variabili casuali Le variabili casuali (o stocastiche o aleatorie) sono variabili numeriche, che assumono valori diversi a caso. Variabili casuali discrete Non possono assumere tutti i valori in alcun intervallo. Per esempio, il numero di " teste " osservato dopo il lancio di due monete, assumerà valore 0, 1, o 2 ma non 1,75. Variabili casuali continue Possono assumere tutti i valori in un certo intervallo. Perciò, hanno un’infinità di valori possibili tra due valori qualunque. Una prova di Bernouilli è un esperimento casuale con due soli esiti possibili, denominati “successo” e “insuccesso”. Non è importante quale di questi esiti sia considerato "successo "- questo è arbitrario – ma, una volta fatta la scelta, essa deve essere mantenuta per tutto il corso dei calcoli. La probabilità di successo è costante Il numero totale di successi X osservato in una serie di n prove di Bernouilli indipendenti è una variabile casuale binomiale. Distribuzione Binomiale Le probabilità associate con tutti i possibili valori di una variabile casuale binomiale formano una distribuzione binomiale. La distribuzione binomiale descrive una famiglia di variabili casuali, ogni membro della quale è identificato dai valori dei parametri della distribuzione stessa: n il numero di prove indipendenti π la probabilità di successo in ciacuna prova La notazione usata per indicare che una variabile casuale X è binomiale è la seguente: X ~ B(n, π) (si legge: " X è una variabile casuale binomiale con parametri n e π“). Il valore atteso di una variabile binomiale casuale è la media d’infinite sue realizzazioni. Può essere calcolato con la formula: E(X) nπ La varianza (s²) di una variabile binomiale casuale quantifica la dispersione d’infinite sue realizzazioni . La formula per la varianza di una variabili binomiale è: s 2 nπ(1-π) 0.00 0.15 0.30 0.45 Probabilità Diagramma a barre della distribuzione binomiale di probabilità con parametri n = 4 e = 0,75 0.422 0.316 0.211 0.047 0.004 0 1 2 3 Numero di "successi" 4 Diagramma della funzione FX(x) = P(X x), X è una variabile binomiale con parametri n = 4 e = 0,75. 0.0 0.2 0.4 0.6 0.8 1.0 Probabilità cumulata FX(x) si chiama funzione di distribuzione di probabilità cumulata. 0 1 2 3 Numero di "successi" 4 Distribuzione di campionamento della media aritmetica: È la distribuzione di frequenza delle medie campionarie, che si otterrebbero da ripetuti campioni indipendenti ciascuno di dimensione n, estratti a caso dalla popolazione . Stimatore non distorto Produce una stima, il cui valore atteso è uguale al parametro che si vuole stimare. Per esempio,x (media campionaria) è uno stimatore non distorto di m (media dell’intera popolazione), perché il valore atteso della media campionaria è uguale alla media della popolazione. Aumentando la dimensione del campione, la distribuzione di campionamento tende a restringersi intorno alla media della popolazione. Questo è un aspetto della legge dei grandi numeri, che afferma che la media campionaria tende con probabilità 1 al valore atteso della variabile casuale (media della popolazione), quando la dimensione campionaria tende ad infinito. L’errore standard della media (ESM o ES o sx) è: ESM s n s rappresenta la deviazione standard della popolazione e n la dimensione campionaria. ESM tende a 0 al crescere di n, perciòx è una stima consistente di m. La media aritmetica campionaria è una stima non distorta consistente la più efficiente (con la minore varianza, a parità di n) della media aritmetica della popolazione Intervallo di confidenza: è un intervallo, all’interno del quale si trova il parametro, che si desidera stimare, con probabilità uguale al livello di confidenza dell’intervallo stesso. •IV.A.6.c. Statistics •Describe statistical methods with enough detail to enable a knowledgeable reader with access to the original data to verify the reported results. When possible, quantify findings and present them with appropriate indicators of measurement error or uncertainty (such as confidence intervals). Avoid relying solely on statistical hypothesis testing, such as the use of P values, which fails to convey important information about effect size. References for the design of the study and statistical methods should be to standard works when possible (with pages stated). Define statistical terms, abbreviations, and most symbols. Specify the computer software used. Numero di pazienti con problemi respiratori tra i trattati con Terbinafine o placebo gruppo di trattamento Problemi respirarori Terbinafine placebo presenti 5 0 assenti 51 29 Totale 56 29 Goodfield MJD,Andrew L,Evans EGV Short-term treatment of dermatophyte onchomyosis with terbinafine,.BMJ 1992; 304:1151-4. Intervallo di confidenza al 95% per la differenza fra le proporzioni di disturbi respiratori fra i pazienti trattati con terbinafine e placebo -0,012 ; 0,190 Nota bene: la stima puntuale della differnza di proporzioni vale 0,09 (Calcolo eseguito con ) I più semplici intervalli di confidenza sono simmetrici intorno alla stima puntuale del parametro da stimare Caso particolare: Intervallo di confidenza per m quando s è conosciuto P[x - 1.96 ESM < µ < x 1.96 ESM] = 0,95 L’origine dei valori 1,96 diventerà chiara, dopo avere fatto conoscenza con il modello gaussiano La distribuzione gaussiana (chiamata anche normale) è una distribuzione di probabilità continua, simmetrica, unimodale e caratterizzata da una forma a campana. Si indica con X N(m, s) una qualunque variabile casuale, che segue la distribuzione gaussiana con media m e deviazione standard s. Questa particolare gaussiana (denominata standard) ha media = 0 e deviazione standard = 1 Le curve di densità di probabilità hanno le proprietà seguenti: L’area totale sotto la curva di densità è uguale a 1 L’area sotto la curva (AUC) tra 2 punti qualunque, x1 ed x2, è la probabilità che la variabile casuale assuma un valore nell’intervallo tra essi compreso. Da questo si deduce che la probabilità di un intervallo di larghezza 0, coincidente con un singolo valore, è uguale a 0 Area = 0,95 Area = 0,025 Area = 0,025 0.0 0.1 0.2 0.3 0.4 Origine dei valori 1,96 usati per il calcolo dell’intervallo di confidenza -3 -2 -1,96 -1 0 1 2 1,96 Densità gaussiana standard 3 Quando la deviazione standard della popolazione non è conosciuta una stima dell’errore standard della media (SESM) è: s SESM s x n Dove s rappresenta la deviazione standard campionaria e n la dimensione campionaria Un altro caso particolare: Intervallo di confidenza per m quando s è sconosciuto si utilizza la deviazione standard campionaria, s, come stima di s e si calcola un intervallo di confidenza al (1 - a) 100% per m con: x ± tn-1, 1-a/2 SESM dove tn-1, 1-a/2 è il quantile, definito dalla frazione (1 – a/2), della distribuzione t con n -1 gradi di libertà; SESM vale: s /n. 0.1 0.2 0.3 Origine del valore tn-1, 1-a/2 (in questo esempio n-1= 3 e a0,05 Area 0.95 Area 0,025 0.0 Area 0,025 -6 -4 -2 -t3, 1- 0.05/2= -3.18 0 2 4 6 t3, 1- 0.05/2= 3.18 Alcuni possibili usi degli intervalli di confidenza: Stima di Medie e loro differenze Proporzioni e loro differenze Indici “non parametrici” (mediane, quantili, ecc.) Rischi relativi, rischi attribuibili e odds ratio Tassi di incidenza e tassi standardizzati Parametri di modelli lineari e regressione logistica Azzardi e rapporti di azzardi (studi di sopravvivenza) A : Ipotesi nulle ed alternative Utilizziamo la notazione H0 per indicare l’ipotesi nulla ed H1 (o Ha) per indicare l’ipotesi alternativa. H0 corrisponde a “nessuna differenza” diversa da quella che sarebbe ottenuta per puro caso. È l’ipotesi che il ricercatore spera di poter rifiutare. H1 è l’ipotesi che il ricercatore spera di poter dimostrare, solitamente è l’esatto contrario di H0. La statistica test è una quantità che rispecchia i dati campionari, che, quando H0 è vera, ha una distribuzione (o densità) di probabilità completamente nota. Essa è perciò lo strumento per determinare il P-value. P-value E’ la probabilità di ottenere dati campionari altrettanto o meno probabili di quelli ottenuti, allorché H0 è vera. P-value può perciò essere considerato una misura delle prove fornite dai dati contro l’ipotesi nulla, infatti esso risponde alla domanda seguente: “Se l’ipotesi nulla fosse vera, quale sarebbe la probabilità di osservare questo campione od uno ancora più improbabile?” Più P-value è piccolo, migliore è l’evidenza contro H0 Livello di significatività Prima di fare il test, stabiliamo il valore massimo accettabile della probabilità di rifiutare erroneamente H0, indicato con alfa (a). a è solitamente posto uguale a 0,05 o 0,01. Conclusione della procedura di test Per trarre delle conclusioni si calcola, tramite la statistica test, il P-value. Se P è inferiore o uguale a α, H0 è rifiutata Se P è superiore a a, H0 non è rifiutata per mancanza di prove contrarie Questa procedura assicura che la probabilità di rifiutare erroneamente H0 sia a. Il P-value può essere interpretato come il valore minimo di α che si deve scegliere per potere rifiutare H0, in presenza dei dati campionari ottenuti. Ipotesi nulla Condizioni dei dati Uguaglianza della media di una popolazione ad un valore prefissato - Osservazioni indipendenti - Variabili approssimativamente gaussiane Test “t” per un solo campione Uguaglianza delle medie di due variabili misurate sugli stessi soggetti o ciascuna su uno dei due elementi di una coppia - I soggetti misurati due volte oppure le coppie di osservazioni sono indipendenti fra loro -Differenza fra le due variabili approssimativamente gaussiana Test “t” per dati appaiati Uguaglianza delle medie di due popolazioni - Tutte le osservazioni sono indipendenti - Le due popolazioni hanno la stessa varianza -Variabili approssimativamente gaussiane Test “t” per campioni indipendenti Uguaglianza delle medie di due popolazioni - Tutte le osservazioni sono indipendenti - Le due popolazioni non hanno la stessa varianza - Variabili approssimativamente gaussiane Test “t” per campioni indipendenti con correzione dei gradi di libertà Test statistico consigliato (Attenzione: se le popolazioni non hanno la stessa varianza, può non essere sensato testare se le medie sono uguali) Ipotesi nulla Condizioni dei dati La distribuzione delle differenze fra le osservazioni rilevate sul medesimo soggetto o su soggetti appartenenti alla stessa coppia, è simmetrica. - I soggetti misurati due volte, o le coppie di osservazioni sono indipendenti fra loro - Differenza fra le due variabili molto lontana dalla distribuzione gaussiana Test non parametrico per dati appaiati (wilcox.test) Uguaglianza delle distribuzioni di probabilità di due popolazioni - Tutte le osservazioni sono indipendenti - Le due popolazioni hanno distribuzioni approssimativamente sovrapponibili salvo per la posizione. - Variabili molto lontane dalla distribuzione gaussiana Test non parametrico per campioni indipendenti. (wilcox.test) Uguaglianza di una proporzione ad un valore prefissato - Osservazioni indipendenti Test esatto per una proporzione basato su modello binomiale (binom.test) Uguaglianza di due proporzioni rilevate in campioni provenienti da due popolazioni, od indipendenza di due variabili categoriche - Osservazioni indipendenti Test chi quadrato Test statistico consigliato Test a una e a due code l’ipotesi nulla e l’ipotesi alternativa possono prendere una di queste 3 forme: “una coda a destra”, “una coda a sinistra, e “due code”. H0: m m0 contro H1: m >m0 H0: m m0 contro H1: m < m0 H0: m = m0 contro H1: m m0 Errori di tipo I (rifiuto di una ipotesi nulla vera) Errori di tipo II (non rifiuto di una ipotesi nulla falsa) Le conseguenze dell’esecuzione di un test statistico d’ipotesi possono essere riassunte come segue: VERITA’ DECISIONE Non rifiutare H0 Rifiutare H0 H0 vera H0 falsa Corretta accettazione di H0 Errore di tipo II Errore di tipo I Corretto rifiuto di H0 Probabilità di errori di I e II tipo P (errore di tipo I) = a P (errore di tipo II) = b Pr (evitare un errore di tipo I) = 1-a Pr (evitare un errore di tipo II)= 1-b “potenza” p 1 e p2 120 110 100 90 80 70 pressione sistolica (mmHg) sistolica (mmHg) Pressione 130 Diagramma di pressione diastolica e sistolica in una popolazione 60 70 80 90 pressione diastolica (mmHg) Pressione diastolica (mmHg) 100 110 110 100 90 80 70 pressione sistolica (mmHg) 120 130 Modello di regressione lineare di pressione sistolica rispetto alla pressione diastolica 60 70 80 90 pressione diastolica (mmHg) 100 110 110 100 90 80 70 pressione sistolica (mmHg) 120 130 Stima e bande di confidenza (in blu scuro) della retta di regressione 60 70 80 90 pressione diastolica (mmHg) 100 110 110 100 90 80 70 pressione sistolica (mmHg) 120 130 Banda di “tolleranza” stimata del modello di regressione (in fucsia) 60 70 80 90 pressione diastolica (mmHg) 100 110 Fattore studiato Variabile dipendente confondente • Modello di regressione lineare semplice: y = a + bx + e • Modello di regressione lineare multipla: y = a + b1x1+ b2x2 + e • Il modello permette di studiare l’effetto della variabile x1 sulla y, al netto dell’azione di x2 y – b2x2= a+ b1x1 + e Se desideriamo aggiungere alla previsione di y (per esempio la glicemia delle nostre pazienti), una quantità b solo per le obese, ma non per le altre pazienti, possiamo aggiungere alla formula della previsione un termine bx, dove x vale 1 quando la formula si applica alle obese, e vale 0 per le altre pazienti. Questo equivale ad inserire la variabile x nel data-base e nel modello di previsione Per rendere una variabile qualitativa in un modello lineare, possiamo usare tante variabili indicatore quante sono le classi della variabile meno una. Per esempio per codificare il gruppo ematico di classi 0, A, B, AB, possiamo usare tre variabili xA, xB, xAB, che hanno le seguenti caratteristiche: xA=1 per i soggetti con gruppo ematico A, e xA= 0 per tutti gli altri xB=1 per i soggetti con gruppo ematico B, e xB= 0 per tutti gli altri xAB=1 per i soggetti con gruppo ematico AB, e xAB= 0 per tutti gli altri Le variabili indicatore sono quantitative: forniscono il conteggio (0 od 1) dei rispettivi gruppi ematici in ogni soggetto La parte sistematica del modello è data dalla seguente equazione E(y | gruppo ematico) = a + bA xA+ bB xB + bAB xAB Visti i valori delle variabili indicatore, per i soggetti appartenenti ai quattro gruppi ematici, l’equazione si riduce alle seguenti quattro espressioni: E(y | gruppo A) = a + bA E(y | gruppo B) = a + bB E(y | gruppo AB) = a + bAB E(y | gruppo 0) = a Dalle equazioni precedenti risulta chiaro il significato dei parametri bA, bB e bAB : bA = E(y | gruppo A) - E(y | gruppo 0) bB = E(y | gruppo B) - E(y | gruppo 0) bAB = E(y | gruppo AB) - E(y | gruppo 0) Modello di analisi della varianza per la “got” con variabili esplicative religione e sesso 65 got cristia na musul mana 40 altro M religione F sesso Pulsazioni 2 Scatterplot e retta di regressione e banda di confidenza Pulsazioni 1 Pulsazioni (seconda rilevazione) Rappresentazione grafica di un modello di analisi della covarianza, comprensivo delle bande di confidenza delle rette di regressione Corsa Riposo Pulsazioni (prima rilevazione) 0.6 0.4 0.2 0.0 frazione di batteri uccisi 0.8 1.0 Diagramma della frazione di batteri uccisi in relazione alla dose usata di farmaco, osservata in numerosi esperimenti 0 1000 2000 3000 dose 4000 5000 6000 Curva logistica di equazione y=exp(a+bx)/[1+exp(a+bx)] (ascissa del flesso = -1, pendenza nel flesso= 0,5) 0.6 0.4 0.2 0.0 sopravvivenza 0.8 1.0 Stima di Kaplan-Meyer della curva di sopravvivenza 0 5 10 anni 15