L’inferenza
statistica consiste nello
attribuire all’intera popolazione, con un grado di
incertezza calcolato, caratteristiche desunte da
un campione.
Due forme di inferenza statistica sono:


la stima
il test di ipotesi
La popolazione statistica è definita
come l’insieme di tutte le possibili
unità statistiche, sulle quali possiamo
eseguire delle misure. Essa può
perciò essere infinita.
Concetto (frequentista) di probabilità
Se un esperimento casuale è ripetuto un numero
infinito di volte, la frequenza relativa di un certo
risultato converge, con probabilità = 1, ad un
unico limite fisso. (Legge dei grandi numeri)
Si potrebbe allora dire che la probabilità di quel
certo risultato è tale limite, se questa definizione
non fosse circolare.
Legge dei grandi numeri: in generale
stabilisce che più il campione è grande, più è
probabile che la media aritmetica campionaria
approssimi la media della popolazione.
Concetto (Bayesiano) di probabilità
Secondo alcuni statistici, è possibile assegnare
una probabilità ad un evento, anche quando non
si dispone di una frequenza relativa che ce ne
possa suggerire il valore. In questo caso la
probabilità è desunta dall’esperienza di chi
l’assegna, anche se tale esperienza non è
formalmente costituita da una sequenza di
esperimenti casuali.
Assiomi di probabilità
1. 0  P A  1 A
2. [ A  B  Ø]  [ P A  B  P A  PB]
Legge della somma
3. P A  B  P A PB | A
Legge del prodotto
Prevalenza di infezione da Helicobacter pylori in bambini di età
pre-scolare, a seconda della presenza di ulcera nella madre
Madre affetta
Infezione da
H.pylori
Sì
No
Sì
6
112
No
16
729
Totale
22
841
Brenner H, Rothenbacher D, Bode G, Adler G, Parental history of gastric or duodenal ulcer and
prevalence of Helycobacter pylori infection in preschool children: population based study.BMJ 1998;
316:665.
Verifica della validità degli assiomi, sui dati di Brenner et al.
P(HB) = P( HB  madre affetta) + P( HB  madre non affetta)
118/863 = 6/ 863 + 112/863
Legge della somma
P (HB  madre affetta) = P( HB | madre affetta) • P(madre affetta)
6/863 = 6/22 • 22/ 863
Legge del prodotto
Variabili casuali
Le variabili casuali (o stocastiche o aleatorie)
sono variabili numeriche, che assumono valori
diversi a caso.
Variabili casuali discrete
Non possono assumere tutti i valori in alcun intervallo.
Per esempio, il numero di " teste " osservato dopo il
lancio di due monete, assumerà valore 0, 1, o 2 ma non
1,75.
Variabili casuali continue
Possono assumere tutti i valori in un certo
intervallo.
Perciò, hanno un’infinità di valori possibili tra
due valori qualunque.
Una prova di Bernouilli è un esperimento casuale
con due soli esiti possibili, denominati “successo” e
“insuccesso”.
Non è importante quale di questi esiti sia considerato
"successo "- questo è arbitrario – ma, una volta fatta
la scelta, essa deve essere mantenuta per tutto il corso
dei calcoli.
La probabilità di successo è costante
Il numero totale di successi X osservato in
una serie di n prove di Bernouilli
indipendenti è una variabile casuale
binomiale.
Distribuzione Binomiale
Le probabilità associate con tutti i
possibili valori di una variabile casuale
binomiale formano una distribuzione
binomiale.
La distribuzione binomiale descrive una
famiglia di variabili casuali, ogni membro della
quale è identificato dai valori dei parametri della
distribuzione stessa:
n il numero di prove indipendenti
π la probabilità di successo in ciacuna prova
La notazione usata per indicare che una variabile casuale X è
binomiale è la seguente:
X ~ B(n, π)
(si legge: " X è una variabile casuale binomiale con
parametri n e π“).
Il valore atteso di una variabile binomiale casuale è la
media d’infinite sue realizzazioni. Può essere calcolato
con la formula:
E(X)  nπ
La varianza (s²) di una variabile binomiale casuale
quantifica la dispersione d’infinite sue realizzazioni .
La formula per la varianza di una variabili binomiale è:
s 2  nπ(1-π)
0.00 0.15 0.30 0.45
Probabilità
Diagramma a barre della distribuzione binomiale di
probabilità con parametri n = 4 e  = 0,75
0.422
0.316
0.211
0.047
0.004
0
1
2
3
Numero di "successi"
4
Diagramma della funzione FX(x) = P(X  x),
X è una variabile binomiale con parametri n = 4 e  = 0,75.
0.0 0.2 0.4 0.6 0.8 1.0
Probabilità cumulata
FX(x) si chiama funzione di distribuzione di probabilità cumulata.
0
1
2
3
Numero di "successi"
4
Distribuzione di campionamento della
media aritmetica:
È la distribuzione di frequenza delle medie
campionarie, che si otterrebbero da ripetuti
campioni indipendenti ciascuno di dimensione n,
estratti a caso dalla popolazione .
Stimatore non distorto
Produce una stima, il cui valore atteso è uguale al
parametro che si vuole stimare.
Per esempio,x (media campionaria) è uno stimatore
non distorto di m (media dell’intera popolazione),
perché il valore atteso della media campionaria è uguale
alla media della popolazione.
Aumentando la dimensione del campione, la
distribuzione di campionamento tende a restringersi
intorno alla media della popolazione. Questo è un aspetto
della legge dei grandi numeri, che afferma che la media
campionaria tende con probabilità 1 al valore atteso della
variabile casuale (media della popolazione), quando la
dimensione campionaria tende ad infinito.
L’errore standard della media (ESM o ES o
sx) è:
ESM 
s
n
s rappresenta la deviazione standard della
popolazione e n la dimensione campionaria.
ESM tende a 0 al crescere di n, perciòx è una stima
consistente di m.
La media aritmetica campionaria è una stima
non distorta
consistente
la più efficiente (con la minore varianza, a parità di n)
della media aritmetica della popolazione
Intervallo di confidenza:
è un intervallo, all’interno del quale si trova il
parametro, che si desidera stimare, con
probabilità uguale al livello di confidenza
dell’intervallo stesso.
•IV.A.6.c. Statistics
•Describe statistical methods with enough detail to enable a
knowledgeable reader with access to the original data to verify the
reported results. When possible, quantify findings and present
them with appropriate indicators of measurement error or
uncertainty (such as confidence intervals). Avoid relying solely
on statistical hypothesis testing, such as the use of P values,
which fails to convey important information about effect size.
References for the design of the study and statistical methods
should be to standard works when possible (with pages stated).
Define statistical terms, abbreviations, and most symbols. Specify
the computer software used.
Numero di pazienti con problemi respiratori tra i
trattati con Terbinafine o placebo
gruppo di trattamento
Problemi
respirarori
Terbinafine
placebo
presenti
5
0
assenti
51
29
Totale
56
29
Goodfield MJD,Andrew L,Evans EGV Short-term treatment of dermatophyte onchomyosis with
terbinafine,.BMJ 1992; 304:1151-4.
Intervallo di confidenza al 95% per la differenza
fra le proporzioni di disturbi respiratori fra
i pazienti trattati con terbinafine e placebo
-0,012 ; 0,190
Nota bene: la stima puntuale della differnza di proporzioni vale 0,09
(Calcolo eseguito con
)
I più semplici intervalli di confidenza sono simmetrici
intorno alla stima puntuale del parametro da stimare
Caso particolare:
Intervallo di confidenza per m quando s è
conosciuto
P[x - 1.96  ESM < µ < x  1.96  ESM]
= 0,95
L’origine dei valori 1,96 diventerà chiara,
dopo avere fatto conoscenza con il modello gaussiano
La distribuzione gaussiana (chiamata anche
normale) è una distribuzione di probabilità continua,
simmetrica, unimodale e caratterizzata da una forma a
campana.
Si indica con X  N(m, s) una qualunque variabile
casuale, che segue la distribuzione gaussiana con
media m e deviazione standard s.
Questa particolare gaussiana (denominata standard)
ha media = 0 e deviazione standard = 1
Le curve di densità di probabilità hanno le proprietà
seguenti:
L’area totale sotto la curva di densità è uguale a 1
L’area sotto la curva (AUC) tra 2 punti qualunque, x1
ed x2, è la probabilità che la variabile casuale assuma
un valore nell’intervallo tra essi compreso. Da questo
si deduce che la probabilità di un intervallo di
larghezza 0, coincidente con un singolo valore, è
uguale a 0
Area =
0,95
Area =
0,025
Area =
0,025
0.0
0.1
0.2
0.3
0.4
Origine dei valori 1,96 usati per il calcolo dell’intervallo di confidenza
-3
-2
-1,96
-1
0
1
2
1,96
Densità gaussiana standard
3
Quando la deviazione standard della
popolazione non è conosciuta una stima
dell’errore standard della media (SESM) è:
s
SESM  s x 
n
Dove s rappresenta la deviazione standard campionaria e n
la dimensione campionaria
Un altro caso particolare:
Intervallo di confidenza per m quando s è
sconosciuto
si utilizza la deviazione standard campionaria, s, come stima
di s e si calcola un intervallo di confidenza al (1 - a) 100%
per m con:
x ± tn-1, 1-a/2  SESM
dove tn-1, 1-a/2 è il quantile, definito dalla frazione (1 – a/2),
della distribuzione t con n -1 gradi di libertà;
SESM vale: s /n.
0.1
0.2
0.3
Origine del valore tn-1, 1-a/2 (in questo esempio n-1= 3 e a0,05
Area
0.95
Area
0,025
0.0
Area
0,025
-6
-4
-2
-t3, 1- 0.05/2= -3.18
0
2
4
6
t3, 1- 0.05/2= 3.18
Alcuni possibili usi degli
intervalli di confidenza:
Stima di
Medie e loro differenze
Proporzioni e loro differenze
Indici “non parametrici” (mediane, quantili, ecc.)
Rischi relativi, rischi attribuibili e odds ratio
Tassi di incidenza e tassi standardizzati
Parametri di modelli lineari e regressione logistica
Azzardi e rapporti di azzardi (studi di sopravvivenza)
A : Ipotesi nulle ed alternative
Utilizziamo la notazione H0 per indicare l’ipotesi
nulla ed H1 (o Ha) per indicare l’ipotesi alternativa.
H0 corrisponde a “nessuna differenza” diversa da
quella che sarebbe ottenuta per puro caso. È l’ipotesi
che il ricercatore spera di poter rifiutare.
H1 è l’ipotesi che il ricercatore spera di poter
dimostrare, solitamente è l’esatto contrario di H0.
La statistica
test è una quantità che
rispecchia i dati campionari, che, quando H0 è
vera, ha una distribuzione (o densità) di
probabilità completamente nota.
Essa è perciò lo strumento per determinare il
P-value.
P-value
E’ la probabilità di ottenere dati
campionari altrettanto o meno probabili
di quelli ottenuti, allorché H0 è vera.
P-value può perciò essere considerato una misura delle
prove fornite dai dati contro l’ipotesi nulla, infatti esso
risponde alla domanda seguente:
“Se l’ipotesi nulla fosse vera, quale sarebbe la
probabilità di osservare questo campione od uno
ancora più improbabile?”
Più P-value è piccolo, migliore è l’evidenza contro H0
Livello di significatività
Prima di fare il test, stabiliamo il valore massimo
accettabile della probabilità di rifiutare erroneamente H0,
indicato con alfa (a).
a è solitamente posto uguale a 0,05 o 0,01.
Conclusione della procedura di test
Per trarre delle conclusioni si calcola, tramite la statistica
test, il P-value.
Se P è inferiore o uguale a α, H0 è rifiutata
Se P è superiore a a, H0 non è rifiutata
per mancanza di prove contrarie
Questa procedura assicura che la probabilità di rifiutare erroneamente H0 sia a.
Il P-value può essere interpretato come il
valore minimo di α che si deve scegliere
per potere rifiutare H0, in presenza dei dati
campionari ottenuti.
Ipotesi nulla
Condizioni dei
dati
Uguaglianza della media
di una popolazione ad un
valore prefissato
- Osservazioni indipendenti
- Variabili
approssimativamente
gaussiane
Test “t” per un solo
campione
Uguaglianza delle medie
di due variabili misurate
sugli stessi soggetti o
ciascuna su uno dei due
elementi di una coppia
- I soggetti misurati due volte
oppure le coppie di
osservazioni sono
indipendenti fra loro
-Differenza fra le due variabili
approssimativamente
gaussiana
Test “t” per dati appaiati
Uguaglianza delle medie
di due popolazioni
- Tutte le osservazioni sono
indipendenti
- Le due popolazioni hanno
la stessa varianza
-Variabili
approssimativamente
gaussiane
Test “t” per campioni
indipendenti
Uguaglianza delle medie
di due popolazioni
- Tutte le osservazioni
sono indipendenti
- Le due popolazioni non
hanno la stessa varianza
- Variabili approssimativamente gaussiane
Test “t” per campioni
indipendenti con correzione
dei gradi di libertà
Test statistico
consigliato
(Attenzione: se le popolazioni non
hanno la stessa varianza, può
non essere sensato testare se le
medie sono uguali)
Ipotesi nulla
Condizioni dei dati
La distribuzione delle differenze fra
le osservazioni rilevate sul
medesimo soggetto o su soggetti
appartenenti alla stessa coppia, è
simmetrica.
- I soggetti misurati due volte, o le
coppie di osservazioni sono
indipendenti fra loro
- Differenza fra le due variabili
molto lontana dalla distribuzione
gaussiana
Test non parametrico
per dati appaiati
(wilcox.test)
Uguaglianza delle
distribuzioni di probabilità
di due popolazioni
- Tutte le osservazioni sono
indipendenti
- Le due popolazioni hanno
distribuzioni approssimativamente
sovrapponibili salvo per la
posizione.
- Variabili molto lontane dalla
distribuzione gaussiana
Test non parametrico
per campioni
indipendenti.
(wilcox.test)
Uguaglianza di una
proporzione
ad un valore prefissato
- Osservazioni
indipendenti
Test esatto per una
proporzione basato su
modello binomiale
(binom.test)
Uguaglianza di due
proporzioni rilevate in
campioni provenienti da
due popolazioni, od
indipendenza di due
variabili categoriche
- Osservazioni
indipendenti
Test chi
quadrato
Test statistico
consigliato
Test a una e a due code
l’ipotesi nulla e l’ipotesi alternativa possono prendere
una di queste 3 forme:
“una coda a destra”, “una coda a sinistra, e “due code”.
H0: m  m0 contro H1: m >m0
H0: m  m0 contro H1: m < m0
H0: m = m0 contro H1: m m0
Errori di tipo I (rifiuto di una ipotesi nulla vera)
Errori di tipo II (non rifiuto di una ipotesi nulla falsa)
Le conseguenze dell’esecuzione di un test statistico
d’ipotesi possono essere riassunte come segue:
VERITA’
DECISIONE
Non
rifiutare H0
Rifiutare H0
H0 vera
H0 falsa
Corretta accettazione
di H0
Errore di tipo
II
Errore di tipo I
Corretto rifiuto
di H0
Probabilità di errori di I e II tipo
P (errore di tipo I) = a
P (errore di tipo II) = b
Pr (evitare un errore di tipo I) = 1-a
Pr (evitare un errore di tipo II)= 1-b  “potenza”
p 1 e p2
120
110
100
90
80
70
pressione sistolica (mmHg)
sistolica (mmHg)
Pressione
130
Diagramma di pressione diastolica e sistolica in una
popolazione
60
70
80
90
pressione diastolica (mmHg)
Pressione
diastolica (mmHg)
100
110
110
100
90
80
70
pressione sistolica (mmHg)
120
130
Modello di regressione lineare di pressione sistolica rispetto
alla pressione diastolica
60
70
80
90
pressione diastolica (mmHg)
100
110
110
100
90
80
70
pressione sistolica (mmHg)
120
130
Stima e bande di confidenza (in blu scuro) della retta di
regressione
60
70
80
90
pressione diastolica (mmHg)
100
110
110
100
90
80
70
pressione sistolica (mmHg)
120
130
Banda di “tolleranza” stimata del modello di regressione
(in fucsia)
60
70
80
90
pressione diastolica (mmHg)
100
110
Fattore studiato
Variabile dipendente
confondente
• Modello di regressione lineare semplice:
y = a + bx + e
• Modello di regressione lineare multipla:
y = a + b1x1+ b2x2 + e
• Il modello permette di studiare l’effetto della variabile x1
sulla y, al netto dell’azione di x2
y – b2x2= a+ b1x1 + e
Se desideriamo aggiungere alla previsione di
y
(per esempio la glicemia delle nostre pazienti), una quantità b
solo per le obese, ma non per le altre pazienti, possiamo
aggiungere alla formula della previsione un termine bx,
dove x vale 1 quando la formula si applica alle obese,
e vale 0 per le altre pazienti.
Questo equivale ad inserire la variabile x nel data-base e nel
modello di previsione
Per rendere una variabile qualitativa in un modello lineare,
possiamo usare tante variabili indicatore quante sono le
classi della variabile meno una.
Per esempio per codificare il gruppo ematico di classi 0, A, B, AB,
possiamo usare tre variabili xA, xB, xAB, che hanno le seguenti
caratteristiche:
xA=1 per i soggetti con gruppo ematico A, e xA= 0 per tutti gli altri
xB=1 per i soggetti con gruppo ematico B, e xB= 0 per tutti gli altri
xAB=1 per i soggetti con gruppo ematico AB, e xAB= 0 per tutti gli altri
Le variabili indicatore sono quantitative: forniscono il conteggio (0
od 1) dei rispettivi gruppi ematici in ogni soggetto
La parte sistematica del modello è data dalla seguente
equazione
E(y | gruppo ematico) = a + bA xA+ bB xB + bAB xAB
Visti i valori delle variabili indicatore, per i soggetti
appartenenti ai quattro gruppi ematici, l’equazione si
riduce alle seguenti quattro espressioni:
E(y | gruppo A) = a + bA
E(y | gruppo B) = a + bB
E(y | gruppo AB) = a + bAB
E(y | gruppo 0) = a
Dalle equazioni precedenti risulta chiaro il significato
dei parametri bA, bB e
bAB :
bA = E(y | gruppo A) - E(y | gruppo 0)
bB = E(y | gruppo B) - E(y | gruppo 0)
bAB = E(y | gruppo AB) - E(y | gruppo 0)
Modello di analisi della varianza per la “got” con variabili
esplicative religione e sesso
65
got
cristia
na
musul
mana
40
altro
M
religione
F
sesso
Pulsazioni 2
Scatterplot e retta di regressione e banda di
confidenza
Pulsazioni 1
Pulsazioni (seconda rilevazione)
Rappresentazione grafica di un modello di analisi
della covarianza, comprensivo delle bande di
confidenza delle rette di regressione
Corsa
Riposo
Pulsazioni (prima rilevazione)
0.6
0.4
0.2
0.0
frazione di batteri uccisi
0.8
1.0
Diagramma della frazione di batteri uccisi in relazione alla
dose usata di farmaco, osservata in numerosi esperimenti
0
1000
2000
3000
dose
4000
5000
6000
Curva logistica di equazione y=exp(a+bx)/[1+exp(a+bx)]
(ascissa del flesso = -1, pendenza nel flesso= 0,5)
0.6
0.4
0.2
0.0
sopravvivenza
0.8
1.0
Stima di Kaplan-Meyer della curva di sopravvivenza
0
5
10
anni
15
Scarica

Document