Introduzione alla
Statistica Inferenziale
Prof. G. Migliaretti
Le fasi di una analisi statistica
Concetto di Popolazione
Insieme di tutti gli ‘individui’
obiettivo dello studio
Non necessariamente una
popolazione è composta da un elevato
numero di soggetti
Concetto di Popolazione
Importante distinguere
- Popolazione obiettivo
- Popolazione di campionamento
Concetto di Popolazione
Popolazione obiettivo
Popolazione che si desidera studiare
Popolazione di campionamento
Popolazione dalla quale si estrae il campione
Concetto di Popolazione
La popolazione di campionamento
se non selezionata in modo adeguato,
potrebbe NON rispecchiare
correttamente la popolazione obiettivo
Concetto di Popolazione
Esempio
Popolazione ospedaliera NON
rispecchia la popolazione della città
dove sorge l’ospedale
Definizione di campione
Campione permette di stimare quanto
“avviene” nella popolazione da cui è
stato tratto.
Definizione di campione
Un campione deve
-Rispecchiare le caratteristiche fondamentali della
popolazione da cui proviene
-Avere una numerosità adeguata allo studio
Definizione di campione
SOLO un Campione adeguatamente selezionato in
termini di Caratteristiche e Numerosità, permette
di studiare correttamente la popolazione da cui è
stato tratto.
Definizione di campione
Importante ricordare che
Un campione rappresentativo della Popolazione A per
un determinato obiettivo, NON lo è più se l’obiettivo
viene cambiato.
Esempio: Relazione tra tumore del Pancreas e consumo di caffè
(McMahon B. et al ‘Coffee and Cancer of the pancreas. New Engl. J. of Med. 1981; 630-633)
Metodi di Campionamento
Teoria del Campionamento è molto complessa.
I metodi di campionamento vanno scelti in base al
tipo di indagine che si desidera effettuare.
Nelle indagini di popolazione molto diffuso il
metodo “a grappolo”.
Numerosità campionaria
Molto rilevante da un punto di vista statistico è la
definizione di
Numerosità campionaria
Numerosità campionaria
Il calcolo della Numerosità dipende da:
1.
Metodo Inferenziale che si intende applicare
2.
Tipo di variabile che definisce l’end-point
3.
Livelli di attendibilità dello studio posti a priori
4. Variabilità osservata
5.
Effetto atteso
Numerosità campionaria
•Numerosità va definita prima dell’inizio dello studio una
volta stabilito il “livello di attendibilità” che si vuole
raggiungere (indicatore k dipende da errori di I e II specie)
•Negli studi di “coorte” (osservazionali ed sperimentali)
vengono spesso registrate perdite di soggetti durante il
follow-up provocando una diminuzione
dell’ “attendibilità dello studio”
Randomizzazione
Attribuzione casuale dei pazienti
ai trattamenti in studio
Randomizzazione
La randomizzazione permette di controllare quei
fattori di confondimento difficilmente
controllabili con altri metodi
in sede di disegno o di analisi
(matching, stratificazione, modelli di regressione)
Randomizzazione
Metodo di randomizzazione più elementare è
basato sull’utilizzo delle tavole dei numeri casuali
VARIABILI STATISTICHE
1. Metodi di rilevazione
2. Tipi di variabili
3. Metodi di sintesi
Statistica descrittiva e
Curve di distribuzione
Importanza di s
Permette di valutare quanto le misure effettuate
sulla popolazione possono essere sintetizzate dal
valore medio
Importanza di s
Media (X^) e Deviazione standard (s) calcolati sui
campioni estratti dalla popolazione possono assumere
valori diversi da Media (m) e Deviazione standard (s)
calcolati sulla popolazione ma ne saranno una stima
Potenza ed Errori di I e II specie
Numerosità campionaria
n = 2k2*s2/d2
Dove:
s2 = varianza osservata nella popolazione
d2 = variazione attesa con il nuovo trattamento
k2 = (Za + Zb)2 indicatore definito sulla base degli
errori di I e II specie definiti a priori
Numerosità campionaria
Esempio
Obiettivo: Verificare l’efficacia di un trattamento A
p = 0,3 proporzione di migliorati nella popolazione non trattata
d= 0,25 variazione attesa dopo il trattamento
Posto a = 0,05 e b = 0,1 Za = 1,96 e Zb = 1,28
n = 2k2*(p(1- p))/d2 = 2(10,5)*(0,21)/0,0625 = 70,6
Dalla Deviata Standardizzata al Test Z
Z = (X – m) / s

Teorema del Limite Centrale

Z = (X^ – m) / (s/ n)
Fondamenti del
Teorema del Limite Centrale
Il Teorema del Limite Centrale permette di
passare dalla
distribuzione delle osservazioni (m, s)
alla
distribuzione delle medie campionarie (m, s/n)
Statistica Inferenziale
Obiettivi della
Statistica Inferenziale
Valutare con quale probabilità
differenze osservate possono
essere ritenute casuali
Test di Ipotesi
•Metodi di Statistica Inferenziale che permettono di “decidere”
quale delle due ipotesi formulate a priori è la “migliore”.
•Vanno definiti :
– H0  Ipotesi iniziale
– H1  Ipotesi alternativa
–Errore di I specie
Esempio di utilizzo dei
Test di Ipotesi
Dopamina e Nitroprussiato sono due farmaci utilizzati nel trattamento
di soggetti che hanno sofferto di attacchi cardiaci ischemici
(ostruzione delle arterie coronarie impedisce l’apporto di ossigeno ad
una parte del muscolo cardiaco destinandola alla morte).
Clayton Shatney et al.* hanno condotto uno studio con l’obiettivo di
confrontare i due farmaci.
* Effects of infusion of dopamine and nitroprusside on size of experimental
myocardial infarction. Chest, 1978; 73: 850-856.
Esempio di utilizzo dei
Test di Ipotesi
Allo scopo hanno selezionato un campione di 83 cavie animali alle
quali è stata legata l’arteria coronaria discendente anteriore sinistra
(che garantisce il maggior afflusso di sangue al cuore).
•Lo studio è stato condotto in cieco, e le cavie sono state destinate in
modo casuale ai diversi trattamenti.
•Dopo 6 ore dall’inizio del trattamento è stata misurata, pesandola, la
quantità di muscolo cardiaco danneggiata.
Esempio di utilizzo dei
Test di Ipotesi
Una analisi ‘ad interim’ è stata condotta prendendo come riferimento
una popolazione di cavie con malfunzionamento dell’arteria
coronaria anteriore sinistra. A 6 ore dalla diagnosi, la percentuale
di ventricolo danneggiata rilevata è stata: m = 16,5 s = 4,3
a.
Con quale probabilità si può trovare nella popolazione in esame, cavie
con una percentuale di ventricolo danneggiato inferiore a 14?
b.
Un gruppo di 20 cavie trattate con uno dei due farmaci in esame ha
presentato una percentuale media di ventricolo danneggiata pari a 13,8.
Con questa prima evidenza si può sostenere l’efficacia dei trattamenti
sul gruppo di cavie in studio?
Metodi parametrici per dati indipendenti
•Test Z
•Test t-Student per dati Indipendenti
• Analisi della Varianza
Metodi parametrici per dati appaiati
• Test t-Student per dati Appaiati
• Analisi della varianza per misure ripetute
Introduzione ai metodi Parametrici
Dati Indipendenti
Test Z
•Utilizzabile per confrontare la media calcolata su un
gruppo con la media calcolata su una popolazione.
•Permette di verificare se un gruppo di numerosità n
può essere stato estratto da una popolazione di media
m e deviazione standard s.
•Dal test Z discendono gli altri test parametrici per il
confronto di medie
Test Z
Z = (X^ – m) / (s/ n)
Con
H0  X^=m e H1  X^ = m
Intervallo di Confidenza
di una media
L’Intervallo di Confidenza di una media è l’intervallo di valori entro cui, con
una probabilità 1-a, cade la media vera della popolazione.
In termini più statistici, una volta calcolata una media, estraendo dalla
popolazione 100 campioni e calcolando su ciascuno l’intervallo di
confidenza della media, troveremmo che 95 di questi dovrebbero contenere
la media vera della popolazione
Intervallo di Confidenza di una media
Partendo dal test Z, l’ipotesi H0 è valida quando:
Za  |(X^ – m)| / (s/n)
da cui, nel caso il test sia a due code:
Za  (X^ – m) / (s/n)
Za  - (X^ – m) / (s/n)
Quindi, ricavando dalle due formule m:
X^ - Za (s/ n)  m  X^ + Za(s/ n)
Test t-Student per dati Indipendenti
Utilizzabile nel caso di confronti tra 2 gruppi
–In letteratura spesso utilizzato in modo inadeguato
–Problema dei confronti multipli
Test t-Student per dati Indipendenti
(X^1 – X ^2)
t=
n = n1+n2-2
_____________
[s21/n1 + s22/n2]0,5
Sotto la condizione di omoscedasticità:
(X^1 – X ^2)
t = _____________
dove s2p=varianza pooled
[s2p(1/n1 + 1 /n2)] 0,5
Distribuzione t-Student
Condizione di Omoscedasticità
Omogeneità tra le varianze nei gruppi.
Valutabile mediante:
Bartlett’s test
Levene’s test
Se vale la condizione di omoscedasticità, nel test t-Student
si può utilizzare la varianza “pooled” :
s2p = [s21(n1 – 1) + s22(n2 – 1)] / (n1+n2-2)
Intervallo di Confidenza
della differenza di medie
Analogamente a quanto presentato per ‘Intervallo di
Confidenza di una media, possiamo dedurre la formula
dell’Intervallo di Confidenza della differenza di medie
partendo dall’ipotesi H0 del test t-Student:
(X^1 – X ^2)
ta  _____________
[s21/n1 + s22/n2]0,5
n = n1+n2-2
Intervallo di Confidenza
della differenza di medie
(X^1 – X^2) – ta [s21/n1 + s22/n2]0,5  m1-m2  (X^1 – X^2) + ta [s21/n1 + s22/n2]0,5
Oppure nel caso valga la condizione di omoscedasticità:
(X^1 – X^2) – tasp [ 1/n1 + 1/n2]0,5  m1-m2  (X^1 – X^2) + tasp [ 1/n1 + 1/n2]0,5
Analisi della Varianza (one way)
Utilizzabile nel caso di confronti tra k gruppi
– In particolare per il confronto tra 3 o più gruppi
– Nel caso di un confronto tra 2 gruppi analogo al
t-Student per dati indipendenti
Analisi della Varianza
Fondamenti dell’Analisi della Varianza
– Se i k gruppi in studio fossero estratti dalla
stessa popolazione, le loro varianze sarebbero
stime di s2.
– Stime diverse della stessa quantità (s2)
dovrebbero fornire valori simili
Analisi della Varianza
Varianza stimata dalle medie campionarie
Errore standard:
da cui
sx = s/ n
s = sx * n
stra = sxi *  n
dove sxi indica l’Errore std della distribuzione delle medie dei k gruppi in studio
Analisi della Varianza
Varianza stimata come media delle varianze
s2entro = (1 /k) * (S s2i)
dove s2i indica la varianza dei k gruppi
Analisi della Varianza
Test F (Anova one-way)
s2tra
F = _____________
s2entro
 nd = k * (n - 1)
 nn = (k - 1)
[k = numero gruppi ; n = numerosità gruppi]
Distribuzione F
Analisi della Varianza
Confronti multipli
Test di Bonferroni
(X^ i – X ^j)
t = _____________
nd = k * (n - 1)
sentro [(1/ni + 1 /nj)] 0,5
Correzione di Bonferroni:
ah = a/h dove h = Numero di confronti
Esempio di utilizzo dei
Test di Ipotesi
Lo studio di Clayton Shatney et al. era stato condotto destinando in
maniera casuale le 83 cavie a 4 gruppi diversi di trattamento:
Controllo, Dopamina (2 dosaggi) e Nitroprussiato (1 dosaggio).
Su ciascuno di essi è stata rilevata la percentuale di ventricolo
danneggiata a 6 ore dall’inizio del trattamento
A causa di imprevisti eventi avversi in alcune cavie, solo 80 di esse
vennero considerate nelle analisi (Tabella seguente).
Esempio di utilizzo dei
Test di Ipotesi
N
a.
% di ventricolo danneggiato
X^
s
Controllo
20
15
5,47
Dopamina
Basso dosaggio
Alto dosaggio
20
20
13
9
7,2
8,9
Nitroprussiato
Dosaggio unico
20
7
4,5
E’ possibile sostenere che esiste un differente effetto tra i due
dosaggi di Dopamina?
b.
Quale trattamento risulta più efficace tra Dopamina e
Nitroprussiato?
Introduzione ai metodi Parametrici
Dati Appaiati
ESEMPIO DI DATI APPAIATI
CODICE
PAZIENTE
7
3
4
1
2
5
6
8
Altezza
132,0
110,5
115,6
144,8
134,1
126,6
143,7
132,2
Altezza al I Altezza al Velocità
controllo II controllo Crescita
135,9
138,2
3,1
114,3
116,4
4,7
119,8
120,1
0,6
150,2
150,2
3,9
4,9
4,2
4,0
3,8
Velocità di Velocità di
crescita al crescita al
I controllo II controllo
8,2
8,6
9,5
9,8
10,9
10,2
11,3
11
Principali Metodi
Metodi per variabili quantitative
– t-Student per dati appaiati
•
Permette di verificare se una misura rilevata sugli stessi soggetti
in due momenti, m0 e m1, presenta una variazione
significativamente diversa da zero
– Analisi della Varianza per misure ripetute
•
Permette di valutare se una misura rilevata sugli stessi soggetti
in più momenti, mi, presenta variazioni significativamente
diverse da zero
Principali Metodi
– t-Student per dati appaiati
t = d^ / sd
n=n–1
Dove:
d^ indica la differenza media
sd l’errore standard della differenza media
n indica il numero di soggetti su cui è stata rilevata la
misura nei due momenti diversi
Intervallo di Confidenza
della differenza media
d^ – tasd/ n  D  d^ + tasd/ n
Dove t indica il valore soglia che lascia nelle code della distribuzione t un area
pari ad a, per il calcolo dell’Intervallo di Confidenza al (1-a)%
ESERCIZIO
CODICE
PAZIENTE
7
3
4
1
2
5
6
8
Altezza
132,0
110,5
115,6
144,8
134,1
126,6
143,7
132,2
Altezza al I Altezza al Velocità
controllo II controllo Crescita
135,9
138,2
3,1
114,3
116,4
4,7
119,8
120,1
0,6
150,2
150,2
3,9
4,9
4,2
4,0
3,8
Velocità di Velocità di
crescita al crescita al
I controllo II controllo
8,2
8,6
9,5
9,8
10,9
10,2
11,3
11
1. Si può sostenere che la variazione dell’altezza tra il basale e il I
controllo sia significativamente diversa da zero?
2. Quale potrebbe essere una stima della variazione della velocità di
crescita tra il I e il II controllo, nella popolazione da cui è stato estratto ilo
campione in studio?
3. Quali conclusioni in termini di significatività statistica possono essere
tratte dal punto 2.?
Introduzione ai metodi Non Parametrici
Principali Metodi Non Parametrici
•
Metodi per variabili qualitative (Basati sulle proporzioni)
–
•
Chi-quadro (c2)
Metodi per variabili quantitative (basati sui Ranghi)
–
Mann-Whitney test (dati indipendenti, confronto tra 2 gruppi)
–
Wilkoxon test (dati appaiati)
–
Kruskall-Wallis test (dati indipendenti, confronto tra più gruppi)
Test c2
Permette di confrontare due o più gruppi relativamente alla proporzione in
esame
L’Ipotesi H0 sostiene che non ci sia differenza tra quanto rilevato sui gruppi
(Observed) osservato e quanto ci si potrebbe aspettare nel caso i gruppi in
studio fossero estratti dalla stessa popolazione (Expected)
Test c2
Modalità Variabile 1
Modalità Variabile 1
1
2
1
2
OBSERVED
Modalità Variabile 2
1
2
a
b
c
d
a+c
b+d
a+b
c+d
TOT
EXPECTED
Modalità Variabile 2
1
2
a1
b1
c1
d1
a+c
b+d
a+b
c+d
TOT
(a + b)
a1 = ___________ x (a + c)
TOT
Test c2
H0: O=E
H1: O  E, a = 0.05
c2 = S [(O - E)2/E]
n= (r-1)(c-1)
Correzione di Yates
c2 = S [(|O – E|-1/2)2/E]
Test c2
Test c2
- Esempio
Un gruppo di ricercatori vuole valutare se esiste una relazione tra l’Inabilità e la
Depressione su donne ultra-sessantacinquenni.
Vengono utilizzate allo scopo due scale (scala Hamilton per la Depressione e scala ADL
per l’Inabilità). Vengono quindi identificate come Depresse le donne con valore della
scala Hamilton > 15, e come Inabili le donne con valore della scala ADL  1.
Il campione analizzato è composto da 135 donne; 65 sono risultate Depresse, delle
quali 30 anche Inabili, e 19 Inabili e Non depresse.
Quale conclusione hanno potuto trarre i ricercatori dallo studio?
Test c2
- Esempio
Observed
Inabili
Abili
Totale
Depresse
30
35
65
Non depresse
19
51
70
Totale
49
86
135
Expected
Inabili
Abili
Totale
Depresse
Non depresse
23,6
25,4
41,4
44,6
65
70
Totale
49
86
135
c2 = 5,3
p<<0.05
n=1
Introduzione al controllo dei
fattori di Confondimento
Confondimento e Modificatore di effetto
Numerosi fattori possono intervenire nello studio e portare a
risultati falsamente significativi, così come altri fattori
possono rendere la relazione in studio ancor più evidente.
Si parlerà quindi di
Fattori di Confondimento e Modificatori di Effetto
Confondimento
• Fattore legato sia ad esposizione che a malattia
– Controllabile
– in sede di disegno > Matching
– in sede di analisi > Stratificazione
> Analisi delle Covariate (Modelli)
– Metodo di Mantel-Haenzsel (nel caso di variabili qualitative)
Modificatore di effetto
• Fattore nei cui strati viene evidenziato un effetto
differente dell’esposizione sulla malattia
– Da evidenziare in sede di analisi
Problema negli studi medici
• Spesso disegnate analisi con troppe Covariate
• Rischio di Over-matching
Esempio
Confondimento e Modificazione di effetto - Esempio
Alcool, Fumo e Tumore dell’esofago
CONSUMO DI ALCOOL
CONT
CASI
Alcool
328
258
No Alcool
107
193
Totale
435
451
odds casi
3,07
OR = 2,29
odds contr
1,34
IC95%: (1,72 - 3,06)
Confondimento e Modificazione di effetto - Esempio
Alcool, Fumo e Tumore dell’esofago
ABITUDINE AL FUMO
CASI
CONT
fumo
309
208
No fumo
126
243
total
435
451
odds casi
2,45
OR = 2,86
odds cont.
0,86
IC95%: (2,17 - 3,78)
Confondimento e Modificazione di effetto - Esempio
Alcool, Fumo e Tumore dell’esofago
FUMATORI
NON FUMATORI
CONSUMO DI ALCOOL
CONSUMO DI ALCOOL
CASI
alcool
no alcool
total
odds casi
CONT
CASI
265
151
44
57
309
208
6,022727 OR = 2,27
odds contr 2,649123 IC95%: (1,46 - 3,53)
CONT
alcool
63
107
no alcool
63
136
126
243
total
odds casi
1 OR = 1,27
odds contr 0,786765 IC95%: (0,83 - 1,96)
MANTEL-HAENSZEL
OR-MH = 1,69
IC95%: (1,23 - 2,03)
Confondimento e Modificazione di effetto - Esempio
Alcool, Fumo e Tumore dell’esofago
BEVITORI
NON BEVITORI
ABITUDINI AL FUMO
ABITUDINI AL FUMO
CASI
fumo
no fumo
total
odds casi
CASI
CONT
CONT
265
151
fumo
44
57
63
107
no fumo
63
136
328
258
total
126
243
4,206349 OR = 2,98
odds casi
odds cont. 1,411215 IC95%: (1,46 - 3,53)
0,698413 OR = 1,67
odds cont. 0,419118 IC95%: (0,98 - 2,83)
MANTEL-HAENSZEL
OR-MH = 2,42
IC95%: (1,81 - 3,24)
NOTE CONCLUSIVE
Medicina basata sull’Esperienza e
Medicina basata sull’Evidenza
•
I risultati tratti da uno studio devono essere sempre letti
criticamente e valutati come un possibile risultato
•
Lo scopo delle pubblicazioni scientifiche è quello di stimolare la
comunità scientifica ad ulteriori approfondimenti che verifichino
o smentiscano relazioni evidenziate da uno studio
•
La Metanalisi permette di verificare l’attendibilità di un risultato
(riassumendo tutti i risultati tratti da tutti gli studi effettuati
sull’argomento)
Medicina basata sull’Esperienza e Medicina
basata sull’Evidenza
Il mondo scientifico si sta indirizzando sempre più
verso una Medicina basata sull’Evidenza (EBM)
abbandonando la Medicina basata sull’esperienza
Esercizio riassuntivo
Esempio di utilizzo dei
Test di Ipotesi
Presso l’Università di S. Diego è stato condotto uno studio per
valutare gli effetti del fumo passivo*.
La capacità polmonare è stata valutata mediante la misura del flusso
forzato meso-espiratorio (l/s-1).
* White J., Froeb H. ‘Small-Airways disfunction in nonsmokers chronically
exposed to Tobacco smoke’. N. Engl. J. Med., 1980; 720-723.
Esempio di utilizzo dei
Test di Ipotesi
Nella popolazione di riferimento composta da donne non fumatrici i
valori di flusso meso-espiratorio sono: m = 3,38 l/s-1 e s = 0,69 l/s-1.
Nello studio, su un gruppo di 200 donne esposte a fumo passivo è stata
rilevata una media X^=2,72 l/s-1 con s=0,71 l/s-1.
1.
Con quale probabilità si possono trovare nella popolazione di
riferimento soggetti con valori inferiori a 2,3 l/s-1
2.
Con quale probabilità si può trovare nella popolazione di riferimento un
gruppo di 50 persone con un valore medio inferiore a 2,3 l/s-1
3.
Si può sostenere che il gruppo di 200 donne con un flusso medio pari a
4,9 l/s-1 è stato estratto dalla popolazione di riferimento? Se no, stimare
il valore della media della popolazione da cui è stato estratto il gruppo.
Se sì, con quale probailità di errore?
Esempio di utilizzo dei
Test di Ipotesi
Nello studio di White e Froeb erano state rilevate informazioni
riguardanti anche donne deboli e forti fumatrici.
I dati completi dello studio vengono riportati di seguito
Flusso meso-espiratorio medio (l/s-1)
X^
s
N
Non fumatrici esposte a fumo passivo
2,72
0,71
200
Deboli fumatrici
2,63
0,73
200
Forti fumatrici
2,12
0,72
200
Esempio di utilizzo dei
Test di Ipotesi
1.
E’ possibile sostenere che le donne non fumatrici esposte a fumo
passivo abbiano un flusso meso-espiratorio non differente dalle donne
deboli fumatrici?
2.
Si può sostenere l’ipotesi che il fumo passivo porti gli stessi effetti del
fumo sulla capacità polmonare?
Esempio di utilizzo dei
Test di Ipotesi
Nello studio di White e Froeb una ulteriore analisi condotta su alcuni soggetti del
campione in studio, ha voluto mettere in relazione i tre gruppi con il
manifestarsi di sintomi di bronchite. I risultati presentavano la situazione
riportata nella tabella seguente. Si può sostenere che esiste una differenza tra
fumo attivo e passivo e bronchiti?
Numero di pazienti che hanno manifestato bronchiti
Casi di bronchite
n
Non fumatrici esposte a fumo passivo
30
140
Deboli fumatrici
48
170
Forti fumatrici
69
172
Schema di un Protocollo sperimentale
1. Introduzione
2. Obiettivi
3. Materiali e Metodi
a) Disegno dello studio
b) Criteri di inclusione ed esclusione
c) Numerosità e Potenza
d) Procedure di follow-up
e) Metodi statistici
4. Risultati
5. Discussione
Scarica

s 2 i - noWay:apps