STATISTICA DESCRITTIVA
INFERENZA STATISTICA
Statistica inferenziale
Probabilità
Campione
Popolazione
Statistica
inferenziale
Il campionamento statistico
Per campione statistico si intende quel
gruppo di unità elementari (non
necessariamente persone),
sottoinsieme particolare della popolazione
o universo, individuato in essa in modo da
consentire,
con un rischio definito di errore, la
generalizzazione all’intera popolazione.
Popolazione
Campione
rappresentativo
Stima
campionaria
Parametro
della
popolazione
Il campione rappresentativo riproduce in miniatura la
popolazione
Procedimento
casuale
Campione
rappresentativo
Il campione casuale è estratto con procedimento tale che tutte le unità
della popolazione hanno la stessa probabilità di essere estratte
Con
ricollocamento
(estrazioni
indipendenti)
Senza ricollocamento o in
blocco
(estrazioni indipendenti
se n/N<0.05)
Tavola dei numeri casuali
46072 97718 73189 59878 04588 69266 38434 40272 89771 00686
50496 39692 24085 71779 15687 66207 90331 35776 85413 15800
12600 63927 50359 37540 41359 11011 41613 65568 75066 27455
48616 57382 85689 27861 59135 38360 34711 60409 86253 71462
46642 76507 83543 17067 24598 99305 53754 26068 94233 65309
66476 03290 50341 38126 46627 58122 05830 88610 37392 49322
10911 58689 72799 85227 44187 07286 36816 96732 72213 56158
58369 19998 13711 36703 61578 71593 63712 44037 66954 50747
91136 89653 40289 30930 80642 32392 14276 79849 44117 93915
66983 44986 21176 13889 25913 95601 99590 38581 36491 29925
84659 22963 46657 93568 45189 15907 53529 32914 31407 74481
16370 15896 26540 63456 77955 19472 90187 18836 38374 50823
51962 18844 85961 66062 38212 55951 72211 39045 67240 30163
Se dobbiamo selezionare un campione di 100 unità da una
popolazione di 1231 unità si sceglie a caso il primo numero di 4 cifre
e si includono nel campione tutte le cifre <=1231
2758 è il seme scelto a caso, ma non fa parte del campione. Invece
1220 fa parte del campione
E’ possibile utilizzare generatori di sequenze pseudocasuali
Problema: Da una popolazione composta da 5 unità statistiche si voglia
estrarre un campione casuale di numerosità 2.
Schema con ricollocamento o
ripetizione
• Ciascuna unità campionata viene
riposta nella popolazione e può
essere estratta nuovamente
• Lo spazio campionario, ovvero
l’insieme di tutti i possibili
campioni è:
AA AB AC AD AE
BA BB BC BD BE
CA CB CC CD CE
DA DB DC DD DE
EA EB EC ED EE
• Vi sono in tutto 52=25 campioni,
dati dalle disposizioni con
ripetizione di 5 elementi a 2 a 2.
Schema senza ricollocamento o in
blocco
• Ciascuna unità campionata viene
tolta dalla popolazione e non può
essere estratta nuovamente
• Lo spazio campionario, ovvero
l’insieme di tutti i possibili campioni
è:
BA
CA CB
DA DB DC
EA EB EC ED
5
• Vi sono in tutto   =10 campioni,
 2
dati dalle combinazioni senza
ripetizione di 5 elementi a 2 a 2.
Metodi di campionamento
• Campioni
probabilistici
• Campioni non
probabilistici
•
•
•
•
•
• Per quote
• Campioni di unità già
disponibili
• Campioni di volontari
Campione casuale semplice
Campione sistematico
Campione stratificato
A due o più stadi
Campione a grappoli
Campionamento sistematico
Qualora si disponga di elenchi degli
elementi di una popolazione da
campionare per individuare le n unità del
campione tra gli N della Popolazione si
sceglie dagli elenchi
una unità ogni K (N/n) elementi, a partire
da una qualunque unità scelta a caso fra le
prime K.
Si voglia estrarre un campione di 10 unità da una popolazione di 1000. Si
sceglie un passo di 1000/10=100. Supponiamo che il numero scelto a caso
tra 1 e 100 sia 77. Le unità campionate sono le seguenti: 77; 177;
277;377;477;577;677;777;877;977
Campionamento stratificato
La popolazione è divisa in strati
internamente omogenei e quindi si
procede con campionamento casuale
da ciascuno strato.
Supponiamo di avere una popolazione di 7448 unità stratificate
per sesso e classe di età
numerosità
degli strati
Sesso
Maschi
Femmine
classi di età
tra 14 e 34 tra 35 e 64
1879
1046
1756
976
3635
2022
maggiore o
uguale a 65
789
1002
1791
3714
3734
7448
numerosità
degli strati
Sesso
Maschi
Femmine
pesi degli
strati
Maschi
Femmine
classi di età
tra 14 e 34 tra 35 e 64
1879
1046
1756
976
3635
2022
maggiore o
uguale a 65
789
1002
1791
3714
3734
7448
tra 14 e 34 tra 35 e 64
0.25
0.14
0.24
0.13
0.49
0.27
maggiore o
uguale a 65
0.11
0.13
0.24
0.50
0.50
1.00
pesi degli
strati
Maschi
Femmine
tra 14 e 34 tra 35 e 64
0.25
0.14
0.24
0.13
0.49
0.27
maggiore o
uguale a 65
0.11
0.13
0.24
composizione
di un
campione
stratificato di
maggiore o
500 unità
tra 14 e 34 tra 35 e 64 uguale a 65
Maschi
126
70
53
Femmine
118
66
67
244
136
120
126=0.25*500
0.50
0.50
1.00
249
251
500
53=0.11*500
Campionamento a grappoli
La popolazione è divisa in grappoli
(gruppi di unità statistiche elementari)
si estrae un campione casuale di
grappoli
Campionamento a più stadi
E’ una tecnica di campionamento che risulta molto vantaggiosa
quando la popolazione da studiare è molto numerosa e gli
elementi possono essere raggruppati in diversi sottoinsiemi.
Essa consiste in una prima fase caratterizzata da uno o più
campionamenti a grappolo, seguita da una seconda fase in cui,
all’interno dei “clusters” selezionati, si procede al
campionamento delle unità seguendo una delle metodiche
precedentemente enunciate (es. campionamento casuale
semplice e campionamento stratificato)
Le indagini sulle famiglie dell’Istat seguono un piano di campionamento in cui
i comuni (unità primarie) vengono stratificati e scelti a caso (I° stadio) e da
ogni comune campionato viene scelto un campione di famiglie (2° stadio)
Classificazione degli studi
biomedici
Studi osservazionali
e
studi sperimentali
Obiettivo di uno studio
biomedico
• Stabilire una relazione di causa-effetto tra
caratteristica/trattamento e malattia.
• Occorre che lo studio sia opportunamente
pianificato
Il protocollo di studio
1.
2.
3.
È un documento scientifico in quanto descrive tutti
gli aspetti metodologici medici e statistici dello
studio;
È un manuale operativo in quanto descrive tutti i
dettagli per la sua conduzione;
È un documento legale in quanto vincola gli
sperimentatori a seguire le procedure in esso
contenute, ufficialmente approvate dagli autori e
da autorità indipendenti competenti (comitato
etico). In questo senso il protocollo ha lo scopo di
proteggere i pazienti da procedure non
adeguatamente valutate ed approvate e pertanto
potenzialmente pericolose.
Il protocollo di studio
Deve coprire le seguenti aree fondamentali:
1. Razionale dello studio;
2. Obiettivi, formulati in termini di ipotesi medicostatistiche;
3. Disegno dello studio, incluso dimensionamento del
campione; tecniche per ridurre gli errori sistematici
e tecniche per il controllo della variabilità;
4. Trattamenti in studio e concomitanti;
5. Criteri di inclusione/ esclusione dei soggetti;
6. Procedute di gestione, controllo qualità e analisi
statistica dei dati;
7. Aspetti logistici, amministrativi e legali
Approcci alla Ricerca in ambito
clinico
• Due apporcci principali
– Studi sperimentali: Trials randomizzati
• Allocazione casuale dei soggetti ai diversi trattamenti
e osservazione nel tempo per osservare l’outcome
• Operativamente complessi, analiticamente semplici
– Studi osservazionali
• Operativamente semplici, analiticamente complessi
Tipi di studio
Studi
osservazionali
Studi descrittivi
Ecologici
(di correlazione)
Studi
sperimentali
Trial clinici
randomizzatii
Studi analitici
Trasversali
(di prevalenza)
Caso controllo
Di coorte
(o follow-up)
Trial
sul campo
Trial
di comunità
Studi osservazionali
• Si propongono di studiare la relazione tra
una caratteristica ed un evento, senza
intervenire in alcun modo sulle condizioni
in cui lo studio viene condotto, cioè
limitandosi a selezionare il campione e poi
“osservare”
• Il fine dell’osservazione è determinare
l’entità e le circostanze dell’associazione
tra caratteristica ed evento
• Obiettivi di uno studio osservazionale
Esempio:Studio
dell’andamento della
mortalità per ictus in un
determinato paese
Esempio: Studio della relazione
tra mortalità per ictus e possibili
fattori determinati
Studi analitici I
• Studi ecologici:
• Le unità di analisi sono le popolazioni o i gruppi di
persone piuttosto che gli individui
• Ecological fallacy: In un paese fu dimostrata
l’esistenza di una relazione tra la media delle
vendite di un farmaco anti-asmatico e il verificarsi di
un numero insolitamente alto di morti per asma
(Pearce et al. 1998)
Studi analitici II
• Studi trasversali o cross-sectional:
• Le unità di analisi sono gli individui
• Le misurazioni dell’esposizione e dell’effetto sono
effettuate nello stesso tempo
• FATTORI DI CRITICITA’: L’esposizione precede o
segue l’effetto?
Studi Cross Sectional
Prospettico
Retrospettivo
• OGGI si sceglie il
• OGGI si sceglie il
campione in base alla
campione in base
caratteristica
all’evento
• Si ricerca l’evento
• Si ricerca la
caratteristica
Basic Schematic for Cross-Sectional Study
Data for
analysis
TIME
Major Issues:
1)Temporal Sequencing
2)Selection Bias
3)Confounding
Studi analitici III
• Studi caso-controllo
Le unità di analisi sono gli
Individui distinti in:
CASI
CONTROLLI
Persone con una particolare malattia
Persone non colpite da malattia
• Studi caso-controllo:
“Begin with the outcome and look for features of people who share that
outcome, then compare characteristics with subjects who do not” (Stephen
H., Gehlbach, Interpreting the Medical literature, 1993)
Una volta selezionati, si studiano i gruppi a confronto
retrospettivamente verificando se, nel passato e fino ad
oggi, c’è stata o meno l’esposizione alla caratteristica in
studio. Sono detti anche studi RETROSPETTIVI
Il campione viene selezionato sulla base dell’evento e non
della caratteristica di interesse
Studio caso-controllo
Controllo
Caso
E-
a
b
a+b
E+
c
d
c+d
a+c
b+d
N
Basic Schematic for Case-Control Study
Event
Cases
Time Period
No Event
Controls
Time Period
Major Issues:
1)Selection Bias
2)Confounding
3)Only indirect estimates of time effects
SELEZIONE DEI CONTROLLI
• I controlli non devono essere selezionati in relazione alla condizione
di esposizione alle possibili cause
• I controlli devono essere mediamente simili ai casi sotto ogni profilo
tranne che per la condizione patologica e per i fattori eziologici
associati: se lo studio riguarda le causa di malattia coronarica in
donne in età post-menopausa di circa 50-75 anni, allora il gruppo
controllo dovrà essere composto da donne di quella classe di età.
• In alcuni studi i controlli sono reclutati in modo da essere appaiati a
ciuscun caso: per esempio, se una donna di 53 anni fosse un caso,
il ricercatore dovrebbe reclutare un controllo di età similare (57 anni,
ma non 74). Il MATCHING riduce il rischio di confondimento ( in
questo caso dell’età)
• OVERMATCING: l’appaiamento su un numero eccessivo di
caratteristiche può nascondere una relazione causale realmente
esistente
Disegno case-crossover
E’ un disegno particolare caso-controllo, in cui ogni soggetto deceduto (caso) è
“matchato” con se stesso, dove i controlli sono giorni in cui l’evento di
interesse non si è verificato.
La selezione di tali giorni può essere effettuata utilizzando l’approccio
“stratificato per tempo”, ovvero suddividendo il periodo di studio in
finestre mensili e scegliendo all’interno di ogni mese gli stessi giorni della
settimana del caso come giorni di controllo (ad esempio, se un soggetto
è deceduto il 28 maggio 2001, lunedì, sono scelti come giorni di controllo
tutti gli altri lunedì del maggio 2001).
Tale approccio consente di controllare per disegno:
1.
i trend temporali di medio-lungo periodo,
2.
l’effetto “giorno della settimana”
3.
tutte le caratteristiche individuali costanti nel tempo, o variabili su
una scala maggiore del mese.
Altre variabili possono essere aggiustate in fase di modellizzazione, dove il
modello usato è la regressione logistica condizionata, stratificata sul
soggetto.
Basic Schematic for Case-Crossover Study
Event
Time Period A
Time Period B
Compare exposure in Time Period A vs. Time Period B
only among patients with an event and exposure in either period
Major Issues:
1)Largely used for exposures with immediate effects
2)Small number
Studi analitici IV
Studi di coorte o di follow up (PROSPETTICI CONCORRENTI):
• Questi studi partono con un gruppo di persone
libere da malattia che vengono classificate in
sottogruppi a seconda dell’esposizione a una causa
potenziale di malattia. Vengono specificate e
misurate le variabili di interesse e l’intera coorte
viene seguita per un periodo, detto follow-up, per
osservare come il successivo sviluppo di nuovi casi
di malattia sia diverso tra i gruppi con e senza
esposizione
Il campione viene selezionato sulla base della caratteristica
di interesse
• Studi di coorte o di follow up (PROSPETTICI CONCORRENTI):
• FATTORI DI CRITICITA’: Impegnativi e costosi perché
richiedono spesso lunghi periodi di follow-up affinché la
malattia si manifesti
• POSSIBILE SOLUZIONE:
– STUDIO DI COORTE RETROSPETTIVA O
PROSPETTICO NON CONCORRENTE: la coorte
storica è identificata sulla base di registrazioni di
esposizioni precedenti. Esempio: per esaminare il
possibile ruolo causale della pioggia radioattiva nello
sviluppo del cancro negli ultimi 30 anni si utilizzano le
registrazioni dell’esposizione di membri delle forze
armate alla pioggia radioattiva nelle sedi di test di
bombe nucleari
Studio di coorte
Evento
assente
Evento
presente
E-
a
b
a+b
E+
c
d
c+d
a+c
b+d
N
Basic Schematic for Cohort Study
TIME
Look-back
Window
Index
Entry Date
for
Exposure
Major Issues:
1)Selection Bias
2)Confounding
Observation
Window
End of Follow-up
Date
Ricapitolando:
Passato
Prospettico
concorrente
Prospettico non
concorrente
Oggi
Si sceglie il campione in
base alla caratteristica
Si sceglie il
campione in base
alla caratteristica
Si ricerca l’evento dal
passato ad oggi
Si sceglie il campione in
base alla caratteristica
Prospettico crosssectional
Si ricerca l’evento
Retrospettivo
Retrospettivo
cross-sectional
Si ricerca la
caratteristica
Si sceglie il campione in
base all’evento
Si sceglie il campione in
base all’evento
Si ricerca la caratteristica
Futuro
Si attende
l’evento
How Do I Know Which Study Design
is Best?
Level of Evidence
Level 1
Level 2
Level 3
Level 4
Level 5
Study Type
RCTs
Cohort Studies
Case-Control Studies
Case Series
Expert Opinion
Oxford Centre for Evidence-Based Medicine, 2002
Randomized Clinical Trial:
Design
(Melot, CCM, 2009)
Validity and Biases in Clinical
Trials
(Melot, CCM, 2009)
La randomizzazione risolve tre categorie di Bias
1. Distorsione da selezione
•
Sbilanciamento non casuale tra i trattamenti nella distribuzione dei fattori
capaci di influenzare l’end-point, cioè i fattori sub-sperimentali, compresi
quelli prognostici
2. Distorsione di valutazione
•
3.
Sbilanciamento non casuale tra i trattamenti nel modo in cui i soggetti
sono seguiti e valutati nel corso dello studio
Distorsione di analisi
.
Sbilanciamento che interviene in fase di analisi dei dati in
favore di un trattamento
Studi sperimentali: esempi
• Sono pianificati esperimenti per confrontare gli effetti di vari
trattamenti su alcuni tipi di unità sperimentali
1.
Sperimentazioni di interventi di profilassi per confrontare
l’efficacia nei bambini di differenti vaccini contro il morbillo.
Ogni bambino riceve un vaccino e può essere considerato
unità sperimentale
2.
Studio dei benefici specifici a diversi programmi di
educazione sanitaria. Ogni programma è applicato a
un’area diversa e costituisce unità sperimentale
CARATTERISTICHE DEGLI STUDI SPERIMENTALI
1.
I gruppi di unità sperimentali cui applicare i trattamenti devono
risultare simili rispetto ai fattori di possibile distorsione nella
sperimentazione. La soluzione è la RANDOMIZZAZIONE
2.
Ogni trattamento deve essere assegnato a più di una unità
sperimentale. Questo principio si chiama REPLICAZIONE.
Possibili vantaggi:
1.
Garantisce una sufficiente precisione dei risultati. L’errore
campionario della differenza tra due medie decresce
aumentando il numero di repliche all’interno dei gruppi.
2.
La variabilità campionaria può essere stimata solo con un
numero adeguato di ripetizioni
3.
La replica consente la verifica di ipotesi sugli effetti di una
vasta gamma di fattori sperimentali
3.
Si deve cercare di ridurre la variabilità casuale tra unità
sperimentali. La soluzione è ripartire le unità sperimentali in
gruppi internamente omogenei (BLOCCHI)
Esperimenti randomizzati controllati (RCT)
(Randomized Controlled trials)
Esperimenti che prevedono il confronto con un gruppo di controllo
1.
Studi di Fase I: studi preliminari sulla sicurezza e
tollerabilità dei farmaci, spesso condotti su volontari sani
2.
Studi di Fase II: condotti su pz affetti dalla patologia in
esame, destinati a selezionare la dose e la frequenza di
somministrazione del farmaco da portare nei più ampi studi
di Fase III.
3.
Studi di Fase III: hanno l’obiettivo di dimostrare 1) l’efficacia
terapeutica e 2) la sicurezza e tollerabilità del farmaco in
un campione rappresentativo della popolazione.
4.
Studi di Fase IV: riguardano il controllo dei modelli
prescrittivi dei farmaci già in commercio e, normalmente,
assumono la forma di indagini piuttosto che di esperimenti
comparativi.
Esperimenti randomizzati controllati (RCT)
(Randomized Controlled trials)
Esperimenti multicentrici
1.
Necessari nello studio di affezioni croniche, dove sono
richiesti molti pazienti
2.
Nello studio di condizioni morbose rare
Esperimenti randomizzati controllati (RCT)
(Randomized Controlled trials)
Definizione dei pazienti
Un congruo numero di pazienti consente di effettuare
separatamente i confronti tra trattamenti per diverse
categorie di pazienti.
Tuttavia, i sottogruppi di pazienti non devono essere piccoli
perché in tal caso diviene difficile far emergere
differenze reali, non casuali tra effetti dei trattamenti.
Quindi ogni sottogruppo considerato a priori per buoni
motivi va definito nel protocollo e preso in
considerazione nella pianificazione della numerosità
campionaria
Esperimenti randomizzati controllati (RCT)
(Randomized Controlled trials)
Definizione dei trattamenti
1.
Meglio regimi terapeutici flessibili, che possono essere
modificati in base alle nuove condizioni del paziente
2.
Meglio prevedere sin dall’inizio le possibili varianti di un
regime terapeutico generale, piuttosto che introdurre un
grado di standardizzazione che non può essere accettato
su vasta scala né durante l’esperimento né dopo
Esperimenti randomizzati controllati (RCT)
(Randomized Controlled trials)
Valutazione delle risposte
1.
L’efficacia di ogni trattamento viene valutata paragonando
una o più risposte per ogni paziente a certi intervalli di
tempo dall’inizio del trattamento. Tali risposte sono sintomi
riferiti dal paziente, indizi evidenziati dal medico, esami
biochimici.
2.
La conoscenza del trattamento da parte del paziente,
medico, personale coinvolto nello studio può influenzare le
risposte. Soluzioni: ESPERIMENTO CIECO e DOPPIO
CIECO
Bibliografia consigliata
• Baccheri A., Della Cioppa G. 2004, Fondamenti di
Ricerca clinica. Springer
• Pockock S., 1986.Trial Clinici. Centro Scientifico Editore
• Rothman KJ, 2002. Epidemiology An Introduction.
Oxford University Press
Scarica

Campionamento e studi biomedici