… Il processo diagnostico è un
processo imperfetto che conduce ad una
probabilità di malattia, piuttosto che
alla certezza ...
(F. di Orio - Elementi di Metodologia Epidemiologica Clinica - Piccin, 1994)
1
Epidemiologia
Misure
2
Validità di un test diagnostico
La validità di un test diagnostico è una misura relativa
Questa è calcolata attraverso il confronto tra il test in esame,
definito index test, ed un altro test di comprovata validità
Il test di comprovata validità è definito Reference Standard
La scelta del Reference Standard è uno dei principali problemi
metodologici in materia di test diagnostici
3
Test diagnostico
Affidabilità
Riproducibilità
Validità
Concordanza
Sensibilità
Specificità
Valore Predittivo Positivo
Valore Predittivo Negativo
4
Validità di un test diagnostico
Condizione/Malattia
Test
Si
No
Totale
Positivo
Veri Positivi (VP)
Falsi Positivi (FP)
Positivi (P)
Negativo
Falsi Negativi (FN)
Veri Negativi (VN)
Negativi (N)
Malati (M)
non Malati (nM)
Totale
Totale
Sensibilità (Se)
= VP / M
Probabilità di positività al test tra i malati
Specificità (Sp)
= VN / nM
Probabilità di negatività al test tra i non malati
Valore Predittivo Positivo (VPP)
= VP / P
Probabilità di malattia tra i positivi al test
Valore Predittivo Negativo (VPN)
= VN / N
Probabilità di non malattia tra i negativi al test
5
Mammografia per la diagnosi di Carcinoma Mammario
(Se=75%; Sp=92.3%)
Prevalenza Ca mammario in età 45-74
Prevalenza Ca mammario in età 65-69
Ca mammario
Mx
Ca mammario
Si
No
Tot
Pos
41
796
837
Neg
13
9150
Tot
54
9946
Si
No
Tot
Pos
88
791
879
9163
Neg
29
9092
9121
10000
Tot
117
9883
10000
Mx
VPP= 41/837 = 4.9%
VPP= 88/879 = 10.0%
VPN= 9150/9163 = 99.9%
VPN= 9092/9121 = 99.7%
6
Relazioni
Aumentando la sensibilità di un test, la sua specificità tende a ridursi
A parità di prevalenza
A parità di Sensibilità
e Specificità
Alta specificità = Alto VPP
Alta sensibilità = Alto VPN
Alta prevalenza = Alto VPP
Bassa prevalenza = Alto VPN
7
Aumentando la sensibilità di un test, la sua specificità tende a ridursi
es. dosaggio della glicemia e diagnosi di diabete
Fissando il cut off al valore b
Cut off
diabetici
Non diabetici
Classifichiamo erroneamente 2
diabetici come Falsi Negativi
Classifichiamo erroneamente 2
non diabetici come Falsi Positivi
b-1
b
b+1
Abbassando il cut off al valore b-1
Identifichiamo un altro
diabetico, ma includiamo un
soggetto sano tra i diabetici
glicemia
Innalzando il cut off al valore b+1
Identifichiamo un altro
soggetto sano, ma includiamo
un diabetico tra i sani
8
Andamento di Sensibilità e Specificità al variare del valore soglia
identificazione di carcinoma colorettale
Valore soglia di emoglobina fecale
50 ng/mL
Sensibilità %
(lc 95%)
Specificità %
(lc 95%)
100 (100-100)
84.4 (82.2-86.7)
75 ng/mL
94.1 (82.9-100)
87.5 (85.4-89.6)
100 ng/mL
88.2 (72.9-100)
89.7 (87.8-91.6)
125 ng/mL
82.4 (64.2-100)
91.5 (89.7-93.2)
150 ng/mL
82.4 (64.2-100)
91.9 (90.2-93.6)
Levi Z. et al., Ann Intern Med, 2007
9
Valutare la performance complessiva di un test
Curva ROC (Receiver Operating Characteristic curve)
- Per ogni valore di cut-off studiato, si riportano su un piano
cartesiano i valori di sensibilità (ordinate) e il tasso di falsi
positivi, cioè 1-specificità, del test (ascisse).
- Si ottiene la valutazione grafica e matematica della performance
complessiva del test e del cut-off che fornisce il risultato migliore
e/o più appropriato alla situazione clinica specifica
10
Sensibilità e Specificità del test per la ricerca del sangue occulto nelle
feci (FOBT), ai fini dell’identificazione di ca colorettale
Levi Z. et al., Ann Intern Med, 2007
100%
- 50 ng/mL
- 75 ng/mL
sensibilità
80%
- 100 ng/mL
-
125 ng/mL
60%
- 150 ng/mL
40%
20%
5%
10%
15%
1-specificità
20%
25%..........
11
Curva ROC
Sangue Occulto nelle F ec i (Em og lo bina Um ana) e C a del C olon
0.00
0.25
Sensitivity
0.50
0.75
1.00
Sensibilità e Spec ificità per differenti cut off
0.00
0.25
0.50
1 - Specificity
0.75
1.00
A rea under RO C curv e = 0.8926
12
Valutare la performance complessiva di più test
Curva ROC (Receiver Operating Characteristic curve)
- Il confronto delle curve ROC di più test consente la valutazione
comparativa, grafica e matematica, di due o più test.
-Il test che identifica l’area maggiore al di sotto della propria curva,
offre la migliore performance.
- Un’area di ampiezza maggiore non significa migliori performance
per ogni valore di cut-off
13
Levi Z. et al., Ann Intern Med, 2007
14
Confrontare le performance di due test – Curva ROC
0.00
0.25
Sensitivity
0.50
0.75
1.00
Sangue Occ ulto nel le Fec i (Emoglobina Umana vs . Guaiac o)
0.00
0.25
0.50
1-Specificity
FOBT ROC area: 0.8926
Re ference
0.75
1.00
Guaiaco ROC area: 0.6889
15
Rapporti di Verosimiglianza
(Likelihood Ratio - LR)
- Sono misure sintetiche di performance che offrono l’opportunità
di classificare il test con un indice che tiene conto
contemporaneamente di sensibilità e specificità
- E’ calcolabile un LR positivo (+) e negativo (-)
- Alti valori del LR + e bassi valori del LR – indicano buone
performance, cioè buoni rapporti tra sensibilità e specificità del
test
- La misura di LR maschera il contributo separato che sensibilità e
specificità del test hanno fornito per il raggiungimento del suo
valore.
16
Rapporti di Verosimiglianza
(Likelihood Ratio - LR)
LR +
Probabilità di ottenere un risultato positivo in un malato,
rispetto alla probabilità di ottenere lo stesso risultato in un
soggetto sano
LR -
Probabilità di ottenere un risultato negativo in un malato,
rispetto alla probabilità di ottenere lo stesso risultato in un
soggetto sano
LR + = Sensibilità / 1 - Specificità
LR - = 1 - Sensibilità / Specificità
Si tratta del rapporto tra l’incidenza di risultati positivi (nei malati
rispetto ai non malati), o negativi.
17
Rapporti di Verosimiglianza (LR)
LR + =
malattia
(vp / vp + fn)
(fp / fp + vn)
test
+
-
+
vp
fp
-
fn
vn
Il LR+ è un Rischio Relativo (RR).
Valuta la forza dell’associazione tra malattia e positività al test.
es. In caso di LR+= 3.5, i malati hanno un rischio di positività al
test 3.5 volte superiore rispetto ai non malati
LR+
= test SpIn
Buona specificità, il test è utile per confermare la
malattia quando il risultato è positivo
18
Rapporti di Verosimiglianza (LR)
LR - =
malattia
+
-
+
vp
fp
-
fn
vn
(fn / vp + fn)
(vn / fp + vn)
test
Il LR- è un Rischio Relativo (RR, cioè un rapporto tra due
incidenze). Valuta la forza dell’associazione tra malattia e
negatività al test.
es. In caso di LR- = 0.2, i malati hanno un rischio di negatività
al test 5 volte più basso (1/0.2) rispetto ai non malati
LR-
= test SnOut
Buona sensibilità, il test è utile per escludere la
malattia quando il risultato è negativo
19
Rapporti di Verosimiglianza e performance di un test
LR > 1
LR < 1
LR = 1
LR +
La probabilità di un test
positivo è maggiore in
presenza di malattia che in
assenza di essa
La probabilità di un test +
è minore in presenza di
malattia che in assenza di
essa
Un risultato positivo del
test non è associato alla
presenza/assenza della
malattia
LR -
La probabilità di un test - è
minore in assenza di malattia
che in presenza di essa
La probabilità di un test
negativo è maggiore in
assenza di malattia che in
presenza di essa
Un risultato negativo del
test non è associato alla
presenza/assenza della
malattia
Performance ottimali, non ottimali e non informative
20
LR, prevalenza di malattia e probabilità post test
Esiste una correlazione tra:
- prevalenza della malattia nella popolazione sottoposta al test
- LR del test (per uno specifico valore di cut-off)
- predittività del test (es. probabilità di malattia in caso di risultato
positivo)
L’algoritmo che lega questa tre grandezze è graficamente
rappresentato dal nomogramma di Fagan
21
22
Un LR = 1 identifica il test (adoperato a quel determinato
valore di cut-off), non informativo, poiché non aggiunge
nessuna informazione a quella già disponibile prima della sua
somministrazione.
23
LR=1, indica uguali valori di sensibilità (veri positivi) e falsi
positivi, cioè somiglia alla probabilità di identificare
correttamente la condizione, pari a quella ottenibile con il lancio
di una moneta
100%
sensibilità
80%
L
60%
1
=
R
40%
20%
20%
40%
60%
1-specificità
80%
100%
24
25
Come migliorare Sensibilità e Specificità
Uso di test multipli
Test in serie
Test in parallelo
26
Come migliorare la Sensibilità. Test in parallelo
Numerosi test somministrati contemporaneamente.
Il soggetto è considerato positivo se almeno uno dei test è positivo
Formula leucocitaria e manovre semiotiche per la
diagnosi di urgenza di appendicite
Manovre Semiotiche*
Formula Leucocitaria*
Sensibilità = 60.0%
Sensibilità = 66.9%
Specificità = 75.2%
Specificità = 79.4%
*Validità ipotizzate unicamente a fini didattici. I valori riportati non sono presi da fonti bibliografiche
27
I valori di performance della formula leucocitaria sono, nell’impiego dei
test in parallelo, applicati ai negativi alle manovre semiotiche
Prevalenza di appendicite tra i soggetti giunti al PS con sintomatologia acuta=7%
App+
App-
Tot
Sem+
420
2306
2726
Sem--
280
6994
7274
Tot
700
9300
10000
Sem: Se=60.0%; Sp=75.2%
I test in parallelo ci
danno l’opportunità di
verificare se i negativi
sono veri negativi
App+
App-
Tot
FL+
187
1441
1628
FL-
93
5553
5646
Tot
280
6994
7274
FL: Se=66.9%; Sp=79.4%
Sensibilità complessiva dei 2 test somministrati in parallelo = (420+187) / 700 = 86.7%
Specificità complessiva dei 2 test somministrati in parallelo = 5553/ 9300 = 59.7%
I test in parallelo migliorano la Sensibilità e
peggiorano la Specificità
28
Migliorare la Sensibilità. Uso dei test in parallelo
Considerare “malato”, un soggetto che è risultato positivo ad
almeno uno dei numerosi test impiegati in parallelo, significa
minimizzare il rischio di risultati falsamente negativi.
Difficilmente un soggetto con appendicite in atto
sarà classificato come “non malato”
29
Migliorare la Specificità. Test in serie
Numerosi test somministrati in modo sequenziale
I positivi al 1 test sono sottoposti alla somministrazione del 2 test
Mammografia ed Esame Citologico nella
diagnosi di Carcinoma Mammario
Mammografia*
Citologia**
Sensibilità = 75%
Sensibilità = 87.7%
Specificità = 92.3%
Specificità = 94.7%
•Carney PA., et al., Individual and combined effects of age, breast density, and hormone replacement therapy use on
the accuracy of screening mammography, Annals of Internal Medicine, 2003
•**Collaco LM et al., Value of fine needle aspiration in the diagnosis of breast lesion, Acta Cytol, 1999
30
Test in serie
I soggetti positivi all’esame mammografico sono sottoposti all’esame citologico.
Ca +
Ca -
Tot
Mx+
88
791
879
Mx-
29
9092
9121
Tot
117
9883
10000
I
valori
di
performance
della
citologia
sono,
nell’impiego dei tests
in serie, applicati ai
positivi
al
test
mammografico.
Mammografia: Se = 75%; Sp = 92.3%
Ca +
Ca -
Tot
FNA+
77
40
117
FNA-
11
751
762
Tot
88
791
879
Citologia: Se = 87.7%; Sp = 94.7%
Sensibilità complessiva dei 2 tests somministrati in serie = 77 / 117 = 65.8%
Specificità complessiva dei 2 tests somministrati in parallelo = 9092+751/ 9883 = 99.6%
I test in serie migliorano la Specificità e
peggiorano la Sensibilità
31
Migliorare la Specificità. Uso dei test in serie
Considerare “malato”, un soggetto che è risultato positivo ad una
serie di test somministrati in sequenza, significa minimizzare il
rischio di risultati falsamente positivi
La sequenza degli esami è stabilita in base alla performance e
alla invasività
La probabilità che una donna risulti positiva
a tutti gli esami e non sia portatrice di
ca mammario è molto ridotta
32
Migliorare i Valori Predittivi
A parità di Prevalenza:
- Aumentiamo la Specificità per aumentare i VPP
- Aumentiamo la Sensibilità per aumentare i VPN
A parità di Sensibilità e Specificità:
- Aumentiamo la Prevalenza per aumentare i VPP
33
Percorsi diagnostici
Il caso delle demenze
34
Epidemiologia delle demenze
La prevalenza di demenza in soggetti di età > 64 anni è
pari al 4 %
La diagnosi di demenza è eminentemente clinica ed è
basata sull’impiego di test cognitivi brevi (MMSE)
dotati di sensibilità pari al 70% e specificità pari al
75%, che consentono la formulazione della diagnosi di
sindrome demenziale
Ferri CP, Lancet 2005, Feldman HH, CMAJ 2008, Tombaugh TN, J Am Geriatr Soc 1992
35
Diagnosi di demenza in popolazione di età > 64 anni
Sindrome demenziale
MMSE
Si
No
Totale
< 25
2800 (VP)
24000 (FP)
26800
25
1200 (FN)
72000 (VN)
73200
4000
96000
100000
Totale
Probabilità pre-test di sindrome demenziale = 4 %
LR + = Se / 1-Sp = 0.7 / 0.25 = 2.8
Probabilità post test (se positivo) = 2800 / 26800 = 10.4 %
LR+
= test SpIn
36
Il 5 % circa delle demenze non è di origine degenerativa, ma è
invece attribuibile a neoplasie, idrocefalo normoteso e ematomi
subdurali, che è opportuno escludere, dal momento che
necessitano di presidi terapeutici e atteggiamenti clinici
completamente diversi da quelli richiesti da altri tipi di
demenza.
TC e MRI sono dotati di Sensibilità pari al 95 % e Specificità
pari al 90 % per l’identificazione di tali lesioni.
37
neoplasie, idrocefalo, ematomi
MRI - TC
lesioni focali
non lesioni focali
Totale
Si
No
Totale
1273
2546
3819
67
22914
22981
1340
25460
26800
Probabilità pre-test di lesioni focali = 5 %
LR - = 1-Se / Sp = 0.05 / 0.9 = 0.055
Probabilità post-test (se negativo) = 67 / 22981 = 0.3 %
LR-
= test SnOut
38
Epidemiologia clinica
Gli studi epidemiologici
39
Studi diagnostici
- Studi di correlazione
Indagano la correlazione tra un parametro di malattia e un altro
parametro di cui si intende studiare l’utilizzabilità in ambito clinico
- Studi di accuratezza diagnostica
Si tratta di studi in cui è sottoposto a valutazione un test diagnostico
(o più di uno), al fine di verificarne la capacità di identificare
correttamente una determinata condizione o malattia
Studi efficacia diagnostica
-Si tratta di studi in cui è verificata l’efficacia di un determinato
procedimento diagnostico nel modificare favorevolmente la
prognosi di una determinata condizione o malattia
40
Gli studi di efficacia diagnostica sono disegnati come RCT, dal
momento che il procedimento diagnostico è considerato quale
intervento e un determinato outcome di malattia è considerato quale
esito.
Negli studi di efficacia diagnostica il complesso diagnosi-terapia è
trattato come un’unica entità, della quale si cerca di studiare
l’efficacia.
L’efficacia dimostrata riguarda, quindi, il complesso diagnositerapia.
Non è possibile separare la diagnosi dalla terapia e tentare di inferire
l’efficacia di una delle due componenti, una volta dimostrata
l’efficacia del complesso.
41
42
Comparative effectiveness of MRI in breast cancer (COMICE)
trial: a randomised controlled trial. Lancet 2010
1625 soggetti candidati all’intervento di
resezione chirurgica locale di ca mammario
817 assegnati alla valutazione prechirurgica con MRI + tripla valutazione
clinica, radiologica (mx e eco) e
citologica
808 assegnati alla valutazione prechirurgica con tripla valutazione
clinica, radiologica (mx e eco) e
citologica
816 soggetti analizzati
807 soggetti analizzati
Proporzione di re-interventi, di successive mastectomie e di
mastectomie iniziali non appropriate
43
-Donne di età > 18, con diagnosi di carcinoma mammario confermata da biopsia,
candidate ad interventi di ampia escissione locale dopo tripla valutazione.
-Randomizzazione con minimizzazione per età (< > 50 anni), densità del tessuto
mammario (classi ACR-BI-RADS), consulente chirurgo.
-Mx, Eco e MRI somministrate in modo standardizzato.
-Il braccio no-MRI fu avviato a intervento così come pianificato.
-Il braccio MRI fu rivalutato e eventuali disaccordi con la precedente tripla
valutazione furono risolti con team multidisciplinare e l’intervento fu pianificato
secondo appropriatezza. Lo studio dei margini di escissione fu condotto secondo
direttive del chirurgo, decise prima dell’arruolamento. I reperti MRI furono
rivalutati da un esperto in cieco che assicurò la omogeneità di esecuzione e lettura
tra i centri.
-Rivalutazioni a 6 mesi del tasso di re-interventi (escissioni locali o mastectomie).
-Rivalutazioni a 12 mesi delle mastectomie evitabili a causa di reperti MRI
falsamente positivi (lesioni falsamente multifocali, lesioni di dimensioni
sovrastimate).
44
La MRI ri-classifica casi di ca mamamrio già candidati
all’escissione locale ampia, nell’ipotesi di una più precisa
definizione di malattia.
Gli extra casi identificati dalla MRI come candidati alla
mastectomia potrebbero rappresentare una parte dello spettro di
malattia con diversa responsività alle terapie.
E’ pertanto necessario testare l’accuratezza della MRI in
associazione all’effetto delle terapie.
45
46
Disponibilità di un nuovo test
Se il nuovo test ha una migliore specificità, in assenza di altre
controindicazioni (es. sicurezza, costi, invasività, ecc), è ragionevole usare
il nuovo test senza necessità di ulteriori valutazioni del complesso
diagnosi-terapia.
Se il nuovo test ha una migliore sensibilità è necessario verificare la
risposta alla terapia dei casi diagnosticati dal nuovo test.
E’ possibile che i casi diagnosticati dal nuovo test (e non identificati dal
vecchio test) siano in possesso di caratteristiche cliniche che li rendono
meno (o più) sensibili alla terapia.
A questo punto è necessario verificare la sensibilità di tali casi al
trattamento in vari modi (valutazione dei dati del RCT di origine,
valutazione caratteristiche cliniche degli extra casi, ecc).
In assenza di risultati conclusivi è necessario ri-testare il complesso
diagnosi-terapia (nuovo RCT)
47
48
Gli studi di accuratezza diagnostica sono disegnati come studi
cross-sectional (di prevalenza) e si basano sul confronto tra un test
(index test) che si intende studiare e un altro test (reference
standard) che si assume classifichi correttamente la condizione o
malattia di interesse.
Luogo e modalità di arruolamento dei pazienti sono essenziali,
dal momento che condizionano la prevalenza e lo spettro di
malattia nello studio e quindi la performance del test.
Tempi e modalità di somministrazione dei test (index e reference)
possono introdurre distorsioni nella valutazione di accuratezza.
Gli studi di accuratezza diagnostica consentono il calcolo di Se, Sp,
VPP, VPN.
49
A Quantitative Immunochemical Fecal Occult Blood Test for
Colorectal Neoplasia, Ann Intern Med. 2007;146:244-255.
1000 pazienti consecutivi
I-FOBT
(index test)
Colonscopia
(reference test)
Sensibilità, Specificità, Valore Predittivo Positivo, Valore
Predittivo Negativo, per diversi livelli di emoglobina fecale
50
51
Soggetti afferenti al centro di endoscopia per “motivo di invio”
52
Sono arruolati 1000 pazienti consecutivi afferenti al centro di
endoscopia perché sintomatici o ad alto rischio di ca colorettale.
A ciascun paziente è somministrato il test per la ricerca del
sangue occulto nelle feci (FOBT in tre somministrazioni con uso
del valore più elevato) e viene effettuata una colonscopia (le 56
colonscopie incomplete sono escluse dallo studio)
In caso di reperimento di neoformazioni colorettali viene
effettuata una biopsia o rimozione e il polipo viene classificato
per dimensioni, tipologia e displasia (patologi in cieco rispetto
all’esito del FOBT). Sono definite le neoplasie clinicamente
significative (cancro e adenomi ad alto grado di displasia).
53
54
Prevalenza di adenomi avanzati e cancri, della popolazione
afferente al centro di endoscopia.
Advanced adenoma 74 / 1000 = 7.4 %
Cancer 17 /1000 = 1.7%
Cancer and Advanced adenoma 91 /1000 = 9.1 %
Advanced adenoma include polipi adenomatosi di dimensioni > 10
mm, oppure a componente villosa > 20 %, oppure ad alto grado di
displasia
55
Utilizzando un cut off di 100 ng/ml il LR + risulta pari a 8.59
consentendo, in caso di test positivo un “aumento” di
informazione significativo.
-Probabilità pre-test = 1.7 %
-LR + = 8.59
-Probabilità post test = 12.9 %
A parità di tutte le altre condizioni, una prevalenza (probabilità
pre-test) di 1.5 /1000 (qual è quella della popolazione generale),
consentirebbe un guadagno di informazione diverso.
-Probabilità pre-test = 0.15 %
-LR + = 8.59
-Probabilità post-test = 1.28 %
56
Popolazione
afferente al
centro di
endoscopia
Popolazione
generale
57
La prevalenza della popolazione afferente al centro di endoscopia
condiziona i valori predittivi e, in ultima analisi, la performance
del test.
Si tratta, in ogni caso, di una prevalenza “reale”, è, come tale,
utilizzabile nella clinica.
Il disegno di studio cross-sectional, consente il calcolo di Se, Sp,
VPP, VPN.
58
Gli studi di accuratezza diagnostica beneficiano talvolta di un
approccio del tipo caso-controllo.
In questo caso il disegno prevede la selezione di un gruppo di
“malati” e di un gruppo di “non malati”.
I malati e i non malati sono classificati in base ai risultati di un
test assunto quale reference standard.
I due gruppi sono confrontati relativamente ai risultati di un
determinato test di cui si vuole studiare la performance (index
test).
59
Studi di accuratezza diagnostica
prospettico
popolazione
campione
retrospettivo
Malati
non Malati
(reference standard
positivo)
(reference standard
negativo)
index test
index test
reference
standard
Sensibilità, Specificità,
VPP, VPN
(recupero informazioni test in studio, oppure
somministrazione dopo l’arruolamento)
Sensibilità, Specificità,
VPP, VPN
60
prospettico vs. retrospettivo
Negli studi prospettici pazienti sospettati di essere portatori della
condizione di interesse sono arruolati e poi sottoposti all’index
test e al reference standard.
Negli studi retrospettivi sono ricercati i risultati dei test cui sono
stati, in passato, sottoposti pazienti portatori e non portatori della
condizione di interesse.
Negli studi retrospettivi non è possibile calcolare valori predittivi
“reali”, dal momento che la prevalenza è “decisa” dallo
sperimentatore
61
Kodama N et al., Diagnosis of Alzheimer-type dementia:
measurement of hippocampal and ventricular areas in MR
images, Magn Reson Med Sci 2002: 1(1):14-20
-Diagnosi di demenza attraverso la misurazione di atrofia
cerebrale e ippocampale in MRI volumetrica
-73 soggetti arruolati: 22 controlli non malati; 51 probable AD
-Index test = MRI volumentrica
-Reference standard = diagnosi clinica criteri NINCS-ADRDA
-Sensibilità=90.2%; Specificità=81.8%
-Prevalenza =51/73=69.9%
62
Strumenti
Valutazione di qualità degli studi diagnostici
63
La valutazione di qualità degli studi diagnostici si giova di diversi
strumenti, in gran parte mutuati da una checklist realizzata da un
gruppo di ricercatori con metodo Delphi.
The development of QUADAS: a tool for the quality
assessment of studies of diagnostic accuracy included in
systematic reviews
Penny Whiting*1, Anne WS Rutjes2, Johannes B Reitsma2,
Patrick MM Bossuyt2 and Jos Kleijnen1,
BMC Medical Research Methodology 2003, 3:25
Si tratta di 14 items che indagano le dimensioni della qualità di
uno studio diagnostico ritenute importanti dal gruppo di lavoro e
selezionate a seguito di procedure reiterate di consenso.
64
The QUADAS tool
65
Was the spectrum of patients representative of the patients
who will receive the test in practice ?
-Si riferisce al rischio di spectrum bias
- Attiene ai problemi di generalizzabilità che si pongono
quando i pazienti inclusi nello studio sono diversi da quelli
della pratica clinica all’interno della quale si vuole utilizzare
il test
- La diversità riguarda le caratteristiche demografiche,
cliniche e la gravità di malattia
- Le stime di accuratezza diagnostica ottenute con una
popolazione possono essere non confermate in popolazioni
con malattia meno grave (es. pazienti ospedalizzati vs.
pazienti non ospedalizzati)
66
Uchida Y. Diagnosis of Dementia Using Perfusion SPECT
Imaging at the Patient’s Initial Visit to a Cognitive Disorder
Clinic Clin Nucl Med 2006;31(12):764-73
Su 137 pazienti con AD (confermata mediante osservazione
clinica dopo due anni di follow-up) e 178 pazienti affetti da
altri tipi di demenza, è testata la performance di SPECT
transaxial vs. 3D-SSP SPECT
La perfomance è sempre migliore nei pazienti più gravi
Transaxial
3D-SSP
p
Severe dementia
0.75
0.90
0.002
Mild dementia
0.64
0.88
0.001
67
Were selection criteria clearly described ?
-Si riferisce alla esplicita e chiara definizione dei criteri di
inclusione e esclusione dei partecipanti allo studio
- La chiarezza dei criteri di inclusione aiuta a contestualizzare
i risultati e a risolvere i problemi di generalizzabilità
68
Is the reference standard likely to correctly classify the target
condition ?
-E’ un punto cruciale per la qualità dello studio diagnostico,
poiché si assume che il reference standard abbia sensibilità e
specificità pari al 100%.
- Le valutazioni di accuratezza diagnostica dell’index test si
fondano sulla validità del reference test
- L’index test non può mai ambire al confronto con il
reference test, cioè non è possibile conoscere il contributo
aggiuntivo che l’index fornisce rispetto al reference in materia
di accuratezza diagnostica
69
Uchida Y. Diagnosis of Dementia Using Perfusion SPECT
Imaging at the Patient’s Initial Visit to a Cognitive Disorder
Clinic Clin Nucl Med 2006;31(12):764-73
Su 137 pazienti con AD (confermata mediante osservazione
clinica dopo due anni di follow-up) e 178 pazienti affetti da
altri tipi di demenza, è testata la performance di SPECT
transaxial vs. 3D-SSP SPECT
Il reference test clinico non consente di stabilire il contributo
fornito dalla SPECT alla diagnosi, in aggiunta alla valutazione
clinica
70
Is the time period between reference standard and index test
short enough to be reasonably sure that the target condition
did not change between the two test ?
- Si riferisce al rischio di disease progression bias
- Idealmente i due test (index e reference) dovrebbero essere
somministrati in tempi ravvicinati
- In assenza di tale requisito è possibile che lo stato di salute
del soggetto muti (da malattia a guarigione, da malattia
meno grave a malattia più grave) con conseguente
distorsione delle stime di accuratezza diagnostica
- Il bias che ne consegue è frequente negli studi di
accuratezza diagnostica riferiti a malattie croniche che si
basano sul follow up per ottenere la conferma diagnostica
71
Si tratta di uno studio retrospettivo che utilizza la diagnosi
autoptica come reference standard
Si basa su 46 pazienti (31 con AD)
Valuta il contributo della FDG-PET alla diagnosi differenziale
tra AD e FTD
72
73
Did the whole sample or a random selection of the sample,
receive verification using a reference standard ?
- Si riferisce al rischio di partial verification bias, o workup bias, o selection bias, o sequential ordering bias
- Quando non tutti i pazienti ricevono una conferma
diagnostica con il reference standard, si pone il problema del
verification bias
- I pazienti testati con il reference dovrebbe essere selezionati
in modo random
- …e comunque la selezione non dovrebbe essere influenzata
dal risultato dell’index test
74
Did patients receive the same reference standard regardless of the
index test result ?
- Si riferisce al rischio di differential verification bias
- Si verifica quando alcuni risultati dell’index test sono
confermati da un reference standard diverso da quello adottato
per altri risultati dell’index test
- E’ tipico di studi in cui soltanto i positivi all’index test sono
sottoposti a conferme diagnostiche con esami più invasivi (es.
biopsia).
- E’ una variante (meno grave) del partial verification bias
75
Was the reference standard independent of the index test (i.e. the
index test did not form part of the reference standard) ?
- Si riferisce al rischio di incorporation bias
- Si verifica quando il test index è parte del reference standard,
cioè quando il risultato dell’index test è usato per ottenere la
conferma diagnostica
- Tende ad aumentare l’accordo tra index e reference e quindi a
sovrastimare l’accuratezza diagnostica
- L’assenza di cecità tra risultato dell’index e del reference test
non è sinonimo di incorporation bias
76
Was the execution of the index test described in sufficient detail
to permit replication of the test ?
Was the execution of the reference standard described in
sufficient detail to permit replication of the test ?
- Conoscere le modalità di somministrazione dei due test aiuta a
comprendere criticamente i risultati e a implementare l’uso del
nuovo test nella pratica clinica
77
Were the index test results interpreted without knowledge of the
results of the reference standard ?
Were the reference standard results interpreted without knowledge
of the results of the reference standard ?
- E’ l’equivalente della cecità negli studi interventistici e si
riferisce al review bias
- La distorsione potenziale delle stime di accuratezza è
proporzionale al grado di soggettività che affligge la lettura dei
test
78
Were the same clinical data available when test results were
interpreted as would be available when the test is used in practice ?
- Si riferisce all’influenza esercitata dalla conoscenza di notizie
cliniche, anamnestiche, ecc., sulla interpretazione del risultato del
test
- I risultati dello studio possono essere influenzati nella misura in
cui la lettura del risultato del test è soggetta a interpretazione
- La performance stimata nello studio può non essere riprodotta
nella pratica clinica, se le conoscenze disponibili non sono le
stesse.
79
Were uninterpretable / intermediate test results reported ?
- La presenza di risultati indeterminati o borderline può alterare
le stime di accuratezza se tali risultati sono associati alla
presenza/assenza malattia
- L’occorrenza casuale di tali risultati non altera le stime di
accuratezza
80
Were withdrawals from the study explaned ?
- E’ possibile che le stime di accuratezza risultino distorte nella
misura in cui i persi al follow up (prima della disponibilità dei
risultati dei test) risultino selezionati per caratteristiche connesse
alla performance del test
81
Manuale NICE 2009
Methodology checklist: the QUADAS tool for studies of diagnostic test accuracy
82
Si compone di 4 domini:
- selezione dei pazienti
- index test
- reference test
- flow e timing
Per ogni dominio è valutato il rischio di bias e per i primi tre
domini è valutata l’applicabilità
83
84
Gli autori suggeriscono di non generare score di qualità e
rendono disponibile un software (nomefile.mdb) utile per la
tabulazione dei risultati
85
E’ infine disponibile lo strumento STARD
(Standards for Reporting of Diagnostic Accuracy)
Si compone di 25 items e indaga la qualità nel reporting (non nella
conduzione) degli studi di accuratezza diagnostica. In particolare:
-ricerca bibliografica
-obiettivi dello studio
-popolazione e criteri di inclusione
-campionamento
-allestimento database
-razionale del reference standard
-tecnica e lettura dell’index e reference
-training dei “lettori” dei test
-cecità nelle letture
-analisi statistica di validità e riproducibilità
-descrizione popolazione
-flow diagram
-intervallo index-reference
-severità di malattia
-eventi avversi
-risultati anomali del test
-trasferibilità
86
Clinical Chemistry, 2003; 49:7-18; http://www.stard-statement.org/
Scarica

Clicca qui per accedere al file