Caratteristiche operative dei test diagnostici e curve ROC Prof. Vieri Boddi Dipartimento di Sanità Pubblica, Università di Firenze Un breve ripasso della “probabilità” • definiamo probabilità di successo il rapporto fra il numero di successi e numero totale di prove fatte P = s/n • Probabilità del 3 lanciando un dado a 6 facce P(3) = 1/6 • Definito successo il trovare un paziente guarito, calcoliamo la probabilità di trovare un guarito in un gruppo di N pazienti dal rapporto fra numero di guariti (G) e il totale dei pazienti: P(G) = (G) / N. • Su 130 pazienti contiamo 77 guariti, P(G) = 77/130 = 0.592 ovvero 59.2%. Ancora su probabilità • La probabilità è un numero che varia fra 0 (evento impossibile) e 1 (evento certo). • La probabilità che avvenga uno o un altro evento fra eventi che si escludono a vicenda è data dalla somma delle probabilità dei singoli eventi. • La probabilità di un numero pari in un lancio di un dado è data dal rapporto fra (numero di risultati pari / numero i risultati possibili) • P( o 2 o 4 o 6) = 3/6 = 0.50 • P(2) = 1/6 P(4) = 1/6 P(6) = 1/6 • P( o 2 o 4 o 6) = P(2) + P(4) + P(6) Ancora su probabilità •La probabilità che avvengano insieme eventi indipendenti è data dal prodotto delle probabilità dei singoli eventi. •La probabilità di ottenere due teste lanciando due monete è data dal rapporto fra numero di modi di ottenere due teste e il numero di possibili risultati diversi. •Possibili risultati diversi: T1eT2 T1eC2 C1eT2 C1eC2; •fra questi c’è un solo successo T1eT2. P(T1eT2) = 1/4 P(T1) = 1/2 P(T2) = 1/2 P(T1eT2) = P(T1)*P(T2) Ancora su probabilità •Si abbia un mazzo di 40 carte; si vuol calcolare la probabilità che la seconda carta estratta sia un re (K) P(2°K). •Tale probabilità dipende (è condizionata) dal risultato della prima estrazione e dal destino della prima carta. •P(1°K) = 4/40 = 0.10 •P(2°K) = 4/40 = 0.10 se la prima è stata reinserita nel mazzo dopo la prima estrazione •P(2°K) = 4/39 = 0.103 se la prima non era un K ed è rimasta sul tavolo => P(2°K|1° non K) •Si legge “probabilità che la seconda sia K dato che (a condizione che) la prima non era K (ed è rimasta sul tavolo)” => Probabilità condizionale •P(2°K) = 3/39 = 0.077 se la prima era un K ed è rimasta sul tavolo => P(2°K|1° K) Teorema di Bayes Teorema di Bayes P(B|A) = P(AeB) / P(A) P(AeB) = P(B|A) * P(A) La probabilità che avvenga l’evento B a condizione che sia avvenuto l’evento A è data dalla probabilità che avvengano sia A che B divisa per la probabilità che avvenga l’evento condizione (A). Esempio tabella 2x2 Femmine Maschi Occhiali SI 80 70 150 Occhiali NO 20 30 50 Totale 100 100 200 Nella tabella precedente è riportata una casistica relativa a 200 pazienti di uno studio dentistico, ciascuno classificato in base al sesso e all’uso di occhiali. In tabelle di questo tipo si possono stimare varie probabilità, immaginando di estrarre a caso una cartella. Probabilità di estrarre la cartella di una femmina P(F) = 100/200 Probabilità di estrarre la cartella di una persona che non usa gli occhiali P(ON) = 50/200=0.25 P(MeOS) = 70/200 = 0.35 Se è noto che si sta estraendo una cartella di una femmina, quale è la probabilità che questa usi gli occhiali; caso tipico di probabilità condizionale P(OS|F) = 80/100= 0.80 P(F|OS) = ? P(ON|M) = ? P(FeON) = ? Test diagnostici 1 •La diagnosi è un aspetto importante della pratica clinica; •la ricerca clinica è in buona parte rivolta a migliorare i metodi diagnostici. •Caso più semplice: i pazienti possono essere classificati in due gruppi, distinti e ben definiti, in base a criteri ben codificati. • (D+ e D- Disease) ; si cerca un metodo (test diagnostico) che permetta di individuare nel modo migliore il “vero” stato di salute dei pazienti (T+ e Trisultato del Test). Test diagnostici 2 La bontà di un test diagnostico viene valutata dal confronto dei risultati del test in esame con quelli di un test ‘definitivo’ (per esempio biopsia, autopsia) o di un ‘gold standard’ (test accettato come riferimento); deve cioè esistere un metodo, indipendente da quello in esame, per determinare con ‘certezza’ quali sono i malati (D+) e quali i non malati (D-). Si abbia una casistica relativa a 67 pazienti, classificati in base alla malattia (D+ o D-) e al risultato di un test diagnostico (T+ o T-). T+ TTotale 1 D+ D- Totale 39 2 falsi positivi 41 25 26 27 67 falsi negativi 40 Si possono stimare varie probabilità che, in questo contesto hanno nomi particolari: Sensibilità = P(T+|D+) Specificità = P(T-|D-) Valore predittivo positivo P(D+|T+) Solo se la Valore predittivo negativo P(D-|T-) casistica è rappresentativa Prevalenza P(D+) POTERE DISCRIMINANTE DI UN TEST Malattia Selvais, 1998 Pos Test Neg Pres Ass 39 VP 2 FP 41 1 FN 25 VN 26 40 27 67 Sensibilità = 39/40 = 0.975 98 % Specificità = 25/27 = 0.926 VP(+) = 39/41 = 0.951 VP(-) = 25/26 = 0.961 Prevalenza = 40/67 = 0.597 Dividendo tutti i termini di questa tabella per il numero totale di osservazioni (67), si ottiene una tabella di probabilità: D+ D- T+ 0.582 0.030 0.612 T- 0.015 0.373 0.388 Totale 0.597 0.403 1.000 P(D+eT+) = 0.582 P(D-eT+) = 0.030 P(D-) = 0.403 Da una tabella di questo tipo si possono calcolare i valori predittivi, utilizzando il teorema di Bayes. VP(-) = P(D-|T-) = P(D-eT-)/P(T-) = 0.373/0.388 = 0.961 Caveat Sensibilità e specificità sono relative alle colonne della tabella e sono quindi indipendenti dalla prevalenza (diffusione della malattia nella struttura nella quale viene eseguito il test). I valori predittivi sono vincolati alle righe della tabella, quindi fortemente condizionati dal valore della prevalenza nella popolazione in esame. Dipendenza dei valori predittivi dalla prevalenza • tenerla ben presente per la scelta di un test diagnostico e per l’interpretazione dei risultati; • nella messa a punto di un test si tenderà a usare un campione con pari numeri di ‘sicuramente D+’ e ‘sicuramente D-‘, cioè con prevalenza del 50%, per stimare sensibilità e specificità in gruppi di pari consistenza numerica. • L’utente del test deve invece riferirsi alla prevalenza della malattia nella popolazione oggetto del suo studio, poiché è in funzione di questa che variano i valori predittivi, e quindi ‘l’utilità’ del test da adottare. Per valutare l’utilità diagnostica di un particolare test in contesti con prevalenza diversa della malattia in studio si può ricorrere al teorema di Bayes. Nota la sensibilità e la specificità del particolare test diagnostico, si ricorre al calcolo dei valori predittivi conoscendo la prevalenza della malattia. Come esempio si ricostruisca la tabella delle probabilità a partire da una prevalenza del 10% (P(D+)=0.100), nota sensibilità = 0.975 e Specificità = 0.926 D+ D- 0.100 0.900 T+ TTotale 1.000 D+ D- T+ 0.097 0.067 0.164 T- 0.003 0.833 0.836 Totale 0.100 0.900 1.000 P(D+eT+) = P(T+|D+) * P(D+) = sensibilità * prevalenza = 0.975 * 0.10 = 0.097 P(D-eT-) = P(T-|D-) * p(D-) = specificità * (1- prevalenza) = = 0.926 * 0.900 = 0.833 E’ possibile ora calcolare i VP: VP(+) = P(D+|T+) = P(D+ e T+)/P(T+) = 0.097/0.164 = 0.591 Analogamente VP(-) = 0.996 Notare come, al variare della prevalenza, varino i valori predittivi. Importanza del tipo di variabile test utilizzata. Finora abbiamo implicitamente ammesso che la risposta fosse chiara e dicotomica (T+ o T-). Ma in numerosi casi la risposta del test può essere un valore rilevato su una qualsiasi scala numerica: ordinale, intervallare, razionale. In tal caso i problemi di interpretazione di un test diagnostico diventano più complicati. Il caso più fortunato è quello in cui la distribuzione della variabile risposta nei D+ non ha nessuna sovrapposizione con la distribuzione della stessa variabile nei D-; in questo caso è facile trovare un valore soglia, posto fra le due distribuzioni, che separa in modo netto i D+ dai D-; in questo caso non esistono né Falsi Positivi, né Falsi Negativi (Sensibilità e Specificità = 1.00 e 100%). Il caso più sfortunato è quello in cui le distribuzioni dei D+ e dei Dsono completamente sovrammesse; non esiste in tal caso nessun valore soglia utile per la discriminazione fra D+ e D -, dato il risultato del test. Un test è utilizzabile quando le due distribuzioni sono solo parzialmente sovrammesse Esiste però un problema relativo alla scelta del valore soglia (cutoff) per discriminare fra T+ e T- Sensibilità e specificità al variare del valore soglia • Per studiarne l’andamento si costruiscono le curve ROC. • Tale nome (ROC: Receiver Operating Characteristic) deriva dai primordi dell’esistenza del radar, quando l’operatore doveva distinguere i segnali causati dagli aerei dal rumore di fondo, causato da altre sorgenti. • Le curve ROC forniscono una rappresentazione completa delle caratteristiche del test nell’intero range di valori della variabile test che sono potenziali cutoff. Segnali radar e ROC Costruzione delle curve ROC • Si traccia un grafico nel quale ogni punto ha come coordinate la sensibilità (True Positive Rate, TPR) e (1 – specificità) (False Positive Rate, FPR) corrispondenti a diversi valori di soglia (cutoff); si adatta poi una curva a questo insieme di punti. N.B.: sono disponibili diversi pacchetti di software applicativo che eseguono le elaborazioni ROC partendo dai dati grezzi Curve ROC •Tutte partono dall’angolo inferiore sinistro, per il quale il cutoff è così alto che nessun test lo supera, quindi tutti i test sono negativi: la sensibilità è 0% e la specificità 100% [(1 – specificità) = 0%]. •Tutte terminano all’angolo superiore destro, per il quale il cutoff è così basso che tutti i test sono positivi: la sensibilità è il 100% e la specificità 0% [(1 – specificità) = 100%]. •Spostando il cutoff dal valore massimo al minimo si ottengono coppie di valori di sensibilità e specificità [(1 – specificità]), per mezzo delle quali si costruisce il grafico ROC ( vedi figura). •In definitiva la sensibilità (TPR) è la proporzione di D+ che hanno valori della variabile test maggiori del cutoff, rispetto al totale dei D+; cioè il rapporto tra la porzione di area della curva dei D+ delimitata dal cutoff e l’area di tutta la curva. •[1- specificità] (FPR) è la porzione dei D- che hanno valori della variabile test maggiori del cutoff, rispetto al totale dei D-; cioè il rapporto tra la porzione di area della curva dei D- delimitata dal cutoff e l’area di tutta la curva. •Poché sensibilità e specificità sono calcolate su gruppi diversi di individui, anche la curva ROC, basata su sensibilità e specificità, è indipendente dalla prevalenza della malattia nel campione. Esempio cattivo (il blu) • La curva ROC di un test inutile segue una linea retta dall’angolo inferiore sinistro all’angolo superiore destro Esempio buono (il giallo) • La curva ROC di un buon test mostra un rapido incremento (fino verso il 100%) nella sensibilità (TPR) già con il primo modesto incremento di (1 – specificità) (FPR) Scelta del cutoff ottimale • Il cutoff (‘ottimale’) della variabile test viene individuato nella zona più vicina all’angolo superiore sinistro della curva (qui il 7) Validità del test • La validità di un test può essere misurata dall’area sotto la curva ROC (Area Under the Curve: AUC). Qui è quasi 1, ottima •Sono stati messi a punto vari metodi per il fitting di una curva ROC ai punti sperimentali e per il successivo calcolo della AUC (trapezoide…). •E’ possibile stimare l’errore standard di AUC. •Un test che manca di contenuto informativo giace sulla diagonale ed ha una AUC = 0,50. Viceversa un test perfetto ha una curva che segue i lati sinistro e superiore ed una AUC = 1,0. •E’ quindi possibile saggiare l’ipotesi zero: AUC nella popolazione = 0,50. Il rifiuto di tale ipotesi depone per un contenuto informativo significativo del test diagnostico in questione. Confronto di test • Le curve ROC possono servire per confrontare il comportamento di più test diagnostici. • La figura mostra le curve ROC per 3 test, con validità diversa •Le curve ROC mostrano l’intero range di sensibilità e di specificità dei due test, offrendo quindi una rappresentazione molto più ricca del potenziale contenuto informativo dei due test. Per tutti i cutoff scelti è evidente che i test 1 e 3 hanno un comportamento migliore del test 2. •Calcolando gli errori standard delle AUC è possibile determinare se differiscono ad un livelli di significatività prescelto. Rapporti di verosimiglianza Per valutare la bontà di un test diagnostico vengono usati anche i rapporti di verosimiglianza (Likelihood Ratios). LR è il rapporto delle proporzioni di pazienti con e senza la malattia, che hanno un certo risultato al test (esistono due LR, uno per il risultato: test positivo (LR(+)) l’altro per il test negativo (L(R(-)). In formule: LR(+) = P(T+|D+) / P(T+|D-) = sensibilità / (1 – specificità) LR(-) = P(T-|D+) / P(T-|D-) = (1 – specificità) / specificità •LR è il rapporto fra probabilità di uno dei risultati del test in persone che hanno la malattia e la probabilità dello stesso risultato del test in persone che non hanno la malattia. •Un valore di LR > 1 indica che quel risultato del test è associato con la presenza di malattia. •Un valore di LR < 1 indica che il risultato del test è associato con l’assenza di malattia. •Quanto più LR è diverso da 1, tanto maggiore è l’evidenza della presenza o dell’assenza di malattia. Si abbia la seguente tabella che mostra i risultati di uno studio sulla storia pregressa di abitudine al fumo nella diagnosi dell’ostruzione delle vie aeree superiori. Fumo Ostruzione vie aeree Likelihood Ratio (T+) pacchetti anno Si No >= 40 42 2 (42/148)/(2/144)= 20.4 20 – 40 25 24 (25/148)/(24/144)= 1.01 0 – 20 29 51 (29/148)/(51/144)= 0.55 Mai fumato 52 67 (52/148)/(67/144)= 0.76 148 144 Scegliendo il valore: 40 pacchetti anno come cutoff, la tabella viene compattata in Fumo Ostruzione vie aeree pacchetti anno Si No >= 40 42 2 0 – 40 106 142 148 144 Likelihood Ratio (T+) (42/148)/(2/144)= 20.4 Aver fumato più di 40 pacchetti anno è fortemente predittivo di una diagnosi di ostruzione delle vie aeree A differenza di sensibilità e specificità il calcolo di LR non richiede la dicotomizzazione del risultato del test (T+ o T-), ma si possono calcolare LR diversi per livelli diversi della variabile test ottenendo una informazione clinica molto più dettagliata. Nella tabella precedente si nota chiaramente come il rischio di malattia aumenta con l’aumentare dei pacchetti anno Sono facilmente calcolabili gli intervalli di confidenza di LR, che permettono di saggiare l’ipotesi: LR = 1. Da notare: i due termini del rapporto sono calcolati per colonna e quindi non cambiano col variare della prevalenza della malattia. Calcolo della probabilità posttest utilizzando i Likelihood Ratios Alcuni termini: Probabilità pre-test della malattia = prevalenza = P(D+) Odds della malattia = probabilità di malattia/probabilità di non malattia = P(D+)/P(D-) = P(D+)/P(1 - D+) Valgono le relazioni: Post-test odds = pre-test odds * LR Post-test probability = Post-test odds/(1+ Post-test odds) Dalle ultime due relazioni si vede chiaramente come LR misuri il cambiamento della diagnosi da prima del test a dopo il test. Fumo Ostruzione vie aeree Likelihood Ratio (T+) pacchetti anno Si No >= 40 42 2 0 – 40 106 142 248 148 144 292 44 (42/148)/(2/144)= 20.4 Probabilità pre-test = 148/292 = 0.507 Pre-test odds = 0.507/0.493 = 1.028 Post-test odds = 1.028 * 20.4 = 21 Probabilità post-test = 21/22 = 0.954 Partendo direttamente dalla tabella Probabilità post-test = P(D+|T+) = 42/44 = 0.954 Da una Probabilità pre-test diversa ……. Dopo un test diagnostico Post-test odds = pre-test odds * LR Dopo una serie di test diagnostici Post-test Odds = Pre-test odds * LR1 * LR2 * LR3 *…… Tutorials • Collegandosi a: http://www.analyse- it.com/support/ROChelp.htm o a http://www.medcalc.be/manual/mpage06-13c. si trovano le istruzioni per lavorare con le curve ROC, utilizzando dei pacchetti di software commerciale • a http://www.anaesthetist.com/mnm/stats/roc/ si trovano delle dispense sul tema Dimostrazione interattiva •Il collegamento a http://www.anaesthetist.com/mnm/stats/roc/ fornisce un’applet che permette di avvicinare o allontanare le distribuzioni del parametro nei sani e nei malati, e di spostare il cutoff per vedere come si modifica la curva ROC Approfondimenti • Seguono diversi quadri con estratti di articoli sulla valutazione dei test diagnostici • Viene indicata la fonte • A volte viene inserito un collegamento al testo completo dell’articolo • Le indicazioni sono tratte da MedLine Collegamento A non-parametric method for the comparison of partial areas under ROC curves and its application to large health care data sets. Zhang DD, Zhou XH, Freeman DH Jr, Freeman JL. Office of Biostatistics, University of Texas Medical Branch at Galveston, Galveston, TX 775551148, USA. [email protected] The receiver operating characteristic (ROC) curve is a statistical tool for evaluating the accuracy of diagnostic tests. Investigators often compare the validity of two tests based on the estimated areas under the respective ROC curves. However, the traditional way of comparing entire areas under two ROC curves is not sensitive when two ROC curves cross each other. Also, there are some cutpoints on the ROC curves that are not considered in practice because their corresponding sensitivities or specificities are unacceptable. For the purpose of comparing the partial area under the curve (AUC) within a specific range of specificity for two correlated ROC curves, a nonparametric method based on Mann-Whitney U-statistics has been developed. The estimation of AUC along with its estimated variance and covariance is simplified by a method of grouping the observations according to their cutpoint values. The method is used to evaluate alternative logistic regression models that predict whether a subject has incident breast cancer based on information in Medicare claims data. Copyright 2002 John Wiley & Sons, Ltd Comment on: Med Decis Making. 2000 Oct-Dec;20(4):468-70. Determining the area under the receiver operating characteristic curve for a binary diagnostic test: best is not always ideal. Jager G. Publication Types: Comment Letter What white blood cell count should prompt antibiotic treatment in a febrile child? Tutorial on the importance of disease likelihood to the interpretation of diagnostic tests. Kohn MA, Newman MP. Department of Epidemiology and Biostatistics, University of California, San Francisco, USA. [email protected] Most diagnostic tests are not dichotomous (negative or positive) but, rather, have a range of possible results (very negative to very positive). If the pretest probability of disease is high, the test result that prompts treatment should be any value that is even mildly positive. If the pretest probability of disease is low, the test result needed to justify treatment should be very positive. Simple decision rules that fix the cutpoint separating positive from negative test results do not take into account the individual patient's pretest probability of disease. Allowing the cutpoint to change with the pretest probability of disease increases the value of the test. This is primarily an issue when the pretest probability of disease varies widely between patients and depends on characteristics that are not measured by the test. It remains an issue for decision rules based on multiple test results if these rules fail to account for important determinants of patient-specific risk. This tutorial demonstrates how the value of a diagnostic test depends on the ability to vary the cutpoint, using as an example the white blood cell count in febrile children at risk for bacteremia. Med Decis Making 2001 Nov-Dec;21(6):479-89 mROC: a computer program for combining tumour markers in predicting disease states. Kramar A, Faraggi D, Fortune A, Reiser B. CRLC Val d'Aurelle, Unite de Biostatistiques, Parc Euromedecine, 34298 Montpellier cedex 5, France. [email protected] Receiver operating characteristic (ROC) curves are limited when several diagnostic tests are available, mainly due to the problems of multiplicity and inter-relationships between the different tests. The program presented in this paper uses the generalised ROC criteria, as well as its confidence interval, obtained from the non-central F distribution, as a possible solution to this problem. This criterion corresponds to the best linear combination of the test for which the area under the ROC curve is maximal. Quantified marker values are assumed to follow a multivariate normal distribution but not necessarily with equal variances for two populations. Other options include BoxCox variable transformations, QQ-plots, interactive graphics associated with changes in sensitivity and specificity as a function of the cut-off. We provide an example to illustrate the usefulness of data transformation and of how linear combination of markers can significantly improve discriminative power. This finding highlights potential difficulties with methods that reject individual markers based on univariate analyses. Statistics in the pathology laboratory: characteristics of diagnostic tests. Empson MB. Department of Public Health and Community Medicine, Westmead Hospital, Auckland, New Zealand. [email protected] Sensitivity, specificity and receiver operating characteristic (ROC) curves all provide information about the ability of a diagnostic test to provide useful information in the assessment of disease. They are discussed in this review along with the importance of estimates of precision. 5: Pathology 2001 Feb;33(1):93-5 Related Articles, Books, LinkOut Meta-analysis of diagnostic tests for acute sinusitis. Engels EA, Terrin N, Barza M, Lau J. Division of Clinical Care Research, Department of Medicine, New England Medical Center, Tufts University School of Medicine, 750 Washington Street, Boston, MA 02111, USA. [email protected] To facilitate management of acute sinusitis, we conducted a meta-analysis of published studies comparing diagnostic tests for this disorder. Thirteen studies were identified through literature search. Based on sinus puncture/aspiration (considered most accurate), 49-83% of symptomatic patients had acute sinusitis. Compared with puncture/aspiration, radiography offered moderate ability to diagnose sinusitis (summary receiver operator curve [SROC] area, 0.83). Using sinus opacity or fluid as the criterion for sinusitis, radiography had sensitivity of 0.73 and specificity of 0.80. Studies evaluating ultrasonography revealed substantial variation in test performance. The clinical evaluation, particularly risk scores formally incorporating history and physical examination findings, had moderate ability to identify patients with positive radiographs (SROC area, 0.74). Many studies were of poor quality, with inadequately described test methods and unblinded test interpretation. In conclusion, acute sinusitis is common among symptomatic patients. Radiography and clinical evaluation (especially risk scores) appear to provide useful information for diagnosis of sinusitis. Related Articles, Books, LinkOut J Clin Epidemiol 2000 Aug;53(8):852-62 Comparing three-class diagnostic tests by three-way ROC analysis. Dreiseitl S, Ohno-Machado L, Binder M. Brigham and Women's Hospital, Division of Health Sciences and Technology, Harvard Medical School, Massachusetts Institute of Technology, Boston, USA. [email protected] Three-way ROC surfaces are based on a generalization of dichotomous ROC analysis to three-class diagnostic tests. The discriminatory power of three-class diagnostic tests is measured by the volume under the ROC surface. This measure can be given a probabilistic interpretation similar to the equivalence of the c-index to the area under the ROC curve. This article presents a method to calculate nonparametric estimates of the variance of the volume under the surface using Mann-Whitney U statistics. As a simple extension of this result, it is possible to calculate covariance estimates for the volume under the surface. This allows the statistical comparison of two tests used for diagnostic tasks with three possible outcomes. The formulas derived are validated on synthetic data and applied to a three-class data set of pigmented skin lesions. It is shown that a neural network algorithm trained on clinical data and lesion features performs better than one trained on only the lesion features. Related Articles, Books, LinkOut Med Decis Making 2000 Jul-Sep;20(3):323-31 [Evaluation of added value of diagnostic tests] [Article in Dutch] Moons KG, van der Graaf Y. Universitair Medisch Centrum, Julius Centrum voor Huisartsgeneeskunde en Patientgebonden Onderzoek, GA Utrecht. [email protected] In the evaluation of diagnostic tests emphasis is placed on the evaluation of a particular diagnostic test in order to estimate it's sensitivity, specificity, or area under the 'receiver operating characteristic' curve (so called test research). This kind of test research is only useful in situations in which a diagnosis is set by one test (i.e. screening) and in the initial phases of test development for efficiency reasons. But, test research is not suitable to evaluate the clinical or added value of a test. The value of a diagnostic test can be evaluated on its value to discriminate between the presence and absence of a particular disease, to guide therapeutic decisions and to improve the prognosis of the patient. For evaluation of the added value of a diagnostic test within the diagnostic process, the study design should take into account the patient group in which the test will be applied in practice, the target disease of the test and the prior probability (prevalence) of the target disease in that population, the subsequent diagnostic stages and the reference test. In analysing the data it is calculated for each step of the diagnostic process how the test result changes the probability of presence or absence of the target disease. Ned Tijdschr Geneeskd 2000 Jun 24;144(26):1256-61 Principles and practical application of the receiver-operating characteristic analysis for diagnostic tests. Greiner M, Pfeiffer D, Smith RD. Institute for Parasitology and Tropical Veterinary Medicine, Department of Tropical Veterinary Medicine and Epidemiology, Freie Universitat Berlin, Konigsweg, Germany. We review the principles and practical application of receiver-operating characteristic (ROC) analysis for diagnostic tests. ROC analysis can be used for diagnostic tests with outcomes measured on ordinal, interval or ratio scales. The dependence of the diagnostic sensitivity and specificity on the selected cut-off value must be considered for a full test evaluation and for test comparison. All possible combinations of sensitivity and specificity that can be achieved by changing the test's cut-off value can be summarised using a single parameter; the area under the ROC curve. The ROC technique can also be used to optimise cut-off values with regard to a given prevalence in the target population and cost ratio of false-positive and false-negative results. However, plots of optimisation parameters against the selected cut-off value provide a more-direct method for cut-off selection. Candidates for such optimisation parameters are linear combinations of sensitivity and specificity (with weights selected to reflect the decision-making situation), odds ratio, chance-corrected measures of association (e. g. kappa) and likelihood ratios. We discuss some recent developments in ROC analysis, including meta-analysis of diagnostic tests, correlated ROC curves (paired-sample design) and chance- and prevalencecorrected ROC curves. Prev Vet Med 2000 May 30;45(1-2):23-41 Diagnostic tests: distinguishing good tests from bad and even ugly ones. Farr BM, Shapiro DE. University of Virginia Health System, Charlottesville 22908-0473, USA. This article focuses on the selection and interpretation of diagnostic tests, emphasizing the importance of understanding how their mathematical parameters affect the information they provide in various settings. The utility and limitations of sensitivity, specificity, predictive value, and receiver operating characteristic (ROC) curves are discussed using catheter-related bloodstream infections as an example. ROC curves have been used for selecting optimal cutoff values for a positive result and for selecting among several alternative diagnostic tests. For example, 16 different tests have been proposed for diagnosis of catheter-related bloodstream infection; ROC analysis provides an effective way to determine which test offers the best overall performance. Infect Control Hosp Epidemiol 2000 Apr;21(4):278-84 Statistical techniques for evaluating the diagnostic utility of laboratory tests. Kazmierczak SC. East Carolina University School of Medicine, Department of Pathology and Laboratory Medicine, Greenville, NC 27858-4354, USA. [email protected] Clinical laboratory data is used to help classify patients into diagnostic disease categories so that appropriate therapy may be implemented and prognosis estimated. Unfortunately, the process of correctly classifying patients with respect to disease status is often difficult. Patients may have several concurrent disease processes and the clinical signs and symptoms of many diseases lack specificity. In addition, results of laboratory tests and other diagnostic procedures from healthy and diseased individuals often overlap. Finally, advances in computer technology and laboratory automation have resulted in an extraordinary increase in the amount of information produced by the clinical laboratory; information which must be correctly evaluated and acted upon so that appropriate treatment and additional testing, if necessary, can be implemented. Clinical informatics refers to a broad array of statistical methods used for the evaluation and management of diagnostic information necessary for appropriate patient care. Within the realm of clinical chemistry, clinical informatics may be used to indicate the acquisition, evaluation, representation and interpretation of clinical chemistry data. This review discusses some of the techniques that should be used for the evaluation of the diagnostic utility of clinical laboratory data. The major topics to be covered include probabilistic approaches to data evaluation, and information theory. The latter topic will be discussed in some detail because it introduces important concepts useful in providing for cost-effective, quality patient care. In addition, an example illustrating how the informational value of diagnostic tests can be determined is shown. Clin Chem Lab Med 1999 Nov-Dec;37(11-12):1001-9 An improved measure for comparing diagnostic tests. Adams NM, Hand DJ. Department of Mathematics, Imperial College, London, UK. [email protected] We present a loss based method for comparing the predictive performance of diagnostic tests. Unlike standard assessment mechanisms, like the area under the receiver-operating characteristic curve and the misclassification rate, our method takes specific advantage of any information that can be obtained about misclassification costs. We argue that not taking costs into account can lead to incorrect conclusions, and illustrate with two examples. Comput Biol Med 2000 Mar;30(2):89-96 Comparing diagnostic tests: a simple graphic using likelihood ratios. Biggerstaff BJ. Centers for Disease Control and Prevention, National Center for Infectious Diseases, Division of Vector-Borne Infectious Diseases, P. O. Box 2087, Fort Collins, Colorado 80522-2087, USA. [email protected] The diagnostic abilities of two or more diagnostic tests are traditionally compared by their respective sensitivities and specificities, either separately or using a summary of them such as Youden's index. Several authors have argued that the likelihood ratios provide a more appropriate, if in practice a less intuitive, comparison. We present a simple graphic which incorporates all these measures and admits easily interpreted comparison of two or more diagnostic tests. We show, using likelihood ratios and this graphic, that a test can be superior to a competitor in terms of predictive values while having either sensitivity or specificity smaller. A decision theoretic basis for the interpretation of the graph is given by relating it to the tent graph of Hilden and Glasziou (Statistics in Medicine, 1996). Finally, a brief example comparing two serodiagnostic tests for Lyme disease is presented. Published in 2000 by John Wiley & Sons, Ltd. Stat Med 2000 Mar 15;19(5):649-63 Collegamenti a risorse rilevanti • http://gim.unmc.edu/dxtests/ROC1.h tm dispense illustrate sulle curve ROC • http://www.poems.msu.edu/EBM/Diag nosis/ROC.htm esempi pratici, e quiz