Università degli Studi di Padova CICLO DI LEZIONI “SCIENZE DI BASE” PER I DOTTORATI DI RICERCA DELL’AREA MEDICA Anno accademico 2005-06 Temi di Statistica ed Epidemiologia PROBABILITÀ E DECISIONI IN MEDICINA: I TEST DIAGNOSTICI Francesco Grigoletto Obiettivi • Saper valutare l’accuratezza dei test di screening • Utilizzare i risultati dei test diagnostici nell’assumere decisioni riguardo alla gestione di uno specifico paziente Programma • Definizione e princìpi delle probabilità • Uso di test di screening: sensibilità e specificità. Curve ROC. • Uso di test diagnostici: valore predittivo positivo e negativo. • Il teorema di Bayes. La valutazione dei test diagnostici e prognostici • I test diagnostici predicono la presenza o assenza di una malattia • I test prognostici predicono l’esito di una malattia Caratteristiche di un test diagnostico ideale TEST + - • Veloce • Sicuro • Semplice • Indolore • Affidabile • Economico CONDIZIONE + a 0 0 d Struttura di uno studio sui test diagnostici (1) Come negli studi osservazionali: – Variabile predittiva Risultato del test Qualitativo dicotomico/categoriale Quantitativo discreto/continuo – Variabile di esito Presenza/Assenza della malattia (determinata da un “gold standard”) Struttura di uno studio sui test diagnostici (2) • Studi osservazionali informazione sull’eziologia della malattia mostrando un’associazione tra variabile predittiva e malattia • Studi sui test diagnostici quanto bene un test può discriminare tra malati e sani Sensibilità e specificità (1) CONDIZIONE + TEST TOTALE + - VERI POSITIVI (VP) FALSI NEGATIVI (FN) FALSI POSITIVI (FP) VP+FN VERI NEGATIVI (VN) FP+VN Sensibilità e specificità (2) • Sensibilità quanto buono è il test nell’identificare i malati: P(T+ M+) Se = VP VP + FN • Specificità quanto buono è il test nell’identificare i sani: P(T- M-) Sp = VN VN + FP Sensibilità e specificità (3) Relazione tra sensibilità e specificità: • più sensibile è un test, minore sarà il numero di falsi negativi, ciò è importante per una malattia grave e rara come la fenilchetonuria; • più specifico è un test, minore sarà il numero di falsi positivi, ciò è importante per una malattia diffusa come il diabete. Esempio: potere discriminatorio del test CONDIZIONE TUMORE AL SENO NODULO BENIGNO + 65 30 - 35 70 100 100 TEST TOTALE 65 Sensibilità = = 65% 65 + 35 70 Specificità = = 70% 30 + 70 Esempio: sensibilità e specificità (1) LIVELLO DI GLUCOSIO 110 mg/100 ml classificati diabetici < 110 mg/100 ml classificati non diab. TOTALE 65 = 92,9% 70 247 SPECIFICITÀ = = 48,4% 510 SENSIBILITÀ = DIABETICI NON DIABETICI TOTALE 65 263 328 5 247 252 70 510 580 Esempio: sensibilità e specificità (2) LIVELLO DI GLUCOSIO 130 mg/100 ml classificati diabetici < 130 mg/100 ml classificati non diab. TOTALE 57 = 81,4% 70 420 SPECIFICITÀ = = 82,4% 510 SENSIBILITÀ = DIABETICI NON DIABETICI TOTALE 57 90 147 13 420 433 70 510 580 Esempio: sensibilità e specificità (3) LIVELLO DI GLUCOSIO NEL SANGUE (mg/100 ml) SENSIBILITÀ SPECIFICITÀ 80 100,0 1,2 90 98,6 7,3 100 97,1 25,3 110 92,9 48,4 120 88,6 68,2 130 81,4 82,4 140 74,3 91,2 150 64,3 96,1 160 55,7 98,6 170 52,9 99,6 180 50,0 99,8 190 44,3 99,8 200 37,1 100,0 A. DIABETICI NORMALI N D Frequenza relativa FASI POSITIVI MASSIMA SENSIBILIT À 80 Livello di glucosio (mg/dl) B. NORMALI D Frequenza relativa N DIABETICI ERRORE MINIMO FASI NEGATIVI FASI POSITIVI 130 Livello di glucosio (mg/dl) C. NORMALI DIABETICI D Frequenza relativa N À MASSIMA SPECIFICIT FASI NEGATIVI 200 Livello di glucosio (mg/dl) Scelta di un valore soglia (punto di cutoff) (1) • Molti test diagnostici danno una risposta di tipo continuo e quindi deve essere presa una decisione sul valore soglia che indica un risultato positivo del test • La scelta implica un aumento della sensibilità a scapito della specificità e viceversa Scelta di un valore soglia (punto di cutoff) (2) Implicazioni della scelta: – se si deve evitare un risultato FP (es.: il risultato serve per decidere se un paziente deve essere sottoposto ad un’operazione pericolosa), il valore soglia deve essere scelto in modo da massimizzare la specificità del test; – se si deve evitare un risultato FN (es.: screening per la fenilchetonuria neonatale), il valore soglia deve essere scelto in modo da massimizzare la sensibilità del test. Scala TRISS (Probabilità di decesso) ESITO TRISS MORTO + ( 0,5) - (< 0,5) TOTALE 28 = 82,4% 34 68 SPECIFICIT À = = 98,6% 69 28 VP + = = 96,6% 29 SENSIBILIT À = 28 6 34 VIVO TOTALE 1 68 69 29 74 103 Scala TRISS (Probabilità di decesso) ESITO TRISS MORTO VIVO TOTALE + ( 0,4) 29 2 31 - (< 0,4) 5 67 72 34 69 103 TOTALE 29 SENSIBILIT À = = 85,3% 34 67 SPECIFICIT À = = 97,1% 69 29 VP + = = 93,5% 31 Scala SAPS II (Probabilità di decesso) ESITO SAPS II MORTO VIVO TOTALE + ( 0,5) 19 2 21 - (< 0,5) 13 67 80 TOTALE 32 69 101 19 = 59,4% 32 67 SPECIFICIT À = = 97,1% 69 19 VP + = = 90,5% 21 SENSIBILIT À = Scala SAPS II (Probabilità di decesso) ESITO SAPS II MORTO VIVO TOTALE + ( 0,4) 21 3 24 - (< 0,4) 11 66 77 TOTALE 32 69 101 21 = 65,6% 32 66 SPECIFICIT À = = 95,7% 69 21 VP + = = 87,5% 24 SENSIBILIT À = Scala APACHE III (Probabilità di decesso) ESITO APACHE III MORTO VIVO TOTALE + ( 0,5) 15 1 16 - (< 0,5) 9 68 77 24 69 93 TOTALE 15 = 62,5% 24 68 SPECIFICITÀ = = 98,6% 69 15 VP + = = 93,8% 16 SENSIBILITÀ = Scala APACHE III (Probabilità di decesso) ESITO APACHE III MORTO VIVO TOTALE + ( 0,4) 19 1 20 - (< 0,4) 5 68 73 24 69 93 TOTALE 19 = 79,2% 24 68 SPECIFICIT À = = 98,6% 69 19 VP + = = 95,0% 20 SENSIBILIT À = Le curve ROC (Receiver Operating Characteristic) • Un altro modo per stabilire il punto di cutoff è attraverso la curva ROC: grafico della sensibilità in funzione della proporzione di falsi positivi (1-specificità) • Il test ideale è quello che si situa all’angolo superiore sinistro del grafico (100% sensibilità e specificità) Curva ROC (Receiver Operating Characteristic) di uno studio per stabilire il miglior valore soglia (cut-off) per un programma di screening per l’ipertensione (dati fittizi) 100 120 mmHg 130 mmHg 80 Sensibiità 140 mmHg 60 150 mmHg 40 160 mmHg 20 0 0 20 40 60 80 % Falsi positivi (100 - Specificità) 100 Esempi di curve ROC (Receiver Operating Characteristic) per quattro test 100 Sensibiità 80 60 40 Curva di nessuna utilità Curva discreta 20 Curva buona Curva eccellente 0 0 20 40 60 80 % Falsi positivi (100 - Specificità) 100 Ruolo della prevalenza Il valore di un test diagnostico dipende da: – sensibilità, – specificità, – prevalenza. • Al diminuire della prevalenza diminuisce la probabilità che un soggetto con test positivo abbia la malattia e aumenta la probabilità che il test rappresenti un falso positivo. Più rara è la malattia (es.: tumore del colon in adulti asintomatici) più specifico dovrà essere il test per essere clinicamente utile. • Se una malattia è comune (es.: malattia cardiaca in fumatori di mezza età con l’angina), il test dovrà essere molto sensibile per essere clinicamente utile. I FENOMENI PROBABILISTICI Alcune definizioni PROBABILITÀ: RAPPORTO TRA NUMERO DI CASI FAVOREVOLI E NUMERO DI CASI POSSIBILI (PURCHÉ TUTTI EGUALMENTE POSSIBILI) ESPERIMENTO: UNA QUALSIASI OPERAZIONE IL CUI RISULTATO NON PUÒ ESSERE PREVISTO CON CERTEZZA EVENTO: OGNI POSSIBILE ESPERIMENTO SPAZIO DEGLI EVENTI: INSIEME DI TUTTI GLI EVENTI POSSIBILI (SPAZIO CAMPIONARIO) RISULTATO DI UN Esempio di esperimento: LANCIO DI UN DADO SPAZIO DEGLI EVENTI: { 1, 2, 3, 4, 5, 6 } EVENTO A = Uscita di un numero PARI EVENTI ELEMENTARI: A1 = Uscita di 2 A2 = Uscita di 4 A3 = Uscita di 6 A = A1 POICHÉ: A1 A2 A1 A2 A1 A2 = A2 A3 (= insieme vuoto) SI DICE CHE A1, A2 e A3 SONO EVENTI A DUE A DUE INCOMPATIBILI Operazioni sugli eventi Unione A A Intersezione A B B (leggi: A o B) B A Eventi incompatibili A A B B= (insieme vuoto) B (leggi: A e B) 1. Principio delle probabilità totali Dati due eventi incompatibili A e B, di probabilità rispettivamente P(A) e P(B), la probabilità che si verifichi l’uno o l’altro è data dalla somma delle rispettive probabilità, ossia: P(A A B) = P(A) + P(B) B Nell’esempio del dado: P(A) = P(A1 A2 A3) = P(A1) + P(A2) + P(A3) = = 1 6 + 1 + 6 1 6 = Se gli eventi A e B sono compatibili, allora: P(A A B B) = P(A) + P(B) – P(A B) 1 2 Esempio: Scelta di una carta da un mazzo di 52 carte A = estrazione di un asso P(A) = 4 52 B = estrazione di una carta di cuori P(B) = 13 52 A B = asso di cuori Essendo P(A 1 B) = 52 si ha che: P(A B) = P(A) + P(B) – P(A = 4 13 + 52 52 1 - 52 B) = = 16 52 = 4 13 INDIPENDENZA Definizione Due eventi compatibili A e B si dicono indipendenti se il verificarsi dell’uno non altera la probabilità del verificarsi dell’altro, ossia P(B) = P(B A) (leggi: probabilità di B condizionata al verificarsi di A) Esempio URNA 1 A = estrazione di pallina rossa da URNA 1 B = estrazione di pallina rossa da URNA 2 P(A) = 6 01 URNA 2 (Gli eventi A e B sono compatibili e indipendenti) P(B) = 8 21 2. Principio delle probabilità composte Dati gli eventi A e B indipendenti, la probabilità del loro verificarsi congiunto è data dal prodotto delle rispettive probabilità, ossia: P(A B) = P(A) × P(B) Nell’esempio dell’estrazione di una pallina rossa da ciascuna urna: P(A B) = 6 × 8 10 12 = 48 120 = 2 5 Il principio si può estendere al caso di più di due eventi compatibili. DIPENDENZA Definizione Due eventi compatibili A e B si dicono dipendenti se il verificarsi dell’uno altera la probabilità del verificarsi dell’altro, ossia: P(B A) P(B A) (leggi: probabilità di B condizionata al non verificarsi di A) Esempio URNA 1 A = estrazione di pallina bianca da URNA 1 B = estrazione di pallina bianca dalla stessa URNA 1 (senza che la prima pallina estratta sia reinserita nell’urna) Gli eventi A e B sono dipendenti, poiché il risultato della prima estrazione altera la probabilità dell’evento B. Infatti: P(A) = 4 01 P(B A) = 3 9 P(B A) = 4 9 2. Principio delle probabilità composte (eventi dipendenti) Dati gli eventi A e B dipendenti tra loro, la probabilità del loro verificarsi congiunto è data dal prodotto della probabilità del verificarsi di A per la probabilità condizionata P(B A) , ossia: P(A B) = P(A) × P(B A) Nell’esempio dell’estrazione di una pallina rossa da ciascuna urna: P(A B) = 4 × 10 3 9 = 12 90 In generale, si può anche scrivere: P(A B) = P(B) × P(A B) = 2 15 Prevalenza e probabilità a priori • In un singolo paziente: Prevalenza = Probabilità a priori la probabilità, basata su caratteristiche demografiche e cliniche, che un paziente abbia la malattia prima di effettuare il test. Esempio: probabilità condizionata Qual è la probabilità che un soggetto sopravviva per i successivi 5 anni (B), dato che ha già raggiunto i 60 anni (A)? Sapendo che: P(A)=P(vivo a 60 anni)=0,85 P(A B)=P(vivo a 65 anni)=0,79 Allora: P(B A)=0,79/0,85=0,93 Principio delle probabilità composte B) = P(A | B) • P(B) = P(B | A) • P(A) P(A | B) = P(B | A) • P(A) / P(B) P(A A = M+ (malformazione presente) B = T+ (test positivo) Teorema di Bayes Sensibilità VP+ ( + PM |T + ) essendo : ( ) ( ( ) ( ) ( ) Prob. a priori P T + | M+ • P M+ = P T+ ) ( ) ( ) ( ) P T+ = P T+ |M+ • P M+ + P T+ | M • P M Valore predittivo di un test (probabilità a posteriori): teorema di Bayes • Valore predittivo di un test positivo (VP+) = Probabilità che una persona con un valore positivo del test abbia la malattia { } VP + = P M + T + = Se × Prob. a priori Se × Prob. a priori + (1 - Sp) × (1 Prob. a priori) • Valore predittivo di un test negativo (VP-) = Probabilità che una persona con un valore negativo del test non abbia la malattia { VP = P M T }= Sp × (1 Sp × (1 Prob. a priori) Prob. a priori) + (1 - Se) × Prob. a priori Problema Dati: • donna di 27 anni, • alla 17ª settimana di gestazione, • sofferente da 5 anni di diabete mellito insulino-dipendente, • con controllo inadeguato della glicemia nel primo trimestre di gravidanza. Dalla letteratura: • c’è un rischio pari al 20% che il feto abbia malformazioni, Risultato del test: • positivo per l’alfa-feto-proteina nel siero materno (MSAFP) Caratteristiche del test: • sensibilità=34% • specificità=86% Qual è la probabilità che il feto abbia malformazioni? ( procedere con un ulteriore esame?) M+ = 20% Prima del test: M- = 80% Risposta Se il test è positivo, la probabilità che il feto sia anormale è data da: 6,8 % P (M + | T + ) = = 37,8% 18% Se il test è negativo, la probabilità che il feto sia normale è data da: ( PM |T ) 68,8% = = 83,9% 82% Esempio: valore predittivo di un test con sensibilità 90% e specificità 90% per vari valori della probabilità a priori della malattia Probabilità a priori di una malattia VP+ VP- 0,001 0,01 0,9999 0,01 0,08 0,999 0,05 0,32 0,994 0,10 0,50 0,99 0,20 0,69 0,97 0,50 0,90 0,90 0,80 0,97 0,69 0,90 0,99 0,50 0,95 0,994 0,32 0,99 0,999 0,08 0,999 0,9999 0,01 Suscettibilità degli studi sui test diagnostici ad errori casuali (1) • Per effetto del caso alcuni pazienti con la malattia avranno un valore negativo del test. Tale tipo di errore casuale è non evitabile, ma quantificabile attraverso l’intervallo di fiducia di sensibilità e specificità del test. Esempio. Test con Se=80%, Sp=70%. Un nuovo test risulta positivo in 5 pazienti su 5 con la malattia (Se=100%) e negativo in 9 pazienti su 10 senza malattia (Sp=90%). Per la sensibilità: CI95%=(57% ÷ 100%) Per la specificità: CI95%=(60% ÷ 98%) Strategia: stimare la numerosità campionaria dello studio (soggetti da includere con e senza la malattia) in modo da costruire un intervallo di fiducia di una data dimensione per sensibilità e la specificità. Suscettibilità degli studi sui test diagnostici ad errori sistematici • Di campionamento: – campione non rappresentativo della popolazione alla quale il test sarà applicato; – prevalenza nel campione più alta della probabilità a priori che si trova nella pratica clinica. • Di misura: – esito noto a chi misura la variabile predittiva (test); – valutazione di risultati incerti. • Di reporting: – gli studi con risultati negativi non sono riportati. Passi da seguire nella pianificazione di uno studio per la valutazione di un test diagnostico • • • • C’è bisogno di un nuovo test diagnostico? Come sono stati selezionati i soggetti? C’è un gold standard ? Il gold standard ed il nuovo test sono applicabili in modo standardizzato ed in cieco? • Determinazione della numerosità campionaria necessaria ad ottenere un intervallo di fiducia di livello (1- )% per sensibilità e specificità con una ragionevole precisione (p.e.: ±5%). • Trovare un sufficiente numero di soggetti in modo da soddisfare la numerosità calcolata. • Riportare i risultati in termini di Se, Sp e potenziali VP+ e VP- a differenti valori della probabilità a priori di malattia. Se il risultato del test è categoriale o continuo riportare la curva ROC per descrivere la performance del test.