Ministero della Salute Progetto Mattoni SSN Misura dell’Outcome Manuale sul risk adjustment 1 Mattoni SSN – Mattone 8 – Misura dell’Outcome RIFERIMENTI Redatto da: Società: Verificato da: Società: Approvato da: Data Gruppo di Lavoro Ristretto Dott.ssa Fulvia Seccareccia Istituto Superiore di Sanità Cabina di Regia 09/02/06 2 Mattoni SSN – Mattone 8 – Misura dell’Outcome Indice 1. Introduzione ..............................................................................................4 1.1 Studi sperimentali e studi osservazionali.............................................................. 4 1.2 Confondimento negli studi osservazionali............................................................ 5 1.3 Identificazione e controllo del confondimento...................................................... 6 2. Risk adjustment........................................................................................8 2.1 La misura della gravità ............................................................................................ 9 2.1.1 Scores prognostici 9 2.1.2 Modelli predittivi “preconfezionati” 13 2.1.3 Approccio “empirico” 15 Esempio 1. Costruzione di una misura di gravità con un approccio empirico 20 2.2 Uso della misura di gravità per il risk adjustment .............................................. 24 2.2.1 Analisi stratificata 24 2.2.2 Standardizzazione indiretta 25 Esempio 2. Standardizzazione indiretta 28 2.2.3 Standardizzazione diretta 28 Esempio 3. Standardizzazione diretta 30 Esempio 4. Change-in-estimate 31 2.3 Identificazione e trattamento della modificazione di effetto .............................. 32 Esempio 5. Trattamento della modificazione d’effetto con approccio empirico 34 2.4 La precisione delle stime ...................................................................................... 38 Esempio 6. Quantificazione della precisione delle stime 40 2.5 Confronti multipli ................................................................................................... 42 Esempio 7. Confronti multipli 44 Esempio 8. Confronti multipli con ipotesi di modificazione di effetto 53 2.6 Altri modelli utilizzabili per il risk adjustment ..................................................... 60 3. Conclusioni.............................................................................................62 Riferimenti bibliografici..............................................................................64 3 Mattoni SSN – Mattone 8 – Misura dell’Outcome 1. Introduzione Negli ultimi anni, l'affermarsi della medicina basata sulle evidenze e la necessità di razionalizzare e rendere utilizzabile, per le decisioni cliniche e di politica sanitaria, la grande quantità di nuove conoscenze prodotte in campo medico e biologico, ha fatto avvertire anche nel nostro paese la necessità di valutare in modo rigoroso l'appropriatezza e l'efficacia dei trattamenti per la cura della salute. L’obiettivo della valutazione dei trattamenti è quello di produrre una stima della loro efficacia in termini sia di validità interna, cioè capacità di produrre stime di efficacia che siano attribuibili esclusivamente al trattamento in esame, sia di validità esterna, cioè possibilità di generalizzare i risultati ottenuti. 1.1 Studi sperimentali e studi osservazionali I trials clinici randomizzati e controllati (RCT)1 rappresentano il metodo d'elezione per confrontare l'efficacia di trattamenti alternativi mettendo a confronto gruppi di pazienti sottoposti ad iter diagnostici o terapeutici diversi (ad esempio, un gruppo trattato con un farmaco innovativo e un altro trattato con un farmaco convenzionale). Ogni RCT si basa su un protocollo di studio rigoroso che contempla alcune fasi, tra le quali riveste una importanza fondamentale l’assegnazione casuale (randomizzazione) dei pazienti ai diversi trattamenti, tecnica che permette un confronto non distorto tra i gruppi garantendo, a meno di effetti casuali, l’omogeneità degli stessi rispetto a fattori prognostici noti e/o sconosciuti. In alcuni casi, tuttavia, la realizzazione di un RCT è impossibile (per esempio, nel caso in cui l’esito in studio è molto raro, oppure in caso di interventi di prevenzione rivolti ad intere comunità, o a causa di problemi etici)2,3. In altri casi, invece, può esserci il ragionevole dubbio che i risultati ottenuti in un RCT (o documentati da una revisione sistematica di più RCT) non siano “tout court” trasferibili nella pratica clinica, a causa delle diverse condizioni operative in cui i trattamenti vengono erogati. Da qui la necessità di ricorrere ai risultati derivanti da studi non sperimentali (osservazionali). Gli studi osservazionali sono quelli nei quali la realtà e la popolazione sono studiate nelle loro condizioni abituali, senza intervento da parte del ricercatore2, 3,4. I dati possono essere raccolti a livello aggregato, spesso utilizzando statistiche correnti (studi ecologici, studi di serie temporali) oppure a livello individuale (studi trasversali o di prevalenza, studi longitudinali di coorte o caso-controllo). 4 Mattoni SSN – Mattone 8 – Misura dell’Outcome 1.2 Confondimento negli studi osservazionali Ovviamente, il limite principale degli studi osservazionali è la mancanza della randomizzazione dei pazienti ai trattamenti. Nella pratica assistenziale infatti, l’allocazione di un paziente ad un trattamento piuttosto che ad un altro è il risultato dell’interazione complessa tra fattori sociodemografici, valutazioni di tipo clinico e vincoli organizzativi. Ne consegue che i risultati di uno studio osservazionale, oltre a poter essere distorti in modo non controllabile a seguito della selezione del campione studiato (il cosiddetto bias di selezione, possibile peraltro anche negli RCT e rilevante soprattutto in rapporto alla validità esterna dei risultati) possono risentire della allocazione differenziale dei pazienti (per esempio rispetto alla gravità delle condizioni cliniche) nei diversi gruppi posti a confronto. Quando questi fattori di allocazione al trattamento sono anche determinanti dell’esito, può verificarsi una distorsione (bias) della misura di associazione tra esposizione ed esito, nota con il termine di confondimento, che è specifico degli studi osservazionali e può interferire con la validità interna dei risultati di tali studi1,5,6,7,8,9. Nella sua accezione più semplice il confondimento viene definito come l’effetto di un fattore (o insieme di fattori) che: è causalmente associato all’esito in studio e causalmente o non causalmente associato all’esposizione in studio ma non è un fattore intermedio nella relazione causale tra l’esposizione e l’esito. Questa regola generale può essere rappresentata secondo lo schema: E ? C Y in cui il fattore confondente (C) è causalmente associato con l’esito di interesse (Y) e causalmente o non causalmente associato con l’esposizione in studio10 (E). In questa situazione, lo studio dell’associazione grezza (ovvero non corretta per la presenza del confondente) tra E e Y può fornire risultati distorti. 5 Mattoni SSN – Mattone 8 – Misura dell’Outcome Consideriamo, per esempio, i tassi grezzi di mortalità (esito) in 5 paesi americani (esposizione) per l’anno 1996: Paese T. mortalità X1000 Costa Rica 3.8 Venezuela 4.4 Messico 4.9 Canada 7.3 Stati Uniti 8.7 Una semplice ma corretta interpretazione di questi risultati porta a concludere che gli Stati Uniti e il Canada avevano, nel 1996, una mortalità più elevata rispetto agli altri paesi considerati. Sebbene questa lettura possa essere utile da alcuni punti di vista (per esempio ai fini di decisioni di programmazione sanitaria), essa è certamente fuorviante qualora la differenza tra i tassi di mortalità venga interpretata come differenza nello stato di salute della popolazione.. Infatti, i tassi di mortalità più elevati negli Stati Uniti e in Canada dipendono dalla maggiore proporzione di anziani presente in queste due popolazioni rispetto agli altri paesi (associazione tra il fattore confondente “età” e l’esposizione “paese”). Poiché l’età è un forte predittore della mortalità (associazione causale tra il fattore confondente “età” e l’esito “mortalità”), le differenze nella struttura per età delle popolazioni danno luogo a tassi grezzi di mortalità più elevati nei paesi nordamericani, anche se in tutte le classi di età la mortalità è più bassa in questi paesi che negli altri considerati. 1.3 Identificazione e controllo del confondimento L’età delle persone studiate è, a causa della sua forte associazione con lo stato di salute, il primo potenziale confondente da prendere in considerazione negli studi osservazionali. L’individuazione degli altri fattori potenzialmente confondenti è normalmente basata sulle conoscenze disponibili a priori riguardo all’associazione tra questi fattori e l’esito e/o l’esposizione in studio. Occorre però dire che, almeno 6 Mattoni SSN – Mattone 8 – Misura dell’Outcome teoricamente, la presenza di confondimento, e cioè il realizzarsi delle due condizioni sopra definite, deve essere verificata con specifico riferimento alla popolazione studiata e al confronto eseguito. Oggetto della valutazione empirica sulla esistenza di un fenomeno di confondimento è il confronto tra la misura di associazione grezza e quella “aggiustata” per le variabili di confondimento scelte. Questo confronto è di carattere qualitativo e, riferendosi alla presenza di errore sistematico, non può basarsi sul risultato di test statistici. In altri termini, la quota di confondimento che si ritiene “accettabile” dipende dalla valutazione soggettiva del ricercatore in relazione alle caratteristiche del fenomeno studiato ed all’ipotesi allo studio. Gli approcci utilizzabili per l’identificazione e il controllo del confondimento sono il propensity adjustment e il risk adjustment. Nel propensity adjustment11 si parte dallo studio dell’associazione tra potenziali confondenti ed esposizione. L’idea di base è quella di confrontare gruppi di esposti e di non esposti che siano omogenei rispetto alla loro probabilità (propensity) di ricevere il “trattamento”. Questo può essere ottenuto in vari modi, il più utilizzato dei quali è quello di sintetizzare questa probabilità in un’unica misura, chiamata “propensity score” e ottenuta attraverso modelli predittivi multivariati. Il propensity score può essere utilizzato come variabile di appaiamento (ogni soggetto esposto sarà confrontato con un soggetto non esposto che aveva la sua stessa probabilità di essere esposto) o come covariata in un modello di regressione, in cui l’associazione tra esposizione ed esito verrà stimata “al netto” delle possibili differenze nella “propensione” all’esposizione. Nel risk adjustment12,13,14,15,16, invece, si parte dallo studio dell’associazione tra potenziali fattori confondenti ed esito, con la prospettiva di confrontare gruppi di esposti e di non esposti che siano omogenei rispetto al loro rischio “a priori” di andare incontro all’esito studiato. Anche in questo caso, i fattori selezionati potranno essere considerati singolarmente o sintetizzati in uno score riassuntivo, essere utilizzati per analisi stratificate (al limite, appaiate) o per procedure di aggiustamento multivariato in cui l’associazione tra esposizione ed esito verrà stimata “al netto” delle possibili differenze nel rischio “a priori”. Sebbene i due approcci considerati siano simmetrici, e quindi sostanzialmente equivalenti, nel seguito di questo documento concentreremo la nostra attenzione sul risk adjustment, a causa del suo più frequente utilizzo negli studi di valutazione degli esiti dei trattamenti sanitari. 7 Mattoni SSN – Mattone 8 – Misura dell’Outcome 2. Risk adjustment Gli studi osservazionali che mettono a confronto gruppi, servizi, strutture o trattamenti devono porsi l’obiettivo di tenere conto delle possibili disomogeneità esistenti nelle popolazioni studiate, soprattutto delle differenze relative alle caratteristiche dei pazienti che possono rappresentare, di per sé, un determinante degli esiti delle cure. Come accennato precedentemente, l’ambizione del ricercatore è di studiare le differenze di efficacia tra gruppi, servizi, strutture o trattamenti, “al netto” del possibile effetto confondente della disomogenea distribuzione (tra gruppi, servizi, strutture o trattamenti) delle caratteristiche “a priori” dei pazienti12, le quali possono influenzare l’esito studiato. Oggetti del confronto possono essere: • tecnologie sanitarie/approcci terapeutici (diffusi nella pratica clinica in assenza di prove di efficacia o di efficacia teorica dimostrata) per provarne l’efficacia nella pratica clinica; • fattori strutturali/organizzativi che possono influenzare l’efficacia pratica di trattamenti di efficacia teorica dimostrata (volume assistenziale, critical pathways, etc.); • singole strutture assistenziali; • popolazioni/gruppi di popolazione (caratterizzate da area di residenza, etnia, livello socio-economico, etc.). Gli esiti presi in considerazione possono essere di tipo clinico, quali la mortalità (intraospedaliera o totale, a breve o medio termine), la stabilità fisiologica acuta, la occorrenza di patologia cronica, le complicanze (a breve o medio termine), la sopravvivenza, etc.: oppure di altro tipo, quali la durata della degenza, la qualità della vita, la soddisfazione per le cure ricevute, etc. Indipendentemente dai metodi statistici utilizzati, possiamo schematizzare il risk adjustment come un procedimento che calcola, per ciascuno dei gruppi posti a confronto, una misura di esito attesa sulla base della relazione esistente tra le caratteristiche prese in esame (fattori di rischio) e l’esito in studio17. E’ possibile in tal modo passare da una relazione del tipo: Caratteristiche del paziente + Efficacia del trattamento + Eventi casuali = Esito 8 Mattoni SSN – Mattone 8 – Misura dell’Outcome ad una relazione del tipo: Efficacia del trattamento + Eventi casuali = Esito aggiustato per gravità (esito atteso) in cui l’effetto delle caratteristiche del paziente è assorbito nella misura di esito e la rimanente variabilità è attribuibile solo a differenze di efficacia o all’effetto del caso. In seguito, distingueremo le due componenti del risk adjustment: la costruzione della misura utilizzata per descrivere il rischio “a priori” (semplificando, la gravità) e l’uso di tale misura al fine di ottenere misure di esito “aggiustate” e quindi confrontabili tra loro in maniera valida13. 2.1 La misura della gravità La misura della gravità da utilizzare nelle procedure di risk-adjustment dovrebbe essere, nella popolazione studiata, un buon predittore dell’esito, il suo valore non dovrebbe essere influenzato dall’esito (e.g., una diagnosi di arresto cardiaco è associata al decesso, ma difficilmente può essere interpretata come un fattore di rischio “a priori”), né rappresentare un passaggio della catena causale che collega l’esposizione all’esito (complicanza). Inoltre, essa dovrebbe avere il requisito della parsimonia, e cioè includere un numero limitato di variabili e presentare un buon bilanciamento tra i costi sostenuti per ottenerla e la capacità di standardizzare i confronti. Al proposito è opportuno ricordare che la rilevazione di un maggior numero di variabili, oltre ad essere più onerosa, è normalmente associata a maggiori problemi di completezza e di accuratezza dei dati e tende a ridurre la precisione delle misure aggiustate che se ne derivano12. Possiamo classificare le misure di gravità che vengono normalmente utilizzate per il risk adjustment in tre gruppi: 2.1.1 Scores prognostici Normalmente additivi, sintetizzano in un punteggio (o nell’attribuzione ad una di N classi) il rischio individuale di esiti avversi. Possono basarsi su dati “clinici” (e.g., informazioni contenute nella cartella clinica) o su dati “amministrativi” (e.g., informazioni contenute nella scheda di dimissione). Il criterio di attribuzione del punteggio può derivare da valutazioni cliniche e/o da analisi multivariate condotte con l’approccio empirico descritto nel seguito, in ogni caso il punteggio non è 9 Mattoni SSN – Mattone 8 – Misura dell’Outcome direttamente interpretabile come probabilità individuale di andare incontro all’esito considerato. Alcuni score prognostici basati su dati ospedalieri12,18 sono riportati nella Tabella 1. 10 Mattoni SSN – Mattone 8 – Misura dell’Outcome Tabella 1. Score prognostici (prevedono l’attribuzione di punteggi o classi di gravità) Misura Dati usati Tipo di misura Criterio di costruzione Outcome misurato Valori di 17 parametri fisiologici ed altre informazioni cliniche Punteggi interi da 0 a 299 misurati entro 24 ore dal ricovero (ammissione) in ICU Modello empirico con guida clinica Mortalità intraospedaliera per pazienti in ICU Variabili cliniche condizionespecifiche registrate al momento della prescrizione di chirurgia cardiaca Punteggi da 0 a 16 basati su OR per 6 fattori di rischio chiave Modello di regressione logistica Mortalità intraospedaliera, durata della degenza in ICU e post-operatoria Variabili cliniche condizionespecifiche Punteggi tra 0 e 39 basati su 17 fattori di rischio pesati Modello di regressione logistica Mortalità operatoria Punteggi da 1 a 5 entro i DRG Modello empirico Durata della degenza ospedaliera entro i DRG Dati clinici APACHE III Canadian 19,20,21,22 23,24 EuroSCORE 25 Dati amministrativi AIM 26 APR-DRGs Scheda di dimissione (*) Scheda di dimissione. Variabili DRG-specifiche 22,27,28 29 Body Systems Count Scheda di dimissione Quattro classi di severità della malattia Quattro classi di rischio di morte Numero di sistemi d’organo coinvolti nella malattia Modello empirico con guida clinica Giudizio clinico Consumo di risorse Mortalità intraospedaliera Numero di sistemi d’organo coinvolti nella malattia 11 Mattoni SSN – Mattone 8 – Misura dell’Outcome Tabella 1. Score prognostici (segue) Charlson Severity Score Cleveland 32 22,33,34 Disease Staging New England Parsonnet 35,36 37,38,39 PMCs Severity Score 40 30,31 Scheda di dimissione Numero intero da scala additiva rappresentante numero e gravità delle comorbidità Giudizio clinico con guida empirica Rischio di morte entro 1 anno da un’ospedalizzazione medica Scheda di dimissione. Variabili condizione-specifiche Range di punteggi da 0 a 33 basati su OR per ognuno dei 13 fattori di rischio Modello empirico (analisi univariata) Mortalità intraospedaliera o entro 30 giorni da un’operazione Scheda di dimissione. Variabili condizione-specifiche Rischio di morte o danno funzionale Tre stadi con sotto-stadi entro ciascuno stadio Giudizio clinico Numero di comorbidità entro ciascuno dei tre stadi maggiori Numero di comorbidità entro ciascuno dei tre stadi maggiori Scheda di dimissione. Variabili condizione-specifiche e indice di comorbidità Sistema di punteggio basato su coefficienti usati per calcolare la probabilità di morte operatoria Modello di regressione logistica Mortalità intraospedaliera Scheda di dimissione. Variabili condizione-specifiche Punteggi tra 0 e 158 basati su 14 fattori di rischio pesati Modello di regressione multipla additiva Mortalità entro 30 giorni da un’operazione Scheda di dimissione Range di punteggi da 1 a 7 Modello empirico Mortalità e morbosità intraospedaliera * Il documento utilizzato può assumere nomi diversi. Nei paesi anglosassoni “discharge abstract” AIM =Acuity Index Method; Canadian = Ontario Ministry of Health Provincial Adult Cardiac Care Network; Cleveland = Cleveland Clinic Foundation Risk Stratification System; EuroSCORE = European System for Cardiac Operative Risk Evaluation; New England = Northern New England Cardiovascular Disease Study Group; Parsonnet = Parsonnet Risk Stratification Model. 12 Mattoni SSN – Mattone 8 – Misura dell’Outcome 2.1.2 Modelli predittivi “preconfezionati” Queste misure sono logicamente simili a quelle descritte nel punto precedente, ma la loro caratteristica è di essere rappresentate da formule matematiche che, applicate a ciascun paziente, permettono di stimare direttamente la probabilità individuale dell’esito considerato. La selezione delle variabili (e delle interazioni tra variabili) incluse in questi modelli, nonché le stime dei corrispondenti coefficienti derivano dall’analisi dei dati relativi a una popolazione esterna, generalmente di grande numerosità, condotta con l’approccio empirico descritto nel punto successivo. Applicando i coefficienti così derivati alla popolazione in studio, si ricava la stima dell’esito atteso a livello individuale. Anche in questo caso possono essere utilizzati dati “clinici” o dati “amministrativi”. Alcuni esempi di modelli “preconfezionati”12,18 sono riportati nella Tabella 2. 13 Mattoni SSN – Mattone 8 – Misura dell’Outcome Tabella 2. Modelli “preconfezionati” (producono una stima diretta della probabilità dell’esito) Misura Dati usati Tipo di misura Criterio di costruzione Outcome misurato Probabilità di morte intraospedaliera da 0 a 1 Modello di regressione logistica Mortalità intraospedaliera Intervallo di rischio (intervallo di mortalità in percentuale) assegnato al paziente sulla base di variabili misurate 30 giorni dopo l’operazione Modello di regressione logistica Mortalità e morbosità intraospedaliera Scheda di dimissione*. Variabili condizione-specifiche Probabilità di morte intraospedaliera da 0 a 1 Modello empirico Mortalità intraospedaliera Scheda di dimissione. Variabili condizione-specifiche Probabilità di morte intraospedaliera da 0 a 1 Modello di regressione logistica Mortalità intraospedaliera Scheda di dimissione. Variabili condizione-specifiche Intervallo di rischio (intervallo di mortalità in percentuale) Algoritmo Bayesiano; più recentemente convertito in modello di regressione logistica Mortalità e morbosità intraospedaliera Dati clinici MedisGroups VA 22,41 Variabili cliniche raccolte al momento dell’ammissione Variabili cliniche condizionespecifiche 42,43 Dati amministrativi 22,33,34 Disease Staging 44,45 NY 46,47,48 STS * Il documento utilizzato può assumere nomi diversi. Nei paesi anglosassoni “discharge abstract” NY = New York State Department of Health Cardiac Surgery Reporting System; STS = Society of Thoracic Surgeons Risk Stratification System; VA = Veteran's Administration Cardiac Surgery Risk Assessment Program. 14 Mattoni SSN – Mattone 8 – Misura dell’Outcome L’uso di questi modelli, come quello degli score prognostici, presuppone che la relazione tra predittori ed esiti sia costante tra le popolazioni. Inoltre, l’uso di modelli “preconfezionati” rende problematico lo studio della modificazione d’effetto e non consente la selezione dei fattori che effettivamente agiscono da confondenti nel confronto d’interesse. 2.1.3 Approccio “empirico” Se gli score prognostici e i modelli predittivi “preconfezionati” rappresentano lo strumento più appropriato, o, meglio, l’unico strumento disponibile, quando l’obiettivo è caratterizzare il meglio possibile un singolo paziente rispetto al suo rischio di esiti sfavorevoli, nell’ambito del risk adjustment finalizzato al confronto tra gruppi, servizi, strutture o trattamenti è possibile usare un approccio di tipo empirico. Alla base di tale approccio sta la necessità, già accennata e da sempre riconosciuta nell’ambito degli studi osservazionali di tipo eziologico, di identificare i fattori confondenti e controllarne l’effetto con specifico riferimento alla relazione e alla popolazione studiata. L’approccio empirico prevede quindi la costruzione di una misura di gravità specifica della popolazione in studio, realizzata attraverso l’analisi della relazione multivariata tra i possibili predittori (il cui valore è stato misurato nella popolazione in studio) e l’esito considerato. Lo strumento più frequentemente utilizzato per la costruzione di una misura di gravità empirica è la regressione multivariata. La procedura può essere schematizzata 49,50,51,52,53 secondo le seguenti fasi : 1. Selezione dell’esito in studio. 2. Scelta del modello statistico più adatto alla analisi dei dati in funzione dell’esito in studio Potranno essere presi in considerazione: - modelli di regressione lineare, nel caso, estremamente raro, in cui l’esito considerato sia di tipo quantitativo continuo. In questi modelli l’esito è espresso come combinazione lineare delle variabili impiegate per la definizione della misura di gravità 15 Mattoni SSN – Mattone 8 – Misura dell’Outcome Yi = β 0 + X 1i β1 + X 2i β 2 + ... + X ki β k - modelli di regressione logistica, normalmente utilizzati quando la variabile di esito è di tipo dicotomico (presenza vs assenza). In questi modelli, la trasformata logaritmica dell’odds dell’esito è espressa come combinazione lineare delle variabili impiegate per la definizione della misura di gravità. p ln(oddsi ) = ln i = β 0 + X 1i β1 + X 2i β 2 + ... + X ki β k 1 − pi - modelli di regressione di Poisson, normalmente utilizzati quando la variabile di esito è una conta (numero di eventi). Anche in questi modelli la trasformata logaritmica dell’esito è espressa come combinazione lineare delle variabili impiegate per la definizione della misura di gravità. ln( µi ) = β 0 + X 1i β1 + X 2i β 2 + ... + X ki β k - modelli di sopravvivenza,normalmente utilizzati quando la variabile di esito è il tempo di sopravvivenza. In questi modelli una trasformata dell’esito, sia essa logaritmica, esponenziale etc., è espressa come funzione lineare delle variabili impiegate per la definizione della misura di gravità. h(ti ) = β 0 + X 1i β1 + X 2i β 2 + ... + X ki β k 3. Identificazione a priori, nell’ambito delle caratteristiche individuali su cui si hanno informazioni, dei possibili fattori di rischio per l’esito in studio: La selezione dei fattori potenzialmente associati all’esito in studio si basa, di norma, sulla revisione delle conoscenze disponibili in letteratura. In assenza di informazioni dirette su fattori ritenuti potenzialmente rilevanti può rivelarsi opportuno prendere in considerazioni variabili surrogate (proxi). 4. Analisi descrittiva e primo screening dei fattori di rischio: Descrizione dell’occorrenza dei fattori di rischio selezionati nella popolazione in studio con eventuale eliminazione dei fattori presenti in una frazione molto piccola dei soggetti (i.e. inferiore al 1%). 5. Selezione dei fattori di rischio “a priori”: 16 Mattoni SSN – Mattone 8 – Misura dell’Outcome Scelta, normalmente in base alle informazioni disponibili in letteratura, dei fattori che si vuole includere nel modello indipendentemente dalla loro associazione con l’esito e che quindi non devono essere sottoposti a verifica statistica. 6. Secondo screening dei fattori di rischio: Costruzione di un modello statistico di previsione dell’esito considerato che contenga: • i fattori di cui al punto 5; • i rimanenti fattori “sopravvissuti” al primo screening; • le interazioni tra fattori ritenute potenzialmente di interesse; e successiva selezione, nell’ambito delle ultime due classi, in base alla significatività delle associazioni multivariate con l’esito. La selezione viene fatta attraverso procedure automatiche di tipo stepwise54,55. Poiché l’associazione grezza tra ciascun fattore e l’outcome potrebbe essere distorta dagli effetti confondenti di altri fattori, le stime aggiustate mirano ad ottenere stime il più possibile non distorte della “reale” associazione tra ciascun fattore e l’outcome. Si noti attentamente che solo le interazioni definite “a priori” rilevanti per lo specifico studio potrebbero essere prese in considerazione. Limiti impliciti di validità e di potenza precludono qualsiasi “screening” di tutte le interazioni candidate. 7. Stima dei coefficienti del modello Questo passo, eseguito attraverso metodi numerici iterativi implementati all’interno dei più diffusi programmi di analisi statistica (SAS, Stata, SPSS, etc.), consente di calcolare una stringa di coefficienti (b0, b1,…,bk) che rappresentano la migliore approssimazione, in base alle osservazioni disponibili, dei coefficienti (β0, β1,…, βk) che definiscono il modello probabilistico utilizzato. 8. Valutazione della performance del modello prescelto: La capacità predittiva della misura di gravità costruita può essere quantificata, anche al statistiche • fine di confronti esterni, attraverso l’uso di diverse 55,56,57,58,59,60 . Coefficiente di determinazione R2 17 Mattoni SSN – Mattone 8 – Misura dell’Outcome La capacità del modello di spiegare i dati in esame viene calcolata attraverso la statistica R2. Questa statistica viene definita come proporzione della varianza spiegata dal modello rispetto alla varianza totale e varia tra 0 e 1. Più alti sono i valori migliore è il grado di adattamento ai dati. • R2 aggiustato L’interpretazione di questa statistica è analoga alla precedente ma nel suo calcolo si considera anche il numero dei fattori inclusi nel modello. • Chi-quadro di Pearson Questa statistica viene calcolata dividendo la popolazione in studio rispetto ai pattern di fattori esistenti (valori assunti da ciascun fattore per ciascun soggetto) e calcolando per ciascun pattern il numero di eventi attesi e osservati. Questi ultimi vengono confrontati utilizzando un test chi-quadro per determinare se la differenza tra eventi attesi e osservati sia statisticamente non significativa. Nel caso in cui siano presenti fattori continui è preferibile utilizzare il test di HosmerLemeshow. • Test di Hosmer-Lemeshow La capacità di predire un numero di eventi attesi corrispondenti a quelli osservati (calibratura) viene valutata attraverso il test di HosmerLemeshow. Questa statistica viene calcolata dividendo la popolazione in studio in percentili (di solito decili) e calcolando per ciascun percentile il numero di eventi attesi e osservati. Questi ultimi vengono confrontati utilizzando un test chi-quadro per determinare se la differenza tra eventi attesi e osservati è statisticamente non significativa. • C-index (area al di sotto della curva ROC) La capacità di distinguere i soggetti che sperimentano l’esito in esame dagli altri (capacità di discriminazione) viene valutata attraverso l’indice C, anche chiamato statistica c o area sottostante la curva Receiver Operating Characteristic (ROC). Questo indice varia tra 0 e 1 e i valori più alti indicano una migliore capacità di discriminazione. 18 Mattoni SSN – Mattone 8 – Misura dell’Outcome • AIC (Akaike Information Criterion) L’AIC misura il grado di adattamento del modello ai dati in esame considerando il numero dei fattori inclusi nel modello. Maggiore è il numero dei fattori più penalizzato sarà l’AIC. Valori bassi dell’AIC indicano un buon adattamento del modello. Queste statistiche rappresentano solo una parte dei metodi esistenti per la selezione del modello migliore e possono essere applicate solo se la modellizzazione impiegata ne prevede l’utilizzo. Riportiamo di seguito una tabella riassuntiva dei modelli di regressione per i quali è possibile impiegare tali statistiche: Misura di adattamento 2 R 2 R aggiustato Chi-quadro di Pearson Hosmer-Lemeshow ROC AIC Modello di regressione Analisi Lineare Logistico Poisson sopravv x x x x x x x x x x x E’ infine opportuno rilevare che è possibile (e abbastanza diffuso) costruire misure empiriche di rischio che includano, al posto dei singoli fattori o in aggiunta ad alcuni di essi, il valore di uno score prognostico (p.e., indice Charlson o classe di rischio APR-DRG). Questa scelta, che può presentare dei vantaggi da un punto di vista pratico, ha però il difetto di non utilizzare al meglio né il contenuto informativo delle variabili rilevate né l’evidenza empirica sulla relazione tra esse e l’esito considerato. L’Esempio 1 illustra la costruzione di una misura di gravità usando un approccio empirico. 19 Mattoni SSN – Mattone 8 – Misura dell’Outcome Esempio 1. Costruzione di una misura di gravità con un approccio empirico Descrizione dello studio Studio di coorte storica finalizzato a confrontare l’efficacia, valutata in termini di mortalità a 30 giorni, degli interventi di colecistectomia laparoscopica con quella degli interventi di colecistectomia laparotomica nelle chirurgie dell’ Emilia Romagna. Popolazione in studio Tutti i pazienti, residenti in Emilia Romagna, sottoposti ad un intervento di colecistectomia tra il gennaio 1998 e l’ottobre 2002 ed aventi un’età superiore a 17 anni. Confronto grezzo Nel gruppo trattato con colecistectomia laparotomica (N=8776) si sono verificati 97 decessi (mortalità = 11/1000) mentre nell’altro gruppo (N=20561) i morti sono stati 19 (mortalità=1/1000). Se utilizziamo l’odds ratio come misura dell’associazione otteniamo un valore di 0.08 e quindi un forte effetto protettivo sulla mortalità postoperatoria della tecnica laparoscopica. Data la natura osservazionale dello studio, si è ritenuto necessario tenere conto del rischio individuale pre-operatorio dei pazienti. Costruzione della misura di gravità con approccio empirico Ripercorrendo i passi descritti nell’approccio empirico per la costruzione di una misura di gravità avremo: 1. Selezione dell’esito in studio. L’esito in studio è la mortalità a 30 giorni dopo intervento di colecistectomia 2. Scelta del modello statistico più adatto alla analisi dei dati in funzione dell’esito in studio: Il modello statistico più adatto alla analisi di un esito dicotomico (deceduto, vivo) è quello di regressione logistica 20 Mattoni SSN – Mattone 8 – Misura dell’Outcome Esempio 1. Costruzione di una misura di gravità con un approccio empirico (continua) 3. Identificazione a priori, nell’ambito delle caratteristiche individuali su cui si hanno informazioni, dei possibili fattori di rischio per l’esito in studio. Per la definizione del rischio pre-operatorio sono state raccolte le seguenti informazioni: genere, età (<70 aa, 70-79 aa,>79 aa) , residenza, presenza di comorbidita' cronica (diabete in trattamento, cirrosi, insufficienza renale, disfunzione neurologica, ipertensione polmonare, aritmia ventricolare maligna, malattie cardiache complesse, BPCO, altre malattie croniche, disturbi del metabolismo lipidico, disturbi della coagulazione e policitemia, tumore maligno), gravità della colelitiasi (da 1 “lieve” a 4 “molto grave”). E’ stato inoltre valutato il contributo aggiuntivo del termine misto genere-età (interazione) alla capacità predittiva del modello considerato. 4. Analisi descrittiva e primo screening dei fattori di rischio L’analisi delle distribuzioni semplici dei possibili fattori di rischio portano ad escludere i disturbi del metabolismo lipidico, i disturbi della coagulazione e policitemia, a causa della loro scarsa frequenza nella popolazione in studio, rispettivamente 0.8% e 0.03%. 5. Selezione dei fattori di rischio a priori Il genere e l’età sono i due fattori di rischio a priori inclusi nel modello indipendentemente dalla loro associazione con l’esito 6. Secondo screening dei fattori di rischio Nel modello logistico multivariato vengono inclusi i fattori genere ed età come fattori a priori. La selezione degli altri fattori di rischio e dell’interazione tra genere ed età (unica interazione presa in esame) è stata effettuata in base alla significatività statistica della loro associazione multivariata con l’esito, attraverso l’uso di una procedura stepwise. 21 Mattoni SSN – Mattone 8 – Misura dell’Outcome Esempio 1. Costruzione di una misura di gravità con un approccio empirico (continua) 7. Stima dei coefficienti del modello Le stime dei coefficienti del modello sono state ottenute attraverso l’applicazione del metodo di massima verosimiglianza. I valori ottenuti, i corrispondenti odds ratio e la significatività del loro contributo alla capacità predittiva sono riportati nella tabella seguente: Fattori di rischio Coefficienti OR p Età* 70-79 aa >79 aa Genere* Femmina Patologie concomitanti* M. cardiache complesse Altre Malattie croniche BPCO Malattie vascolari croniche Gravità colelitiasi* poco grave Grave molto grave Costante 1.44 4.24 0.0001 2.86 17.42 0.0001 -0.23 0.93 0.79 0.50 0.61 0.32 0.78 1.83 -7.00 0.80 0.2370 2.54 2.20 1.65 1.84 0.0170 0.0210 0.0500 0.1380 1.38 0.3090 2.19 0.0050 6.21 0.0001 * i riferimenti per i diversi fattori di rischio sono: età: <70, genere: maschio; patologia concomitante: assente; gravità della colelitiasi: lieve. Dai risultati ottenuti si può notare come il genere, inserito nel modello come variabile a priori e quindi non sottoposto ad alcuna verifica statistica, non sia, nella popolazione in esame, un fattore di rischio per la mortalità a 30 gg. Inoltre, l’esempio permette di evidenziare come, nel caso di variabili categoriche con più di due modalità, queste debbano essere inserite nel modello anche se alcune modalità non risultano significativamente associate all’esito in studio: è il caso della gravità della colelitiasi in cui la categoria “poco grave” non sembra essere associata ad una maggiore mortalità a 30 gg. rispetto alla categoria “lieve”. 22 Mattoni SSN – Mattone 8 – Misura dell’Outcome Esempio 1. Costruzione di una misura di gravità con un approccio empirico (continua) 8. Misure della performance del modello prescelto: La capacità predittiva del modello è stata valutata utilizzando: il test di HosmerLemeshow, l’area sottostante la curva ROC e la statistica AIC. I risultati ottenuti sono riportati nella tabella seguente: PARAMETRI ROC Hosmer-Lemeshow 0.87 statistica p AIC 5.43 0.61 1279 I risultati ottenuti portano a considerare il modello empirico selezionato per la costruzione della misura di gravità come un modello con una buona capacità predittiva. Infatti, l’area sottostante la curva ROC è pari a 0.86, il test di H-L risulta essere non significativo e il valore della statistica AIC può essere considerato sufficientemente basso. 23 Mattoni SSN – Mattone 8 – Misura dell’Outcome 2.2 Uso della misura di gravità per il risk adjustment Una volta costruita la misura di gravità, il confronto degli esiti nei gruppi presi in esame, siano essi strutture, popolazioni o trattamenti, può essere effettuato attraverso tre metodi diversi60,61,62: • Analisi stratificata; • Standardizzazione indiretta; • Standardizzazione diretta. 2.2.1 Analisi stratificata Se i fattori selezionati e utilizzati per ottenere la misura di gravità sono in numero limitato e tutti rappresentati da variabili categoriche, o se si sceglie di utilizzare direttamente uno score prognostico (che ha, per definizione, un numero limitato di modalità), i pazienti possono essere suddivisi in strati rispetto alle loro caratteristiche (classe di età, genere, valore dello score, etc.). Questa suddivisione consente di includere in ogni strato pazienti tra loro omogenei per livello di gravità. E’ quindi possibile misurare l’associazione di interesse (quella tra gruppo di appartenenza ed esito) in ciascuno degli strati considerati e calcolare poi la media pesata delle misure di associazione strato-specifiche (per esempio attraverso lo stimatore di MantelHaentzel). Tale media rappresenterà una stima “risk adjusted” dell’associazione considerata. E’ opportuno anticipare qui un concetto che sarà sviluppato con più dettaglio nel seguito: la media pesata delle misure di associazione strato-specifiche ha un significato solo se tali misure sono “ragionevolmente” omogenee tra loro. Se invece l’effetto del gruppo di appartenenza sull’esito varia significativamente da uno strato all’altro (se, per esempio, la struttura X produce esiti migliori delle altre quando assiste pazienti poco gravi ed esiti peggiori quando assiste pazienti molto gravi) non c’è nessun buon motivo per calcolare una media pesata degli effetti (che porterebbe a dire, nel caso in questione, che la struttura X ottiene, sul paziente “medio”, esiti uguali alle altre strutture considerate). Saremmo, nel caso sopra tratteggiato, in presenza di un fenomeno di “modificazione di effetto” - diverso effetto della struttura di cura a diversi livelli di gravità - che andrebbe opportunamente evidenziato 24 Mattoni SSN – Mattone 8 – Misura dell’Outcome mantenendo separati, nell’analisi, gli strati del modificatore, piuttosto che “nascosto” attraverso la produzione di un’unica misura di associazione (anche se “aggiustata”) 2.2.2 Standardizzazione indiretta Questo metodo è utilizzabile qualora si usi: • un modello pre-confezionato che fornisca, per ogni paziente, una stima diretta della probabilità dell’esito considerato • un modello empirico che includa, nella misura di gravità, numerosi fattori (o fattori misurati su scala quantitativa). La standardizzazione indiretta prevede, in ciascuno dei gruppi messi a confronto, il calcolo dell’esito atteso e il suo successivo confronto con l’esito osservato. L’esito atteso in un gruppo rappresenta l’esito che ci si aspetterebbe in quel gruppo sulla base della distribuzione, nel gruppo stesso, dei fattori inclusi nella misura di gravità utilizzata. In altre parole, l’esito che si verificherebbe nel caso in cui i pazienti che fanno parte del gruppo sperimentassero una relazione tra fattori di rischio ed esito simile a quella della popolazione da cui derivano le stime dei coefficienti utilizzati nella costruzione della misura di gravità, siano esse empiriche o pre-confezionate. Calcolo dell‘ esito atteso Le tecniche di calcolo sono diverse in funzione dell’esito in studio e, quindi, del modello utilizzato per costruire la misura di gravità utilizzata: 1. Modello logistico Una volta applicato il modello logistico selezionato, che ricordiamo può essere derivato da una popolazione esterna (i coefficienti dei fattori di rischio sono predefiniti) o dalla popolazione in studio (modello empirico), la probabilità che l’esito si verifichi per l’ i-mo paziente viene calcolata come: pi = exp(b0 + X 1i b1 + X 2i b2 + ... + X ki bk ) 1 + exp(b0 + X 1i b1 + X 2i b2 + ... + X ki bk ) Il numero di eventi attesi in un gruppo sarà ottenuto come la somma delle probabilità pi sul complesso dei soggetti afferenti a quel gruppo. 2. Modello di Poisson 25 Mattoni SSN – Mattone 8 – Misura dell’Outcome Una volta applicato il modello di Poisson selezionato, che ricordiamo può essere derivato da una popolazione esterna (i coefficienti dei fattori di rischio sono predefiniti) o dalla popolazione in studio (modello empirico), il numero µi di eventi attesi per quella determinata combinazione di caratteristiche selezionate viene calcolato come µi = exp (b0 + X 1i b1 + X 2i b2 + ... + X ki bk ) Il numero di eventi attesi in un gruppo sarà ottenuto come somma degli eventi attesi relativi alle diverse combinazioni dei predittori presenti nel gruppo stesso. 3. Analisi della sopravvivenza Una volta selezionata la funzione h che descrive l’andamento del tempo di sopravvivenza e applicato il modello corrispondente, che ricordiamo può essere derivato da una popolazione esterna (i coefficienti dei fattori di rischio sono predefiniti) o dalla popolazione in studio (modello empirico), il tempo di sopravvivenza atteso per quella determinata combinazione di caratteristiche selezionate viene calcolato come ti = h −1 (b0 + X 1i b1 + X 2i b2 + ... + X ki bk ) Il tempo atteso in un gruppo sarà ottenuto come la somma dei tempi attesi per i soggetti afferenti a quel gruppo. E’ da rilevare che il tempo atteso non è calcolabile nel caso di un modello in cui la funzione di sopravvivenza non sia definita in forma parametrica (e. g. modello di Cox). Confronto esito osservato/esito atteso Una volta derivato, per ciascuno dei gruppi posti a confronto, l’esito atteso in base alla misura di gravità utilizzata, è possibile calcolare, in ogni gruppo, il rapporto standardizzato (RS) dato da: RS = esito osservato/esito atteso Il rapporto standardizzato ci dice quante volte l’esito nel gruppo considerato è più frequente (o meno frequente) di quanto lo sarebbe sulla base: 26 Mattoni SSN – Mattone 8 – Misura dell’Outcome • della distribuzione, nel gruppo stesso, della misura di gravità utilizzata; • della relazione tra tale misura e l’esito nella popolazione “di riferimento”. In questo senso, valori di RS >1 (<1) indicano una maggiore (minore) frequenza dell’esito considerato nel gruppo in studio che nel riferimento “al netto” delle possibili differenze nella distribuzione della misura di gravità. Se si utilizza l’approccio empirico, è possibile escludere anche il confondimento da parte dei fattori presi in considerazione ma non inclusi nella misura di gravità. Infatti tali fattori, non essendo associati all’esito nella popolazione in studio, non soddisfano la prima delle condizioni necessarie per la presenza di confondimento. La standardizzazione indiretta permette dunque un confronto “risk adjusted” tra gli esiti osservati in un gruppo e quelli osservati nella popolazione di riferimento. Nel caso in cui si abbiano più gruppi, ad esempio diverse strutture ospedaliere, ciascuno di essi può essere confrontato con un riferimento rappresentato da una popolazione esterna (nel caso di modelli pre-confezionati) o, nel caso di misure costruite empiricamente, dal complesso dei gruppi in esame oppure da un loro particolare sottoinsieme (benchmark). In quest’ultimo caso, i gruppi inclusi nel benchmark devono avere una numerosità sufficiente ad assicurare che le stime dei coefficienti del modello, e conseguentemente quelle degli esiti attesi, abbiano una precisione accettabile. Poiché il confronto viene effettuato tra ciascun gruppo ed il riferimento, non è corretto utilizzare i valori del rapporto standardizzato per confrontare i gruppi tra loro. Questo è possibile solo sotto l’ipotesi, da verificare caso per caso, che le caratteristiche utilizzate per l’aggiustamento dell’esito in studio siano omogeneamente distribuite nei gruppi posti a confronto. Nell’Esempio 2 il risk adjustment è ottenuto usando il metodo della standardizzazione indiretta. 27 Mattoni SSN – Mattone 8 – Misura dell’Outcome Esempio 2. Standardizzazione indiretta Nel caso dello studio sull’efficacia della colecistectomia laparoscopica e laparotomica, è possibile utilizzare la misura di gravità precedentemente costruita per confrontare la performance dei due trattamenti considerati con la performance media. In ogni gruppo, il numero di decessi attesi viene calcolato sulla base del modello di regressione logistica precedentemente selezionato, ricavato dall’esperienza dell’intera popolazione in studio e rappresenta il numero di decessi che ci si aspetterebbe di osservare in quel gruppo nel caso in cui i pazienti sperimentassero un comportamento simile a quello medio dell’ intera popolazione. Riportiamo di seguito i risultati ottenuti per i due trattamenti. Trattamenti Colecistectomia laparotomica Colecistectomia laparoscopica Decessi attesi Decessi osservati RS 61 97 1.59 55 19 0.35 L’intervento di colecistectomia laparotomica comporta un rischio di morte a 30 gg più elevato di circa il 60% rispetto alla media nella popolazione (laparoscopiche più laparotomiche). Ovviamente, avendo considerato solo due gruppi, si osserva un corrispondente effetto protettivo per l’intervento di colecistectomia laparoscopica. I risultati ottenuti devono essere considerati, per costruzione, “al netto” del possibile effetto confondente dei fattori considerati (anche se non necessariamente inclusi) nella misura di gravità. cioè “risk-adjusted”. Non è ovviamente possibile, invece, escludere che i risultati risentano dell’effetto confondente da parte di fattori non sottoposti a rilevazione. 2.2.3 Standardizzazione diretta Il confronto diretto tra i gruppi è possibile applicando il metodo della standardizzazione diretta. Dal punto di vista teorico, questo metodo mette a confronto tra loro gli esiti che si osserverebbero nella popolazione di riferimento (con una costante e ben definita 28 Mattoni SSN – Mattone 8 – Misura dell’Outcome distribuzione della misura di gravità) qualora essa sperimentasse, di volta in volta, la relazione tra fattori di rischio ed esito presente nei diversi gruppi in studio. Dal punto di vista operativo questo metodo non prevede, tranne che nei casi più semplici, un calcolo esplicito dei diversi esiti attesi e l’uso di tali valori per il confronto tra i gruppi (come nel caso della standardizzazione indiretta), ma il calcolo e il confronto vengono effettuati simultaneamente. La standardizzazione diretta prevede infatti l’applicazione di modelli statistici multivariati (da scegliere, come sempre, in relazione al tipo di esito considerato) in cui, oltre alle variabili selezionate come componenti della misura di gravità, saranno presenti n-1 variabili dummy che rappresenteranno gli n gruppi messi a confronto (una variabile dummy è una variabile che assume il valore 1 per i soggetti appartenenti al gruppo considerato e il valore 0 per tutti gli altri soggetti). Nell’ambito di questa rappresentazione sarà necessario definire, da parte del ricercatore, un gruppo di riferimento, così che le stime dei coefficienti relativi alle variabili che rappresentano gli altri gruppi saranno interpretabili come misure di associazione (Odds Ratio, Rate Ratio oppure Hazard Ratio, in funzione dell’esito e del disegno dello studio) “risk adjusted” tra l’esposizione “appartenenza al gruppo X piuttosto che al gruppo di riferimento” e l’esito in studio. In questo caso, tuttavia, a differenza di quanto detto per la standardizzazione indiretta, sarà possibile derivare dai coefficienti del modello esplicativo misure di associazione aggiustate relative al confronto fra due qualunque degli n gruppi considerati. Score prognostici additivi o categorici Se la gravità è misurata con uno score prognostico, questo dovrà essere incluso, al posto o in aggiunta agli altri potenziali confondenti, nel modello esplicativo contenente la variabile di esito e le variabili dummy che rappresentano i gruppi. Date le caratteristiche di questi score, essi devono essere considerati come variabili categoriche e come tali trattati nell’analisi. Modelli preconfezionati In questo caso l’applicazione ad ogni soggetto in studio dei coefficienti stimati nella popolazione esterna in cui è stato costruito il modello permetteranno il calcolo della probabilità individuale dell’esito considerato sulla base dei fattori di rischio inclusi nella misura di gravità utilizzata. 29 Mattoni SSN – Mattone 8 – Misura dell’Outcome Questa probabilità individuale verrà poi inclusa come variabile indipendente di tipo quantitativo, insieme alle variabili dummy che rappresentano i gruppi, nel modello esplicativo utilizzato per il confronto risk-adjusted nella popolazione in studio. Un esempio di risk adjustment con il metodo della standardizzazione diretta è di seguito riportato (Esempio 3). Esempio 3. Standardizzazione diretta A partire dall’esempio precedente è possibile confrontare i due trattamenti includendo nel modello precedentemente selezionato una variabile dummy rappresentante il tipo di intervento e stimando l’ OR ad essa associato. Riportiamo di seguito i risultati ottenuti. Trattamento Laparoscopica vs Laparotomica OR* 0.18 *OR aggiustato per: genere, età, malattie cardiache complesse, altre malattie croniche, BPCO, malattie vascolari croniche e gravità della colelitiasi Il rischio di mortalità dopo un intervento laparoscopico è circa un quinto di quello dopo un intervento laparotomico. L’effetto stimato dopo le procedure di aggiustamento rimane molto forte, anche se inferiore al valore grezzo di 0.08. Change-in-estimate Le procedure descritte in precedenza prevedono, per l’aggiustamento, l’utilizzo di tutti i fattori che mostrano, nella popolazione studiata, una buona capacità predittiva dell’esito in studio. In un approccio “propensity adjustment” si tratterebbe di tutti i fattori associati all’esposizione di interesse. In realtà, alcuni di questi fattori, pur essendo dei buoni predittori dell’esito (o dell’allocazione all’esposizione nell’approccio “propensity”), potrebbero non essere dei confondenti dell’associazione in studio, perché non associati con l’esposizione (o con l’esito). Abbiamo del resto già sottolineato le ragioni che consigliano un approccio “parsimonioso” alla scelta delle variabili da includere nei modelli di risk adjustment, soprattutto in rapporto alla possibile perdita di precisione delle stime ottenute. 30 Mattoni SSN – Mattone 8 – Misura dell’Outcome Uno dei metodi che viene normalmente utilizzato per identificare i reali confondenti è il “change-in-estimate” 1,51,63. In tale metodo si parte da un modello “poco parsimonioso” che include, oltre all’esposizione e all’esito, tutti i potenziali confondenti selezionati con le procedure descritte nel capitolo precedente. Successivamente si escludono dal modello tutti quei fattori la cui presenza non modifica, o modifica di poco, la stima del coefficiente di interesse (quello relativo all’associazione tra esposizione ed esito). La variazione della stima normalmente considerata apprezzabile, e quindi tale da consigliare la non esclusione del confondente, può variare, in relazione al fenomeno studiato, dal 10% al 20%, ma la scelta rimane comunque arbitraria. L’Esempio 4 illustra un’applicazione del metodo change-in-estimate. Esempio 4. Change-in-estimate A partire dall’esempio precedente è possibile identificare i reali confondenti della stima di efficacia dei trattamenti. Change-in-estimate Fattori Tutti i fattori OR Var % 0.18 Stime successive all'eliminazione del fattore riportato Genere Altre malattie croniche Malattie cardiache complesse BPCO Malattie vascolari croniche Gravità della colelitiasi Età 0.18 0.18 0.18 0.18 0.18 0.14 0.08 0.0 0.0 0.0 0.0 0.0 -22.2 -55.6 Il rischio stimato aggiustato per tutti i potenziali confondenti è pari a 0.18. Tale stima non sembra variare se vengono eliminati dal modello i fattori: genere, altre malattie croniche e malattie cardiache complesse. Soltanto l’età e la gravità sono confondenti della associazione in studio, dato che la stima aggiustata per tutti i fattori si riduce del 22% eliminando la gravità, e del 56% eliminando l’età. 31 Mattoni SSN – Mattone 8 – Misura dell’Outcome Questo metodo, pur migliorando la precisione e la parsimonia delle stime ottenute, viene applicato al confronto tra un gruppo ed il riferimento. Come discusso nel successivo paragrafo dedicato ai confronti multipli, nel caso in cui si debbano confrontare tra loro più gruppi, il metodo può essere applicato solo ad ognuno dei confronti semplici e porterà, in generale, ad identificare diversi confondenti per i diversi confronti, con la conseguenza di rendere impossibile un confronto valido tra tutti i gruppi. 2.3 Identificazione e trattamento della modificazione di effetto Abbiamo già accennato al fenomeno della modificazione di effetto. Questo termine viene utilizzato, in epidemiologia, per descrivere una situazione in cui uno o più fattori modificano la relazione tra l’esposizione e l’esito in studio. E’ importante distinguere la modificazione di effetto dal confondimento, che abbiamo definito come l’esistenza di un fattore associato all’esposizione e all’esito in esame e responsabile, interamente o in parte, dell’associazione (o della mancanza di associazione) osservata tra l’esposizione e l’esito. La modificazione di effetto implica, invece, un diverso effetto dell’esposizione sull’esito in funzione dei valori assunti da un terzo fattore chiamato appunto “modificatore d’effetto”. Nel caso più semplice di un modificatore di effetto dicotomico, l’effetto dell’esposizione sull’esito sarà diverso in assenza, o in presenza, di questo fattore. Abbiamo anche detto che, in presenza di un modificatore di effetto, non ha senso interrogarsi sull’eventuale ruolo dello stesso fattore come confondente, e tanto meno proporsi di calcolare una misura di associazione “aggiustata” che sarebbe una poco informativa media di misure diverse tra loro. Alcuni autori usano più appropriatamente il termine “modificazione della misura di effetto”. Infatti la valutazione della modificazione di effetto dipende dalla misura di associazione utilizzata e, ancora più a monte, dal modello di riferimento per l’effetto combinato di due fattori. Se infatti misuriamo l’associazione in termini di rapporto tra tassi, rischi, odds, la modificazione di effetto verrà valutata come scostamento da un modello di combinazione moltiplicativa degli effetti (se per un fattore stimiamo RR=2 e per un altro RR=5, considereremo modificazione di effetto un RR diverso da 2x5=10 in presenza di entrambi i fattori). Se invece facciamo riferimento a misure come la differenza tra tassi, identificheremo come modificazione di effetto lo scostamento da un modello di combinazione additiva degli effetti (se per un fattore 32 Mattoni SSN – Mattone 8 – Misura dell’Outcome stimiamo RD=2 per 1000 anni persona e per un altro RD=5 per 1000 anni persona, considereremo modificazione di effetto una RD diversa da 5+2=7 in presenza di entrambi i fattori). Nell’ambito della valutazione comparativa degli esiti è importante definire a priori, sulla base delle evidenze disponibili o di specifiche ipotesi di ricerca, quali sono i fattori di cui si è interessati a indagare il ruolo come possibili modificatori di effetto. Nell’analisi stratificata la modificazione di effetto si evidenzia in termini di eterogeneità, tra gli strati, delle misure di associazione; nei modelli statistici multivariati essa può essere rappresentata mediante l’aggiunta dei termini di interazione tra esposizione e fattore in studio e valutata attraverso il contributo di tali termini alla capacità predittiva del modello. In entrambi i casi, l’ipotesi che sia presente un fenomeno di modificazione di effetto deve essere testata formalmente attraverso l’uso di appropriati test statistici. In tali test il livello di sensibilità scelto (e cioè il valore di p ritenuto sufficiente per rigettare l’ipotesi nulla di assenza di modificazione) dipende dal giudizio soggettivo sulla “importanza” del fenomeno di modificazione di effetto che si vuole studiare ed è condizionato dalla dimensione della popolazione studiata. Una volta che tra i fattori sottoposti a valutazione sia stato individuato un significativo modificatore di effetto, le procedure di risk adjustment prevedono la suddivisione della popolazione in studio in tanti gruppi quanti sono i livelli del fattore considerato e il ricalcolo della misura di gravità in ciascuno dei gruppi. In altri termini, è come se venissero condotti tanti studi quanti sono i gruppi considerati ai quali si applicheranno le stesse procedure per la costruzione della misura di gravità e per il confronto degli esiti tra i livelli di esposizione. L’Esempio 5 illustra la verifica e il trattamento della modificazione di effetto nell’ambito del risk adjustment. 33 Mattoni SSN – Mattone 8 – Misura dell’Outcome Esempio 5. Trattamento della modificazione d’effetto con approccio empirico Nello studio sul confronto dell’efficacia tra gli interventi di colecistectomia laparoscopica e gli interventi di colecistectomia laparotomica l’età è stata considerata come un possibile modificatore dell’effetto del trattamento sulla mortalità a 30 gg. Da questa ipotesi di diversa efficacia del trattamento deriva la pratica clinica in alcuni paesi (Inghilterra, etc.), che non prevedono l’intervento laparoscopico per pazienti di età superiore ai 70 anni. La procedura seguita prevede: • la verifica della presenza di modificazione di effetto con l’introduzione di un termine di interazione tra le classi di età e la variabile di esposizione nel modello di risk adjustment selezionato nell’esempio 1 e il relativo test di significatività statistica • in caso di risultato positivo, la suddivisione della popolazione in studio in classi di età (<70 aa, 70-79 aa, >79 aa) e l’analisi separata dei tre sottogruppi ripercorrendo le fasi descritte in precedenza. Verifica della presenza di modificazione di effetto Nel modello di risk adjustment selezionato, viene inserita la variabile di esposizione (int. Laparoscopico vs int. Laparotomico) e la sua interazione con la variabile classi di età. Le stime degli OR associate a tali variabili sono riportate nella tabella seguente (sono state omesse le stime degli OR per le altre variabili selezionate): Fattori di rischio Laparos vs Laparot OR p 0.08 0.001 3.88 0.043 2.44 0.202 Interazione età x exp 70-79 aa >79 aa Nei modelli che includono termini di interazione l’interpretazione del OR stimato per l’esposizione è diversa: rappresenta il minor rischio di mortalità per un intervento di laparoscopia rispetto ad un intervento di laparotomia nei più giovani (classe di 34 Mattoni SSN – Mattone 8 – Misura dell’Outcome riferimento). Gli OR associati ai due termini di interazione indicano la variazione della stima nelle altre due classi di età rispetto al suo valore tra i più giovani. Esempio 5. Trattamento della modificazione d’effetto con approccio empirico (continua) Ad esempio, l’OR di mortalità nella classe di età intermedia sarà ottenuto come prodotto tra 0.08 e 3.88, pari a 0.31, mentre quello nella classe di età più avanzata vale 0.20. Applicando un adeguato test statistico (quello del rapporto di verosimiglianza) al confronto tra la capacità predittiva del modello comprendente il termine di interazione e quella del modello senza interazione si ottiene un valore di p=0.09, che è stato giudicato sufficientemente basso per confermare l’interesse a considerare l’età come modificatore dell’effetto dell’esposizione sull’esito in studio. Costruzione delle misure di gravità strato-specifiche La conferma dell’età come modificatore di effetto implica la suddivisione della nostra popolazione iniziale in tre gruppi distinti per classi di età. Le misure di gravità vengono calcolate per ciascun gruppo attraverso l’uso di modelli logistici multivariati distinti i cui fattori di rischio sono riportati nella tabella seguente: Fattori di rischio Genere* Femmina Patologie Concomitanti* Tumori Altre M. cardiache M. cardiache ischemiche Aritmia M. renali M. card. complesse Altre M. croniche BPCO M. vascolari croniche Gravità colelitiasi* poco grave Grave molto grave < 70 aa 70-79 aa >79 aa OR P OR p OR p 1.78 0.215 0.81 0.537 0.67 0.142 5.36 0.003 5.20 0.008 2.01 0.196 7.09 3.97 13.38 4.74 0.003 0.112 0.002 0.006 4.03 0.115 1.42 2.33 18.01 0.585 0.165 0.001 2.49 2.08 0.092 0.075 1.60 0.164 1.12 2.77 6.77 0.848 0.036 0.001 1.35 1.61 3.57 0.517 0.234 0.004 35 Mattoni SSN – Mattone 8 – Misura dell’Outcome * i riferimenti per i diversi fattori di rischio sono: età: <70, genere: maschio; patologia concomitante: assente; gravità della colelitiasi: lieve. Esempio 5. Trattamento della modificazione d’effetto con approccio empirico (continua) La selezione dei potenziali confondenti (fattori predittori dell’esito ma non necessariamente associati all’esposizione) ha portato a risultati diversi nei diversi gruppi. Come si può notare, il solo fattore “gravità della colelitiasi” sembra essere un buon predittore in tutti e tre i modelli, mentre gli altri fattori sembrano essere dei buoni predittori dell’esito in funzione dei gruppi considerati. Il genere è un fattore incluso nei modelli sulla base di ipotesi a priori e quindi non sottoposto ad alcuna verifica statistica ma non sembra essere un buon predittore dell’esito. Il confronto tra i due trattamenti, nelle tre classi di età, è stato effettuato mediante una procedura di standardizzazione diretta e indiretta. Standardizzazione diretta Trattamento Laparoscopica vs Laparotomica <70 aa 70-79 aa >79 aa OR .10 .32 .18 Change-in-estimate Età < 70 aa Fattori Tutti i fattori OR 0.10 Var % Stime successive all'eliminazione del fattore riportato Aritmia Malattie vascolari croniche Altre malattie croniche Genere Tumori Malattie cardiache Gravità colelitiasi 0.10 0.10 0.10 0.10 0.09 0.09 0.08 0 0 0 0 -10 -10 -20 36 Mattoni SSN – Mattone 8 – Misura dell’Outcome Esempio 5. Trattamento della modificazione d’effetto con approccio empirico (continua) Età 70-79 aa Fattori Tutti i fattori OR 0.32 Var % Stime successive all'eliminazione del fattore riportato Altre malattie croniche Genere Altre miocardiopatie BPCO Gravità colelitiasi 0.32 0.32 0.32 0.30 0.24 0 0 0 -6.25 -25 Età >79 aa Fattori Tutti i fattori OR 0.18 Var % Stime successive all'eliminazione del fattore riportato Malattie cardiache complesse Genere BPCO Gravità colelitiasi 0.18 0.17 0.17 0.16 0 -5.56 -5.56 -11.11 Standardizzazione indiretta Trattamenti <70 aa Colecistectomia laparotomica Colecistectomia laparoscopica 70-79 aa Colecistectomia laparotomica Colecistectomia laparoscopica >79 aa Colecistectomia laparotomica Colecistectomia laparoscopica Decessi attesi Decessi osservati RS 7 20 2.86 17 4 0.24 18 27 1.50 18 9 0.50 36 50 1.39 20 6 0.30 37 Mattoni SSN – Mattone 8 – Misura dell’Outcome Esempio 5. Trattamento della modificazione d’effetto con approccio empirico (continua) Anche se dai risultati ottenuti si può confermare che il rischio di mortalità a 30 gg dopo un intervento di colecistectomia laparoscopica è inferiore, nel complesso, quello di colecistectomia laparotomica, l’analisi stratificata permette di evidenziare effetti diversi nelle diverse classi di età (maggiore sotto i 70 anni, intermedio sopra i 78, minore nella classe di mezzo). Il metodo di standardizzazione indiretta presenta risultati analoghi a quello di standardizzazione diretta, infatti la stima degli OR nelle tre classi di età non è dissimile dai rapporti tra o/e nei due trattamenti per le stesse classi. Importante sottolineare che in questo caso anche per la standardizzazione diretta non è corretto confrontare gli OR ottenuti nei tre gruppi in quanto derivanti da modelli di risk-adjustement diversi (i fattori potenzialmente confondenti utilizzati in ciascun modello non sono gli stessi). Si può comunque notare che, in tutti e tre i modelli, la sola gravità della colelitiasi sembra essere un reale confondente dell’associazione in studio, come riportato dal metodo change-in-estimate. In questo caso, impiegando nei i tre modelli lo stesso fattore di confondimento, gli OR stimati tornerebbero ad essere comparabili. 2.4 La precisione delle stime Le misure utilizzate per esprimere la valutazione comparativa degli esiti sono, come tutte le altre, soggette ad errori, distorsioni. Finora ci siamo concentrati su un particolare tipo di errore, il confondimento, che si verifica frequentemente negli studi osservazionali e che può essere “scoperto” e “corretto” utilizzando i metodi che abbiamo descritto (la modificazione di effetto non è un errore, ma un fenomeno reale; non deve essere corretta, ma misurata). Negli studi osservazionali l’effetto del confondimento ha le caratteristiche di un “errore sistematico”, ha a che fare con la validità della stima, e non si riduce all’aumentare della dimensione della popolazione osservata. 38 Mattoni SSN – Mattone 8 – Misura dell’Outcome Altri errori di tipo sistematico, che possono avere notevole influenza sulla validità dei risultati di uno studio, ma su cui non è possibile dilungarci in questa sede, possono derivare dall’inaccuratezza delle misurazioni eseguite per l’attribuzione dei soggetti ai gruppi messi a confronto, per l’accertamento dell’esito, per la misura dei potenziali confondenti, cioè misclassificazione dell’esposizione, dell’esito, dei confondenti. Un discorso diverso è quello relativo alla possibilità che le misure prodotte (siano esse “grezze” o “aggiustate” per tenere conto del confondimento) siano affette da ”errore casuale”. Questo tipo di errore, non avendo caratteristiche di sistematicità, tende a ridursi all’aumentare del numero dei soggetti studiati. Inoltre, per ogni dimensione campionaria data, il suo effetto può essere quantificato utilizzando i metodi della statistica inferenziale. Questa quantificazione può avvenire in due modi: - affiancando al valore puntuale della stima un intervallo, detto “intervallo di confidenza”, a cui si attribuisce una probabilità predeterminata di contenere il valore “vero” della misura considerata - calcolando la probabilità (p-value) che le differenze osservate tra gli esiti nei gruppi posti a confronto siano interamente dovute all’effetto dell’errore casuale, laddove invece non ci sia differenza (ipotesi “nulla”) tra gli esiti “veri” dei gruppi stessi. I due approcci, basandosi sugli stessi presupposti teorici, sono fortemente correlati. Infatti, se l’intervallo di confidenza al 95% di una misura relativa al confronto tra 2 gruppi non include il valore che quella misura assume quando i 2 gruppi presentano gli stessi esiti (ipotesi nulla), il p-value relativo al confronto tra quei 2 gruppi sarà inferiore al 5%. Come già accennato, a parità di dimensione campionaria le misure di associazione aggiustate utilizzando una misura empirica di gravità costruita con un numero elevato di variabili tendono, in generale, ad essere meno precise rispetto a misure più “parsimoniose”. E’ infine il caso di accennare che l’approccio inferenziale qui utilizzato, di tipo classico-frequentista, non permette di attribuire ai punti contenuti nell’intervallo di confidenza valori differenziati di probabilità (più fiducia nei valori centrali, meno fiducia in quelli estremi). Questo è invece possibile adottando approcci alternativi, di 39 Mattoni SSN – Mattone 8 – Misura dell’Outcome tipo bayesiano, che portano alla definizione di “intervalli di credibilità” all’interno dei quali la probabilità attribuita ai diversi valori non è omogenea. Nell’Esempio 6 i risultati dello studio sulla mortalità a 30 gg dopo colecistectomia sono corredati da misure di precisione: intervalli di confidenza al 90% e al 95% e valori di p riferiti all’ipotesi nulla di non associazione. Esempio 6. Quantificazione della precisione delle stime Mortalità a 30 giorni nei due gruppi Intervento N Morti I.C. 90% I.C. 95% 19 Morti x 1000 1 Laparoscopia 20561 0.58-1.27 0.51-1.34 Laparotomia 8776 97 11 9.22-12.89 8.87-13.24 Confronto grezzo Rischio relativo 0.08 I.C. 90% I.C. 95% p 0.05-0.13 0.05-0.14 0.0001 Standardizzazione indiretta senza modificazione di effetto Trattamenti Colecistectomia laparotomica Colecistectomia laparoscopica Decessi attesi Decessi osservati RS I.C. 90% I.C. 95% 61 97 1.59 1.34-1.89 1.29-1.94 55 19 0.35 0.23-0.51 0.21-0.54 40 Mattoni SSN – Mattone 8 – Misura dell’Outcome Esempio 6. Quantificazione della precisione delle stime (continua) Standardizzazione indiretta con modificazione di effetto Decessi Decessi attesi osservati Trattamenti <70 aa Colecistectomia laparotomica Colecistectomia laparoscopica 70-79 aa Colecistectomia laparotomica Colecistectomia laparoscopica >79 aa Colecistectomia laparotomica Colecistectomia laparoscopica RS I.C. 90% I.C. 95% 7 17 20 4 2.86 0.24 1.95-4.19 1.75-4.40 0.10-0.55 0.06-0.58 18 18 27 9 1.50 0.50 1.08-2.08 0.99-2.18 0.28-0.88 0.23-0.94 36 20 50 6 1.39 0.30 1.09-1.77 1.03-1.83 0.15-0.60 0.11-0.64 Standardizzazione diretta senza modificazione di effetto Trattamento Laparoscopica vs Laparotomica OR* I.C. 90% I.C. 95% p 0.18 0.12-0.27 0.11-0.30 0.001 Standardizzazione diretta con mde Trattamento Laparoscopica vs Laparotomica <70 aa 70-79 aa >79 aa OR I.C. 90% I.C. 95% p .10 .32 .18 0.04-0.26 0.17-0.62 0.09-0.37 0.03-0.31 0.15-0.70 0.08-0.43 0.001 0.004 0.001 Anche se la parte più strettamente “scientifica” degli studi di valutazione comparativa degli esiti può dirsi conclusa con la produzione delle stime puntuali delle misure di associazione risk-adjusted, dei loro intervalli di confidenza e dei relativi p- 41 Mattoni SSN – Mattone 8 – Misura dell’Outcome value, la natura dei confronti eseguiti richiede, nella maggior parte dei casi, che si giunga a conclusioni di tipo qualitativo: • è possibile affermare che il trattamento X è più efficace del trattamento Y? • è possibile affermare che gli ospedali A, B e C hanno performance peggiori della media nazionale? • è possibile affermare che i residenti nella regione K sperimentano, a parità di gravità, esiti peggiori rispetto ai residenti nella regione H? Mettendo da parte le cautele legate a considerazioni sui possibili problemi di accuratezza dei dati raccolti o sulla possibile esistenza di fattori confondenti non rilevati, e quindi non controllabili, la possibilità di rispondere a queste domande passa, ovviamente, per la definizione di un livello convenzionale di significatività statistica su cui basare il giudizio sull’esistenza di una differenza “vera” tra i gruppi. Sarà cioè necessario definire una soglia per il p-value al disotto della quale ci prenderemo la responsabilità di affermare che le differenze osservate sono “vere”, in quanto riteniamo che la probabilità di sbagliare, facendo questa affermazione, sia “accettabile”. Premesso che si ritiene indispensabile che la scelta del livello-soglia avvenga “a priori”, indipendentemente dai risultati della valutazione, e che essa sia resa nota in anticipo, alla base di tale scelta dovrà essere posta una attenta valutazione dei possibili costi e benefici derivanti dall’identificare come “peggiore” un gruppo che è “veramente” peggiore di altri, in rapporto a quelli associati al rischio di dichiararlo peggiore, quando invece è uguale agli altri. In ogni caso occorre porre particolare attenzione nell’evitare confusione tra il problema della precisione delle stime, quindi della loro “significatività statistica”, da quello della loro validità, tenendo presente che si possono avere stime molto precise ma fortemente distorte e stime “statisticamente non significative” ma molto valide. 2.5 Confronti multipli Tutti i metodi finora illustrati sono stati esemplificati, per facilitarne la comprensione, con riferimento ad un confronto semplice tra due modalità assistenziali (colecistectomia laparotomica e colecistectomia laparoscopica). Nella valutazione degli esiti è invece assai frequente che il confronto avvenga tra più di due gruppi64,65. E’ questo il caso, per esempio, della valutazione comparativa delle strutture assistenziali o del confronto tra aree territoriali. Gran parte dei metodi di 42 Mattoni SSN – Mattone 8 – Misura dell’Outcome analisi si adattano al caso dei confronti multipli senza particolari problemi, ma in alcuni punti occorre adottare specifici accorgimenti. In particolare, la scelta dei fattori realmente confondenti mediante la procedura “change-in-estimate” può essere effettuata solo in caso di confronti singoli e dovrebbe pertanto essere ripetuta per ognuna delle coppie di gruppi presi in esame. Questo approccio, che porterebbe alla definizione di numerosi modelli di risk adjustment, diversi tra loro, avrebbe probabilmente come effetto un aumento della precisione delle stime, ma renderebbe impossibile confrontare direttamente i gruppi tra loro, nonostante l’uso della standardizzazione diretta. Una possibile soluzione a questo problema è utilizzare per tutti i confronti un unico modello di risk adjustment, che includa i fattori indicati come reali confondenti in almeno uno dei confronti di interesse. Questa scelta rappresenta il “miglior compromesso possibile” tra le esigenze di parsimonia e la possibilità di eseguire confronti multipli validi tra gruppi. Qualora tuttavia i gruppi da confrontare siano in numero molto elevato, la soluzione proposta risulterebbe eccessivamente onerosa, sia in termini di tempo che in termini di capacità di calcolo. In questo caso è quindi preferibile utilizzare per tutti i confronti il modello di risk adjustment inizialmente selezionato e contenente tutti i fattori selezionati in base alla loro associazione multivariata con l’esito. Quest’ultima opzione è quella normalmente scelta, per esempio, nel caso di valutazione comparativa delle strutture di cura a livello regionale o nazionale. Negli esempi 7 ed 8 il percorso metodologico precedentemente illustrato viene ripercorso facendo riferimento a studi di valutazione degli esiti che prevedono il confronto tra ospedali e tra aree geografiche. 43 Mattoni SSN – Mattone 8 – Misura dell’Outcome Esempio 7. Confronti multipli Descrizione dello studio Il progetto “Esiti a breve termine di interventi di by-pass aorto-coronarico nelle cardiochirurgie italiane” 66 è uno studio prospettico il cui scopo principale è descrivere la mortalità osservata e attesa a 30 giorni dall’intervento, per singola struttura cardiochirurgica, aggiustata per il rischio individuale pre-operatorio dei pazienti. Popolazione in studio Tutti i pazienti sottoposti ad un intervento di by-pass aortocoronarico (BPAC) isolato tra il 1 Gennaio 2002 e il 30 Settembre 2004 in ognuno degli 81 Centri di cardiochirurgia partecipanti allo studio ed aventi un’età compresa tra i 15 ed i 99 anni. Elenco delle variabili e definizioni I riferimenti scientifici relativi ai parametri raccolti derivano da una serie di più ampi protocolli di ricerca sviluppati dalle maggiori Società Scientifiche internazionali e nazionali (Society of Thoracic Surgery, American Association for Thoracic Surgery, European Association for CardioThoracic Surgery, Società Italiana di Chirurgia Cardiaca) e dai protocolli sviluppati negli ultimi dieci anni con finalità di ricerca sulla stratificazione del rischio in chirurgia cardiaca (Parsonett 1°-2°, Euroscore, New York, ed altri). Per la definizione dello stato di gravità pre-operatoria dei pazienti sono state raccolte le seguenti informazioni: genere, età, residenza , comorbidita' (diabete in trattamento, cirrosi, insufficienza renale, disfunzione neurologica, ipertensione polmonare, aritmia ventricolare maligna, BPCO, endocardite attiva, tumore maligno), stato emodinamico (instabile o shock), gravita' del processo aterosclerotico (arteriopatia extracardiaca o Ictus), angina instabile, infarto recente, intervento in condizioni di emergenza, intervento in CEC, precedenti interventi con apertura del pericardio e la frazione di eiezione (FE inferiore al 30%;FE compresa tra 30% e 49%; superiore o uguale al 50%). 44 Mattoni SSN – Mattone 8 – Misura dell’Outcome Esempio 7. Confronti multipli (continua) Metodologia Per valutare l’associazione tra ciascun fattore di rischio e l’evento in studio è stato adottato un approccio empirico. L’esito considerato (mortalità a 30 giorni) ha suggerito l’uso di un modello logistico multivariato. Il genere e l’età sono i due fattori di rischio inclusi nel modello indipendentemente dalla loro associazione con l’esito . Per la selezione degli altri fattori di rischio si è ricorso ad una procedura di tipo stepwise . La capacità predittiva del modello è stata valutata utilizzando: - la calibrazione tra i decili delle probabilità stimate (χ2 di Hosmer Lemeshow) - la curva ROC - il criterio AIC (Akaike Information Criterion = -2 * log-likelihood + 2 * n° parametri nel modello). Set di fattori selezionati nel modello e stima dei coefficienti Variabili Età età2 genere (fem) Shock diabete in trattamento dialisi ipertensione polmonare aritmia malattia polmonare creatinina arteriopatia angina instabile precedente BPAC emergenza frazione di eiezione 30-49 <30 costante Coefficienti -0.04 0.00 0.26 1.24 0.30 1.23 0.82 0.38 0.42 0.73 0.54 0.43 1.05 1.36 0.59 1.15 -5.24 OR 0.96 1.00 1.29 3.44 1.35 3.41 2.26 1.46 1.52 2.08 1.72 1.53 2.86 3.89 1.80 3.14 - P 0.3770 0.0450 0.0030 0.0001 0.0001 0.0001 0.0160 0.0470 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 - 45 Mattoni SSN – Mattone 8 – Misura dell’Outcome Esempio 7. Confronti multipli (continua) PARAMETRI ROC Hosmer-Lemeshow statistica p AIC 0.80 18.08 0.02 -6724 Standardizzazione indiretta A partire dall’esempio precedente è possibile effettuare il confronto tra gli esiti delle singole strutture rispetto al valore medio calcolando i decessi attesi a partire dai coefficienti stimati dal modello complessivo e confrontandoli con quelli osservati. Il numero di by-pass aorto-coronarici per centro influenza la precisione delle stime di mortalità. Inoltre, in accordo all’evidenza disponibile, il volume di procedure per centro agisce come un forte determinante dell’esito67,68,69,70. Pertanto, sono stati esclusi i centri di Cardiochirurgia con un numero di interventi annui di BPAC isolato inferiore a 150. 46 Mattoni SSN – Mattone 8 – Misura dell’Outcome Esempio 7. Confronti multipli (continua) Struttura 12 15 16 17 21 23 32 35 36 37 41 42 44 46 48 49 51 53 55 56 58 61 62 66 73 75 77 92 94 95 98 100 Decessi attesi 14 21 15 14 13 35 12 18 15 16 18 26 16 9 17 12 19 16 25 14 22 16 32 21 24 11 11 17 20 18 16 17 Decessi osservati 6 22 14 7 8 75 8 8 7 11 17 27 10 21 10 10 18 8 23 8 15 24 32 18 20 9 30 39 41 60 12 19 RS 0.44 1.03 0.93 0.50 0.61 2.13 0.69 0.43 0.47 0.67 0.93 1.06 0.64 2.24 0.60 0.86 0.93 0.50 0.91 0.57 0.70 1.48 1.01 0.85 0.84 0.80 2.76 2.24 2.00 3.33 0.76 1.10 I.C 95% 0.16 0.65 0.51 0.20 0.26 1.68 0.30 0.19 0.19 0.33 0.54 0.70 0.31 1.39 0.29 0.41 0.55 0.22 0.58 0.25 0.39 0.95 0.69 0.50 0.51 0.37 1.87 1.60 1.44 2.54 0.39 0.66 0.94 1.55 1.55 1.02 1.18 2.67 1.33 0.84 0.95 1.18 1.48 1.53 1.17 3.41 1.10 1.57 1.47 0.98 1.36 1.11 1.14 2.19 1.42 1.34 1.29 1.50 3.93 3.06 2.71 4.29 1.32 1.71 47 Mattoni SSN – Mattone 8 – Misura dell’Outcome Esempio 7. Confronti multipli (continua) Nel caso in cui il confronto tra gli esiti fosse stato effettuato tra le singole regioni di residenza avremmo ottenuto: Regione* Decessi di residenza Attesi Toscana 48 Piemonte 45 Puglia 31 Calabria 28 Lazio 51 Emilia-Romagna 71 Lombardia 148 Liguria 31 Umbria 22 Veneto 71 Campania 52 Sicilia 68 Decessi osservati 32 33 26 24 44 67 141 31 25 81 80 144 RS 0.67 0.74 0.83 0.85 0.87 0.95 0.95 1.01 1.13 1.13 1.54 2.12 I.C 95% 0.46 0.51 0.54 0.55 0.63 0.74 0.80 0.69 0.73 0.90 1.22 1.79 0.95 1.03 1.21 1.27 1.16 1.20 1.12 1.43 1.66 1.41 1.92 2.50 *regioni con un numero di interventi non inferiore a 150. Standardizzazione diretta Il confronto tra gli esiti delle singole strutture e quelli delle strutture che presentavano gli esiti “risk adjusted” migliori (strutture di riferimento: 12,17,35,36,53) è stato effettuato includendo nel modello precedentemente selezionato le variabili dummy rappresentanti le strutture e stimando gli OR ad esse associati. 48 Mattoni SSN – Mattone 8 – Misura dell’Outcome Esempio 7. Confronti multipli (continua) Riportiamo di seguito i risultati ottenuti per le strutture con un numero di interventi annui non inferiore a 150. Struttura 12, 17, 35,36,53 15 16 21 23 32 37 41 42 44 46 48 49 51 55 56 58 61 62 66 73 75 77 92 94 95 98 100 OR* rif 2.25 2.25 1.31 4.13 1.28 1.36 1.70 2.20 1.42 3.96 1.23 1.99 2.07 2.09 1.23 1.33 3.18 2.29 1.93 1.86 2.06 8.04 6.24 5.22 9.45 1.87 1.64 p 0.006 0.014 0.514 0.000 0.566 0.402 0.107 0.005 0.345 0.000 0.596 0.066 0.020 0.010 0.608 0.393 0.000 0.001 0.036 0.037 0.059 0.000 0.000 0.000 0.000 0.075 0.152 I.C 95% 1.27 1.18 0.58 2.66 0.55 0.66 0.89 1.28 0.69 2.10 0.58 0.96 1.12 1.19 0.55 0.69 1.81 1.39 1.05 1.04 0.97 4.76 3.85 3.23 6.06 0.94 0.83 3.98 4.30 2.99 6.42 3.01 2.79 3.26 3.81 2.94 7.47 2.60 4.14 3.81 3.67 2.77 2.59 5.58 3.77 3.55 3.31 4.36 13.60 10.11 8.44 14.74 3.73 3.25 *OR aggiustati per: genere, età, shock, diabete, dialisi, ipertensione polmonare, aritmia, malattia polmonare, creatinina, arteriopatia, angina instabile, precedente BPAC, emergenza, frazione di eiezione 49 Mattoni SSN – Mattone 8 – Misura dell’Outcome Esempio 7. Confronti multipli (continua) E’ stato anche considerato come riferimento un gruppo di strutture che presentavano gli esiti “risk adjusted” più simili alla media (strutture di riferimento: 41,66,73,75). Riportiamo di seguito i risultati ottenuti per le strutture con un numero di interventi annui non inferiore a 150. Struttura 41,66,73,75 12 15 16 17 21 23 32 35 36 37 42 44 46 48 49 51 53 55 56 58 61 62 77 92 94 95 98 100 OR* rif 0.48 1.20 1.21 0.60 0.70 2.21 0.69 0.50 0.52 0.73 1.18 0.76 2.12 0.66 1.07 1.11 0.59 1.12 0.66 0.72 1.70 1.23 4.30 3.34 2.79 5.06 1.00 0.88 p 0.099 0.494 0.551 0.219 0.387 0.000 0.374 0.076 0.121 0.370 0.518 0.443 0.014 0.254 0.858 0.730 0.179 0.674 0.298 0.295 0.045 0.380 0.000 0.000 0.000 0.000 0.997 0.701 I.C 95% 0.20 0.71 0.65 0.27 0.32 1.50 0.30 0.24 0.23 0.37 0.71 0.38 1.17 0.32 0.53 0.62 0.27 0.66 0.30 0.38 1.01 0.78 2.66 2.17 1.81 3.43 0.52 0.46 1.15 2.05 2.23 1.35 1.56 3.25 1.57 1.08 1.19 1.45 1.95 1.53 3.86 1.35 2.15 1.97 1.28 1.89 1.44 1.34 2.86 1.93 6.96 5.15 4.31 7.47 1.93 1.68 *OR aggiustati per: genere, età, shock, diabete, dialisi, ipertensione polmonare, aritmia, malattia polmonare, creatinina, arteriopatia, angina instabile, precedente BPAC, emergenza, frazione di eiezione 50 Mattoni SSN – Mattone 8 – Misura dell’Outcome Esempio 7. Confronti multipli (continua) Nel caso in cui il confronto fosse stato effettuato tra le regioni di residenza rispetto alle migliori (regioni di riferimento: Friuli-Venezia Giulia, Molise, Trentino-Alto Adige) avremmo ottenuto: Regione Friuli Venezia Giulia, Molise, Trentino-Alto Adige Calabria Campania Emilia-Romagna Lazio Liguria Lombardia Piemonte Puglia Sicilia Toscana Umbria Veneto OR* p rif 1.45 3.46 1.71 1.78 1.59 1.73 1.48 1.49 5.06 1.28 2.20 2.06 0.240 0.001 0.030 0.030 0.120 0.010 0.150 0.180 0.001 0.380 0.010 0.001 I.C 95% 0.74 1.89 1.02 1.06 0.91 1.10 0.83 0.81 3.16 0.71 1.17 1.25 2.55 5.23 2.69 2.96 2.89 2.64 2.47 2.64 7.62 2.12 3.88 3.22 *OR aggiustati per: genere, età, shock, diabete, dialisi, ipertensione polmonare, aritmia, malattia polmonare, creatinina, arteriopatia, angina instabile, precedente BPAC, emergenza, frazione di eiezione 51 Mattoni SSN – Mattone 8 – Misura dell’Outcome Esempio 7. Confronti multipli (continua) Change-in-estimate A partire dall’esempio precedente è possibile identificare i reali confondenti dell’associazione tra regione di residenza e mortalità a 30 giorni. Riportiamo le stime di rischio dell’Emilia Romagna e della Campania rispetto alle regioni di riferimento: Emilia-Romagna Campania Fattori OR Var % Fattori OR Var % Tutti i fattori 1.66 Tutti i fattori 3.15 Stime successive all'eliminazione del fattore riportato genere prec. bpac dialisi arteriopatia iperten. polmonare cirrosi shock diabete angina Mal. polmonare creatinina frazione di eiezione età emergenza 1.66 1.66 1.66 1.67 1.67 1.68 1.63 1.68 1.63 1.70 1.63 1.76 1.87 1.50 0.0 dialisi 0.0 cirrosi 0.0 angina 0.6 genere 0.6 iperten. polmonare 1.2 prec. bpac -1.8 frazione di eiezione 1.2 emergenza -1.8 creatinina 2.4 diabete -1.8 shock 6.0 mal polmonare 12.7 arteriopatia -9.6 età 3.15 3.13 3.12 3.14 3.20 3.12 3.20 3.07 2.96 3.18 2.89 3.25 2.77 2.23 0.0 -0.6 -1.0 -0.3 1.6 -1.0 1.6 -2.5 -6.0 1.0 -8.3 3.2 -12.1 -29.2 Notiamo che in questo caso le variabili che, in base alla procedura change-inestimate, possono essere considerate come reali confondenti sono differenti a seconda che il confronto avvenga tra Emilia-Romagna e benchmark (in tal caso ci si potrebbe limitare ad aggiustare per età, emergenza ed, eventualmente, frazione di eiezione) piuttosto che tra Campania e benchmark (e in tal caso i confondenti scelti con un approccio conservativo potrebbero essere età, arteriopatia, malattia polmonare e shock). 52 Mattoni SSN – Mattone 8 – Misura dell’Outcome Esempio 8. Confronti multipli con ipotesi di modificazione di effetto Descrizione dello studio Valutazione comparativa delle strutture ospedaliere di una regione italiana rispetto alla mortalità osservata a 30 giorni a seguito di ricovero per infarto acuto del miocardio. Verifica del ruolo del genere come modificatore dell’associazione tra struttura di cura e mortalità. Popolazione in studio Lo studio è basato sugli archivi delle Schede di Dimissione Ospedaliera della regione relativi agli anni 1997-2001. Sono state selezionate tutte le dimissioni tra il 1/1/99 e il 31/12/00 con diagnosi principale o secondaria di infarto acuto del miocardio (ICD9 410). È stato considerato come singolo episodio di ricovero anche l’insieme di ricoveri consecutivi in cui i ricoveri successivi al primo si siano determinati per trasferimento dal precedente e in cui la data della dimissione per trasferimento del precedente coincida con la data di accettazione per trasferimento del successivo. Elenco delle variabili e definizioni Sono state prese in considerazione caratteristiche demografiche (età, genere), geografiche (residenza, mortalità extraospedaliera per infarto nel comune di residenza, in quintili) e la presenza di patologie concomitanti croniche. La identificazione delle patologie concomitanti ha utilizzato per ciascun evento sia la documentazione del ricovero indice che la documentazione di tutti i ricoveri dello stesso paziente documentati nel dataset disponibile. Metodologia La metodologia utilizzata per la costruzione della misura di gravità è uguale a quella descritta nell’esempio 7. 53 Mattoni SSN – Mattone 8 – Misura dell’Outcome Esempio 8. Confronti multipli con ipotesi di modificazione di effetto (continua) Set di fattori selezionati nel modello e stima dei coefficienti Variabili Età Genere (rif maschi) Residenza (rif altra ASL) Patologie concomitanti Tumore Diabete Lieve Moderato Grave Disturbi metabolismo lipidico Altre malattie ematiche Infarto pregresso Miocardiopatie complesse Altre miocardiopatie Aritmia Cerebrovascolari croniche BPCO Renali croniche Prec. rivascol. coronarica Prec. rivascol. cerebrovascolare Mortalità extraospedaliera 1° quintile 2° quintile 3° quintile 4° quintile 5° quintile costante Coefficienti 0.071 0.099 -0.272 OR 1.07 1.10 0.76 p 0.0000 0.0500 0.0020 0.276 1.32 0.0030 0.112 0.324 -0.281 0.274 -0.269 0.140 0.302 0.282 0.307 0.217 0.516 -0.426 -0.624 1.00 1.12 1.38 0.76 1.31 0.76 1.15 1.35 1.33 1.36 1.24 1.67 0.65 0.54 0.1800 0.0240 0.0620 0.0180 0.0010 0.0710 0.0380 0.0001 0.0001 0.0030 0.0001 0.0520 0.0250 0.010 0.046 -0.205 -0.242 -6.622 1.00 1.01 1.05 0.81 0.79 0.8930 0.5110 0.0050 0.0030 0.0001 PARAMETRI ROC Hosmer-Lemeshow 0.75 statistica p AIC 3.11 0.93 -11213 54 Mattoni SSN – Mattone 8 – Misura dell’Outcome Esempio 8. Confronti multipli con ipotesi di modificazione di effetto (continua) Trattamento della modificazione d’effetto In questo studio il genere è stato considerato un possibile modificatore dell’associazione tra strutture e mortalità. Si è pertanto proceduto come descritto nell’esempio 5: Verifica della presenza di modificazione di effetto Nel modello di risk adjustment selezionato, vengono inserite le variabili dummy che rappresentano l’esposizione (struttura di cura) e la loro interazione con la variabile genere (tanti termini di interazione quante sono le strutture poste a confronto con la struttura o le strutture di riferimento). Applicando il test statistico del rapporto di verosimiglianza al confronto tra la capacità predittiva del modello comprendente i termini di interazione e quella del modello senza interazione si ottiene un valore di p=0.10, che è stato giudicato sufficientemente basso per confermare l’interesse a considerare il genere come modificatore dell’effetto dell’esposizione sull’esito in studio. Costruzione delle misure di gravità genere-specifiche La conferma del genere come modificatore di effetto implica la suddivisione della nostra popolazione iniziale in due gruppi distinti. 55 Mattoni SSN – Mattone 8 – Misura dell’Outcome Esempio 8. Confronti multipli con ipotesi di modificazione di effetto (continua) Le misure di gravità vengono calcolate per ciascun gruppo attraverso l’uso di due modelli logistici multivariati i cui fattori di rischio sono riportati nella tabella seguente: Variabili Età Residenza (rif altra ASL) Mortalità extraospedaliera 1° quintile 2° quintile 3° quintile 4° quintile 5° quintile Patologie concomitanti Tumori Diabete Lieve Moderato Grave Altre mal. ematiche Infarto pregresso Miocardiopatie complesse Altre miocardiopatie Altri interventi sul cuore Aritmia Cerebrovascolari croniche BPCO Renali croniche Prec. rivascol. coronarica Prec. rivascol. cerebrovascolare Maschi OR p 1.08 0.000 0.79 0.032 Femmine OR p 1.07 0.000 0.71 0.012 1.00 1.09 1.02 0.89 0.81 0.370 0.854 0.242 0.050 1.00 0.93 1.10 0.73 0.76 0.469 0.375 0.004 0.022 1.25 0.057 1.44 0.020 1.00 1.04 1.35 1.25 0.71 0.707 0.129 0.166 0.020 1.93 1.48 0.255 0.001 1.23 1.17 1.41 0.48 0.049 0.169 0.055 0.068 1.00 1.19 1.36 1.44 0.76 1.38 1.51 1.17 1.45 1.27 1.79 0.67 0.47 0.133 0.129 0.028 0.008 0.003 0.018 0.144 0.000 0.011 0.000 0.129 0.026 La selezione dei potenziali confondenti (fattori predittori dell’esito ma non necessariamente associati all’esposizione) ha portato a risultati diversi nei diversi gruppi. Come si può notare, non tutte le patologie concomitanti sembrano essere dei buoni predittori della mortalità in entrambi i gruppi. Il confronto tra gli esiti delle diverse strutture è stato effettuato, separatamente per maschi e femmine, mediante una procedura di standardizzazione diretta. 56 Mattoni SSN – Mattone 8 – Misura dell’Outcome Esempio 8. Confronti multipli con ipotesi di modificazione di effetto (continua) Standardizzazione diretta Il confronto tra gli esiti delle singole strutture e quelli delle strutture che presentavano gli esiti “risk adjusted” migliori (29 strutture di riferimento, le stesse per i due generi) è stato effettuato includendo nei modelli precedentemente selezionati le variabili dummy rappresentanti le strutture e stimando gli OR ad esse associati. Anche in questo caso si è scelto di privilegiare la confrontabilità tra le strutture di cura utilizzando per tutti i confronti un unico modello di risk adjustment, pur sapendo che questa scelta potrebbe aver causato l’inclusione nel modello di fattori non confondenti in quanto non eterogeneamente distribuiti tra le strutture. Riportiamo di seguito i risultati ottenuti per le strutture con un volume annuo di infarti non inferiore a 100. Maschi ospedale Rif. 908 902 909 072 053 903 091 049 085 904 079 031 082 044 061 025 100 013 028 068 006 n 1435 702 664 504 420 418 398 366 338 319 295 250 247 245 188 154 150 143 142 142 135 113 OR grezzo 1 1.87 1.74 1.56 1.61 1.50 1.89 1.27 1.64 1.82 1.86 1.98 1.91 1.72 0.99 1.55 1.51 1.44 2.74 1.44 1.71 1.27 95% I.C. 1.44 1.33 1.16 1.18 1.09 1.38 0.89 1.17 1.30 1.32 1.38 1.32 1.17 0.60 0.96 0.93 0.86 1.79 0.87 1.05 0.71 2.42 2.28 2.11 2.21 2.07 2.58 1.81 2.30 2.56 2.64 2.85 2.76 2.51 1.64 2.49 2.45 2.41 4.20 2.39 2.79 2.28 OR* 1 1.54 1.64 1.33 1.51 1.86 1.61 1.39 1.29 1.64 1.93 1.69 1.84 1.22 1.00 1.68 1.58 1.75 3.21 1.67 1.92 1.29 95% I.C. 0.99 1.08 0.85 1.07 1.27 1.01 0.94 0.89 1.11 1.18 1.13 1.20 0.80 0.59 1.00 0.94 1.00 2.01 0.98 1.13 0.68 2.39 2.50 2.07 2.13 2.74 2.55 2.07 1.88 2.43 3.15 2.51 2.82 1.86 1.71 2.82 2.66 3.07 5.13 2.85 3.25 2.43 57 Mattoni SSN – Mattone 8 – Misura dell’Outcome * OR aggiustati per Età, Residenza, Mortalità extraospedaliera, Tumori, Diabete, Altre mal. ematiche, Infarto pregresso, Miocardiopatie complesse, Altre miocardiopatie, Aritmia,Cerebrovascol. croniche, BPCO, Renali croniche, Prec. rivascol. coronarica, Prec. rivascol. cerebrovascolare Esempio 8. Confronti multipli con ipotesi di modificazione di effetto (continua) Femmine ospedale Rif. 902 908 909 072 903 049 085 053 091 082 904 079 031 044 n 739 388 383 281 256 252 201 188 184 168 138 137 131 123 115 OR grezzo 1.00 1.06 1.53 1.41 1.14 1.41 1.34 1.41 1.82 1.62 1.53 1.32 1.35 1.42 1.90 95% I.C. 0.78 1.15 1.02 0.80 1.00 0.93 0.96 1.27 1.10 1.00 0.86 0.87 0.91 1.23 1.45 2.05 1.95 1.62 1.98 1.94 2.05 2.62 2.39 2.32 2.04 2.09 2.22 2.93 OR* 1.00 1.12 1.17 1.24 1.22 1.20 1.24 1.12 1.61 1.49 1.10 1.35 1.06 1.30 2.32 95% I.C. 0.79 0.80 0.85 0.84 0.80 0.83 0.74 1.05 0.97 0.68 0.83 0.66 0.79 1.46 1.58 1.71 1.81 1.77 1.79 1.85 1.72 2.46 2.28 1.77 2.18 1.71 2.12 3.69 * OR aggiustati per Età, Residenza, Mortalità extraospedaliera, Tumori, Diabete, Altre mal. ematiche, Infarto pregresso, Altri interventi sul cuore, Aritmia, BPCO, Renali croniche, Prec. rivascol. coronarica, Prec. rivascol. cerebrovascolare Per una migliore discussione sull’importanza che la corretta identificazione della modificazione di effetto può avere sull’interpretazione dei risultati, riportiamo la valutazione comparativa delle strutture eseguita senza stratificare per genere (e quindi utilizzando un’unica misura di gravità): 58 Mattoni SSN – Mattone 8 – Misura dell’Outcome Esempio 8. Confronti multipli con ipotesi di modificazione di effetto (continua) Totale ospedale Rif 908 902 909 072 903 053 049 091 085 904 082 079 031 044 013 100 025 061 068 028 n 2174 1085 1052 785 676 650 602 539 534 507 432 383 381 370 303 235 223 219 217 212 204 OR grezzo 1.00 1.71 1.42 1.50 1.40 1.69 1.57 1.52 1.37 1.64 1.58 1.64 1.68 1.66 1.44 2.01 1.24 1.24 1.66 1.85 1.44 95% I.C. 1.41 1.16 1.21 1.11 1.35 1.24 1.18 1.06 1.28 1.21 1.24 1.27 1.25 1.05 1.44 0.84 0.84 1.16 1.31 0.99 2.07 1.74 1.86 1.77 2.12 1.99 1.95 1.78 2.11 2.07 2.16 2.21 2.20 1.98 2.79 1.82 1.81 2.36 2.62 2.10 OR* 1.00 1.23 1.23 1.14 1.39 1.27 1.68 1.28 1.41 1.37 1.49 1.19 1.42 1.60 1.57 2.31 1.46 1.36 1.89 2.09 1.74 95% I.C. 0.89 0.90 0.82 1.08 0.90 1.26 0.97 1.05 1.03 1.03 0.87 1.05 1.16 1.12 1.62 0.96 0.90 1.28 1.43 1.16 1.72 1.69 1.59 1.79 1.79 2.24 1.68 1.88 1.82 2.16 1.63 1.93 2.21 2.21 3.31 2.23 2.05 2.78 3.06 2.59 * OR aggiustati per Età, Residenza, Mortalità extraospedaliera, Tumori, Diabete, Altre mal. Ematiche, Infarto pregresso, Miocardiopatie complesse, Altre miocardiopatie, Altri interventi sul cuore, Aritmia, Cerebrovascolari croniche, BPCO, Renali croniche, Prec. rivascol. coronarica, Prec. rivascol. cerebrovascolare Come si può notare, alcuni ospedali sembrano avere una performance migliore nel trattamento degli uomini che in quello delle donne (e.g, 044), mentre altri si comportano in maniera opposta (e.g. 903). Da sottolineare il caso dell’ospedale “902” che non sembra ottenere, sul complesso dei casi, esiti diversi dal pool degli ospedali migliori (OR aggiustato 1.23; I.C.95% 0.90-1.69). In questo caso, tuttavia, la mancata distinzione per genere avrebbe portato ad una conclusione erronea; infatti questo ospedale sembra avere una performance simile al pool dei migliori 59 Mattoni SSN – Mattone 8 – Misura dell’Outcome nel trattamento delle donne OR 1.12 (0.79-1.58) ma una performance peggiore nel trattamento degli uomini OR 1.64 (1.08-2.50). 2.6 Altri modelli utilizzabili per il risk adjustment I modelli utilizzati per la standardizzazione diretta vengono normalmente criticati da tre punti di vista: a. non tengono esplicitamente conto della natura “gerarchica” dei dati analizzati, cioè del fatto che i pazienti studiati sono aggregati in ospedali, area geografica, tipologia amministrativa, etc.. b. i modelli possono non convergere se alcune delle “celle” considerate non contengono casi; c. non permettono l’analisi dell’effetto di variabili associate al gruppo (area geografica, tipologia amministrativa). L’esistenza di una struttura gerarchica non può essere considerata casuale né ignorata in fase di analisi dei dati, in quanto tende a produrre, in assenza di opportuni correttivi, livelli di precisione delle stime non giustificati dai dati analizzati e legati alla sottostima della componente casuale della variabilità tra i gruppi18,71. Un noto studio, condotto da Bennett nel 1976, riportava un maggiore progresso dei bambini di scuola elementare “esposti” ad un certo tipo di insegnamento rispetto agli altri. I dati erano stati analizzati utilizzando un analisi di regressione multipla con un approccio “classico” 72. Successivamente Aitkin, nel 1981, dimostrò che ,considerando la natura gerarchica dei dati, tali differenze scomparivano. In conclusione i bambini all’interno di una classe tendevano ad avere comportamenti più simili tra di loro73. I modelli gerarchici (o “multi-level”), introdotti nei primi anni 90 da Goldstein, permettono di risolvere tali problemi. Essi tengono espressamente conto del fatto che l’aggregazione dei pazienti nei diversi gruppi non è casuale e tali differenze, al netto della parte dovuta al diverso case-mix, vengono espressamente modellate. In questo modo le stime puntuali risultanti sono più concentrate attorno alla media generale, cioè più conservative18,71,74,75,76. Esistono diversi approcci statistici per la specificazione di tali modelli, ma, come indicato da Goldstein e Spiegelhalter, “statistical preferences between Bayesian, 60 Mattoni SSN – Mattone 8 – Misura dell’Outcome likelihood and quasi-likelihood methods are usually more of philosophical then practical importance” 77. Il principale problema nell’uso dei modelli gerarchici è stato finora legato alla limitata diffusione dei relativi software di analisi statistica che ne permettono la costruzione e l’analisi. Anche tale limite si avvia però ad essere superato. 61 Mattoni SSN – Mattone 8 – Misura dell’Outcome 3. Conclusioni Questa revisione delle metodologie epidemiologiche utilizzabili nella valutazione comparativa degli esiti dei trattamenti sanitari non può certamente essere considerata esaustiva e risente necessariamente delle conoscenze scientifiche, delle preferenze, dei pre-giudizi degli autori. Mira quindi a fornire solamente un sintetico quadro di riferimento, sviluppato nell’ambito del progetto Mattoni del NSIS, per supportare le applicazioni di valutazione sistematica degli esiti nel SSN e promuovere il dibattito scientifico in questo campo. Il continuo progresso delle metodologie epidemiologiche e statistiche e la sempre maggiore disponibilità di più potenti strumenti di calcolo, porteranno certamente alla necessità di integrare e modificare continuamente i contenuti di questa revisione. Occorre considerare che sarà sempre più forte la necessità di condurre studi osservazionali di efficacia di nuovi trattamenti sanitari, introdotti nella pratica clinica in assenza, per ragioni etiche, pratiche e scientifiche, di valide stime di efficacia da RCTs. Anche quando esse sono tuttavia disponibili non sempre saranno direttamente trasferibili alla realtà operativa dei sistemi sanitari locali; “efficacy” teorica da RCT ed “effectiveness” empiricamente osservata nella pratica clinica possono divergere anche in modo importante. Per la programmazione e la gestione dei sistemi sanitari sarà sempre più importante capire quali fattori organizzativi e produttivi possano modificare, in meglio o in peggio, l’efficacia dei trattamenti e dei servizi. Così come sarà sempre più importante per i decisori e programmatori valutare comparativamente le performance dei produttori nell’ambito di sistemi sanitari sempre più numerosi, competitivi, dinamici. Per queste ragioni crescerà la domanda di studi osservazionali di efficacia, di valutazioni comparative di esito. Questa crescente domanda richiede lo sviluppo e la diffusione delle conoscenze scientifiche della ricerca epidemiologica, la capacità di formulare correttamente ipotesi, disegnare studi, condurre analisi ed interpretare i risultati. 62 Mattoni SSN – Mattone 8 – Misura dell’Outcome Richiede anche un maggiore dialogo tra epistemologie e culture diverse, del mondo clinico, di quello di sanità pubblica, dell’epidemiologia e, non secondariamente, della politica. Abbiamo la consapevolezza che, anche in questo campo, ogni nuovo risultato di ricerca produce un modesto, anche se qualche volta importante, aumento di conoscenze, ed una sempre maggiore consapevolezza di quello che non sappiamo. Ciò può determinare difficoltà di comunicazione e di interazione con chi deve decidere e vorrebbe avere “certezze”, per i pazienti i clinici, per il sistema sanitario i manager ed i politici78. I metodi che abbiamo illustrato, come ogni altra forma di conoscenza scientifica, non hanno la possibilità di misurare la “realtà” come è “veramente”, ma di produrre di essa “immagini” definendo esplicitamente, in termini di validità e di precisione, limiti ed incertezze. Su questi presupposti, tutti, politici, manager, epidemiologi, clinici, dovrebbero imparare a decidere, per gli obiettivi di tutela della salute dei pazienti e della popolazione, misurandosi con l’incertezza, ma scegliendo sulla base delle migliori conoscenze scientifiche disponibili. 63 Mattoni SSN – Mattone 8 – Misura dell’Outcome Riferimenti bibliografici 1. Rothman KJ, Greenland, eds. Modern epidemiology. Philadelphia: Lippincott-Raven 2nd ed., 1998 2. Benson K, Hartz AJ. A comparison of observational studies and randomized, controlled trials. N Engl J Med. 2000; 342(25):1878-86 3. Vandenbroucke JP. When are observational studies as credible as randomised trials? Lancet 2004; 363(9422):1728-31 4. Deeks JJ, Dinnes J, D’Amico R, Sowden AJ et al. Evaluating non-randomised intervention studies. Health Technology Assessment 2003; 7(27): 1-186 5. Greenland S, Brumback B. An overview of relations among causal modelling methods. International Journal of Epidemiology 2002; 31:1030-1037 6. McNamee R. Confounding and confounders. Occupational and Environmental Medicine 2003; 60: 227-23 7. Sonis J. A Closer Look at Confounding. Family Medicine 1998; 30(8): 584-8 8. Kleinbaum DG, Kupper LL, Morgenstern H. Epidemiologic Research. Principles and quantitative methods. New York: Van Nostrand Reinhold Company Inc., 1982 9. Miettinen OS, Cook EF. Confounding: essence and detection. American Journal of Epidemiology 1981; 114: 593-603 10. Sklo M, Nieto FG. Epidemiology: beyond the basics. Aspen Publishers, Inc. Gaithersburg, Maryland, 2000 11. Rubin DB. Estimating Causal Effects from Large Data Sets Using Propensity Scores [Measuring Quality, Outcomes, and Cost of Care Using Large Databases: The Sixth Regenstrief Conference: Statistical Methods]. Annals of Internal Medicine 1997; 127(8S) Supplement: 757-763 12. Iezzoni LI. Risk Adjustment for measuring healthcare outcomes. Health Administration Press 2nd ed., 1997 13. Pearson ML, Stecher B. Risk Adjustment Methods in Health Care Accountability. In Stecher B, Kirby SN, (eds). Organizational Improvement and Accountability: Lessons for Education from Other Sectors, RAND, MG-136-WFHF, Chapter 7, 2004, pp. 95-105 14. Shaughnessy PW, David FH. Overview of Risk Adjustment and Outcome Measures for Home Health Agency OBQI Reports: Highlights of Current Approaches and Outline of Planned Enhancements. Center for Health Services Research, UCHSC. September 2002 (http://www.cms.hhs.gov/quality/hhqi/RiskAdj1.pdf) 64 Mattoni SSN – Mattone 8 – Misura dell’Outcome 15. Spiegelhalter D, Grigg O, Kinsman R, Treasure T. Risk-adjusted sequential probability ratio tests: applications to Bristol, Shipman and adult cardiac surgery. International Journal for Quality in Health Care 2003; 15:7-13 16. Silva LK. Validity of the risk adjustment approach to compare outcomes. Cad Saude Publica 2003;19(1): 287-95 17. O'Keefe K. Accounting for Severity of Illness in Acutely Hospitalized Patients: a Framework for Clinical Decision Support using DYNAMO. Wipro GE Healthcare. Copyright General Electric Company 1997-2005 (http://www.gehealthcare.com/inen/prod_sol/hcare/resources/library/article07.html) 18. Ferraris VA, Ferraris SP Risk Stratification and Comorbidity. In: Cohn LH, Edmunds LH Jr, eds. Cardiac Surgery in the Adult. New York: McGrawHill 2003:187224 19. Knaus WA, Wagner DP, Draper EA, Zimmerman JE, Bergner M, Bastos PG, et al. The APACHE III prognostic system. Risk prediction of hospital mortality for critically ill hospitalized adults. Chest 1991;100:1619-36 20. Thomas JW, Ashcraft ML. Measuring severity of illness: six severity systems and their ability to explain cost variations. Inquiry 1991; 28(1): 39-55 21. Knaus WA, Wagner DP, Zimmerman JE., Draper EA. Variations in Mortality and Length of Stay in Intensive Care Units. Annals of Internal Medicine 1993; 118(10): 753-761 22. Iezzoni LI, Ash AS, Shwartz M, Daley J et al. Predicting Who Dies Depends on How Severity Is Measured. Implications for Evaluating Patient Outcomes. Ann Intern Med 1995; 123(10): 763-770 23. Tu JV, Jaglal SB, Naylor CD. Multicenter validation of a risk index for mortality, intensive care unit stay, and overall hospital length of stay after cardiac surgery. Steering Committee of the Provincial Adult Cardiac Care Network of Ontario. Circulation 1995; 91: 677- 684 24. Guru V, Gong Y, Rothwell DM, Tu JV. Report on Cardiac Surgery in Ontario Fiscal Years 2000 & 2001. The Institute for Clinical Evaluative Sciences, Toronto Ontario, Canada in collaboration with the Steering Committee of the Cardiac Care Network of Ontario, 2003. 25. Nashef SAM, Roques F, Michel P, Gauducheau E et al. European system for cardiac operative risk evaluation (EuroSCORE). European Journal of Cardio-thoracic Surgery 1999; 16: 9-13 65 Mattoni SSN – Mattone 8 – Misura dell’Outcome 26. Iezzoni LI, Shwartz M, Ash AS, Hughes JS, Daley J, Mackiernan YD, et al. Evaluating severity adjustors for patient outcome studies. Final report. Prepared for the Agency for Health Care Policy and Research under grant no. RO1-HS06742. Boston: Beth Israel Hospital, 1995 27. 3M Health Information Systems. All Patient Refined DRGs (APR-DRGs), 1995. (http://www.3mhis.com) 28. Edwards N, Honemann D, Burley D, Navarro M. Refinement of the Medicare diagnosis-related groups to incorporate a measure of severity. Health Care Financing Review 1994; 16(2): 45–64 29. Mendenhall S. DRGs must be changed to take patient's illness severity into account. Modern Healthcare 1984 Nov 15; 14(15): 86-8 30. Charlson ME, Pompei P, Ales KL, MacKenzie CR. A new method of classifying prognostic comorbidity in longitudinal studies: development and validation. Journal of Chronic Diseases 1987; 40(5): 373-83 31. Deyo RA, Cherkin DC, Ciol MA. Adapting a clinical comorbidity index for use with ICD9-CM administrative databases. Journal of Clinical Epidemiology 1992; 45(6): 613-9 32. Higgins TL, Estafanous FG, Loop FD, et al. Stratification of morbidity and mortality outcome by preoperative risk factors in coronary artery bypass patients: a clinical severity score. JAMA 1992; 267(17): 2344-8 33. Gonnella JS, Hornbrook MC, Louis DZ. Staging of disease: A case-mix measurement. JAMA 1984; 251 (5): 637-44 34. Markson LE, Nash DB, Louis DZ, Gonnella JS. Clinical outcomes management and disease staging. Evaluation and the Health Professions 1991; 14(2): 201-27 35. O'Connor GT, Plume SK, Olmstead EM, et al. Multivariate prediction of in-hospital mortality associated with coronary artery bypass graft surgery. Northern New England Cardiovascular Disease Study Group. Circulation 1992; 85:2110-18 36. O'Connor GT, Plume SK, Olmstead EM, et al. A regional intervention to improve the hospital mortality associated with coronary artery bypass graft surgery. The Northern New England Cardiovascular Disease Study Group. JAMA 1996; 275(11): 841-6 37. Parsonnet V, Dean D, Bernstein AD. A method of uniform stratification of risk for evaluating the results of surgery in acquired adult heart disease. Circulation 1989; 79(6 Pt 2): I3-12 66 Mattoni SSN – Mattone 8 – Misura dell’Outcome 38. Parsonnet V, Bernstein AD, Gera M. Clinical usefulness of risk-stratified outcome analysis in cardiac surgery in New Jersey. Ann Thorac Surg 1996; 61(2 Suppl):S8-11; discussion S33-4 39. Martinez-Alario J, Tuesta ID, Plasencia E, et al. Mortality prediction in cardiac surgery patients: comparative performance of Parsonnet and general severity systems. Circulation 1999; 99: 2378-2382 40. Young WW, Kohler S, Kowalski J. PMC Patient Severity Scale: derivation and validation. Health Services Research 1994; 29(3): 367-90 41. Steen PM, Brewster AC, Bradbury RC, Estabrook E, Young JA. Predicted probabilities of hospital death as a measure of admission severity of illness. Inquiry 1993; 30: 128-141 42. Hammermeister KE, Johnson R, Marshall G, Grover FL. Continuous assessment and improvement in quality of care: a model from the Department of Veterans Affairs Cardiac Surgery. Ann Surg 1994; 219(3): 281-90 43. Grover FL, Shroyer AL, Hammermeister KE. Calculating risk and outcome: the Veterans Affairs database. Ann Thorac Surg 1996; 62(5 Suppl): S6-11; discussion S31-2 44. Hannan EL, Kilburn H, O'Donnell JF, et al. Adult open heart surgery in New York State: an analysis of risk factors and hospital mortality rates. JAMA 1990; 264(21): 2768-74 45. Hannan EL, Kumar D, Racz M, Siu AL, Chassin MR. New York State's Cardiac Surgery Reporting System: four years later. Ann Thorac Surg 1994; 58(6):18521857 46. Edwards FH, Clark RE, Schwartz M: Coronary artery bypass grafting: the Society of Thoracic Surgeons National Database experience. Ann Thorac Surg 1994; 57:1219 47. Hattler BG, Madia C, Johnson C, et al: Risk stratification using the Society of Thoracic Surgeons Program. Ann Thorac Surg 1994; 58:1348-52 48. Edwards FH, Grover FL, Shroyer AL, et al: The Society of Thoracic Surgeons National Cardiac Surgery Database: current risk assessment. Ann Thorac Surg 1997; 63: 903-908 49. Marshall G, Henderson WG, Moritz TE, Shroyer AL, Grover FL, Hammermeister KE. Statistical methods and strategies for working with large data bases. Medical Care 1995; 33(10 Suppl):OS35-42 67 Mattoni SSN – Mattone 8 – Misura dell’Outcome 50. Robins JM, Greenland S. The role of model selection in causal inference from nonexperimental data. American Journal of Epidemiology 1986;123(3): 392-402 51. Greenland S. Modeling and variable selection in epidemiologic analysis. American Journal of Public Health 1989; 79(3): 340-349 52. Sun GW, Shook TL, Kay GL. Inappropriate use of bivariable analysis to screen risk factors for use in multivariable analysis. J Clin Epidemiol 1996 Aug;49(8): 907-16 53. Kleinbaum DG. Epidemiologic methods: the “art" in the state of the art. J Clin Epidemiol. 2002; 55(12):1196-1200 54. Clayton D, Hills M. Statistical Models in Epidemiology. Oxford University Press, New York, 1993 55. Kleinbaum DG, Kupper LL, Muller KE, Nizam A. Applied Regression Analysis and other multivariable methods. Duxbury Press by Brooks/Cole Publishing Company 3nd ed., 1998 56. Brown H, Prescott R. Applied mixed models in medicine. John Wiley & Sons, Ltd, 2003 57. Hosmer DW, Lemeshow S. Applied Logistic Regression. New York: Wiley,1989. 58. Hanley JA, McNeil BJ. The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology 1982; 143(1): 29-36 59. DeLong ER, DeLong DM, Clarke-Pearson DL. Comparing the areas under two or more correlated receiver operating characteristic curves: a nonparametric approach. Biometrics 1988; 44: 837-845 60. DeLong ER, Peterson ED, DeLong DM, Muhlbaier LH, Hackett S, Mark DB. Comparing risk-adjustment methods for provider profiling. Statistics in Medicine 1997;16(23): 2645-64 61. Nursing Home Quality Measures Resource Manual. Revised Resource Manual, Texas Medical Foundation 2004 (http://www.tmf.org/nursinghomes/manual/) 62. Bailit J, Garrett J. Comparison of risk-adjustment methodologies for cesarean delivery rates. Obstet Gynecol. 2003;102(1): 45-51 63. Mickey RM, Greenland S. The impact of confounder selection criteria on effect estimation. American Journal of Epidemiology 1989; 129(1): 125-137 64. Health Grades. The Healthcare Quality Experts. Copyright 1999-2005 Health Grades, Inc. (http://www.healthgrades.com) 68 Mattoni SSN – Mattone 8 – Misura dell’Outcome 65. Krumholz HM, Rathore SS, Chen J, Wang Y, Radford MJ. Evaluation of a ConsumerOriented Internet Health Care Report Card: the Risk of Quality Ratings Based on Mortality Data. JAMA 2002; 287:1277-1287 66. Il "Progetto BPAC": Studio degli esiti a breve termine di interventi di By-Pass AortoCoronarico nelle cardiochirurgie Italiane (http://bpac.iss.it) 67. NHS Centre for Review and Dissemination. The relation between hospital volume and quality of health outcomes. Summary report, part 1 in: CRD Report 8. Concentration and choice in the provision of hospital services 1997 68. Dudley RA, Johansen KL, Brand R. Selective referral to high volume hospitals: estimating potentially avoidable deaths. JAMA 2000;283:1159-1166 69. Halm, E. A., Lee, C., and Chassin, M. R. Is volume related to outcome in health care? A systematic review and methodologic critique of the literature. Annals of Internal Medicine 2002; 137(6):511-20 70. Kalant, N. and Shrier, I. Volume and outcome of coronary artery bypass graft surgery: are more and less the same? [Review] [55 refs]. Canadian Journal of Cardiology 2004; 20(1):81-6 71. Goldstein H. Multilevel Statistical Models, 3rd ed. Hodder Arnold, 2003 72. Bennett N. Teaching Styles and Pupil Progress. Open Books, 1976 73. Aitkin, M., Anderson, D., Hinde, J. Statistical modelling of data on teaching styles. Journal of the Royal Statistical Society 1981; Part A, 144: 148-161 74. Aylin P, Alves B, Best N, Cook A et al. Comparison of UK paediatric cardiac surgical performance by analysis of routinely collected data 1984-96: was Bristol an outlier? Lancethttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?linkbar=plain&db=journals&term=014 0-6736 2001; 358(9277):181-187 75. Shahian DM, Blackstone EH, Edwards FH et al.; STS workforce on evidencebased surgery. Cardiac surgery risk models: a position article. Ann Thorac Surg. 2004 Nov; 78(5):1868-77 76. Normand SL, Glickman M, Gatsonis CA. Statistical methods for profiling providers of medical care: issues and applications. Journal of the American Statistical Association 1997; 92: 803-814 77. Goldstein H, Spiegelhalter D. League tables and their limitations: statistical issues in comparisons of institutional performance. Journal of the Royal Statistical Society 1996; 159: 385-443 69 Mattoni SSN – Mattone 8 – Misura dell’Outcome 78. Lilford R, Mohammed MA, Spiegelhalter D, Thomson R. Use and misuse of process and outcome data in managing performance of acute medical care: avoiding institutional stigma. Lancet 2004; 363(9415):1147-54 70