Ministero della Salute
Progetto Mattoni SSN
Misura dell’Outcome
Manuale sul risk adjustment
1
Mattoni SSN – Mattone 8 – Misura dell’Outcome
RIFERIMENTI
Redatto da:
Società:
Verificato da:
Società:
Approvato da:
Data
Gruppo di Lavoro Ristretto
Dott.ssa Fulvia Seccareccia
Istituto Superiore di Sanità
Cabina di Regia
09/02/06
2
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Indice
1. Introduzione ..............................................................................................4
1.1 Studi sperimentali e studi osservazionali.............................................................. 4
1.2 Confondimento negli studi osservazionali............................................................ 5
1.3 Identificazione e controllo del confondimento...................................................... 6
2. Risk adjustment........................................................................................8
2.1 La misura della gravità ............................................................................................ 9
2.1.1 Scores prognostici
9
2.1.2 Modelli predittivi “preconfezionati”
13
2.1.3 Approccio “empirico”
15
Esempio 1. Costruzione di una misura di gravità con un approccio empirico
20
2.2 Uso della misura di gravità per il risk adjustment .............................................. 24
2.2.1 Analisi stratificata
24
2.2.2 Standardizzazione indiretta
25
Esempio 2. Standardizzazione indiretta
28
2.2.3 Standardizzazione diretta
28
Esempio 3. Standardizzazione diretta
30
Esempio 4. Change-in-estimate
31
2.3 Identificazione e trattamento della modificazione di effetto .............................. 32
Esempio 5. Trattamento della modificazione d’effetto con approccio empirico
34
2.4 La precisione delle stime ...................................................................................... 38
Esempio 6. Quantificazione della precisione delle stime
40
2.5 Confronti multipli ................................................................................................... 42
Esempio 7. Confronti multipli
44
Esempio 8. Confronti multipli con ipotesi di modificazione di effetto
53
2.6 Altri modelli utilizzabili per il risk adjustment ..................................................... 60
3. Conclusioni.............................................................................................62
Riferimenti bibliografici..............................................................................64
3
Mattoni SSN – Mattone 8 – Misura dell’Outcome
1. Introduzione
Negli ultimi anni, l'affermarsi della medicina basata sulle evidenze e la necessità di
razionalizzare e rendere utilizzabile, per le decisioni cliniche e di politica sanitaria, la
grande quantità di nuove conoscenze prodotte in campo medico e biologico, ha fatto
avvertire anche nel nostro paese la necessità di valutare in modo rigoroso
l'appropriatezza e l'efficacia dei trattamenti per la cura della salute.
L’obiettivo della valutazione dei trattamenti è quello di produrre una stima della
loro efficacia in termini sia di validità interna, cioè capacità di produrre stime di
efficacia che siano attribuibili esclusivamente al trattamento in esame, sia di validità
esterna, cioè possibilità di generalizzare i risultati ottenuti.
1.1 Studi sperimentali e studi osservazionali
I trials clinici randomizzati e controllati (RCT)1 rappresentano il metodo d'elezione
per confrontare l'efficacia di trattamenti alternativi mettendo a confronto gruppi di
pazienti sottoposti ad iter diagnostici o terapeutici diversi (ad esempio, un gruppo
trattato con un farmaco innovativo e un altro trattato con un farmaco convenzionale).
Ogni RCT si basa su un protocollo di studio rigoroso che contempla alcune fasi, tra le
quali
riveste
una
importanza
fondamentale
l’assegnazione
casuale
(randomizzazione) dei pazienti ai diversi trattamenti, tecnica che permette un
confronto non distorto tra i gruppi garantendo, a meno di effetti casuali, l’omogeneità
degli stessi rispetto a fattori prognostici noti e/o sconosciuti.
In alcuni casi, tuttavia, la realizzazione di un RCT è impossibile (per esempio, nel
caso in cui l’esito in studio è molto raro, oppure in caso di interventi di prevenzione
rivolti ad intere comunità, o a causa di problemi etici)2,3. In altri casi, invece, può
esserci il ragionevole dubbio che i risultati ottenuti in un RCT (o documentati da una
revisione sistematica di più RCT) non siano “tout court” trasferibili nella pratica
clinica, a causa delle diverse condizioni operative in cui i trattamenti vengono erogati.
Da qui la necessità di ricorrere ai risultati derivanti da studi non sperimentali
(osservazionali).
Gli studi osservazionali sono quelli nei quali la realtà e la popolazione sono
studiate nelle loro condizioni abituali, senza intervento da parte del ricercatore2, 3,4. I
dati possono essere raccolti a livello aggregato, spesso utilizzando statistiche
correnti (studi ecologici, studi di serie temporali) oppure a livello individuale (studi
trasversali o di prevalenza, studi longitudinali di coorte o caso-controllo).
4
Mattoni SSN – Mattone 8 – Misura dell’Outcome
1.2 Confondimento negli studi osservazionali
Ovviamente, il limite principale degli studi osservazionali è la mancanza della
randomizzazione dei pazienti ai trattamenti. Nella pratica assistenziale infatti,
l’allocazione di un paziente ad un trattamento piuttosto che ad un altro è il risultato
dell’interazione complessa tra fattori sociodemografici, valutazioni di tipo clinico e
vincoli organizzativi. Ne consegue che i risultati di uno studio osservazionale, oltre a
poter essere distorti in modo non controllabile a seguito della selezione del campione
studiato (il cosiddetto bias di selezione, possibile peraltro anche negli RCT e
rilevante soprattutto in rapporto alla validità esterna dei risultati) possono risentire
della allocazione differenziale dei pazienti (per esempio rispetto alla gravità delle
condizioni cliniche) nei diversi gruppi posti a confronto. Quando questi fattori di
allocazione al trattamento sono anche determinanti dell’esito, può verificarsi una
distorsione (bias) della misura di associazione tra esposizione ed esito, nota con il
termine di confondimento, che è specifico degli studi osservazionali e può interferire
con la validità interna dei risultati di tali studi1,5,6,7,8,9.
Nella sua accezione più semplice il confondimento viene definito come l’effetto di
un fattore (o insieme di fattori) che:
è causalmente associato all’esito in studio e causalmente o non causalmente
associato all’esposizione in studio ma non è un fattore intermedio nella
relazione causale tra l’esposizione e l’esito.
Questa regola generale può essere rappresentata secondo lo schema:
E
?
C
Y
in cui il fattore confondente (C) è causalmente associato con l’esito di interesse (Y) e
causalmente o non causalmente associato con l’esposizione in studio10 (E). In
questa situazione, lo studio dell’associazione grezza (ovvero non corretta per la
presenza del confondente) tra E e Y può fornire risultati distorti.
5
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Consideriamo, per esempio, i tassi grezzi di mortalità (esito) in 5 paesi americani
(esposizione) per l’anno 1996:
Paese
T. mortalità
X1000
Costa Rica
3.8
Venezuela
4.4
Messico
4.9
Canada
7.3
Stati Uniti
8.7
Una semplice ma corretta interpretazione di questi risultati porta a concludere che
gli Stati Uniti e il Canada avevano, nel 1996, una mortalità più elevata rispetto agli
altri paesi considerati. Sebbene questa lettura possa essere utile da alcuni punti di
vista (per esempio ai fini di decisioni di programmazione sanitaria), essa è
certamente fuorviante qualora la differenza tra i tassi di mortalità venga interpretata
come differenza nello stato di salute della popolazione..
Infatti, i tassi di mortalità più elevati negli Stati Uniti e in Canada dipendono dalla
maggiore proporzione di anziani presente in queste due popolazioni rispetto agli altri
paesi (associazione tra il fattore confondente “età” e l’esposizione “paese”). Poiché
l’età è un forte predittore della mortalità (associazione causale tra il fattore
confondente “età” e l’esito “mortalità”), le differenze nella struttura per età delle
popolazioni danno luogo a tassi grezzi di mortalità più elevati nei paesi
nordamericani, anche se in tutte le classi di età la mortalità è più bassa in questi
paesi che negli altri considerati.
1.3 Identificazione e controllo del confondimento
L’età delle persone studiate è, a causa della sua forte associazione con lo stato di
salute, il primo potenziale confondente da prendere in considerazione negli studi
osservazionali. L’individuazione degli altri fattori potenzialmente confondenti è
normalmente basata sulle conoscenze disponibili a priori riguardo all’associazione
tra questi fattori e l’esito e/o l’esposizione in studio. Occorre però dire che, almeno
6
Mattoni SSN – Mattone 8 – Misura dell’Outcome
teoricamente, la presenza di confondimento, e cioè il realizzarsi delle due condizioni
sopra definite, deve essere verificata con specifico riferimento alla popolazione
studiata e al confronto eseguito.
Oggetto della valutazione empirica sulla esistenza di un fenomeno di
confondimento
è il confronto tra la misura di associazione grezza e quella
“aggiustata” per le variabili di confondimento scelte. Questo confronto è di carattere
qualitativo e, riferendosi alla presenza di errore sistematico, non può basarsi sul
risultato di test statistici. In altri termini, la quota di confondimento che si ritiene
“accettabile” dipende dalla valutazione soggettiva del ricercatore in relazione alle
caratteristiche del fenomeno studiato ed all’ipotesi allo studio.
Gli approcci utilizzabili per l’identificazione e il controllo del confondimento sono il
propensity adjustment e il risk adjustment.
Nel propensity adjustment11 si parte dallo studio dell’associazione tra potenziali
confondenti ed esposizione. L’idea di base è quella di confrontare gruppi di esposti e
di non esposti che siano omogenei rispetto alla loro probabilità (propensity) di
ricevere il “trattamento”. Questo può essere ottenuto in vari modi, il più utilizzato dei
quali è quello di sintetizzare questa probabilità in un’unica misura, chiamata
“propensity score” e ottenuta attraverso modelli predittivi multivariati. Il propensity
score può essere utilizzato come variabile di appaiamento (ogni soggetto esposto
sarà confrontato con un soggetto non esposto che aveva la sua stessa probabilità di
essere esposto) o come covariata in un modello di regressione, in cui l’associazione
tra esposizione ed esito verrà stimata “al netto” delle possibili differenze nella
“propensione” all’esposizione.
Nel risk adjustment12,13,14,15,16, invece, si parte dallo studio dell’associazione tra
potenziali fattori confondenti ed esito, con la prospettiva di confrontare gruppi di
esposti e di non esposti che siano omogenei rispetto al loro rischio “a priori” di
andare incontro all’esito studiato. Anche in questo caso, i fattori selezionati potranno
essere considerati singolarmente o sintetizzati in uno score riassuntivo, essere
utilizzati per analisi stratificate (al limite, appaiate) o per procedure di aggiustamento
multivariato in cui l’associazione tra esposizione ed esito verrà stimata “al netto” delle
possibili differenze nel rischio “a priori”. Sebbene i due approcci considerati siano
simmetrici, e quindi sostanzialmente equivalenti, nel seguito di questo documento
concentreremo la nostra attenzione sul risk adjustment, a causa del suo più
frequente utilizzo negli studi di valutazione degli esiti dei trattamenti sanitari.
7
Mattoni SSN – Mattone 8 – Misura dell’Outcome
2. Risk adjustment
Gli studi osservazionali che mettono a confronto gruppi, servizi, strutture o
trattamenti devono porsi l’obiettivo di tenere conto delle possibili disomogeneità
esistenti nelle popolazioni studiate, soprattutto delle differenze relative alle
caratteristiche dei pazienti che possono rappresentare, di per sé, un determinante
degli esiti delle cure. Come accennato precedentemente, l’ambizione del ricercatore
è di studiare le differenze di efficacia tra gruppi, servizi, strutture o trattamenti, “al
netto” del possibile effetto confondente della disomogenea distribuzione (tra gruppi,
servizi, strutture o trattamenti) delle caratteristiche “a priori” dei pazienti12, le quali
possono influenzare l’esito studiato.
Oggetti del confronto possono essere:
•
tecnologie sanitarie/approcci terapeutici (diffusi nella pratica clinica in
assenza di prove di efficacia o di efficacia teorica dimostrata) per provarne
l’efficacia nella pratica clinica;
•
fattori strutturali/organizzativi che possono influenzare l’efficacia pratica di
trattamenti di efficacia teorica dimostrata (volume assistenziale, critical
pathways, etc.);
•
singole strutture assistenziali;
•
popolazioni/gruppi di popolazione (caratterizzate da area di residenza,
etnia, livello socio-economico, etc.).
Gli esiti presi in considerazione possono essere di tipo clinico, quali la mortalità
(intraospedaliera o totale, a breve o medio termine), la stabilità fisiologica acuta, la
occorrenza di patologia cronica, le complicanze (a breve o medio termine), la
sopravvivenza, etc.: oppure di altro tipo, quali la durata della degenza, la qualità della
vita, la soddisfazione per le cure ricevute, etc.
Indipendentemente dai metodi statistici utilizzati, possiamo schematizzare il risk
adjustment come un procedimento che calcola, per ciascuno dei gruppi posti a
confronto, una misura di esito attesa sulla base della relazione esistente tra le
caratteristiche prese in esame (fattori di rischio) e l’esito in studio17. E’ possibile in tal
modo passare da una relazione del tipo:
Caratteristiche del paziente + Efficacia del trattamento + Eventi casuali = Esito
8
Mattoni SSN – Mattone 8 – Misura dell’Outcome
ad una relazione del tipo:
Efficacia del trattamento + Eventi casuali = Esito aggiustato per gravità (esito atteso)
in cui l’effetto delle caratteristiche del paziente è assorbito nella misura di esito e la
rimanente variabilità è attribuibile solo a differenze di efficacia o all’effetto del caso.
In seguito, distingueremo le due componenti del risk adjustment: la costruzione
della misura utilizzata per descrivere il rischio “a priori” (semplificando, la gravità) e
l’uso di tale misura al fine di ottenere misure di esito “aggiustate” e quindi
confrontabili tra loro in maniera valida13.
2.1 La misura della gravità
La misura della gravità da utilizzare nelle procedure di risk-adjustment dovrebbe
essere, nella popolazione studiata, un buon predittore dell’esito, il suo valore non
dovrebbe essere influenzato dall’esito (e.g., una diagnosi di arresto cardiaco è
associata al decesso, ma difficilmente può essere interpretata come un fattore di
rischio “a priori”), né rappresentare un passaggio della catena causale che collega
l’esposizione all’esito (complicanza). Inoltre, essa dovrebbe avere il requisito della
parsimonia, e cioè includere un numero limitato di variabili e presentare un buon
bilanciamento tra i costi sostenuti per ottenerla e la capacità di standardizzare i
confronti. Al proposito è opportuno ricordare che la rilevazione di un maggior numero
di variabili, oltre ad essere più onerosa, è normalmente associata a maggiori
problemi di completezza e di accuratezza dei dati e tende a ridurre la precisione delle
misure aggiustate che se ne derivano12.
Possiamo classificare le misure di gravità che vengono normalmente utilizzate per
il risk adjustment in tre gruppi:
2.1.1 Scores prognostici
Normalmente additivi, sintetizzano in un punteggio (o nell’attribuzione ad una di N
classi) il rischio individuale di esiti avversi. Possono basarsi su dati “clinici” (e.g.,
informazioni contenute nella cartella clinica) o su dati “amministrativi” (e.g.,
informazioni contenute nella scheda di dimissione). Il criterio di attribuzione del
punteggio può derivare da valutazioni cliniche e/o da analisi multivariate condotte
con l’approccio empirico descritto nel seguito, in ogni caso il punteggio non è
9
Mattoni SSN – Mattone 8 – Misura dell’Outcome
direttamente interpretabile come probabilità individuale di andare incontro all’esito
considerato.
Alcuni score prognostici basati su dati ospedalieri12,18 sono riportati nella Tabella 1.
10
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Tabella 1. Score prognostici
(prevedono l’attribuzione di punteggi o classi di gravità)
Misura
Dati usati
Tipo di misura
Criterio di costruzione
Outcome misurato
Valori di 17 parametri fisiologici ed
altre informazioni cliniche
Punteggi interi da 0 a 299 misurati entro
24 ore dal ricovero (ammissione) in ICU
Modello empirico con guida
clinica
Mortalità intraospedaliera per
pazienti in ICU
Variabili cliniche condizionespecifiche registrate al momento
della prescrizione di chirurgia
cardiaca
Punteggi da 0 a 16 basati su OR per 6
fattori di rischio chiave
Modello di regressione
logistica
Mortalità intraospedaliera,
durata della degenza in ICU e
post-operatoria
Variabili cliniche condizionespecifiche
Punteggi tra 0 e 39 basati su 17 fattori
di rischio pesati
Modello di regressione
logistica
Mortalità operatoria
Punteggi da 1 a 5 entro i DRG
Modello empirico
Durata della degenza
ospedaliera entro i DRG
Dati clinici
APACHE III
Canadian
19,20,21,22
23,24
EuroSCORE
25
Dati amministrativi
AIM
26
APR-DRGs
Scheda di dimissione (*)
Scheda di dimissione. Variabili
DRG-specifiche
22,27,28
29
Body Systems Count
Scheda di dimissione
Quattro classi di severità della malattia
Quattro classi di rischio di morte
Numero di sistemi d’organo coinvolti
nella malattia
Modello empirico con guida
clinica
Giudizio clinico
Consumo di risorse
Mortalità intraospedaliera
Numero di sistemi d’organo
coinvolti nella malattia
11
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Tabella 1. Score prognostici (segue)
Charlson Severity Score
Cleveland
32
22,33,34
Disease Staging
New England
Parsonnet
35,36
37,38,39
PMCs Severity Score
40
30,31
Scheda di dimissione
Numero intero da scala additiva
rappresentante numero e gravità delle
comorbidità
Giudizio clinico con guida
empirica
Rischio di morte entro 1 anno
da un’ospedalizzazione
medica
Scheda di dimissione. Variabili
condizione-specifiche
Range di punteggi da 0 a 33 basati su
OR per ognuno dei 13 fattori di rischio
Modello empirico (analisi
univariata)
Mortalità intraospedaliera o
entro 30 giorni da
un’operazione
Scheda di dimissione. Variabili
condizione-specifiche
Rischio di morte o danno
funzionale
Tre stadi con sotto-stadi entro ciascuno
stadio
Giudizio clinico
Numero di comorbidità entro ciascuno
dei tre stadi maggiori
Numero di comorbidità entro
ciascuno dei tre stadi
maggiori
Scheda di dimissione. Variabili
condizione-specifiche e indice di
comorbidità
Sistema di punteggio basato su
coefficienti usati per calcolare la
probabilità di morte operatoria
Modello di regressione
logistica
Mortalità intraospedaliera
Scheda di dimissione. Variabili
condizione-specifiche
Punteggi tra 0 e 158 basati su 14 fattori
di rischio pesati
Modello di regressione
multipla additiva
Mortalità entro 30 giorni da
un’operazione
Scheda di dimissione
Range di punteggi da 1 a 7
Modello empirico
Mortalità e morbosità
intraospedaliera
* Il documento utilizzato può assumere nomi diversi. Nei paesi anglosassoni “discharge abstract”
AIM =Acuity Index Method; Canadian = Ontario Ministry of Health Provincial Adult Cardiac Care Network; Cleveland = Cleveland Clinic Foundation Risk
Stratification System; EuroSCORE = European System for Cardiac Operative Risk Evaluation; New England = Northern New England Cardiovascular Disease
Study Group; Parsonnet = Parsonnet Risk Stratification Model.
12
Mattoni SSN – Mattone 8 – Misura dell’Outcome
2.1.2 Modelli predittivi “preconfezionati”
Queste misure sono logicamente simili a quelle descritte nel punto precedente, ma
la loro caratteristica è di essere rappresentate da formule matematiche che, applicate
a ciascun paziente, permettono di stimare direttamente la probabilità individuale
dell’esito considerato. La selezione delle variabili (e delle interazioni tra variabili)
incluse in questi modelli, nonché le stime dei corrispondenti coefficienti derivano
dall’analisi dei dati relativi a una popolazione esterna, generalmente di grande
numerosità, condotta con l’approccio empirico descritto nel punto successivo.
Applicando i coefficienti così derivati alla popolazione in studio, si ricava la stima
dell’esito atteso a livello individuale. Anche in questo caso possono essere utilizzati
dati “clinici” o dati “amministrativi”. Alcuni esempi di modelli “preconfezionati”12,18
sono riportati nella Tabella 2.
13
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Tabella 2. Modelli “preconfezionati”
(producono una stima diretta della probabilità dell’esito)
Misura
Dati usati
Tipo di misura
Criterio di costruzione
Outcome misurato
Probabilità di morte
intraospedaliera da 0 a 1
Modello di regressione logistica
Mortalità intraospedaliera
Intervallo di rischio (intervallo di
mortalità in percentuale)
assegnato al paziente sulla base
di variabili misurate 30 giorni
dopo l’operazione
Modello di regressione logistica
Mortalità e morbosità intraospedaliera
Scheda di dimissione*. Variabili
condizione-specifiche
Probabilità di morte
intraospedaliera da 0 a 1
Modello empirico
Mortalità intraospedaliera
Scheda di dimissione. Variabili
condizione-specifiche
Probabilità di morte
intraospedaliera da 0 a 1
Modello di regressione logistica
Mortalità intraospedaliera
Scheda di dimissione. Variabili
condizione-specifiche
Intervallo di rischio (intervallo di
mortalità in percentuale)
Algoritmo Bayesiano; più
recentemente convertito in
modello di regressione logistica
Mortalità e morbosità intraospedaliera
Dati clinici
MedisGroups
VA
22,41
Variabili cliniche raccolte al
momento dell’ammissione
Variabili cliniche condizionespecifiche
42,43
Dati amministrativi
22,33,34
Disease Staging
44,45
NY
46,47,48
STS
* Il documento utilizzato può assumere nomi diversi. Nei paesi anglosassoni “discharge abstract”
NY = New York State Department of Health Cardiac Surgery Reporting System; STS = Society of Thoracic Surgeons Risk Stratification System; VA = Veteran's
Administration Cardiac Surgery Risk Assessment Program.
14
Mattoni SSN – Mattone 8 – Misura dell’Outcome
L’uso di questi modelli, come quello degli score prognostici, presuppone che la
relazione tra predittori ed esiti sia costante tra le popolazioni. Inoltre, l’uso di modelli
“preconfezionati” rende problematico lo studio della modificazione d’effetto e non
consente la selezione dei fattori che effettivamente agiscono da confondenti nel
confronto d’interesse.
2.1.3 Approccio “empirico”
Se gli score prognostici e i modelli predittivi “preconfezionati” rappresentano lo
strumento più appropriato, o, meglio, l’unico strumento disponibile, quando l’obiettivo
è caratterizzare il meglio possibile un singolo paziente rispetto al suo rischio di esiti
sfavorevoli, nell’ambito del risk adjustment finalizzato al confronto tra gruppi, servizi,
strutture o trattamenti è possibile usare un approccio di tipo empirico.
Alla base di tale approccio sta la necessità, già accennata e da sempre
riconosciuta nell’ambito degli studi osservazionali di tipo eziologico, di identificare i
fattori confondenti e controllarne l’effetto con specifico riferimento alla relazione e alla
popolazione studiata.
L’approccio empirico prevede quindi la costruzione di una misura di gravità
specifica della popolazione in studio, realizzata attraverso l’analisi della relazione
multivariata tra i possibili predittori (il cui valore è stato misurato nella popolazione in
studio) e l’esito considerato.
Lo strumento più frequentemente utilizzato per la costruzione di una misura di
gravità empirica è la regressione multivariata. La procedura può essere
schematizzata
49,50,51,52,53
secondo
le
seguenti
fasi
:
1. Selezione dell’esito in studio.
2. Scelta del modello statistico più adatto alla analisi dei dati in funzione dell’esito
in studio
Potranno essere presi in considerazione:
-
modelli di regressione lineare, nel caso, estremamente raro, in cui l’esito
considerato sia di tipo quantitativo continuo. In questi modelli l’esito è
espresso come combinazione lineare delle variabili impiegate per la
definizione della misura di gravità
15
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Yi = β 0 + X 1i β1 + X 2i β 2 + ... + X ki β k
-
modelli di regressione logistica, normalmente utilizzati quando la variabile
di esito è di tipo dicotomico (presenza vs assenza). In questi modelli, la
trasformata logaritmica dell’odds dell’esito è espressa come combinazione
lineare delle variabili impiegate per la definizione della misura di gravità.
 p 
ln(oddsi ) = ln i  = β 0 + X 1i β1 + X 2i β 2 + ... + X ki β k
 1 − pi 
-
modelli di regressione di Poisson, normalmente utilizzati quando la
variabile di esito è una conta (numero di eventi). Anche in questi modelli la
trasformata logaritmica dell’esito è espressa come combinazione lineare
delle variabili impiegate per la definizione della misura di gravità.
ln( µi ) = β 0 + X 1i β1 + X 2i β 2 + ... + X ki β k
-
modelli di sopravvivenza,normalmente utilizzati quando la variabile di esito
è il tempo di sopravvivenza. In questi modelli una trasformata dell’esito, sia
essa logaritmica, esponenziale etc., è espressa come funzione lineare
delle variabili impiegate per la definizione della misura di gravità.
h(ti ) = β 0 + X 1i β1 + X 2i β 2 + ... + X ki β k
3. Identificazione a priori, nell’ambito delle caratteristiche individuali su cui si
hanno informazioni, dei possibili fattori di rischio per l’esito in studio:
La selezione dei fattori potenzialmente associati all’esito in studio si basa, di
norma, sulla revisione delle conoscenze disponibili in letteratura. In assenza di
informazioni dirette su fattori ritenuti potenzialmente rilevanti può rivelarsi
opportuno prendere in considerazioni variabili surrogate (proxi).
4. Analisi descrittiva e primo screening dei fattori di rischio:
Descrizione dell’occorrenza dei fattori di rischio selezionati nella popolazione in
studio con eventuale eliminazione dei fattori presenti in una frazione molto piccola
dei soggetti (i.e. inferiore al 1%).
5. Selezione dei fattori di rischio “a priori”:
16
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Scelta, normalmente in base alle informazioni disponibili in letteratura, dei fattori
che si vuole includere nel modello indipendentemente dalla loro associazione con
l’esito e che quindi non devono essere sottoposti a verifica statistica.
6. Secondo screening dei fattori di rischio:
Costruzione di un modello statistico di previsione dell’esito considerato che
contenga:
•
i fattori di cui al punto 5;
•
i rimanenti fattori “sopravvissuti” al primo screening;
•
le interazioni tra fattori ritenute potenzialmente di interesse;
e successiva selezione, nell’ambito delle ultime due classi, in base alla
significatività delle associazioni multivariate con l’esito. La selezione viene fatta
attraverso procedure automatiche di tipo stepwise54,55.
Poiché l’associazione grezza tra ciascun fattore e l’outcome potrebbe essere
distorta dagli effetti confondenti di altri fattori, le stime aggiustate mirano ad
ottenere stime il più possibile non distorte della “reale” associazione tra ciascun
fattore e l’outcome. Si noti attentamente che solo le interazioni definite “a priori”
rilevanti per lo specifico studio potrebbero essere prese in considerazione. Limiti
impliciti di validità e di potenza precludono qualsiasi “screening” di tutte le
interazioni candidate.
7. Stima dei coefficienti del modello
Questo passo, eseguito attraverso metodi numerici iterativi implementati
all’interno dei più diffusi programmi di analisi statistica (SAS, Stata, SPSS, etc.),
consente di calcolare una stringa di coefficienti (b0, b1,…,bk) che rappresentano la
migliore approssimazione, in base alle osservazioni disponibili, dei coefficienti (β0,
β1,…, βk) che definiscono il modello probabilistico utilizzato.
8. Valutazione della performance del modello prescelto:
La capacità predittiva della misura di gravità costruita può essere quantificata,
anche
al
statistiche
•
fine
di
confronti
esterni,
attraverso
l’uso
di
diverse
55,56,57,58,59,60
.
Coefficiente di determinazione R2
17
Mattoni SSN – Mattone 8 – Misura dell’Outcome
La capacità del modello di spiegare i dati in esame viene calcolata
attraverso la statistica R2. Questa statistica viene definita come
proporzione della varianza spiegata dal modello rispetto alla varianza
totale e varia tra 0 e 1. Più alti sono i valori migliore è il grado di
adattamento ai dati.
•
R2 aggiustato
L’interpretazione di questa statistica è analoga alla precedente ma nel
suo calcolo si considera anche il numero dei fattori inclusi nel modello.
•
Chi-quadro di Pearson
Questa statistica viene calcolata dividendo la popolazione in studio
rispetto ai pattern di fattori esistenti (valori assunti da ciascun fattore
per ciascun soggetto) e calcolando per ciascun pattern il numero di
eventi attesi e osservati. Questi ultimi vengono confrontati utilizzando
un test chi-quadro per determinare se la differenza tra eventi attesi e
osservati sia statisticamente non significativa. Nel caso in cui siano
presenti fattori continui è preferibile utilizzare il test di HosmerLemeshow.
•
Test di Hosmer-Lemeshow
La capacità di predire un numero di eventi attesi corrispondenti a quelli
osservati (calibratura) viene valutata attraverso il test di HosmerLemeshow. Questa statistica viene calcolata dividendo la popolazione
in studio in percentili (di solito decili) e calcolando per ciascun
percentile il numero di eventi attesi e osservati. Questi ultimi vengono
confrontati utilizzando un test chi-quadro per determinare se la
differenza tra eventi attesi e osservati è statisticamente non
significativa.
•
C-index (area al di sotto della curva ROC)
La capacità di distinguere i soggetti che sperimentano l’esito in esame
dagli altri (capacità di discriminazione) viene valutata attraverso l’indice
C, anche chiamato statistica c o area sottostante la curva Receiver
Operating Characteristic (ROC). Questo indice varia tra 0 e 1 e i valori
più alti indicano una migliore capacità di discriminazione.
18
Mattoni SSN – Mattone 8 – Misura dell’Outcome
•
AIC (Akaike Information Criterion)
L’AIC misura il grado di adattamento del modello ai dati in esame
considerando il numero dei fattori inclusi nel modello. Maggiore è il
numero dei fattori più penalizzato sarà l’AIC. Valori bassi dell’AIC
indicano un buon adattamento del modello.
Queste statistiche rappresentano solo una parte dei metodi esistenti per la
selezione del modello migliore e possono essere applicate solo se la
modellizzazione impiegata ne prevede l’utilizzo. Riportiamo di seguito una tabella
riassuntiva dei modelli di regressione per i quali è possibile impiegare tali
statistiche:
Misura di adattamento
2
R
2
R aggiustato
Chi-quadro di Pearson
Hosmer-Lemeshow
ROC
AIC
Modello di regressione
Analisi
Lineare Logistico
Poisson
sopravv
x
x
x
x
x
x
x
x
x
x
x
E’ infine opportuno rilevare che è possibile (e abbastanza diffuso) costruire misure
empiriche di rischio che includano, al posto dei singoli fattori o in aggiunta ad alcuni
di essi, il valore di uno score prognostico (p.e., indice Charlson o classe di rischio
APR-DRG). Questa scelta, che può presentare dei vantaggi da un punto di vista
pratico, ha però il difetto di non utilizzare al meglio né il contenuto informativo delle
variabili rilevate né l’evidenza empirica sulla relazione tra esse e l’esito considerato.
L’Esempio 1 illustra la costruzione di una misura di gravità usando un approccio
empirico.
19
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Esempio 1. Costruzione di una misura di gravità con un approccio empirico
Descrizione dello studio
Studio di coorte storica finalizzato a confrontare l’efficacia, valutata in termini di
mortalità a 30 giorni, degli interventi di colecistectomia laparoscopica con quella degli
interventi di colecistectomia laparotomica nelle chirurgie dell’ Emilia Romagna.
Popolazione in studio
Tutti i pazienti, residenti in Emilia Romagna, sottoposti ad un intervento di
colecistectomia tra il gennaio 1998 e l’ottobre 2002 ed aventi un’età superiore a 17
anni.
Confronto grezzo
Nel gruppo trattato con colecistectomia laparotomica (N=8776) si sono verificati 97
decessi (mortalità = 11/1000) mentre nell’altro gruppo (N=20561) i morti sono stati 19
(mortalità=1/1000). Se utilizziamo l’odds ratio come misura dell’associazione
otteniamo un valore di 0.08 e quindi un forte effetto protettivo sulla mortalità postoperatoria della tecnica laparoscopica. Data la natura osservazionale dello studio, si
è ritenuto necessario tenere conto del rischio individuale pre-operatorio dei pazienti.
Costruzione della misura di gravità con approccio empirico
Ripercorrendo i passi descritti nell’approccio empirico per la costruzione di una
misura di gravità avremo:
1. Selezione dell’esito in studio.
L’esito in studio è la mortalità a 30 giorni dopo intervento di colecistectomia
2. Scelta del modello statistico più adatto alla analisi dei dati in funzione dell’esito
in studio:
Il modello statistico più adatto alla analisi di un esito dicotomico (deceduto,
vivo) è quello di regressione logistica
20
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Esempio 1. Costruzione di una misura di gravità con un approccio empirico
(continua)
3. Identificazione a priori, nell’ambito delle caratteristiche individuali su cui si
hanno informazioni, dei possibili fattori di rischio per l’esito in studio.
Per la definizione del rischio pre-operatorio sono state raccolte le seguenti
informazioni: genere, età (<70 aa, 70-79 aa,>79 aa) , residenza, presenza di
comorbidita' cronica (diabete in trattamento, cirrosi, insufficienza renale,
disfunzione neurologica, ipertensione polmonare, aritmia ventricolare maligna,
malattie cardiache complesse, BPCO, altre malattie croniche, disturbi del
metabolismo lipidico, disturbi della coagulazione e policitemia, tumore
maligno), gravità della colelitiasi (da 1 “lieve” a 4 “molto grave”). E’ stato inoltre
valutato il contributo aggiuntivo del termine misto genere-età (interazione) alla
capacità predittiva del modello considerato.
4. Analisi descrittiva e primo screening dei fattori di rischio
L’analisi delle distribuzioni semplici dei possibili fattori di rischio portano ad
escludere i disturbi del metabolismo lipidico, i disturbi della coagulazione e
policitemia, a causa della loro scarsa frequenza nella popolazione in studio,
rispettivamente 0.8% e 0.03%.
5. Selezione dei fattori di rischio a priori
Il genere e l’età sono i due fattori di rischio a priori inclusi nel modello
indipendentemente dalla loro associazione con l’esito
6. Secondo screening dei fattori di rischio
Nel modello logistico multivariato vengono inclusi i fattori genere ed età come
fattori a priori. La selezione degli altri fattori di rischio e dell’interazione tra
genere ed età (unica interazione presa in esame) è stata effettuata in base
alla significatività statistica della loro associazione multivariata con l’esito,
attraverso l’uso di una procedura stepwise.
21
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Esempio 1. Costruzione di una misura di gravità con un approccio empirico
(continua)
7. Stima dei coefficienti del modello
Le stime dei coefficienti del modello sono state ottenute attraverso
l’applicazione del metodo di massima verosimiglianza. I valori ottenuti, i
corrispondenti odds ratio e la significatività del loro contributo alla capacità
predittiva sono riportati nella tabella seguente:
Fattori di rischio
Coefficienti
OR
p
Età*
70-79 aa
>79 aa
Genere*
Femmina
Patologie concomitanti*
M. cardiache complesse
Altre Malattie croniche
BPCO
Malattie vascolari croniche
Gravità colelitiasi*
poco grave
Grave
molto grave
Costante
1.44 4.24 0.0001
2.86 17.42 0.0001
-0.23
0.93
0.79
0.50
0.61
0.32
0.78
1.83
-7.00
0.80 0.2370
2.54
2.20
1.65
1.84
0.0170
0.0210
0.0500
0.1380
1.38 0.3090
2.19 0.0050
6.21 0.0001
* i riferimenti per i diversi fattori di rischio sono: età: <70, genere: maschio; patologia
concomitante: assente; gravità della colelitiasi: lieve.
Dai risultati ottenuti si può notare come il genere, inserito nel modello come
variabile a priori e quindi non sottoposto ad alcuna verifica statistica, non sia, nella
popolazione in esame, un fattore di rischio per la mortalità a 30 gg. Inoltre, l’esempio
permette di evidenziare come, nel caso di variabili categoriche con più di due
modalità, queste debbano essere inserite nel modello anche se alcune modalità non
risultano significativamente associate all’esito in studio: è il caso della gravità della
colelitiasi in cui la categoria “poco grave” non sembra essere associata ad una
maggiore mortalità a 30 gg. rispetto alla categoria “lieve”.
22
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Esempio 1. Costruzione di una misura di gravità con un approccio empirico
(continua)
8. Misure della performance del modello prescelto:
La capacità predittiva del modello è stata valutata utilizzando: il test di HosmerLemeshow, l’area sottostante la curva ROC e la statistica AIC. I risultati ottenuti sono
riportati nella tabella seguente:
PARAMETRI
ROC
Hosmer-Lemeshow
0.87
statistica
p
AIC
5.43
0.61
1279
I risultati ottenuti portano a considerare il modello empirico selezionato per la
costruzione della misura di gravità come un modello con una buona capacità
predittiva. Infatti, l’area sottostante la curva ROC è pari a 0.86, il test di H-L risulta
essere non significativo e il valore della statistica AIC può essere considerato
sufficientemente basso.
23
Mattoni SSN – Mattone 8 – Misura dell’Outcome
2.2 Uso della misura di gravità per il risk adjustment
Una volta costruita la misura di gravità, il confronto degli esiti nei gruppi presi in
esame, siano essi strutture, popolazioni o trattamenti, può essere effettuato
attraverso tre metodi diversi60,61,62:
•
Analisi stratificata;
•
Standardizzazione indiretta;
•
Standardizzazione diretta.
2.2.1 Analisi stratificata
Se i fattori selezionati e utilizzati per ottenere la misura di gravità sono in numero
limitato e tutti rappresentati da variabili categoriche, o se si sceglie di utilizzare
direttamente uno score prognostico (che ha, per definizione, un numero limitato di
modalità), i pazienti possono essere suddivisi in strati rispetto alle loro caratteristiche
(classe di età, genere, valore dello score, etc.). Questa suddivisione consente di
includere in ogni strato pazienti tra loro omogenei per livello di gravità. E’ quindi
possibile misurare l’associazione di interesse (quella tra gruppo di appartenenza ed
esito) in ciascuno degli strati considerati e calcolare poi la media pesata delle misure
di associazione strato-specifiche (per esempio attraverso lo stimatore di MantelHaentzel). Tale media rappresenterà una stima “risk adjusted” dell’associazione
considerata.
E’ opportuno anticipare qui un concetto che sarà sviluppato con più dettaglio nel
seguito: la media pesata delle misure di associazione strato-specifiche ha un
significato solo se tali misure sono “ragionevolmente” omogenee tra loro. Se invece
l’effetto del gruppo di appartenenza sull’esito varia significativamente da uno strato
all’altro (se, per esempio, la struttura X produce esiti migliori delle altre quando
assiste pazienti poco gravi ed esiti peggiori quando assiste pazienti molto gravi) non
c’è nessun buon motivo per calcolare una media pesata degli effetti (che porterebbe
a dire, nel caso in questione, che la struttura X ottiene, sul paziente “medio”, esiti
uguali alle altre strutture considerate). Saremmo, nel caso sopra tratteggiato, in
presenza di un fenomeno di “modificazione di effetto” - diverso effetto della struttura
di cura a diversi livelli di gravità - che andrebbe opportunamente evidenziato
24
Mattoni SSN – Mattone 8 – Misura dell’Outcome
mantenendo separati, nell’analisi, gli strati del modificatore, piuttosto che “nascosto”
attraverso la produzione di un’unica misura di associazione (anche se “aggiustata”)
2.2.2 Standardizzazione indiretta
Questo metodo è utilizzabile qualora si usi:
•
un modello pre-confezionato che fornisca, per ogni paziente, una stima
diretta della probabilità dell’esito considerato
•
un modello empirico che includa, nella misura di gravità, numerosi fattori (o
fattori misurati su scala quantitativa).
La standardizzazione indiretta prevede, in ciascuno dei gruppi messi a confronto, il
calcolo dell’esito atteso e il suo successivo confronto con l’esito osservato.
L’esito atteso in un gruppo rappresenta l’esito che ci si aspetterebbe in quel
gruppo sulla base della distribuzione, nel gruppo stesso, dei fattori inclusi nella
misura di gravità utilizzata. In altre parole, l’esito che si verificherebbe nel caso in cui
i pazienti che fanno parte del gruppo sperimentassero una relazione tra fattori di
rischio ed esito simile a quella della popolazione da cui derivano le stime dei
coefficienti utilizzati nella costruzione della misura di gravità, siano esse empiriche o
pre-confezionate.
Calcolo dell‘ esito atteso
Le tecniche di calcolo sono diverse in funzione dell’esito in studio e, quindi, del
modello utilizzato per costruire la misura di gravità utilizzata:
1. Modello logistico
Una volta applicato il modello logistico selezionato, che ricordiamo può essere
derivato da una popolazione esterna (i coefficienti dei fattori di rischio sono
predefiniti) o dalla popolazione in studio (modello empirico), la probabilità che l’esito
si verifichi per l’ i-mo paziente viene calcolata come:
pi =
exp(b0 + X 1i b1 + X 2i b2 + ... + X ki bk )
1 + exp(b0 + X 1i b1 + X 2i b2 + ... + X ki bk )
Il numero di eventi attesi in un gruppo sarà ottenuto come la somma delle probabilità
pi sul complesso dei soggetti afferenti a quel gruppo.
2. Modello di Poisson
25
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Una volta applicato il modello di Poisson selezionato, che ricordiamo può essere
derivato da una popolazione esterna (i coefficienti dei fattori di rischio sono
predefiniti) o dalla popolazione in studio (modello empirico), il numero µi di eventi
attesi per quella determinata combinazione di caratteristiche selezionate viene
calcolato come
µi = exp (b0 + X 1i b1 + X 2i b2 + ... + X ki bk )
Il numero di eventi attesi in un gruppo sarà ottenuto come somma degli eventi
attesi relativi alle diverse combinazioni dei predittori presenti nel gruppo stesso.
3. Analisi della sopravvivenza
Una volta selezionata la funzione h che descrive l’andamento del tempo di
sopravvivenza e applicato il modello corrispondente, che ricordiamo può essere
derivato da una popolazione esterna (i coefficienti dei fattori di rischio sono
predefiniti) o dalla popolazione in studio (modello empirico), il tempo di
sopravvivenza atteso per quella determinata combinazione di caratteristiche
selezionate viene calcolato come
ti = h −1 (b0 + X 1i b1 + X 2i b2 + ... + X ki bk )
Il tempo atteso in un gruppo sarà ottenuto come la somma dei tempi attesi per i
soggetti afferenti a quel gruppo.
E’ da rilevare che il tempo atteso non è calcolabile nel caso di un modello in cui la
funzione di sopravvivenza non sia definita in forma parametrica (e. g. modello di
Cox).
Confronto esito osservato/esito atteso
Una volta derivato, per ciascuno dei gruppi posti a confronto, l’esito atteso in base
alla misura di gravità utilizzata, è possibile calcolare, in ogni gruppo, il rapporto
standardizzato (RS) dato da:
RS = esito osservato/esito atteso
Il rapporto standardizzato ci dice quante volte l’esito nel gruppo considerato è più
frequente (o meno frequente) di quanto lo sarebbe sulla base:
26
Mattoni SSN – Mattone 8 – Misura dell’Outcome
•
della distribuzione, nel gruppo stesso, della misura di gravità utilizzata;
•
della relazione tra tale misura e l’esito nella popolazione “di riferimento”.
In questo senso, valori di RS >1 (<1) indicano una maggiore (minore) frequenza
dell’esito considerato nel gruppo in studio che nel riferimento “al netto” delle possibili
differenze nella distribuzione della misura di gravità. Se si utilizza l’approccio
empirico, è possibile escludere anche il confondimento da parte dei fattori presi in
considerazione ma non inclusi nella misura di gravità. Infatti tali fattori, non essendo
associati all’esito nella popolazione in studio, non soddisfano la prima delle
condizioni necessarie per la presenza di confondimento.
La standardizzazione indiretta permette dunque un confronto “risk adjusted” tra gli
esiti osservati in un gruppo e quelli osservati nella popolazione di riferimento. Nel
caso in cui si abbiano più gruppi, ad esempio diverse strutture ospedaliere, ciascuno
di essi può essere confrontato con un riferimento rappresentato da una popolazione
esterna (nel caso di modelli pre-confezionati) o, nel caso di misure costruite
empiricamente, dal complesso dei gruppi in esame oppure da un loro particolare
sottoinsieme (benchmark).
In quest’ultimo caso, i gruppi inclusi nel benchmark
devono avere una numerosità sufficiente ad assicurare che le stime dei coefficienti
del modello, e conseguentemente quelle degli esiti attesi, abbiano una precisione
accettabile. Poiché il confronto viene effettuato tra ciascun gruppo ed il riferimento,
non è corretto utilizzare i valori del rapporto standardizzato per confrontare i gruppi
tra loro. Questo è possibile solo sotto l’ipotesi, da verificare caso per caso, che le
caratteristiche
utilizzate
per
l’aggiustamento
dell’esito
in
studio
siano
omogeneamente distribuite nei gruppi posti a confronto.
Nell’Esempio 2 il risk adjustment è ottenuto usando il metodo della
standardizzazione indiretta.
27
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Esempio 2. Standardizzazione indiretta
Nel caso dello studio sull’efficacia della colecistectomia laparoscopica e
laparotomica, è possibile utilizzare la misura di gravità precedentemente costruita
per confrontare la performance dei due trattamenti considerati con la performance
media. In ogni gruppo, il numero di decessi attesi viene calcolato sulla base del
modello
di
regressione
logistica
precedentemente
selezionato,
ricavato
dall’esperienza dell’intera popolazione in studio e rappresenta il numero di decessi
che ci si aspetterebbe di osservare in quel gruppo nel caso in cui i pazienti
sperimentassero un comportamento simile a quello medio dell’ intera popolazione.
Riportiamo di seguito i risultati ottenuti per i due trattamenti.
Trattamenti
Colecistectomia
laparotomica
Colecistectomia
laparoscopica
Decessi
attesi
Decessi
osservati
RS
61
97
1.59
55
19
0.35
L’intervento di colecistectomia laparotomica comporta un rischio di morte a 30 gg
più elevato di circa il 60% rispetto alla media nella popolazione (laparoscopiche più
laparotomiche). Ovviamente, avendo considerato solo due gruppi, si osserva un
corrispondente effetto protettivo per l’intervento di colecistectomia laparoscopica. I
risultati ottenuti devono essere considerati, per costruzione, “al netto” del possibile
effetto confondente dei fattori considerati (anche se non necessariamente inclusi)
nella misura di gravità. cioè “risk-adjusted”. Non è ovviamente possibile, invece,
escludere che i risultati risentano dell’effetto confondente da parte di fattori non
sottoposti a rilevazione.
2.2.3 Standardizzazione diretta
Il confronto diretto tra i gruppi è possibile applicando il metodo della
standardizzazione diretta.
Dal punto di vista teorico, questo metodo mette a confronto tra loro gli esiti che si
osserverebbero nella popolazione di riferimento (con una costante e ben definita
28
Mattoni SSN – Mattone 8 – Misura dell’Outcome
distribuzione della misura di gravità) qualora essa sperimentasse, di volta in volta, la
relazione tra fattori di rischio ed esito presente nei diversi gruppi in studio.
Dal punto di vista operativo questo metodo non prevede, tranne che nei casi più
semplici, un calcolo esplicito dei diversi esiti attesi e l’uso di tali valori per il confronto
tra i gruppi (come nel caso della standardizzazione indiretta), ma il calcolo e il
confronto vengono effettuati simultaneamente.
La standardizzazione diretta prevede infatti l’applicazione di modelli statistici
multivariati (da scegliere, come sempre, in relazione al tipo di esito considerato) in
cui, oltre alle variabili selezionate come componenti della misura di gravità, saranno
presenti n-1 variabili dummy che rappresenteranno gli n gruppi messi a confronto
(una variabile dummy è una variabile che assume il valore 1 per i soggetti
appartenenti al gruppo considerato e il valore 0 per tutti gli altri soggetti). Nell’ambito
di questa rappresentazione sarà necessario definire, da parte del ricercatore, un
gruppo di riferimento, così che le stime dei coefficienti relativi alle variabili che
rappresentano gli altri gruppi saranno interpretabili come misure di associazione
(Odds Ratio, Rate Ratio oppure Hazard Ratio, in funzione dell’esito e del disegno
dello studio) “risk adjusted” tra l’esposizione “appartenenza al gruppo X piuttosto che
al gruppo di riferimento” e l’esito in studio. In questo caso, tuttavia, a differenza di
quanto detto per la standardizzazione indiretta, sarà possibile derivare dai coefficienti
del modello esplicativo misure di associazione aggiustate relative al confronto fra due
qualunque degli n gruppi considerati.
Score prognostici additivi o categorici
Se la gravità è misurata con uno score prognostico, questo dovrà essere incluso,
al posto o in aggiunta agli altri potenziali confondenti, nel modello esplicativo
contenente la variabile di esito e le variabili dummy che rappresentano i gruppi. Date
le caratteristiche di questi score, essi devono essere considerati come variabili
categoriche e come tali trattati nell’analisi.
Modelli preconfezionati
In questo caso l’applicazione ad ogni soggetto in studio dei coefficienti stimati
nella popolazione esterna in cui è stato costruito il modello permetteranno il calcolo
della probabilità individuale dell’esito considerato sulla base dei fattori di rischio
inclusi nella misura di gravità utilizzata.
29
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Questa probabilità individuale verrà poi inclusa come variabile indipendente di tipo
quantitativo, insieme alle variabili dummy che rappresentano i gruppi, nel modello
esplicativo utilizzato per il confronto risk-adjusted nella popolazione in studio.
Un esempio di risk adjustment con il metodo della standardizzazione diretta è di
seguito riportato (Esempio 3).
Esempio 3. Standardizzazione diretta
A partire dall’esempio precedente è possibile confrontare i due trattamenti
includendo nel modello precedentemente selezionato una variabile dummy
rappresentante il tipo di intervento e stimando l’ OR ad essa associato. Riportiamo di
seguito i risultati ottenuti.
Trattamento
Laparoscopica
vs
Laparotomica
OR*
0.18
*OR aggiustato per: genere, età, malattie cardiache complesse, altre malattie croniche, BPCO,
malattie vascolari croniche e gravità della colelitiasi
Il rischio di mortalità dopo un intervento laparoscopico è circa un quinto di quello
dopo un intervento laparotomico. L’effetto stimato dopo le procedure di
aggiustamento rimane molto forte, anche se inferiore al valore grezzo di 0.08.
Change-in-estimate
Le procedure descritte in precedenza prevedono, per l’aggiustamento, l’utilizzo di
tutti i fattori che mostrano, nella popolazione studiata, una buona capacità predittiva
dell’esito in studio. In un approccio “propensity adjustment” si tratterebbe di tutti i
fattori associati all’esposizione di interesse. In realtà, alcuni di questi fattori, pur
essendo
dei
buoni
predittori
dell’esito
(o
dell’allocazione
all’esposizione
nell’approccio “propensity”), potrebbero non essere dei confondenti dell’associazione
in studio, perché non associati con l’esposizione (o con l’esito). Abbiamo del resto
già sottolineato le ragioni che consigliano un approccio “parsimonioso” alla scelta
delle variabili da includere nei modelli di risk adjustment, soprattutto in rapporto alla
possibile perdita di precisione delle stime ottenute.
30
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Uno dei metodi che viene normalmente utilizzato per identificare i reali confondenti
è il “change-in-estimate” 1,51,63.
In tale metodo si parte da un modello “poco parsimonioso” che include, oltre
all’esposizione e all’esito, tutti i potenziali confondenti selezionati con le procedure
descritte nel capitolo precedente. Successivamente si escludono dal modello tutti
quei fattori la cui presenza non modifica, o modifica di poco, la stima del coefficiente
di interesse (quello relativo all’associazione tra esposizione ed esito). La variazione
della stima normalmente considerata apprezzabile, e quindi tale da consigliare la non
esclusione del confondente, può variare, in relazione al fenomeno studiato, dal 10%
al 20%, ma la scelta rimane comunque arbitraria.
L’Esempio 4 illustra un’applicazione del metodo change-in-estimate.
Esempio 4. Change-in-estimate
A partire dall’esempio precedente è possibile identificare i reali confondenti della
stima di efficacia dei trattamenti.
Change-in-estimate
Fattori
Tutti i fattori
OR Var %
0.18
Stime successive all'eliminazione del fattore riportato
Genere
Altre malattie croniche
Malattie cardiache complesse
BPCO
Malattie vascolari croniche
Gravità della colelitiasi
Età
0.18
0.18
0.18
0.18
0.18
0.14
0.08
0.0
0.0
0.0
0.0
0.0
-22.2
-55.6
Il rischio stimato aggiustato per tutti i potenziali confondenti è pari a 0.18. Tale
stima non sembra variare se vengono eliminati dal modello i fattori: genere, altre
malattie croniche e malattie cardiache complesse. Soltanto l’età e la gravità sono
confondenti della associazione in studio, dato che la stima aggiustata per tutti i fattori
si riduce del 22% eliminando la gravità, e del 56% eliminando l’età.
31
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Questo metodo, pur migliorando la precisione e la parsimonia delle stime ottenute,
viene applicato al confronto tra un gruppo ed il riferimento. Come discusso nel
successivo paragrafo dedicato ai confronti multipli, nel caso in cui si debbano
confrontare tra loro più gruppi, il metodo può essere applicato solo ad ognuno dei
confronti semplici e porterà, in generale, ad identificare diversi confondenti per i
diversi confronti, con la conseguenza di rendere impossibile un confronto valido tra
tutti i gruppi.
2.3 Identificazione e trattamento della modificazione di effetto
Abbiamo già accennato al fenomeno della modificazione di effetto. Questo termine
viene utilizzato, in epidemiologia, per descrivere una situazione in cui uno o più fattori
modificano la relazione tra l’esposizione e l’esito in studio.
E’ importante distinguere la modificazione di effetto dal confondimento, che
abbiamo definito come l’esistenza di un fattore associato all’esposizione e all’esito in
esame e responsabile, interamente o in parte, dell’associazione (o della mancanza di
associazione) osservata tra l’esposizione e l’esito. La modificazione di effetto implica,
invece, un diverso effetto dell’esposizione sull’esito in funzione dei valori assunti da
un terzo fattore chiamato appunto “modificatore d’effetto”. Nel caso più semplice di
un modificatore di effetto dicotomico, l’effetto dell’esposizione sull’esito sarà diverso
in assenza, o in presenza, di questo fattore.
Abbiamo anche detto che, in presenza di un modificatore di effetto, non ha senso
interrogarsi sull’eventuale ruolo dello stesso fattore come confondente, e tanto meno
proporsi di calcolare una misura di associazione “aggiustata” che sarebbe una poco
informativa media di misure diverse tra loro.
Alcuni autori usano più appropriatamente il termine “modificazione della misura di
effetto”. Infatti la valutazione della modificazione di effetto dipende dalla misura di
associazione utilizzata e, ancora più a monte, dal modello di riferimento per l’effetto
combinato di due fattori. Se infatti misuriamo l’associazione in termini di rapporto tra
tassi, rischi, odds, la modificazione di effetto verrà valutata come scostamento da un
modello di combinazione moltiplicativa degli effetti (se per un fattore stimiamo RR=2
e per un altro RR=5, considereremo modificazione di effetto un RR diverso da
2x5=10 in presenza di entrambi i fattori). Se invece facciamo riferimento a misure
come la differenza tra tassi, identificheremo come modificazione di effetto lo
scostamento da un modello di combinazione additiva degli effetti (se per un fattore
32
Mattoni SSN – Mattone 8 – Misura dell’Outcome
stimiamo RD=2 per 1000 anni persona e per un altro RD=5 per 1000 anni persona,
considereremo modificazione di effetto una RD diversa da 5+2=7 in presenza di
entrambi i fattori).
Nell’ambito della valutazione comparativa degli esiti è importante definire a priori,
sulla base delle evidenze disponibili o di specifiche ipotesi di ricerca, quali sono i
fattori di cui si è interessati a indagare il ruolo come possibili modificatori di effetto.
Nell’analisi stratificata la modificazione di effetto si evidenzia in termini di
eterogeneità, tra gli strati, delle misure di associazione; nei modelli statistici
multivariati essa può essere rappresentata mediante l’aggiunta dei termini di
interazione tra esposizione e fattore in studio e valutata attraverso il contributo di tali
termini alla capacità predittiva del modello. In entrambi i casi, l’ipotesi che sia
presente un fenomeno di modificazione di effetto deve essere testata formalmente
attraverso l’uso di appropriati test statistici. In tali test il livello di sensibilità scelto (e
cioè il valore di p ritenuto sufficiente per rigettare l’ipotesi nulla di assenza di
modificazione) dipende dal giudizio soggettivo sulla “importanza” del fenomeno di
modificazione di effetto che si vuole studiare ed è condizionato dalla dimensione
della popolazione studiata.
Una volta che tra i fattori sottoposti a valutazione sia stato individuato un
significativo modificatore di effetto, le procedure di risk adjustment prevedono la
suddivisione della popolazione in studio in tanti gruppi quanti sono i livelli del fattore
considerato e il ricalcolo della misura di gravità in ciascuno dei gruppi. In altri termini,
è come se venissero condotti tanti studi quanti sono i gruppi considerati ai quali si
applicheranno le stesse procedure per la costruzione della misura di gravità e per il
confronto degli esiti tra i livelli di esposizione.
L’Esempio 5 illustra la verifica e il trattamento della modificazione di effetto
nell’ambito del risk adjustment.
33
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Esempio 5. Trattamento della modificazione d’effetto con approccio empirico
Nello studio sul confronto dell’efficacia tra gli interventi di colecistectomia
laparoscopica e gli interventi di colecistectomia laparotomica l’età è stata considerata
come un possibile modificatore dell’effetto del trattamento sulla mortalità a 30 gg. Da
questa ipotesi di diversa efficacia del trattamento deriva la pratica clinica in alcuni
paesi (Inghilterra, etc.), che non prevedono l’intervento laparoscopico per pazienti di
età superiore ai 70 anni.
La procedura seguita prevede:
•
la verifica della presenza di modificazione di effetto con l’introduzione di un
termine di interazione tra le classi di età e la variabile di esposizione nel
modello di risk adjustment selezionato nell’esempio 1 e il relativo test di
significatività statistica
•
in caso di risultato positivo, la suddivisione della popolazione in studio in classi
di età (<70 aa, 70-79 aa, >79 aa) e l’analisi separata dei tre sottogruppi
ripercorrendo le fasi descritte in precedenza.
Verifica della presenza di modificazione di effetto
Nel modello di risk adjustment selezionato, viene inserita la variabile di
esposizione (int. Laparoscopico vs int. Laparotomico) e la sua interazione con la
variabile classi di età. Le stime degli OR associate a tali variabili sono riportate nella
tabella seguente (sono state omesse le stime degli OR per le altre variabili
selezionate):
Fattori di rischio
Laparos vs Laparot
OR
p
0.08
0.001
3.88
0.043
2.44
0.202
Interazione età x exp
70-79 aa
>79 aa
Nei modelli che includono termini di interazione l’interpretazione del OR stimato per
l’esposizione è diversa: rappresenta il minor rischio di mortalità per un intervento di
laparoscopia rispetto ad un intervento di laparotomia nei più giovani (classe di
34
Mattoni SSN – Mattone 8 – Misura dell’Outcome
riferimento). Gli OR associati ai due termini di interazione indicano la variazione della
stima nelle altre due classi di età rispetto al suo valore tra i più giovani.
Esempio 5. Trattamento della modificazione d’effetto con approccio empirico
(continua)
Ad esempio, l’OR di mortalità nella classe di età intermedia sarà ottenuto come
prodotto tra 0.08 e 3.88, pari a 0.31, mentre quello nella classe di età più avanzata
vale 0.20. Applicando un adeguato test statistico (quello del rapporto di
verosimiglianza) al confronto tra la capacità predittiva del modello comprendente il
termine di interazione e quella del modello senza interazione si ottiene un valore di
p=0.09, che è stato giudicato sufficientemente basso per confermare l’interesse a
considerare l’età come modificatore dell’effetto dell’esposizione sull’esito in studio.
Costruzione delle misure di gravità strato-specifiche
La conferma dell’età come modificatore di effetto implica la suddivisione della
nostra popolazione iniziale in tre gruppi distinti per classi di età. Le misure di gravità
vengono calcolate per ciascun gruppo attraverso l’uso di modelli logistici multivariati
distinti i cui fattori di rischio sono riportati nella tabella seguente:
Fattori di rischio
Genere*
Femmina
Patologie Concomitanti*
Tumori
Altre M. cardiache
M. cardiache ischemiche
Aritmia
M. renali
M. card. complesse
Altre M. croniche
BPCO
M. vascolari croniche
Gravità colelitiasi*
poco grave
Grave
molto grave
< 70 aa
70-79 aa
>79 aa
OR
P
OR
p
OR
p
1.78
0.215
0.81
0.537
0.67
0.142
5.36
0.003
5.20
0.008
2.01
0.196
7.09
3.97
13.38
4.74
0.003
0.112
0.002
0.006
4.03
0.115
1.42
2.33
18.01
0.585
0.165
0.001
2.49
2.08
0.092
0.075
1.60
0.164
1.12
2.77
6.77
0.848
0.036
0.001
1.35
1.61
3.57
0.517
0.234
0.004
35
Mattoni SSN – Mattone 8 – Misura dell’Outcome
* i riferimenti per i diversi fattori di rischio sono: età: <70, genere: maschio; patologia
concomitante: assente; gravità della colelitiasi: lieve.
Esempio 5. Trattamento della modificazione d’effetto con approccio empirico
(continua)
La selezione dei potenziali confondenti (fattori predittori dell’esito ma non
necessariamente associati all’esposizione) ha portato a risultati diversi nei diversi
gruppi. Come si può notare, il solo fattore “gravità della colelitiasi” sembra essere un
buon predittore in tutti e tre i modelli, mentre gli altri fattori sembrano essere dei
buoni predittori dell’esito in funzione dei gruppi considerati. Il genere è un fattore
incluso nei modelli sulla base di ipotesi a priori e quindi non sottoposto ad alcuna
verifica statistica ma non sembra essere un buon predittore dell’esito.
Il confronto tra i due trattamenti, nelle tre classi di età, è stato effettuato mediante
una procedura di standardizzazione diretta e indiretta.
Standardizzazione diretta
Trattamento
Laparoscopica
vs
Laparotomica
<70 aa
70-79 aa
>79 aa
OR
.10
.32
.18
Change-in-estimate
Età < 70 aa
Fattori
Tutti i fattori
OR
0.10
Var %
Stime successive all'eliminazione del fattore riportato
Aritmia
Malattie vascolari croniche
Altre malattie croniche
Genere
Tumori
Malattie cardiache
Gravità colelitiasi
0.10
0.10
0.10
0.10
0.09
0.09
0.08
0
0
0
0
-10
-10
-20
36
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Esempio 5. Trattamento della modificazione d’effetto con approccio empirico
(continua)
Età 70-79 aa
Fattori
Tutti i fattori
OR
0.32
Var %
Stime successive all'eliminazione del fattore riportato
Altre malattie croniche
Genere
Altre miocardiopatie
BPCO
Gravità colelitiasi
0.32
0.32
0.32
0.30
0.24
0
0
0
-6.25
-25
Età >79 aa
Fattori
Tutti i fattori
OR
0.18
Var %
Stime successive all'eliminazione del fattore riportato
Malattie cardiache complesse
Genere
BPCO
Gravità colelitiasi
0.18
0.17
0.17
0.16
0
-5.56
-5.56
-11.11
Standardizzazione indiretta
Trattamenti
<70 aa
Colecistectomia
laparotomica
Colecistectomia
laparoscopica
70-79 aa
Colecistectomia
laparotomica
Colecistectomia
laparoscopica
>79 aa
Colecistectomia
laparotomica
Colecistectomia
laparoscopica
Decessi
attesi
Decessi
osservati
RS
7
20
2.86
17
4
0.24
18
27
1.50
18
9
0.50
36
50
1.39
20
6
0.30
37
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Esempio 5. Trattamento della modificazione d’effetto con approccio empirico
(continua)
Anche se dai risultati ottenuti si può confermare che il rischio di mortalità a 30 gg
dopo un intervento di colecistectomia laparoscopica è inferiore, nel complesso,
quello di colecistectomia laparotomica, l’analisi stratificata permette di evidenziare
effetti diversi nelle diverse classi di età (maggiore sotto i 70 anni, intermedio sopra i
78, minore nella classe di mezzo). Il metodo di standardizzazione indiretta presenta
risultati analoghi a quello di standardizzazione diretta, infatti la stima degli OR nelle
tre classi di età non è dissimile dai rapporti tra o/e nei due trattamenti per le stesse
classi.
Importante sottolineare che in questo caso anche per la standardizzazione diretta
non è corretto confrontare gli OR ottenuti nei tre gruppi in quanto derivanti da modelli
di risk-adjustement diversi (i fattori potenzialmente confondenti utilizzati in ciascun
modello non sono gli stessi). Si può comunque notare che, in tutti e tre i modelli, la
sola gravità della colelitiasi sembra essere un reale confondente dell’associazione in
studio, come riportato dal metodo change-in-estimate. In questo caso, impiegando
nei i tre modelli lo stesso fattore di confondimento, gli OR stimati tornerebbero ad
essere comparabili.
2.4 La precisione delle stime
Le misure utilizzate per esprimere la valutazione comparativa degli esiti sono,
come tutte le altre, soggette ad errori, distorsioni.
Finora ci siamo concentrati su un particolare tipo di errore, il confondimento, che si
verifica frequentemente negli studi osservazionali e che può essere “scoperto” e
“corretto” utilizzando i metodi che abbiamo descritto (la modificazione di effetto non è
un errore, ma un fenomeno reale; non deve essere corretta, ma misurata). Negli
studi osservazionali l’effetto del confondimento ha le caratteristiche di un “errore
sistematico”, ha a che fare con la validità della stima, e non si riduce all’aumentare
della dimensione della popolazione osservata.
38
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Altri errori di tipo sistematico, che possono avere notevole influenza sulla validità
dei risultati di uno studio, ma su cui non è possibile dilungarci in questa sede,
possono derivare dall’inaccuratezza delle misurazioni eseguite per l’attribuzione dei
soggetti ai gruppi messi a confronto, per l’accertamento dell’esito, per la misura dei
potenziali confondenti, cioè misclassificazione dell’esposizione, dell’esito, dei
confondenti.
Un discorso diverso è quello relativo alla possibilità che le misure prodotte (siano
esse “grezze” o “aggiustate” per tenere conto del confondimento) siano affette da
”errore casuale”.
Questo tipo di errore, non avendo caratteristiche di sistematicità, tende a ridursi
all’aumentare del numero dei soggetti studiati. Inoltre, per ogni dimensione
campionaria data, il suo effetto può essere quantificato utilizzando i metodi della
statistica inferenziale.
Questa quantificazione può avvenire in due modi:
-
affiancando al valore puntuale della stima un intervallo, detto “intervallo di
confidenza”, a cui si attribuisce una probabilità predeterminata di contenere il
valore “vero” della misura considerata
-
calcolando la probabilità (p-value) che le differenze osservate tra gli esiti nei
gruppi posti a confronto siano interamente dovute all’effetto dell’errore
casuale, laddove invece non ci sia differenza (ipotesi “nulla”) tra gli esiti “veri”
dei gruppi stessi.
I due approcci, basandosi sugli stessi presupposti teorici, sono fortemente
correlati. Infatti, se l’intervallo di confidenza al 95% di una misura relativa al confronto
tra 2 gruppi non include il valore che quella misura assume quando i 2 gruppi
presentano gli stessi esiti (ipotesi nulla), il p-value relativo al confronto tra quei 2
gruppi sarà inferiore al 5%.
Come già accennato, a parità di dimensione campionaria le misure di
associazione aggiustate utilizzando una misura empirica di gravità costruita con un
numero elevato di variabili tendono, in generale, ad essere meno precise rispetto a
misure più “parsimoniose”.
E’ infine il caso di accennare che l’approccio inferenziale qui utilizzato, di tipo
classico-frequentista, non permette di attribuire ai punti contenuti nell’intervallo di
confidenza valori differenziati di probabilità (più fiducia nei valori centrali, meno
fiducia in quelli estremi). Questo è invece possibile adottando approcci alternativi, di
39
Mattoni SSN – Mattone 8 – Misura dell’Outcome
tipo bayesiano, che portano alla definizione di “intervalli di credibilità” all’interno dei
quali la probabilità attribuita ai diversi valori non è omogenea.
Nell’Esempio 6 i risultati dello studio sulla mortalità a 30 gg dopo colecistectomia
sono corredati da misure di precisione: intervalli di confidenza al 90% e al 95% e
valori di p riferiti all’ipotesi nulla di non associazione.
Esempio 6. Quantificazione della precisione delle stime
Mortalità a 30 giorni nei due gruppi
Intervento
N
Morti
I.C. 90%
I.C. 95%
19
Morti x 1000
1
Laparoscopia
20561
0.58-1.27
0.51-1.34
Laparotomia
8776
97
11
9.22-12.89
8.87-13.24
Confronto grezzo
Rischio
relativo
0.08
I.C. 90%
I.C. 95%
p
0.05-0.13
0.05-0.14
0.0001
Standardizzazione indiretta senza modificazione di effetto
Trattamenti
Colecistectomia
laparotomica
Colecistectomia
laparoscopica
Decessi
attesi
Decessi
osservati
RS
I.C. 90%
I.C. 95%
61
97
1.59
1.34-1.89
1.29-1.94
55
19
0.35
0.23-0.51
0.21-0.54
40
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Esempio 6. Quantificazione della precisione delle stime (continua)
Standardizzazione indiretta con modificazione di effetto
Decessi Decessi
attesi osservati
Trattamenti
<70 aa
Colecistectomia laparotomica
Colecistectomia laparoscopica
70-79 aa
Colecistectomia laparotomica
Colecistectomia laparoscopica
>79 aa
Colecistectomia laparotomica
Colecistectomia laparoscopica
RS
I.C. 90%
I.C. 95%
7
17
20
4
2.86
0.24
1.95-4.19 1.75-4.40
0.10-0.55 0.06-0.58
18
18
27
9
1.50
0.50
1.08-2.08 0.99-2.18
0.28-0.88 0.23-0.94
36
20
50
6
1.39
0.30
1.09-1.77 1.03-1.83
0.15-0.60 0.11-0.64
Standardizzazione diretta senza modificazione di effetto
Trattamento
Laparoscopica vs
Laparotomica
OR*
I.C. 90%
I.C. 95%
p
0.18
0.12-0.27
0.11-0.30
0.001
Standardizzazione diretta con mde
Trattamento
Laparoscopica
vs
Laparotomica
<70 aa
70-79 aa
>79 aa
OR
I.C. 90%
I.C. 95%
p
.10
.32
.18
0.04-0.26
0.17-0.62
0.09-0.37
0.03-0.31
0.15-0.70
0.08-0.43
0.001
0.004
0.001
Anche se la parte più strettamente “scientifica” degli studi di valutazione
comparativa degli esiti può dirsi conclusa con la produzione delle stime puntuali delle
misure di associazione risk-adjusted, dei loro intervalli di confidenza e dei relativi p-
41
Mattoni SSN – Mattone 8 – Misura dell’Outcome
value, la natura dei confronti eseguiti richiede, nella maggior parte dei casi, che si
giunga a conclusioni di tipo qualitativo:
•
è possibile affermare che il trattamento X è più efficace del trattamento Y?
•
è possibile affermare che gli ospedali A, B e C hanno performance peggiori
della media nazionale?
•
è possibile affermare che i residenti nella regione K sperimentano, a parità di
gravità, esiti peggiori rispetto ai residenti nella regione H?
Mettendo da parte le cautele legate a considerazioni sui possibili problemi di
accuratezza dei dati raccolti o sulla possibile esistenza di fattori confondenti non
rilevati, e quindi non controllabili, la possibilità di rispondere a queste domande
passa, ovviamente, per la definizione di un livello convenzionale di significatività
statistica su cui basare il giudizio sull’esistenza di una differenza “vera” tra i gruppi.
Sarà cioè necessario definire una soglia per il p-value al disotto della quale ci
prenderemo la responsabilità di affermare che le differenze osservate sono “vere”, in
quanto riteniamo che la probabilità di sbagliare, facendo questa affermazione, sia
“accettabile”.
Premesso che si ritiene indispensabile che la scelta del livello-soglia avvenga “a
priori”, indipendentemente dai risultati della valutazione, e che essa sia resa nota in
anticipo, alla base di tale scelta dovrà essere posta una attenta valutazione dei
possibili costi e benefici derivanti dall’identificare come “peggiore” un gruppo che è
“veramente” peggiore di altri, in rapporto a quelli associati al rischio di dichiararlo
peggiore, quando invece è uguale agli altri.
In ogni caso occorre porre particolare attenzione nell’evitare confusione tra il
problema della precisione delle stime, quindi della loro “significatività statistica”, da
quello della loro validità, tenendo presente che si possono avere stime molto precise
ma fortemente distorte e stime “statisticamente non significative” ma molto valide.
2.5 Confronti multipli
Tutti i metodi finora illustrati sono stati esemplificati, per facilitarne la
comprensione, con riferimento ad un confronto semplice tra due modalità
assistenziali (colecistectomia laparotomica e colecistectomia laparoscopica). Nella
valutazione degli esiti è invece assai frequente che il confronto avvenga tra più di
due gruppi64,65. E’ questo il caso, per esempio, della valutazione comparativa delle
strutture assistenziali o del confronto tra aree territoriali. Gran parte dei metodi di
42
Mattoni SSN – Mattone 8 – Misura dell’Outcome
analisi si adattano al caso dei confronti multipli senza particolari problemi, ma in
alcuni punti occorre adottare specifici accorgimenti.
In particolare, la scelta dei fattori realmente confondenti mediante la procedura
“change-in-estimate” può essere effettuata solo in caso di confronti singoli e
dovrebbe pertanto essere ripetuta per ognuna delle coppie di gruppi presi in esame.
Questo approccio, che porterebbe alla definizione di numerosi modelli di risk
adjustment, diversi tra loro, avrebbe probabilmente come effetto un aumento della
precisione delle stime, ma renderebbe impossibile confrontare direttamente i gruppi
tra loro, nonostante l’uso della standardizzazione diretta.
Una possibile soluzione a questo problema è utilizzare per tutti i confronti un unico
modello di risk adjustment, che includa i fattori indicati come reali confondenti in
almeno uno dei confronti di interesse. Questa scelta rappresenta il “miglior
compromesso possibile” tra le esigenze di parsimonia e la possibilità di eseguire
confronti multipli validi tra gruppi.
Qualora tuttavia i gruppi da confrontare siano in numero molto elevato, la
soluzione proposta risulterebbe eccessivamente onerosa, sia in termini di tempo che
in termini di capacità di calcolo. In questo caso è quindi preferibile utilizzare per tutti i
confronti il modello di risk adjustment inizialmente selezionato e contenente tutti i
fattori selezionati in base alla loro associazione multivariata con l’esito. Quest’ultima
opzione è quella normalmente scelta, per esempio, nel caso di valutazione
comparativa delle strutture di cura a livello regionale o nazionale.
Negli esempi 7 ed 8 il percorso metodologico precedentemente illustrato viene
ripercorso facendo riferimento a studi di valutazione degli esiti che prevedono il
confronto tra ospedali e tra aree geografiche.
43
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Esempio 7. Confronti multipli
Descrizione dello studio
Il progetto “Esiti a breve termine di interventi di by-pass aorto-coronarico nelle
cardiochirurgie italiane” 66 è uno studio prospettico il cui scopo principale è descrivere
la mortalità osservata e attesa a 30 giorni dall’intervento, per singola struttura
cardiochirurgica, aggiustata per il rischio individuale pre-operatorio dei pazienti.
Popolazione in studio
Tutti i pazienti sottoposti ad un intervento di by-pass aortocoronarico (BPAC)
isolato tra il 1 Gennaio 2002 e il 30 Settembre 2004 in ognuno degli 81 Centri di
cardiochirurgia partecipanti allo studio ed aventi un’età compresa tra i 15 ed i 99
anni.
Elenco delle variabili e definizioni
I riferimenti scientifici relativi ai parametri raccolti derivano da una serie di più ampi
protocolli di ricerca sviluppati dalle maggiori Società Scientifiche internazionali e
nazionali (Society of Thoracic Surgery, American Association for Thoracic Surgery,
European Association for CardioThoracic Surgery, Società Italiana di Chirurgia
Cardiaca) e dai protocolli sviluppati negli ultimi dieci anni con finalità di ricerca sulla
stratificazione del rischio in chirurgia cardiaca (Parsonett 1°-2°, Euroscore, New
York, ed altri).
Per la definizione dello stato di gravità pre-operatoria dei pazienti sono state
raccolte le seguenti informazioni: genere, età, residenza , comorbidita' (diabete in
trattamento, cirrosi, insufficienza renale, disfunzione neurologica, ipertensione
polmonare, aritmia ventricolare maligna, BPCO, endocardite attiva, tumore maligno),
stato emodinamico (instabile o shock), gravita' del processo aterosclerotico
(arteriopatia extracardiaca o Ictus), angina instabile, infarto recente, intervento in
condizioni di emergenza, intervento in CEC, precedenti interventi con apertura del
pericardio e la frazione di eiezione (FE inferiore al 30%;FE compresa tra 30% e 49%;
superiore o uguale al 50%).
44
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Esempio 7. Confronti multipli (continua)
Metodologia
Per valutare l’associazione tra ciascun fattore di rischio e l’evento in studio è stato
adottato un approccio empirico. L’esito considerato (mortalità a 30 giorni) ha
suggerito l’uso di un modello logistico multivariato.
Il genere e l’età sono i due fattori di rischio inclusi nel modello indipendentemente
dalla loro associazione con l’esito . Per la selezione degli altri fattori di rischio si è
ricorso ad una procedura di tipo stepwise . La capacità predittiva del modello è stata
valutata utilizzando:
-
la calibrazione tra i decili delle probabilità stimate (χ2 di Hosmer Lemeshow)
-
la curva ROC
-
il criterio AIC (Akaike Information Criterion = -2 * log-likelihood + 2 * n°
parametri nel modello).
Set di fattori selezionati nel modello e stima dei coefficienti
Variabili
Età
età2
genere (fem)
Shock
diabete in trattamento
dialisi
ipertensione polmonare
aritmia
malattia polmonare
creatinina
arteriopatia
angina instabile
precedente BPAC
emergenza
frazione di eiezione 30-49
<30
costante
Coefficienti
-0.04
0.00
0.26
1.24
0.30
1.23
0.82
0.38
0.42
0.73
0.54
0.43
1.05
1.36
0.59
1.15
-5.24
OR
0.96
1.00
1.29
3.44
1.35
3.41
2.26
1.46
1.52
2.08
1.72
1.53
2.86
3.89
1.80
3.14
-
P
0.3770
0.0450
0.0030
0.0001
0.0001
0.0001
0.0160
0.0470
0.0001
0.0001
0.0001
0.0001
0.0001
0.0001
0.0001
0.0001
-
45
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Esempio 7. Confronti multipli (continua)
PARAMETRI
ROC
Hosmer-Lemeshow
statistica
p
AIC
0.80
18.08
0.02
-6724
Standardizzazione indiretta
A partire dall’esempio precedente è possibile effettuare il confronto tra gli esiti
delle singole strutture rispetto al valore medio calcolando i decessi attesi a partire dai
coefficienti stimati dal modello complessivo e confrontandoli con quelli osservati.
Il numero di by-pass aorto-coronarici per centro influenza la precisione delle stime
di mortalità. Inoltre, in accordo all’evidenza disponibile, il volume di procedure per
centro agisce come un forte determinante dell’esito67,68,69,70. Pertanto, sono stati
esclusi i centri di Cardiochirurgia con un numero di interventi annui di BPAC isolato
inferiore a 150.
46
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Esempio 7. Confronti multipli (continua)
Struttura
12
15
16
17
21
23
32
35
36
37
41
42
44
46
48
49
51
53
55
56
58
61
62
66
73
75
77
92
94
95
98
100
Decessi
attesi
14
21
15
14
13
35
12
18
15
16
18
26
16
9
17
12
19
16
25
14
22
16
32
21
24
11
11
17
20
18
16
17
Decessi
osservati
6
22
14
7
8
75
8
8
7
11
17
27
10
21
10
10
18
8
23
8
15
24
32
18
20
9
30
39
41
60
12
19
RS
0.44
1.03
0.93
0.50
0.61
2.13
0.69
0.43
0.47
0.67
0.93
1.06
0.64
2.24
0.60
0.86
0.93
0.50
0.91
0.57
0.70
1.48
1.01
0.85
0.84
0.80
2.76
2.24
2.00
3.33
0.76
1.10
I.C 95%
0.16
0.65
0.51
0.20
0.26
1.68
0.30
0.19
0.19
0.33
0.54
0.70
0.31
1.39
0.29
0.41
0.55
0.22
0.58
0.25
0.39
0.95
0.69
0.50
0.51
0.37
1.87
1.60
1.44
2.54
0.39
0.66
0.94
1.55
1.55
1.02
1.18
2.67
1.33
0.84
0.95
1.18
1.48
1.53
1.17
3.41
1.10
1.57
1.47
0.98
1.36
1.11
1.14
2.19
1.42
1.34
1.29
1.50
3.93
3.06
2.71
4.29
1.32
1.71
47
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Esempio 7. Confronti multipli (continua)
Nel caso in cui il confronto tra gli esiti fosse stato effettuato tra le singole regioni di
residenza avremmo ottenuto:
Regione*
Decessi
di residenza
Attesi
Toscana
48
Piemonte
45
Puglia
31
Calabria
28
Lazio
51
Emilia-Romagna
71
Lombardia
148
Liguria
31
Umbria
22
Veneto
71
Campania
52
Sicilia
68
Decessi
osservati
32
33
26
24
44
67
141
31
25
81
80
144
RS
0.67
0.74
0.83
0.85
0.87
0.95
0.95
1.01
1.13
1.13
1.54
2.12
I.C 95%
0.46
0.51
0.54
0.55
0.63
0.74
0.80
0.69
0.73
0.90
1.22
1.79
0.95
1.03
1.21
1.27
1.16
1.20
1.12
1.43
1.66
1.41
1.92
2.50
*regioni con un numero di interventi non inferiore a 150.
Standardizzazione diretta
Il confronto tra gli esiti delle singole strutture e quelli delle strutture che
presentavano gli esiti “risk adjusted” migliori (strutture di riferimento: 12,17,35,36,53)
è stato effettuato includendo nel modello precedentemente selezionato le variabili
dummy rappresentanti le strutture e stimando gli OR ad esse associati.
48
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Esempio 7. Confronti multipli (continua)
Riportiamo di seguito i risultati ottenuti per le strutture con un numero di interventi
annui non inferiore a 150.
Struttura
12, 17, 35,36,53
15
16
21
23
32
37
41
42
44
46
48
49
51
55
56
58
61
62
66
73
75
77
92
94
95
98
100
OR*
rif
2.25
2.25
1.31
4.13
1.28
1.36
1.70
2.20
1.42
3.96
1.23
1.99
2.07
2.09
1.23
1.33
3.18
2.29
1.93
1.86
2.06
8.04
6.24
5.22
9.45
1.87
1.64
p
0.006
0.014
0.514
0.000
0.566
0.402
0.107
0.005
0.345
0.000
0.596
0.066
0.020
0.010
0.608
0.393
0.000
0.001
0.036
0.037
0.059
0.000
0.000
0.000
0.000
0.075
0.152
I.C 95%
1.27
1.18
0.58
2.66
0.55
0.66
0.89
1.28
0.69
2.10
0.58
0.96
1.12
1.19
0.55
0.69
1.81
1.39
1.05
1.04
0.97
4.76
3.85
3.23
6.06
0.94
0.83
3.98
4.30
2.99
6.42
3.01
2.79
3.26
3.81
2.94
7.47
2.60
4.14
3.81
3.67
2.77
2.59
5.58
3.77
3.55
3.31
4.36
13.60
10.11
8.44
14.74
3.73
3.25
*OR aggiustati per: genere, età, shock, diabete, dialisi, ipertensione polmonare, aritmia, malattia
polmonare, creatinina, arteriopatia, angina instabile, precedente BPAC, emergenza, frazione di
eiezione
49
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Esempio 7. Confronti multipli (continua)
E’ stato anche considerato come riferimento un gruppo di strutture che
presentavano gli esiti “risk adjusted” più simili alla media (strutture di riferimento:
41,66,73,75).
Riportiamo di seguito i risultati ottenuti per le strutture con un numero di interventi
annui non inferiore a 150.
Struttura
41,66,73,75
12
15
16
17
21
23
32
35
36
37
42
44
46
48
49
51
53
55
56
58
61
62
77
92
94
95
98
100
OR*
rif
0.48
1.20
1.21
0.60
0.70
2.21
0.69
0.50
0.52
0.73
1.18
0.76
2.12
0.66
1.07
1.11
0.59
1.12
0.66
0.72
1.70
1.23
4.30
3.34
2.79
5.06
1.00
0.88
p
0.099
0.494
0.551
0.219
0.387
0.000
0.374
0.076
0.121
0.370
0.518
0.443
0.014
0.254
0.858
0.730
0.179
0.674
0.298
0.295
0.045
0.380
0.000
0.000
0.000
0.000
0.997
0.701
I.C 95%
0.20
0.71
0.65
0.27
0.32
1.50
0.30
0.24
0.23
0.37
0.71
0.38
1.17
0.32
0.53
0.62
0.27
0.66
0.30
0.38
1.01
0.78
2.66
2.17
1.81
3.43
0.52
0.46
1.15
2.05
2.23
1.35
1.56
3.25
1.57
1.08
1.19
1.45
1.95
1.53
3.86
1.35
2.15
1.97
1.28
1.89
1.44
1.34
2.86
1.93
6.96
5.15
4.31
7.47
1.93
1.68
*OR aggiustati per: genere, età, shock, diabete, dialisi, ipertensione polmonare, aritmia, malattia
polmonare, creatinina, arteriopatia, angina instabile, precedente BPAC, emergenza, frazione di
eiezione
50
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Esempio 7. Confronti multipli (continua)
Nel caso in cui il confronto fosse stato effettuato tra le regioni di residenza rispetto
alle migliori (regioni di riferimento: Friuli-Venezia Giulia, Molise, Trentino-Alto Adige)
avremmo ottenuto:
Regione
Friuli Venezia Giulia,
Molise, Trentino-Alto Adige
Calabria
Campania
Emilia-Romagna
Lazio
Liguria
Lombardia
Piemonte
Puglia
Sicilia
Toscana
Umbria
Veneto
OR*
p
rif
1.45
3.46
1.71
1.78
1.59
1.73
1.48
1.49
5.06
1.28
2.20
2.06
0.240
0.001
0.030
0.030
0.120
0.010
0.150
0.180
0.001
0.380
0.010
0.001
I.C 95%
0.74
1.89
1.02
1.06
0.91
1.10
0.83
0.81
3.16
0.71
1.17
1.25
2.55
5.23
2.69
2.96
2.89
2.64
2.47
2.64
7.62
2.12
3.88
3.22
*OR aggiustati per: genere, età, shock, diabete, dialisi, ipertensione polmonare, aritmia, malattia
polmonare, creatinina, arteriopatia, angina instabile, precedente BPAC, emergenza, frazione di
eiezione
51
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Esempio 7. Confronti multipli (continua)
Change-in-estimate
A partire dall’esempio precedente è possibile identificare i reali confondenti
dell’associazione tra regione di residenza e mortalità a 30 giorni.
Riportiamo le stime di rischio dell’Emilia Romagna e della Campania rispetto alle
regioni di riferimento:
Emilia-Romagna
Campania
Fattori
OR Var % Fattori
OR Var %
Tutti i fattori
1.66
Tutti i fattori
3.15
Stime successive all'eliminazione del fattore riportato
genere
prec. bpac
dialisi
arteriopatia
iperten. polmonare
cirrosi
shock
diabete
angina
Mal. polmonare
creatinina
frazione di eiezione
età
emergenza
1.66
1.66
1.66
1.67
1.67
1.68
1.63
1.68
1.63
1.70
1.63
1.76
1.87
1.50
0.0 dialisi
0.0 cirrosi
0.0 angina
0.6 genere
0.6 iperten. polmonare
1.2 prec. bpac
-1.8 frazione di eiezione
1.2 emergenza
-1.8 creatinina
2.4 diabete
-1.8 shock
6.0 mal polmonare
12.7 arteriopatia
-9.6 età
3.15
3.13
3.12
3.14
3.20
3.12
3.20
3.07
2.96
3.18
2.89
3.25
2.77
2.23
0.0
-0.6
-1.0
-0.3
1.6
-1.0
1.6
-2.5
-6.0
1.0
-8.3
3.2
-12.1
-29.2
Notiamo che in questo caso le variabili che, in base alla procedura change-inestimate, possono essere considerate come reali confondenti sono differenti a
seconda che il confronto avvenga tra Emilia-Romagna e benchmark (in tal caso ci si
potrebbe limitare ad aggiustare per età, emergenza ed, eventualmente, frazione di
eiezione) piuttosto che tra Campania e benchmark (e in tal caso i confondenti scelti
con un approccio conservativo potrebbero essere età, arteriopatia, malattia
polmonare e shock).
52
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Esempio 8. Confronti multipli con ipotesi di modificazione di effetto
Descrizione dello studio
Valutazione comparativa delle strutture ospedaliere di una regione italiana rispetto
alla mortalità osservata a 30 giorni a seguito di ricovero per infarto acuto del
miocardio. Verifica del ruolo del genere come modificatore dell’associazione tra
struttura di cura e mortalità.
Popolazione in studio
Lo studio è basato sugli archivi delle Schede di Dimissione Ospedaliera della
regione relativi agli anni 1997-2001.
Sono state selezionate tutte le dimissioni tra il 1/1/99 e il 31/12/00 con diagnosi
principale o secondaria di infarto acuto del miocardio (ICD9 410). È stato considerato
come singolo episodio di ricovero anche l’insieme di ricoveri consecutivi in cui i
ricoveri successivi al primo si siano determinati per trasferimento dal precedente e in
cui la data della dimissione per trasferimento del precedente coincida con la data di
accettazione per trasferimento del successivo.
Elenco delle variabili e definizioni
Sono state prese in considerazione caratteristiche demografiche (età, genere),
geografiche (residenza, mortalità extraospedaliera per infarto nel comune di
residenza, in quintili) e la presenza di patologie concomitanti croniche. La
identificazione delle patologie concomitanti ha utilizzato per ciascun evento sia la
documentazione del ricovero indice che la documentazione di tutti i ricoveri dello
stesso paziente documentati nel dataset disponibile.
Metodologia
La metodologia utilizzata per la costruzione della misura di gravità è uguale a
quella descritta nell’esempio 7.
53
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Esempio 8. Confronti multipli con ipotesi di modificazione di effetto (continua)
Set di fattori selezionati nel modello e stima dei coefficienti
Variabili
Età
Genere (rif maschi)
Residenza (rif altra ASL)
Patologie concomitanti
Tumore
Diabete
Lieve
Moderato
Grave
Disturbi metabolismo lipidico
Altre malattie ematiche
Infarto pregresso
Miocardiopatie complesse
Altre miocardiopatie
Aritmia
Cerebrovascolari croniche
BPCO
Renali croniche
Prec. rivascol. coronarica
Prec. rivascol. cerebrovascolare
Mortalità extraospedaliera
1° quintile
2° quintile
3° quintile
4° quintile
5° quintile
costante
Coefficienti
0.071
0.099
-0.272
OR
1.07
1.10
0.76
p
0.0000
0.0500
0.0020
0.276
1.32
0.0030
0.112
0.324
-0.281
0.274
-0.269
0.140
0.302
0.282
0.307
0.217
0.516
-0.426
-0.624
1.00
1.12
1.38
0.76
1.31
0.76
1.15
1.35
1.33
1.36
1.24
1.67
0.65
0.54
0.1800
0.0240
0.0620
0.0180
0.0010
0.0710
0.0380
0.0001
0.0001
0.0030
0.0001
0.0520
0.0250
0.010
0.046
-0.205
-0.242
-6.622
1.00
1.01
1.05
0.81
0.79
0.8930
0.5110
0.0050
0.0030
0.0001
PARAMETRI
ROC
Hosmer-Lemeshow
0.75
statistica
p
AIC
3.11
0.93
-11213
54
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Esempio 8. Confronti multipli con ipotesi di modificazione di effetto (continua)
Trattamento della modificazione d’effetto
In questo studio il genere è stato considerato un possibile modificatore
dell’associazione tra strutture e mortalità. Si è pertanto proceduto come descritto
nell’esempio 5:
Verifica della presenza di modificazione di effetto
Nel modello di risk adjustment selezionato, vengono inserite le variabili dummy
che rappresentano l’esposizione (struttura di cura) e la loro interazione con la
variabile genere (tanti termini di interazione quante sono le strutture poste a
confronto con la struttura o le strutture di riferimento).
Applicando il test statistico del rapporto di verosimiglianza al confronto tra la
capacità predittiva del modello comprendente i termini di interazione e quella del
modello senza interazione si ottiene un valore di p=0.10, che è stato giudicato
sufficientemente basso per confermare l’interesse a considerare il genere come
modificatore dell’effetto dell’esposizione sull’esito in studio.
Costruzione delle misure di gravità genere-specifiche
La conferma del genere come modificatore di effetto implica la suddivisione della
nostra popolazione iniziale in due gruppi distinti.
55
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Esempio 8. Confronti multipli con ipotesi di modificazione di effetto (continua)
Le misure di gravità vengono calcolate per ciascun gruppo attraverso l’uso di due
modelli logistici multivariati i cui fattori di rischio sono riportati nella tabella seguente:
Variabili
Età
Residenza (rif altra ASL)
Mortalità extraospedaliera
1° quintile
2° quintile
3° quintile
4° quintile
5° quintile
Patologie concomitanti
Tumori
Diabete
Lieve
Moderato
Grave
Altre mal. ematiche
Infarto pregresso
Miocardiopatie complesse
Altre miocardiopatie
Altri interventi sul cuore
Aritmia
Cerebrovascolari croniche
BPCO
Renali croniche
Prec. rivascol. coronarica
Prec. rivascol. cerebrovascolare
Maschi
OR
p
1.08 0.000
0.79 0.032
Femmine
OR
p
1.07
0.000
0.71
0.012
1.00
1.09
1.02
0.89
0.81
0.370
0.854
0.242
0.050
1.00
0.93
1.10
0.73
0.76
0.469
0.375
0.004
0.022
1.25
0.057
1.44
0.020
1.00
1.04
1.35
1.25
0.71
0.707
0.129
0.166
0.020
1.93
1.48
0.255
0.001
1.23
1.17
1.41
0.48
0.049
0.169
0.055
0.068
1.00
1.19
1.36
1.44
0.76
1.38
1.51
1.17
1.45
1.27
1.79
0.67
0.47
0.133
0.129
0.028
0.008
0.003
0.018
0.144
0.000
0.011
0.000
0.129
0.026
La selezione dei potenziali confondenti (fattori predittori dell’esito ma non
necessariamente associati all’esposizione) ha portato a risultati diversi nei diversi
gruppi. Come si può notare, non tutte le patologie concomitanti sembrano essere dei
buoni predittori della mortalità in entrambi i gruppi.
Il confronto tra gli esiti delle diverse strutture è stato effettuato, separatamente per
maschi e femmine, mediante una procedura di standardizzazione diretta.
56
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Esempio 8. Confronti multipli con ipotesi di modificazione di effetto (continua)
Standardizzazione diretta
Il confronto tra gli esiti delle singole strutture e quelli delle strutture che
presentavano gli esiti “risk adjusted” migliori (29 strutture di riferimento, le stesse per
i due generi) è stato effettuato includendo nei modelli precedentemente selezionati le
variabili dummy rappresentanti le strutture e stimando gli OR ad esse associati.
Anche in questo caso si è scelto di privilegiare la confrontabilità tra le strutture di
cura utilizzando per tutti i confronti un unico modello di risk adjustment, pur sapendo
che questa scelta potrebbe aver causato l’inclusione nel modello di fattori non
confondenti in quanto non eterogeneamente distribuiti tra le strutture.
Riportiamo di seguito i risultati ottenuti per le strutture con un volume annuo di
infarti non inferiore a 100.
Maschi
ospedale
Rif.
908
902
909
072
053
903
091
049
085
904
079
031
082
044
061
025
100
013
028
068
006
n
1435
702
664
504
420
418
398
366
338
319
295
250
247
245
188
154
150
143
142
142
135
113
OR
grezzo
1
1.87
1.74
1.56
1.61
1.50
1.89
1.27
1.64
1.82
1.86
1.98
1.91
1.72
0.99
1.55
1.51
1.44
2.74
1.44
1.71
1.27
95% I.C.
1.44
1.33
1.16
1.18
1.09
1.38
0.89
1.17
1.30
1.32
1.38
1.32
1.17
0.60
0.96
0.93
0.86
1.79
0.87
1.05
0.71
2.42
2.28
2.11
2.21
2.07
2.58
1.81
2.30
2.56
2.64
2.85
2.76
2.51
1.64
2.49
2.45
2.41
4.20
2.39
2.79
2.28
OR*
1
1.54
1.64
1.33
1.51
1.86
1.61
1.39
1.29
1.64
1.93
1.69
1.84
1.22
1.00
1.68
1.58
1.75
3.21
1.67
1.92
1.29
95% I.C.
0.99
1.08
0.85
1.07
1.27
1.01
0.94
0.89
1.11
1.18
1.13
1.20
0.80
0.59
1.00
0.94
1.00
2.01
0.98
1.13
0.68
2.39
2.50
2.07
2.13
2.74
2.55
2.07
1.88
2.43
3.15
2.51
2.82
1.86
1.71
2.82
2.66
3.07
5.13
2.85
3.25
2.43
57
Mattoni SSN – Mattone 8 – Misura dell’Outcome
* OR aggiustati per Età, Residenza, Mortalità extraospedaliera, Tumori, Diabete, Altre mal.
ematiche, Infarto pregresso, Miocardiopatie complesse, Altre miocardiopatie,
Aritmia,Cerebrovascol. croniche, BPCO, Renali croniche, Prec. rivascol. coronarica, Prec. rivascol.
cerebrovascolare
Esempio 8. Confronti multipli con ipotesi di modificazione di effetto (continua)
Femmine
ospedale
Rif.
902
908
909
072
903
049
085
053
091
082
904
079
031
044
n
739
388
383
281
256
252
201
188
184
168
138
137
131
123
115
OR
grezzo
1.00
1.06
1.53
1.41
1.14
1.41
1.34
1.41
1.82
1.62
1.53
1.32
1.35
1.42
1.90
95% I.C.
0.78
1.15
1.02
0.80
1.00
0.93
0.96
1.27
1.10
1.00
0.86
0.87
0.91
1.23
1.45
2.05
1.95
1.62
1.98
1.94
2.05
2.62
2.39
2.32
2.04
2.09
2.22
2.93
OR*
1.00
1.12
1.17
1.24
1.22
1.20
1.24
1.12
1.61
1.49
1.10
1.35
1.06
1.30
2.32
95% I.C.
0.79
0.80
0.85
0.84
0.80
0.83
0.74
1.05
0.97
0.68
0.83
0.66
0.79
1.46
1.58
1.71
1.81
1.77
1.79
1.85
1.72
2.46
2.28
1.77
2.18
1.71
2.12
3.69
* OR aggiustati per Età, Residenza, Mortalità extraospedaliera, Tumori, Diabete, Altre mal.
ematiche, Infarto pregresso, Altri interventi sul cuore, Aritmia, BPCO, Renali croniche, Prec. rivascol.
coronarica, Prec. rivascol. cerebrovascolare
Per una migliore discussione sull’importanza che la corretta identificazione della
modificazione di effetto può avere sull’interpretazione dei risultati, riportiamo la
valutazione comparativa delle strutture eseguita senza stratificare per genere (e
quindi utilizzando un’unica misura di gravità):
58
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Esempio 8. Confronti multipli con ipotesi di modificazione di effetto
(continua)
Totale
ospedale
Rif
908
902
909
072
903
053
049
091
085
904
082
079
031
044
013
100
025
061
068
028
n
2174
1085
1052
785
676
650
602
539
534
507
432
383
381
370
303
235
223
219
217
212
204
OR
grezzo
1.00
1.71
1.42
1.50
1.40
1.69
1.57
1.52
1.37
1.64
1.58
1.64
1.68
1.66
1.44
2.01
1.24
1.24
1.66
1.85
1.44
95% I.C.
1.41
1.16
1.21
1.11
1.35
1.24
1.18
1.06
1.28
1.21
1.24
1.27
1.25
1.05
1.44
0.84
0.84
1.16
1.31
0.99
2.07
1.74
1.86
1.77
2.12
1.99
1.95
1.78
2.11
2.07
2.16
2.21
2.20
1.98
2.79
1.82
1.81
2.36
2.62
2.10
OR*
1.00
1.23
1.23
1.14
1.39
1.27
1.68
1.28
1.41
1.37
1.49
1.19
1.42
1.60
1.57
2.31
1.46
1.36
1.89
2.09
1.74
95% I.C.
0.89
0.90
0.82
1.08
0.90
1.26
0.97
1.05
1.03
1.03
0.87
1.05
1.16
1.12
1.62
0.96
0.90
1.28
1.43
1.16
1.72
1.69
1.59
1.79
1.79
2.24
1.68
1.88
1.82
2.16
1.63
1.93
2.21
2.21
3.31
2.23
2.05
2.78
3.06
2.59
* OR aggiustati per Età, Residenza, Mortalità extraospedaliera, Tumori, Diabete, Altre mal.
Ematiche, Infarto pregresso, Miocardiopatie complesse, Altre miocardiopatie, Altri interventi sul cuore,
Aritmia, Cerebrovascolari croniche, BPCO, Renali croniche, Prec. rivascol. coronarica, Prec. rivascol.
cerebrovascolare
Come si può notare, alcuni ospedali sembrano avere una performance migliore
nel trattamento degli uomini che in quello delle donne (e.g, 044), mentre altri si
comportano in maniera opposta (e.g. 903). Da sottolineare il caso dell’ospedale
“902” che non sembra ottenere, sul complesso dei casi, esiti diversi dal pool degli
ospedali migliori (OR aggiustato 1.23; I.C.95% 0.90-1.69). In questo caso, tuttavia,
la mancata distinzione per genere avrebbe portato ad una conclusione erronea;
infatti questo ospedale sembra avere una performance simile al pool dei migliori
59
Mattoni SSN – Mattone 8 – Misura dell’Outcome
nel trattamento delle donne OR 1.12 (0.79-1.58) ma una performance peggiore nel
trattamento degli uomini OR 1.64 (1.08-2.50).
2.6 Altri modelli utilizzabili per il risk adjustment
I modelli utilizzati per la standardizzazione diretta vengono normalmente criticati
da tre punti di vista:
a. non tengono esplicitamente conto della natura “gerarchica” dei dati analizzati,
cioè del fatto che i pazienti studiati sono aggregati in ospedali, area
geografica, tipologia amministrativa, etc..
b. i modelli possono non convergere se alcune delle “celle” considerate non
contengono casi;
c. non permettono l’analisi dell’effetto di variabili associate al gruppo (area
geografica, tipologia amministrativa).
L’esistenza di una struttura gerarchica non può essere considerata casuale né
ignorata in fase di analisi dei dati, in quanto tende a produrre, in assenza di opportuni
correttivi, livelli di precisione delle stime non giustificati dai dati analizzati e legati alla
sottostima della componente casuale della variabilità tra i gruppi18,71.
Un noto studio, condotto da Bennett nel 1976, riportava un maggiore progresso
dei bambini di scuola elementare “esposti” ad un certo tipo di insegnamento rispetto
agli altri.
I dati erano stati analizzati utilizzando un analisi di regressione multipla con un
approccio “classico” 72.
Successivamente Aitkin, nel 1981, dimostrò che ,considerando la natura
gerarchica dei dati, tali differenze scomparivano. In conclusione i bambini all’interno
di una classe tendevano ad avere comportamenti più simili tra di loro73.
I modelli gerarchici (o “multi-level”), introdotti nei primi anni 90 da Goldstein,
permettono di risolvere tali problemi. Essi tengono espressamente conto del fatto che
l’aggregazione dei pazienti nei diversi gruppi non è casuale e tali differenze, al netto
della parte dovuta al diverso case-mix, vengono espressamente modellate. In questo
modo le stime puntuali risultanti sono più concentrate attorno alla media generale,
cioè più conservative18,71,74,75,76.
Esistono diversi approcci statistici per la specificazione di tali modelli, ma, come
indicato da Goldstein e Spiegelhalter, “statistical preferences between Bayesian,
60
Mattoni SSN – Mattone 8 – Misura dell’Outcome
likelihood and quasi-likelihood methods are usually more of philosophical then
practical importance” 77.
Il principale problema nell’uso dei modelli gerarchici è stato finora legato alla
limitata diffusione dei relativi software di analisi statistica che ne permettono la
costruzione e l’analisi. Anche tale limite si avvia però ad essere superato.
61
Mattoni SSN – Mattone 8 – Misura dell’Outcome
3. Conclusioni
Questa revisione delle metodologie epidemiologiche utilizzabili nella valutazione
comparativa degli esiti dei trattamenti sanitari non può certamente essere
considerata esaustiva e risente necessariamente delle conoscenze scientifiche, delle
preferenze, dei pre-giudizi degli autori. Mira quindi a fornire solamente un sintetico
quadro di riferimento, sviluppato nell’ambito del progetto Mattoni del NSIS, per
supportare le applicazioni di valutazione sistematica degli esiti nel SSN e
promuovere il dibattito scientifico in questo campo.
Il continuo progresso delle metodologie epidemiologiche e statistiche e la sempre
maggiore disponibilità di più potenti strumenti di calcolo, porteranno certamente alla
necessità di integrare e modificare continuamente i contenuti di questa revisione.
Occorre considerare che sarà sempre più forte la necessità di condurre studi
osservazionali di efficacia di nuovi trattamenti sanitari, introdotti nella pratica clinica in
assenza, per ragioni etiche, pratiche e scientifiche, di valide stime di efficacia da
RCTs.
Anche quando esse sono tuttavia disponibili non sempre saranno direttamente
trasferibili alla realtà operativa dei sistemi sanitari locali; “efficacy” teorica da RCT ed
“effectiveness” empiricamente osservata nella pratica clinica possono divergere
anche in modo importante.
Per la programmazione e la gestione dei sistemi sanitari sarà sempre più
importante capire quali fattori organizzativi e produttivi possano modificare, in meglio
o in peggio, l’efficacia dei trattamenti e dei servizi. Così come sarà sempre più
importante per i decisori e programmatori valutare comparativamente le performance
dei produttori nell’ambito di sistemi sanitari sempre più numerosi, competitivi,
dinamici.
Per queste ragioni crescerà la domanda di studi osservazionali di efficacia, di
valutazioni comparative di esito. Questa crescente domanda richiede lo sviluppo e la
diffusione delle conoscenze scientifiche della ricerca epidemiologica, la capacità di
formulare correttamente ipotesi, disegnare studi, condurre analisi ed interpretare i
risultati.
62
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Richiede anche un maggiore dialogo tra epistemologie e culture diverse, del
mondo
clinico,
di
quello
di
sanità
pubblica,
dell’epidemiologia
e,
non
secondariamente, della politica.
Abbiamo la consapevolezza che, anche in questo campo, ogni nuovo risultato di
ricerca produce un modesto, anche se qualche volta importante, aumento di
conoscenze, ed una sempre maggiore consapevolezza di quello che non sappiamo.
Ciò può determinare difficoltà di comunicazione e di interazione con chi deve
decidere e vorrebbe avere “certezze”, per i pazienti i clinici, per il sistema sanitario i
manager ed i politici78.
I metodi che abbiamo illustrato, come ogni altra forma di conoscenza scientifica,
non hanno la possibilità di misurare la “realtà” come è “veramente”, ma di produrre di
essa “immagini” definendo esplicitamente, in termini di validità e di precisione, limiti
ed incertezze. Su questi presupposti, tutti, politici, manager, epidemiologi, clinici,
dovrebbero imparare a decidere, per gli obiettivi di tutela della salute dei pazienti e
della popolazione, misurandosi con l’incertezza, ma scegliendo sulla base delle
migliori conoscenze scientifiche disponibili.
63
Mattoni SSN – Mattone 8 – Misura dell’Outcome
Riferimenti bibliografici
1. Rothman KJ, Greenland, eds. Modern epidemiology. Philadelphia: Lippincott-Raven 2nd
ed., 1998
2. Benson K, Hartz AJ. A comparison of observational studies and randomized, controlled
trials. N Engl J Med. 2000; 342(25):1878-86
3. Vandenbroucke JP. When are observational studies as credible as randomised trials?
Lancet 2004; 363(9422):1728-31
4. Deeks JJ, Dinnes J, D’Amico R, Sowden AJ et al. Evaluating non-randomised
intervention studies. Health Technology Assessment 2003; 7(27): 1-186
5. Greenland S, Brumback B. An overview of relations among causal modelling methods.
International Journal of Epidemiology 2002; 31:1030-1037
6. McNamee R. Confounding and confounders. Occupational and Environmental Medicine
2003; 60: 227-23
7. Sonis J. A Closer Look at Confounding. Family Medicine 1998; 30(8): 584-8
8. Kleinbaum DG, Kupper LL, Morgenstern H. Epidemiologic Research. Principles and
quantitative methods. New York: Van Nostrand Reinhold Company Inc., 1982
9. Miettinen OS, Cook EF. Confounding: essence and detection. American Journal of
Epidemiology 1981; 114: 593-603
10. Sklo M, Nieto FG. Epidemiology: beyond the basics. Aspen Publishers, Inc.
Gaithersburg, Maryland, 2000
11. Rubin DB. Estimating Causal Effects from Large Data Sets Using Propensity Scores
[Measuring Quality, Outcomes, and Cost of Care Using Large Databases: The Sixth
Regenstrief Conference: Statistical Methods]. Annals of Internal Medicine 1997; 127(8S)
Supplement: 757-763
12. Iezzoni LI. Risk Adjustment for measuring healthcare outcomes. Health Administration
Press 2nd ed., 1997
13. Pearson ML, Stecher B. Risk Adjustment Methods in Health Care Accountability. In
Stecher B, Kirby SN, (eds). Organizational Improvement and Accountability: Lessons for
Education from Other Sectors, RAND, MG-136-WFHF, Chapter 7, 2004, pp. 95-105
14. Shaughnessy PW, David FH. Overview of Risk Adjustment and Outcome Measures for
Home Health Agency OBQI Reports: Highlights of Current Approaches and Outline of
Planned Enhancements. Center for Health Services Research, UCHSC. September 2002
(http://www.cms.hhs.gov/quality/hhqi/RiskAdj1.pdf)
64
Mattoni SSN – Mattone 8 – Misura dell’Outcome
15. Spiegelhalter D, Grigg O, Kinsman R, Treasure T. Risk-adjusted sequential
probability ratio tests: applications to Bristol, Shipman and adult cardiac surgery.
International Journal for Quality in Health Care 2003; 15:7-13
16. Silva LK. Validity of the risk adjustment approach to compare outcomes. Cad
Saude Publica 2003;19(1): 287-95
17. O'Keefe K. Accounting for Severity of Illness in Acutely Hospitalized Patients: a
Framework for Clinical Decision Support using DYNAMO. Wipro GE Healthcare.
Copyright General Electric Company 1997-2005
(http://www.gehealthcare.com/inen/prod_sol/hcare/resources/library/article07.html)
18.
Ferraris
VA, Ferraris
SP
Risk
Stratification
and Comorbidity.
In: Cohn LH, Edmunds LH Jr, eds. Cardiac Surgery in the Adult. New York: McGrawHill 2003:187224
19. Knaus WA, Wagner DP, Draper EA, Zimmerman JE, Bergner M, Bastos PG, et al.
The APACHE III prognostic system. Risk prediction of hospital mortality for critically ill
hospitalized adults. Chest 1991;100:1619-36
20. Thomas JW, Ashcraft ML. Measuring severity of illness: six severity systems and
their ability to explain cost variations. Inquiry 1991; 28(1): 39-55
21. Knaus WA, Wagner DP, Zimmerman JE., Draper EA. Variations in Mortality and
Length of Stay in Intensive Care Units. Annals of Internal Medicine 1993; 118(10):
753-761
22. Iezzoni LI, Ash AS, Shwartz M, Daley J et al. Predicting Who Dies Depends on
How Severity Is Measured. Implications for Evaluating Patient Outcomes. Ann Intern
Med 1995; 123(10): 763-770
23. Tu JV, Jaglal SB, Naylor CD. Multicenter validation of a risk index for mortality,
intensive care unit stay, and overall hospital length of stay after cardiac surgery.
Steering Committee of the Provincial Adult Cardiac Care Network of Ontario.
Circulation 1995; 91: 677- 684
24. Guru V, Gong Y, Rothwell DM, Tu JV. Report on Cardiac Surgery in Ontario
Fiscal Years 2000 & 2001. The Institute for Clinical Evaluative Sciences, Toronto
Ontario, Canada in collaboration with the Steering Committee of the Cardiac Care
Network of Ontario, 2003.
25. Nashef SAM, Roques F, Michel P, Gauducheau E et al. European system for
cardiac operative risk evaluation (EuroSCORE). European Journal of Cardio-thoracic
Surgery 1999; 16: 9-13
65
Mattoni SSN – Mattone 8 – Misura dell’Outcome
26. Iezzoni LI, Shwartz M, Ash AS, Hughes JS, Daley J, Mackiernan YD, et al.
Evaluating severity adjustors for patient outcome studies. Final report. Prepared for
the Agency for Health Care Policy and Research under grant no. RO1-HS06742.
Boston: Beth Israel Hospital, 1995
27. 3M Health Information Systems. All Patient Refined DRGs (APR-DRGs), 1995.
(http://www.3mhis.com)
28. Edwards N, Honemann D, Burley D, Navarro M. Refinement of the Medicare
diagnosis-related groups to incorporate a measure of severity. Health Care Financing
Review 1994; 16(2): 45–64
29. Mendenhall S. DRGs must be changed to take patient's illness severity into account.
Modern Healthcare 1984 Nov 15; 14(15): 86-8
30. Charlson ME, Pompei P, Ales KL, MacKenzie CR. A new method of classifying
prognostic comorbidity in longitudinal studies: development and validation. Journal of
Chronic Diseases 1987; 40(5): 373-83
31. Deyo RA, Cherkin DC, Ciol MA. Adapting a clinical comorbidity index for use with ICD9-CM administrative databases. Journal of Clinical Epidemiology 1992; 45(6): 613-9
32. Higgins TL, Estafanous FG, Loop FD, et al. Stratification of morbidity and mortality
outcome by preoperative risk factors in coronary artery bypass patients: a clinical severity
score. JAMA 1992; 267(17): 2344-8
33. Gonnella JS, Hornbrook MC, Louis DZ. Staging of disease: A case-mix measurement.
JAMA 1984; 251 (5): 637-44
34. Markson LE, Nash DB, Louis DZ, Gonnella JS. Clinical outcomes management and
disease staging. Evaluation and the Health Professions 1991; 14(2): 201-27
35. O'Connor GT, Plume SK, Olmstead EM, et al. Multivariate prediction of in-hospital
mortality associated with coronary artery bypass graft surgery. Northern New England
Cardiovascular Disease Study Group. Circulation 1992; 85:2110-18
36. O'Connor GT, Plume SK, Olmstead EM, et al. A regional intervention to improve the
hospital mortality associated with coronary artery bypass graft surgery. The Northern New
England Cardiovascular Disease Study Group. JAMA 1996; 275(11): 841-6
37. Parsonnet V, Dean D, Bernstein AD. A method of uniform stratification of risk for
evaluating the results of surgery in acquired adult heart disease. Circulation 1989; 79(6 Pt
2): I3-12
66
Mattoni SSN – Mattone 8 – Misura dell’Outcome
38. Parsonnet V, Bernstein AD, Gera M. Clinical usefulness of risk-stratified outcome
analysis in cardiac surgery in New Jersey. Ann Thorac Surg 1996; 61(2 Suppl):S8-11;
discussion S33-4
39. Martinez-Alario J, Tuesta ID, Plasencia E, et al. Mortality prediction in cardiac
surgery patients: comparative performance of Parsonnet and general severity
systems. Circulation 1999; 99: 2378-2382
40. Young WW, Kohler S, Kowalski J. PMC Patient Severity Scale: derivation and
validation. Health Services Research 1994; 29(3): 367-90
41. Steen PM, Brewster AC, Bradbury RC, Estabrook E, Young JA. Predicted
probabilities of hospital death as a measure of admission severity of illness. Inquiry
1993; 30: 128-141
42. Hammermeister KE, Johnson R, Marshall G, Grover FL. Continuous assessment
and improvement in quality of care: a model from the Department of Veterans Affairs
Cardiac Surgery. Ann Surg 1994; 219(3): 281-90
43. Grover FL, Shroyer AL, Hammermeister KE. Calculating risk and outcome: the
Veterans Affairs database. Ann Thorac Surg 1996; 62(5 Suppl): S6-11; discussion
S31-2
44. Hannan EL, Kilburn H, O'Donnell JF, et al. Adult open heart surgery in New York
State: an analysis of risk factors and hospital mortality rates. JAMA 1990; 264(21):
2768-74
45. Hannan EL, Kumar D, Racz M, Siu AL, Chassin MR. New York State's Cardiac
Surgery Reporting System: four years later. Ann Thorac Surg 1994; 58(6):18521857
46. Edwards FH, Clark RE, Schwartz M: Coronary artery bypass grafting: the Society
of Thoracic Surgeons National Database experience. Ann Thorac Surg 1994; 57:1219
47. Hattler BG, Madia C, Johnson C, et al: Risk stratification using the Society of
Thoracic Surgeons Program. Ann Thorac Surg 1994; 58:1348-52
48. Edwards FH, Grover FL, Shroyer AL, et al: The Society of Thoracic Surgeons
National Cardiac Surgery Database: current risk assessment. Ann Thorac Surg 1997;
63: 903-908
49. Marshall G, Henderson WG, Moritz TE, Shroyer AL, Grover FL, Hammermeister
KE. Statistical methods and strategies for working with large data bases. Medical
Care 1995; 33(10 Suppl):OS35-42
67
Mattoni SSN – Mattone 8 – Misura dell’Outcome
50. Robins JM, Greenland S. The role of model selection in causal inference from
nonexperimental data. American Journal of Epidemiology 1986;123(3): 392-402
51. Greenland S. Modeling and variable selection in epidemiologic analysis.
American Journal of Public Health 1989; 79(3): 340-349
52. Sun GW, Shook TL, Kay GL. Inappropriate use of bivariable analysis to screen risk
factors for use in multivariable analysis. J Clin Epidemiol 1996 Aug;49(8): 907-16
53. Kleinbaum DG. Epidemiologic methods: the “art" in the state of the art. J Clin
Epidemiol. 2002; 55(12):1196-1200
54. Clayton D, Hills M. Statistical Models in Epidemiology. Oxford University Press, New
York, 1993
55. Kleinbaum DG, Kupper LL, Muller KE, Nizam A. Applied Regression Analysis and
other multivariable methods. Duxbury Press by Brooks/Cole Publishing Company 3nd
ed., 1998
56. Brown H, Prescott R. Applied mixed models in medicine. John Wiley & Sons, Ltd,
2003
57. Hosmer DW, Lemeshow S. Applied Logistic Regression. New York: Wiley,1989.
58. Hanley JA, McNeil BJ. The meaning and use of the area under a receiver operating
characteristic (ROC) curve. Radiology 1982; 143(1): 29-36
59. DeLong ER, DeLong DM, Clarke-Pearson DL. Comparing the areas under two or more
correlated receiver operating characteristic curves: a nonparametric approach. Biometrics
1988; 44: 837-845
60. DeLong ER, Peterson ED, DeLong DM, Muhlbaier LH, Hackett S, Mark DB.
Comparing risk-adjustment methods for provider profiling. Statistics in Medicine
1997;16(23): 2645-64
61. Nursing Home Quality Measures Resource Manual. Revised Resource Manual, Texas
Medical Foundation 2004 (http://www.tmf.org/nursinghomes/manual/)
62. Bailit J, Garrett J. Comparison of risk-adjustment methodologies for cesarean delivery
rates. Obstet Gynecol. 2003;102(1): 45-51
63. Mickey RM, Greenland S. The impact of confounder selection criteria on effect
estimation. American Journal of Epidemiology 1989; 129(1): 125-137
64. Health Grades. The Healthcare Quality Experts. Copyright 1999-2005 Health Grades,
Inc. (http://www.healthgrades.com)
68
Mattoni SSN – Mattone 8 – Misura dell’Outcome
65. Krumholz HM, Rathore SS, Chen J, Wang Y, Radford MJ. Evaluation of a ConsumerOriented Internet Health Care Report Card: the Risk of Quality Ratings Based on Mortality
Data. JAMA 2002; 287:1277-1287
66. Il "Progetto BPAC": Studio degli esiti a breve termine di interventi di By-Pass AortoCoronarico nelle cardiochirurgie Italiane (http://bpac.iss.it)
67. NHS Centre for Review and Dissemination. The relation between hospital volume
and quality of health outcomes. Summary report, part 1 in: CRD Report 8.
Concentration and choice in the provision of hospital services 1997
68. Dudley RA, Johansen KL, Brand R. Selective referral to high volume hospitals:
estimating potentially avoidable deaths. JAMA 2000;283:1159-1166
69. Halm, E. A., Lee, C., and Chassin, M. R. Is volume related to outcome in health
care? A systematic review and methodologic critique of the literature. Annals of
Internal Medicine 2002; 137(6):511-20
70. Kalant, N. and Shrier, I. Volume and outcome of coronary artery bypass graft
surgery: are more and less the same? [Review] [55 refs]. Canadian Journal of
Cardiology 2004; 20(1):81-6
71. Goldstein H. Multilevel Statistical Models, 3rd ed. Hodder Arnold, 2003
72. Bennett N. Teaching Styles and Pupil Progress. Open Books, 1976
73. Aitkin, M., Anderson, D., Hinde, J. Statistical modelling of data on teaching styles.
Journal of the Royal Statistical Society 1981; Part A, 144: 148-161
74. Aylin P, Alves B, Best N, Cook A et al. Comparison of UK paediatric cardiac
surgical performance by analysis of routinely collected data 1984-96: was Bristol an
outlier?
Lancethttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?linkbar=plain&db=journals&term=014
0-6736 2001; 358(9277):181-187
75. Shahian DM, Blackstone EH, Edwards FH et al.; STS workforce on evidencebased surgery. Cardiac surgery risk models: a position article. Ann Thorac Surg.
2004 Nov; 78(5):1868-77
76. Normand SL, Glickman M, Gatsonis CA. Statistical methods for profiling providers
of medical care: issues and applications. Journal of the American Statistical
Association 1997; 92: 803-814
77. Goldstein H, Spiegelhalter D. League tables and their limitations: statistical issues
in comparisons of institutional performance. Journal of the Royal Statistical Society
1996; 159: 385-443
69
Mattoni SSN – Mattone 8 – Misura dell’Outcome
78. Lilford R, Mohammed MA, Spiegelhalter D, Thomson R. Use and misuse of
process and outcome data in managing performance of acute medical care: avoiding
institutional stigma. Lancet 2004; 363(9415):1147-54
70
Scarica

Manuale sul risk adjustment