Modello di Cox
• E’ un modello di regressione che esplora la relazione
tra la hazard e ipotetiche determinanti.
• L’assunzione principale è che l’effetto delle
determinanti sia proporzionale, se assumiamo un
soggetto i come baseline, misuriamo di quanto le
determinanti relative ad un altro soggetto aumentano
la hazard. NON è NECESSARIO determinare il
valore numerico della baseline
• Quindi misura il rischio RELATIVO, non quello
assoluto
• NON è necessario specificare la baseline
Assunzioni del Modello di Cox
• Gli hazards sono proporzionali: il rischio di
ogni individuo è una proporzione fissa del
rischio di ogni altro individuo (parziale
revisione di questa ipotesi in seguito)
• Quindi si parla di “Multiplicative risk”
2
Modello di Cox
( 1z1  2 z2 ...   p z p )
 (t, z)   0(t )e
• Dove λ(t,z) è la hazard al tempo t per il soggetto
che ha covariate z=(z1,z2,….,zp)
• λ0(t) è la baseline cioè la hazard di chi ha
z=(0,0,0,0,…0)
• βi Misura l’effetto moltiplicativo de covariata I, è un
coefficiente di regressione stimato via max
verosimiglianza (bi) PARZIALE (dopo)
.05
.04
.03
.02
0
.01
hazard
Esempio:
hazard per i=2 è 5 volte quella per i=1
0
50
100
150
analy sis time
Patient 1
Patient 2
200
Per nisurare l’effetto relativo non è
necessario specificare la λ0(t)
•
•
•
•
Supponiamo λ0(t) = A (baseline)
Un modello con una sola covariata X
Un coefficiente stimato = 0.5
2 soggetti con X=7 e X=4
Ae0.57
1.5
 e  4.48
0.54
Ae
• Il rapporto tra gli hazard, cioè la misura dell’effetto della X
sulla baseline non contiene la baseline (A)
In simboli
hazards proporzionali:
Hazard persona i (es fumatore)
Hazard
ratio
hi (t ) 0 (t )e 1xi1 ...   k xik
1 ( xi1  x j1 ) ...  1 ( xik  x jk )
HRi , j 


e
h j (t ) 0 (t )e 1x j1 ...   k x jk
Hazard persona j
(es. Non-fumatore)
Implica Hazard functions parallele!
6
Misura il rischio “aggiustato” per le altre variabili
Consideriamo un modello “semplice”
 (t , x)  0e
per x  0
(  x )
 (t , x)  0e
per x  k
( )
 (t , x)  0e
" effetto" x
(  k )
 A0
baseline
k
 A0e rischio
per x  k
k
A0e
 e k
A0
• Il rapporto tra gli hazard, cioè la misura dell’effetto della X
sulla baseline non contiene la baseline (A)
In sostanza si tratta di stimare il modello senza intercetta il che
significa rinunciare a specificare la “forma del rischio “base”
esempio
  0.5 x1  4
0.5*5
x2  5

2.5
Ae
Ae
0 .5

 e  1.65
0.5*4
2
Ae
Ae
Un incremento unitario di x aumenta il rischio di circa il 65%,
qualunque sia la forma e l’entità della “baseline”
18
16
14
12
10
Baseline
x=1
8
6
4
2
0
0
0,2
0,4
0,6
0,8
1
1,2
1,4
In generale:
• Se UNA covariata aumenta di una unità, rispetto al valore
precedente il rapporto tra gli hazard è:
1 x1 ..   j x j ...
 0(t ) e
 x
 0(t ) e
1
1 ..   j ( x j 1) ...
e
 j ( x  x 1)
e
j
• Quindi ogni β è il logaritmo dell’incremento di hazard che
si verifica in corrispondenza di un incremento unitario
della rispettiva covariata
Interpretazione dei coefficienti
• Un coefficiente>1 indica che la covariata
incrementa il rischio
• Un coefficiente<1 indica che la covariata
diminuisce il rischio
• Un coefficiente=1 indica che la covariata e il rischio
sono indipendenti
Come si leggono i βj?
• Se una covariata aumenta di una unità, rispetto al valore
precedente il rapporto tra gli hazard è:
 0( t ) e
 0 (t ) e
xz ...
x ( z 1) ...
e
 ( z  z 1)
e

• Quindi β è il logaritmo dell’incremento di hazard che si
verifica in corrispondenza di un incremento unitario della
covariata
Consideriamo un predittore binario
(fumatore/non fumatore di 60 anni)

(1)  
hi (t ) 0 (t )e smoking age
 smoking(1 0 )
HRsmoking 


e
h j (t ) 0 (t )e  smoking( 0)   age( 60)
HRsmoking  e
( 60)
 smoking
Questo è il rischio di un fumatore, aggiustato per l’età
13
Consideriamo un predittore continuo (età)

HR10 years increase in age
(0) 
age
hi (t ) 0 (t )e smoking
 age ( 70 60)



e
h j (t ) 0 (t )e  smoking( 0)   age( 60)
HR10 years increase in age  e
( 70)
 age (10)
Questo è l’hazard ratio per un incremento di 10 anni di età, aggiustato
per l’abitudine al fumo.
Exp (coefficiente) misura l’hazard ratio corrispondente ad un incremento
unitario del predittore continuo.
14
The “Partial Likelihood” (PL)
Quando ci sono m TEMPI DI EVENTO e Li è
partial likelihood per il ith tempo:
Definiamo verosimiglianza parziale:
L p (β) 
m
L
i
i 1
15
La verosimiglianza di un singolo evento:
Consideriamo questi dati di durata
Uomini: 1, 3, 4, 10+, 12, 18
(indichiamo con j=1-6 I soggetti)
Nota: nella ML c’è un termine per ciascun
evento NON per ciascun individuo il termine al
numeratore indica il NUMERO di EVENTI
m
h1 (1)
L p (β)   Li  (
)
h1 (1)  h2 (1)  h3 (1)  h4 (1)  h5 (1)  h6 (1)
i 1
(
h3 (4)
h2 (3)
)(
)
h2 (3)  h3 (3)  h4 (3)  h5 (3)  h6 (3)
h3 (4)  ....  h6 (4)
h5 (12)
h6 (18)
(
)(
)
h5 (12)  h6 (12)
h6 (18)
Il “risk set”
Dato che un evento si verifica al tempo =3,
questa è la probabilità che capiti al
soggetto 2 piuttosto che a tutti gli altri 16
ancora nello stato, cioè a rischio.
Se sostituiamo la h con la sua formulazione
secondo COX la PL diventa
m
L p (β)   Li 
i 1
0 (t  1)eβx
)
βx
βx
βx
βx
 0 (1)e  0 (1)e  0 (1)e  0 (1)
1
(
0 (1)eβx  0 (1)eβx
1
2
3
4
5
6
....
0 (18)eβx
(
)
βx
0 (18)e
6
6
m
 Lp (β)   Li  (
i 1
eβx1  eβx2
eβx1
)  ....  1
βx3
βx5
βx6
βx 4
e e e 
17
La PL
 L p (β) 
m

i 1
(
e
βx j

)
e
Dove  j è l’indicatore della
censura e (1=conclusa, 0 se
censura) e R(ti) è il risk set
al tempo ti
j
βx j
jR ( ti )
 log L p (β) 
m
 [βx
j
j
 log(
i 1
e
βx j
)]
jR ( ti )
Metodi di stima e test usuali per MLE
18
Esempio: var.dip. Durata del contratto con gestore
telefonico Stima:
covariata
celibe
anni perm.
indir. attuale
anni occ.
•
B
sd
0,442
0,061
-0,083
Wald
Sig.
exp(b)
.122 13.117
.000
1,556
.009
.010
50.409
73.287
.000
.000
0,941
0,920
Il rischio di scissione del contratto per un celibe è 1,5
volte quello di un coniugato
• Ogni anno di permanenza all’indirizzo attuale riduce
il rischio del 100%-(100%x0.941)=5.9%
• Ogni anno di occupazione riduce il rischio del
100%-(100%x0.920)=8.0%
Esempio: aggiungiamo il tipo di contratto
covariata
celibe
anni perm.
indir. attuale
anni
occupazione
B
.432
SE
.123
Wald
12.358
Sig.
.000
Exp(B)
1.541
-.061
.009
49.768
.000
.940
-.081
Total service BASE
Basic-serv.
.121
E-service
-.574
Plus-service
-.658
.010
67.141
28.506
.612
11.450
12.479
.000
.000
.434
.001
.000
.922
.155
.170
.186
1.129
.563
.518
Test sulla proporzionalità degli hazard:
Riprendiamo l’ipotesi di hazards proporzionali:
Hazard persona i (es fumatore)
Hazard
ratio
hi (t ) 0 (t )e 1xi1 ...   k xik
1 ( xi1  x j1 ) ...  1 ( xik  x jk )
HRi , j 


e
h j (t ) 0 (t )e 1x j1 ...   k x jk
Hazard persona j
(es. Non-fumatore)
implica : hi (t )  HRh j (t ); dove con hazard ratio HR costante
23
Ricordiamo anche la relazione tra
hazard e survival…
t
Survival dalla hazard : S(t)  e
hi ( t )   0 ( t )e

(  h ( u ) du )
0
x i
Pi (X  t)  S i (t)  e
t

(  0 ( u ) e x du)
0
24
Il test si basa sul confronto tra le survival
hi (t )  HRh j (t )
t
S j (t )  e
  h j ( u ) du
0
t
and Si (t )  e
  HRh j ( u ) du
0
t
 Si (t )  e
Cambio
segno e
log di
nyuovo
HR (   h ( u ) du )
Si (t )  (e
0
t
(   h ( u ) du )
0
) HR  Si (t )  S j (t ) HR
log Si (t )  log S j (t ) HR  log Si (t )  HR log S j (t )
log(  log S i (t ))  log(  HR log S j (t ))
log(  log S i (t ))  log HR  log(  log S j (t ))
Y (t )  K  X (t )
Cioè: i log(-log) delle survival
are parallel, e differenti per
log(HR) CONDIZIONE
SOGGETTA A TEST
25
Modello di Cox con Hazard
non proporzionali
La violazione della ipotesi di proporzionalità è equivalente ad
ammettere che alcune covariate modificano il loro effeto col
Coeficiente di
tempo, hanno una interazione significativa col tempo
log h(t )  log 0 (t )   x x   xt xt 
log h(t )  log 0 (t )  (  x   xt t ) x
interazione col
tempo
Covariata
moltiplicata per t
Se il coefficiente di interazione col tempo è signidicativo,  indica non-proportionalità, e allo stesso
tempo la inclusione nel modello corregge la non proporzionalità!
Valori positivi (negativi) indicano che l’effetto della x cresce (decresce) linearmente col tempo.
Questo introduce il concetto di time-dependent covariate
26
Time-dependent covariates,
Esempio
• Per esempio, valutiamo l’effetto dell’età sul periodo
che intercorre tra 2 acquisti di un certo prodotto
• Questi I dati di partenza:
• 1000 soggetti osservati per 12 mesi (hanno
effettuato almeno un acquisto)
• di questi
• 647 hanno ri-acquistato
• 353 No (censurati)
27
Questa è la survival:
Questa è la survival per età:
29
La stima Cox fornisce il seguente risultato:
age
B
SE
Wald
df
Sig.
Exp(B)
-,055
,006
96,683 1
,000
,946
Ma se osserviamo I residui…(naturalmente solo per I NON censurati)
scopriamo che non sono del tutto “random”
In particolare c’è il sospetto di una correlazione negativa…
residuo x età
30
25
20
15
10
residuo x età
Linear (residuo x età)
5
0
0
-5
-10
-15
2
4
6
8
10
12
Quindi creaiamo uan nuova variabile “time dependent” motiplicando l’età
per il periodo di riacquisto (T_cov)
La stima è:
Variabili nell'equazione
B
SE
age
-,026
,010
T_COV_ -,007
,002
Wald
df
6,346
1
10,736 1
Sig.
,012
,001
Exp(B)
,975
,993
Il coefficiente della variabile “time dependent” è significativo, quindi i rischi
non sono proporzionali
Tuttavia, specificata correttamente la “forma” della dipendenza temporale, e
inserita la variabile time-dep, il modello di Cox fornisce stime corrette
Si noti la differenza nell’effetto della variabile “age” con e senza T-cov:
Ogni anno di età in più diminuisce la probabilità di riacquisto del
-5,4% nel primo caso e solo del -2,5% nel secondo!
31
Scarica

Diapositiva 1