Modello di Cox • E’ un modello di regressione che esplora la relazione tra la hazard e ipotetiche determinanti. • L’assunzione principale è che l’effetto delle determinanti sia proporzionale, se assumiamo un soggetto i come baseline, misuriamo di quanto le determinanti relative ad un altro soggetto aumentano la hazard. NON è NECESSARIO determinare il valore numerico della baseline • Quindi misura il rischio RELATIVO, non quello assoluto • NON è necessario specificare la baseline Assunzioni del Modello di Cox • Gli hazards sono proporzionali: il rischio di ogni individuo è una proporzione fissa del rischio di ogni altro individuo (parziale revisione di questa ipotesi in seguito) • Quindi si parla di “Multiplicative risk” 2 Modello di Cox ( 1z1 2 z2 ... p z p ) (t, z) 0(t )e • Dove λ(t,z) è la hazard al tempo t per il soggetto che ha covariate z=(z1,z2,….,zp) • λ0(t) è la baseline cioè la hazard di chi ha z=(0,0,0,0,…0) • βi Misura l’effetto moltiplicativo de covariata I, è un coefficiente di regressione stimato via max verosimiglianza (bi) PARZIALE (dopo) .05 .04 .03 .02 0 .01 hazard Esempio: hazard per i=2 è 5 volte quella per i=1 0 50 100 150 analy sis time Patient 1 Patient 2 200 Per nisurare l’effetto relativo non è necessario specificare la λ0(t) • • • • Supponiamo λ0(t) = A (baseline) Un modello con una sola covariata X Un coefficiente stimato = 0.5 2 soggetti con X=7 e X=4 Ae0.57 1.5 e 4.48 0.54 Ae • Il rapporto tra gli hazard, cioè la misura dell’effetto della X sulla baseline non contiene la baseline (A) In simboli hazards proporzionali: Hazard persona i (es fumatore) Hazard ratio hi (t ) 0 (t )e 1xi1 ... k xik 1 ( xi1 x j1 ) ... 1 ( xik x jk ) HRi , j e h j (t ) 0 (t )e 1x j1 ... k x jk Hazard persona j (es. Non-fumatore) Implica Hazard functions parallele! 6 Misura il rischio “aggiustato” per le altre variabili Consideriamo un modello “semplice” (t , x) 0e per x 0 ( x ) (t , x) 0e per x k ( ) (t , x) 0e " effetto" x ( k ) A0 baseline k A0e rischio per x k k A0e e k A0 • Il rapporto tra gli hazard, cioè la misura dell’effetto della X sulla baseline non contiene la baseline (A) In sostanza si tratta di stimare il modello senza intercetta il che significa rinunciare a specificare la “forma del rischio “base” esempio 0.5 x1 4 0.5*5 x2 5 2.5 Ae Ae 0 .5 e 1.65 0.5*4 2 Ae Ae Un incremento unitario di x aumenta il rischio di circa il 65%, qualunque sia la forma e l’entità della “baseline” 18 16 14 12 10 Baseline x=1 8 6 4 2 0 0 0,2 0,4 0,6 0,8 1 1,2 1,4 In generale: • Se UNA covariata aumenta di una unità, rispetto al valore precedente il rapporto tra gli hazard è: 1 x1 .. j x j ... 0(t ) e x 0(t ) e 1 1 .. j ( x j 1) ... e j ( x x 1) e j • Quindi ogni β è il logaritmo dell’incremento di hazard che si verifica in corrispondenza di un incremento unitario della rispettiva covariata Interpretazione dei coefficienti • Un coefficiente>1 indica che la covariata incrementa il rischio • Un coefficiente<1 indica che la covariata diminuisce il rischio • Un coefficiente=1 indica che la covariata e il rischio sono indipendenti Come si leggono i βj? • Se una covariata aumenta di una unità, rispetto al valore precedente il rapporto tra gli hazard è: 0( t ) e 0 (t ) e xz ... x ( z 1) ... e ( z z 1) e • Quindi β è il logaritmo dell’incremento di hazard che si verifica in corrispondenza di un incremento unitario della covariata Consideriamo un predittore binario (fumatore/non fumatore di 60 anni) (1) hi (t ) 0 (t )e smoking age smoking(1 0 ) HRsmoking e h j (t ) 0 (t )e smoking( 0) age( 60) HRsmoking e ( 60) smoking Questo è il rischio di un fumatore, aggiustato per l’età 13 Consideriamo un predittore continuo (età) HR10 years increase in age (0) age hi (t ) 0 (t )e smoking age ( 70 60) e h j (t ) 0 (t )e smoking( 0) age( 60) HR10 years increase in age e ( 70) age (10) Questo è l’hazard ratio per un incremento di 10 anni di età, aggiustato per l’abitudine al fumo. Exp (coefficiente) misura l’hazard ratio corrispondente ad un incremento unitario del predittore continuo. 14 The “Partial Likelihood” (PL) Quando ci sono m TEMPI DI EVENTO e Li è partial likelihood per il ith tempo: Definiamo verosimiglianza parziale: L p (β) m L i i 1 15 La verosimiglianza di un singolo evento: Consideriamo questi dati di durata Uomini: 1, 3, 4, 10+, 12, 18 (indichiamo con j=1-6 I soggetti) Nota: nella ML c’è un termine per ciascun evento NON per ciascun individuo il termine al numeratore indica il NUMERO di EVENTI m h1 (1) L p (β) Li ( ) h1 (1) h2 (1) h3 (1) h4 (1) h5 (1) h6 (1) i 1 ( h3 (4) h2 (3) )( ) h2 (3) h3 (3) h4 (3) h5 (3) h6 (3) h3 (4) .... h6 (4) h5 (12) h6 (18) ( )( ) h5 (12) h6 (12) h6 (18) Il “risk set” Dato che un evento si verifica al tempo =3, questa è la probabilità che capiti al soggetto 2 piuttosto che a tutti gli altri 16 ancora nello stato, cioè a rischio. Se sostituiamo la h con la sua formulazione secondo COX la PL diventa m L p (β) Li i 1 0 (t 1)eβx ) βx βx βx βx 0 (1)e 0 (1)e 0 (1)e 0 (1) 1 ( 0 (1)eβx 0 (1)eβx 1 2 3 4 5 6 .... 0 (18)eβx ( ) βx 0 (18)e 6 6 m Lp (β) Li ( i 1 eβx1 eβx2 eβx1 ) .... 1 βx3 βx5 βx6 βx 4 e e e 17 La PL L p (β) m i 1 ( e βx j ) e Dove j è l’indicatore della censura e (1=conclusa, 0 se censura) e R(ti) è il risk set al tempo ti j βx j jR ( ti ) log L p (β) m [βx j j log( i 1 e βx j )] jR ( ti ) Metodi di stima e test usuali per MLE 18 Esempio: var.dip. Durata del contratto con gestore telefonico Stima: covariata celibe anni perm. indir. attuale anni occ. • B sd 0,442 0,061 -0,083 Wald Sig. exp(b) .122 13.117 .000 1,556 .009 .010 50.409 73.287 .000 .000 0,941 0,920 Il rischio di scissione del contratto per un celibe è 1,5 volte quello di un coniugato • Ogni anno di permanenza all’indirizzo attuale riduce il rischio del 100%-(100%x0.941)=5.9% • Ogni anno di occupazione riduce il rischio del 100%-(100%x0.920)=8.0% Esempio: aggiungiamo il tipo di contratto covariata celibe anni perm. indir. attuale anni occupazione B .432 SE .123 Wald 12.358 Sig. .000 Exp(B) 1.541 -.061 .009 49.768 .000 .940 -.081 Total service BASE Basic-serv. .121 E-service -.574 Plus-service -.658 .010 67.141 28.506 .612 11.450 12.479 .000 .000 .434 .001 .000 .922 .155 .170 .186 1.129 .563 .518 Test sulla proporzionalità degli hazard: Riprendiamo l’ipotesi di hazards proporzionali: Hazard persona i (es fumatore) Hazard ratio hi (t ) 0 (t )e 1xi1 ... k xik 1 ( xi1 x j1 ) ... 1 ( xik x jk ) HRi , j e h j (t ) 0 (t )e 1x j1 ... k x jk Hazard persona j (es. Non-fumatore) implica : hi (t ) HRh j (t ); dove con hazard ratio HR costante 23 Ricordiamo anche la relazione tra hazard e survival… t Survival dalla hazard : S(t) e hi ( t ) 0 ( t )e ( h ( u ) du ) 0 x i Pi (X t) S i (t) e t ( 0 ( u ) e x du) 0 24 Il test si basa sul confronto tra le survival hi (t ) HRh j (t ) t S j (t ) e h j ( u ) du 0 t and Si (t ) e HRh j ( u ) du 0 t Si (t ) e Cambio segno e log di nyuovo HR ( h ( u ) du ) Si (t ) (e 0 t ( h ( u ) du ) 0 ) HR Si (t ) S j (t ) HR log Si (t ) log S j (t ) HR log Si (t ) HR log S j (t ) log( log S i (t )) log( HR log S j (t )) log( log S i (t )) log HR log( log S j (t )) Y (t ) K X (t ) Cioè: i log(-log) delle survival are parallel, e differenti per log(HR) CONDIZIONE SOGGETTA A TEST 25 Modello di Cox con Hazard non proporzionali La violazione della ipotesi di proporzionalità è equivalente ad ammettere che alcune covariate modificano il loro effeto col Coeficiente di tempo, hanno una interazione significativa col tempo log h(t ) log 0 (t ) x x xt xt log h(t ) log 0 (t ) ( x xt t ) x interazione col tempo Covariata moltiplicata per t Se il coefficiente di interazione col tempo è signidicativo, indica non-proportionalità, e allo stesso tempo la inclusione nel modello corregge la non proporzionalità! Valori positivi (negativi) indicano che l’effetto della x cresce (decresce) linearmente col tempo. Questo introduce il concetto di time-dependent covariate 26 Time-dependent covariates, Esempio • Per esempio, valutiamo l’effetto dell’età sul periodo che intercorre tra 2 acquisti di un certo prodotto • Questi I dati di partenza: • 1000 soggetti osservati per 12 mesi (hanno effettuato almeno un acquisto) • di questi • 647 hanno ri-acquistato • 353 No (censurati) 27 Questa è la survival: Questa è la survival per età: 29 La stima Cox fornisce il seguente risultato: age B SE Wald df Sig. Exp(B) -,055 ,006 96,683 1 ,000 ,946 Ma se osserviamo I residui…(naturalmente solo per I NON censurati) scopriamo che non sono del tutto “random” In particolare c’è il sospetto di una correlazione negativa… residuo x età 30 25 20 15 10 residuo x età Linear (residuo x età) 5 0 0 -5 -10 -15 2 4 6 8 10 12 Quindi creaiamo uan nuova variabile “time dependent” motiplicando l’età per il periodo di riacquisto (T_cov) La stima è: Variabili nell'equazione B SE age -,026 ,010 T_COV_ -,007 ,002 Wald df 6,346 1 10,736 1 Sig. ,012 ,001 Exp(B) ,975 ,993 Il coefficiente della variabile “time dependent” è significativo, quindi i rischi non sono proporzionali Tuttavia, specificata correttamente la “forma” della dipendenza temporale, e inserita la variabile time-dep, il modello di Cox fornisce stime corrette Si noti la differenza nell’effetto della variabile “age” con e senza T-cov: Ogni anno di età in più diminuisce la probabilità di riacquisto del -5,4% nel primo caso e solo del -2,5% nel secondo! 31