Metodi Quantitativi per Economia, Finanza e Management Lezione n° 12 Regressione Logistica Il modello di regressione logistica Obiettivo • si vuole modellare la relazione tra una variabile dipendente dicotomica (0-1) e un insieme di regressori che si ritiene influenzino la variabile dipendente • la variabile dicotomica rappresenta presenza/assenza di un fenomeno oppure successo/fallimento • l’obiettivo è stimare l’equazione i logit ( i ) log( ) 1 xi1 2 xi 2 ... k xik 1 i dove π:= Pr(Y=1 l X) è la probabilità che il fenomeno si verifichi Il modello di regressione logistica La stima del modello Analogamente al modello di regressione lineare, la relazione tra la variabile dipendente e le variabili indipendenti è nota a meno del valore dei parametri: i lo git ( i ) lo g( ) 1 x i 1 2 x i 2 ... k x i k 1i E’ necessario fare delle ipotesi sulla componente erratica modello E’ necessario un metodo che permetta di ottenere delle “buone” stime dei parametri sulla base delle osservazioni campionarie disponibili. Il modello di regressione logistica La stima del modello Si dimostra che gli stimatori ottenuti mediante il metodo dei Minimi Quadrati non godono delle proprietà ottimali garantite nel caso della regressione lineare. Viene utilizzato il metodo più generale della Massima Verosimiglianza, che si basa sulla massimizzazione della probabilità di osservare l’insieme di dati campionari disponibili, in funzione di β. •Le equazioni di verosimiglianza non sono lineari nei parametri e non ammettono (salvo casi particolari) soluzione esplicita. •E’ necessario ricorrere a metodi numerici iterativi per approssimare la soluzione (Algoritmo di Newton-Raphson o di Scoring’s Fisher ) Il modello di regressione logistica La stima del modello Gli stimatori di massima verosimiglianza godono di proprietà ottimali in presenza di campioni numericamente grandi: – asintoticamente corretti (le stime sono non distorte, si avvicinano al valore vero) – asintoticamente efficienti (con standard error delle stime sono piccoli almeno come quelli di ogni altro metodo di stima) – asintoticamente normali (è possibile usare la distribuzione normale o chi quadro per calcolare gli intervalli di confidenza) Il modello di regressione logistica Le ipotesi del modello Si dimostra che lo g it ( i ) lo g it ( P r ( Y i 1 | X i ) ) X i T LOGIT equivale a exp( X i ) T P r( Y i 1 | X i ) 1 exp( X i ) T LOGISTICA (che è l’inverso del logit) Il modello di regressione logistica Come valutare un modello di regressione logistica Fase Misura/Test Valutazione Indicatori sintetici di bontà del Modello Percentuale di Concordant Tanto maggiore è il numero dei CONCORDANT, tanto più il modello rappresenterà adeguatamente il fenomeno indagato. Indicatori sintetici di bontà del Modello Altre misure di associazione tra valori predetti e valori osservati Tanto più questi indicatori sono elevati, tanto più il modello è “corretto”. Indicatori sintetici di bontà del Modello Test per valutare la significatività congiunta dei coefficienti Se il p-value è piccolo, cioè < del livello di significatività α fissato a propri, allora rifiuto H0, quindi il modello ha buona capacità esplicativa Verifica della bontà delle stime Test per valutare la significatività dei singoli coefficienti Se il p-value è piccolo, cioè < del livello di significatività α fissato a propri, allora rifiuto H0, quindi il regressore a cui il coefficiente è associato è rilevante per la spiegazione del fenomeno Il modello di regressione logistica Indicatori sintetici di bontà del Modello Si definiscono PAIRS il numero di coppie di osservazioni (i,h con i≠h) che in un caso hanno Y=1 e nell’altro Y=0. La coppia di osservazioni (i,h con i≠h) per la quale Yi =1 e Yh =0 è: – concordante se – tied se – discordante se ˆ i ˆ ˆ i ˆ ˆ i ˆ h h h Tanto maggiore è il numero dei CONCORDANT (e quindi tanto minore è il numero dei DISCORDANT), tanto più il modello rappresenterà adeguatamente il fenomeno indagato. Il modello di regressione logistica Indicatori sintetici di bontà del Modello Le statistiche seguenti sono calcolate sulla base del numero di coppie CONCORDANT, DISCORDANT e TIED. CD N CD Gamma CD CD Somer' sD C D T c 0.5 (1 Somer' sD ) Tau a Indicando con: •C è il numero di coppie concordanti, •D il numero di coppie discordanti, •T il numero di ties •N il numero totale di coppie Tanto più questi indicatori sono elevati, tanto più il modello è “corretto”. Queste misure variano tra 0 ed 1. Valori più grandi corrispondono a più forte associazione tra valori predetti e valori osservati. Il modello di regressione logistica Indicatori sintetici di bontà del Modello Test per valutare la significatività congiunta dei coefficienti (“Testing Global Null Hypothesis: BETA=0”) H 0 : ... p 0 – Likelihood Ratio – Score – Wald Queste statistiche hanno distribuzione Chi-quadro con n gradi di libertà dove n corrisponde al numero di coefficienti stimati delle variabili indipendenti. Se il p-value è piccolo ,cioè < del livello di significatività α fissato a propri, allora rifiuto H0, quindi il modello ha buona capacità esplicativa. N.B. Equivalenti al Test F della regressione lineare Il modello di regressione logistica Indicatori sintetici di bontà del Modello Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio 2192.4978 7 <.0001 Score 1399.0552 7 <.0001 Wald 876.2357 7 <.0001 Se il p-value è piccolo, cioè < del livello di significatività α fissato a propri, allora rifiuto H0, quindi il modello ha buona capacità esplicativa! Il modello di regressione logistica Verifica della bontà delle stime Test per valutare la significatività dei singoli coefficienti H 0: j 0 – Wald Chi-square: il quadrato del rapporto tra stima e standard error Se il p-value è piccolo, cioè < del livello di significatività α fissato a propri, allora rifiuto H0(ossia, rifiuto l’ipotesi di coefficiente nullo) il regressore a cui il coefficiente è associato è rilevante per la spiegazione del fenomeno (il coefficiente stimato è significativamente diverso da zero). N.B. Equivalente al Test t della regressione lineare Il modello di regressione logistica Verifica della bontà delle stime Analysis of Maximum Likelihood Estimates Parameter DF Estimate Standard Wald Pr > ChiSq Standardized Error Chi-Square Estimate Intercept 1 -1.2530 0.1147 119.3602 <.0001 PAG_ORD 1 0.000070 5.295E-6 175.1845 <.0001 1.1035 TOT_ORD 1 0.5151 142.1610 <.0001 0.6494 PAG_MES 1 0.000120 8.608E-6 194.9225 <.0001 0.6074 SUD 1 -0.8965 0.1038 74.6650 <.0001 -0.2381 CEN 1 -0.2745 0.1294 4.5039 0.0338 -0.0571 SESSO 1 0.2729 0.1005 7.3780 0.0066 0.0695 LISTA 1 -0.00293 0.0553 0.0028 0.9577 -0.00134 0.0432 Se il p-value è piccolo, cioè < del livello di significatività α fissato a propri, allora rifiuto H0, quindi il regressore a cui il coefficiente è associato è rilevante per la spiegazione del fenomeno Il modello di regressione logistica Selezione automatica dei regressori Analogamente alla regressione lineare è possibile avvalersi di vari metodi di selezione automatica delle variabili. Anche in questo caso gli algoritmi operano secondo le logiche di: • forward selection inserisce nell’equazione una variabile per volta, basandosi sul contributo del regressore inserito alla spiegazione della variabilità di Y • backward selection rimuove dall’equazione una variabile per volta, basandosi sulla perdita di capacità esplicativa della variabilità di Y conseguente all’eliminazione del regressore • stepwise selection (forward+backward selection) ogni variabile può entrare/uscire dal modello Il modello di regressione logistica Multicollinearità Analogamente a quanto visto per la regressione lineare, anche per la logistica il problema della multicollinearità può causa effetti indesiderati sulla stabilità delle stime. I metodi di gestione della problematica sono analoghi a quelli trattati nel modello di regressione lineare: • rimozione delle variabili correlate • selezione di una variabile rappresentativa dal gruppo di variabili legate da relazione lineare • analisi fattoriale trasformazione dei regressori in componenti non correlate Il modello di regressione logistica L’importanza dei regressori In presenza di regressori quantitativi, i coefficienti standardizzati possono essere utili per valutare l’importanza relativa delle variabili, capire quali sono quelle che pesano di più nel modello. Si ordinano i regressori in modo decrescente rispetto al valore assoluto del coefficiente standardizzato (analogamente a quanto visto per la regressione lineare). Il modello di regressione logistica Interpretazione dei coefficienti stimati i lo git ( i ) lo g( ) 1 x i 1 2 x i 2 ... k x i k 1i Nella regressione logistica un coefficiente pari a 0.2 ci dice che il logit di Y aumenta di 0.2 in corrispondenza in corrispondenza di un aumento unitario di X. Ma cosa significa un aumento di 0.2 del logit? Dato che la relazione tra probabilità e regressore non è lineare, i coefficienti stimati, a parte per il segno, non sono interpretabili. Nella regressione logistica si può interpretare l’odds ratio (l’esponenziale del coefficiente), ma non sarà oggetto di questo corso. Il modello di regressione logistica Analisi del segno dei coefficienti Analysis of Maximum Likelihood Estimates Parameter DF Estimate Standard Wald Pr > ChiSq Error Chi-Square Intercept 1 -1.253 0.1147 119.3602 <.0001 var1 1 0.5151 0.0432 142.161 <.0001 var2 1 -0.8965 0.1038 74.665 <.0001 segno positivo • Più aumenta il regressore var1, più aumenta la probabilità che si verifichi l’evento segno negativo • Più aumenta il regressore var2, più diminuisce la probabilità che si verifichi l’evento Standardized Estimate 0.6494 -0.2381 Si guarda il segno del coeff. Il modello di regressione logistica Esempio – data set Un data set contenente le informazioni su 38,163 clienti di una banca. La variabile dipendente è dicotomica, l’evento è l’abbandono. Variabile dipendente DATA SET: banca_churn # Variable Label 1 cliente Cliente 2 target Target: abbandono 3 mavere Numero movimenti avere 4 mdare Numero movimenti dare 5 utenze Numero utenze in c/c 6 pprod Percentuale famiglie prodotti posseduti 7 flag_acc_sti Accredito stipendio Y/N 8 mesi_bmov Numero mesi bassa movimentazione ultimo semestre 9 PremiVita Totale premi ass.ni Vita 10 NumAssDanni Num ass.ni Danni 11 PremiDanni Totale premi ass.ni Danni 12 AnzCliente Anzianità cliente 13 NumAssVita Num ass.ni Vita 14 eta Età Cliente Il modello di regressione logistica Esempio – Tasso di churn osservato La variabile dipendente (target) dicotomica vale: • 1 se il cliente ha “abbandonato” la banca • 0 altrimenti Si vuole prevedere la probabilità di abbandono target Frequency Percent Cumulative Cumulative Frequency Percent 0 31281 81.97 31281 81.97 1 6882 18.03 38163 100 Tasso di abbandono (churn) osservato Il modello di regressione logistica Esempio - Indicatori sintetici di bontà del Modello Association of Predicted Probabilities and Percent Concordant 86.8 Somers' D 0.74 Percent Discordant 13 Gamma 0.74 Percent Tied 0.2 Tau-a 0.22 Pairs 215275842 c 0.87 Tanto maggiore è il numero dei CONCORDANT (e quindi tanto minore è il numero dei DISCORDANT), tanto più il modello rappresenterà adeguatamente il fenomeno indagato. Il modello di regressione logistica Esempio - Indicatori sintetici di bontà del Modello Association of Predicted Probabilities and Percent Concordant 86.8 Somers' D 0.74 Percent Discordant 13 Gamma 0.74 Percent Tied 0.2 Tau-a 0.22 Pairs 215275842 c 0.87 Tanto più questi indicatori sono elevati, tanto più il modello è “corretto”. Queste misure variano tra 0 ed 1. Valori più grandi corrispondono a più forte associazione tra valori predetti e valori osservati. Il modello di regressione logistica Esempio - Test per valutare la significatività congiunta dei coefficienti Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio Score Wald 11618.788 11214.235 6923.4937 6 <.0001 6 <.0001 6 <.0001 Se il p-value è piccolo ,cioè < del livello di significatività α fissato a propri, allora rifiuto H0, quindi il modello ha buona capacità esplicativa. Il modello di regressione logistica Esempio - Test per valutare la significatività dei singoli coefficienti Analysis of Maximum Likelihood Estimates Parameter DF Estimate Standard Wald Pr > ChiSq Standardized Error Chi-Square Estimate Intercept Label 1 0.3771 0.0445 71.7005 <.0001 mesi_bmov Numero mesi bassa movimentazione ultimo semestre 1 0.4456 0.00847 2764.9054 <.0001 0.3856 pprod Percentuale famiglie prodotti posseduti 1 -5.3232 0.1986 718.4034 <.0001 -0.3603 utenze Numero utenze in c/c 1 -0.0584 0.0134 19.1126 <.0001 -0.0596 mdare Numero movimenti dare 1 -0.0441 0.00317 193.4787 <.0001 -0.2414 mavere Numero movimenti avere 1 -0.2835 0.0145 384.2701 <.0001 -0.4671 flag_acc_sti Accredito stipendio Y/N 1 -0.858 0.0496 298.7248 <.0001 -0.2163 Se il p-value è piccolo, cioè < del livello di significatività α fissato a propri, allora rifiuto H0(ossia, rifiuto l’ipotesi di coefficiente nullo) il regressore a cui il coefficiente è associato è rilevante per la spiegazione del fenomeno (il coefficiente stimato è significativamente diverso da zero). Il modello di regressione logistica Esempio - Multicollinearietà Parameter Estimates Variable Label DF Parameter Estimate Intercept Intercept 1 0.34349 mesi_bmov Numero mesi bassa movimentazione ultimo semestre 1 0.09278 pprod Percentuale famiglie prodotti posseduti 1 -0.5298 utenze Numero utenze in c/c 1 -0.0035 mdare Numero movimenti dare 1 -0.00303 mavere Numero movimenti avere 1 -0.00542 flag_acc_sti Accredito stipendio Y/N 1 -0.07997 Standard t Value Pr > |t| Variance Error Inflation 0.00473 72.55 <.0001 0 0.00113 82.19 <.0001 1.14794 0.01649 -32.13 <.0001 1.49788 0.0011 -3.18 0.002 1.51868 0.000206 -14.7 <.0001 1.52716 0.0006185 -8.76 <.0001 1.24908 0.00388 -20.6 <.0001 1.15148 Per investigare il problema della multicollinearità di calcolano i Variance Inflation Factors. Si stima una regressione lineare di Xj sui rimanenti p-1 regressori e per misurare il grado di relazione lineare tra Xj e i rimanenti p-1 regressori si calcola VIFj = 1 / (1 – Rj²) valori alti= multicollinearità Il modello di regressione logistica Esempio – Importanza dei regressori Parameter mavere mesi_bmov pprod mdare flag_acc_sti utenze Label Numero movimenti avere Numero mesi bassa movimentazione ultimo semestre Percentuale famiglie prodotti posseduti Numero movimenti dare Accredito stipendio Y/N Numero utenze in c/c Standardized Valore assoluto del coeff Estimate standardizzato -0.4671 0.4671 0.3856 0.3856 -0.3603 0.3603 -0.2414 0.2414 -0.2163 0.2163 -0.0596 0.0596 Si ordinano i regressori in modo decrescente rispetto al valore assoluto del coefficiente standardizzato. Il numero movimenti avere è il regressione maggiormente influente nel modello. Il modello di regressione logistica Analisi del segno dei coefficienti Analysis of Maximum Likelihood Estimates Parameter DF Estimate Standard Wald Pr > ChiSq Standardized Error Chi-Square Estimate Intercept Label 1 0.3771 0.0445 71.7005 <.0001 mesi_bmov Numero mesi bassa movimentazione ultimo semestre 1 0.4456 0.00847 2764.9054 <.0001 0.3856 pprod Percentuale famiglie prodotti posseduti 1 -5.3232 0.1986 718.4034 <.0001 -0.3603 utenze Numero utenze in c/c 1 -0.0584 0.0134 19.1126 <.0001 -0.0596 mdare Numero movimenti dare 1 -0.0441 0.00317 193.4787 <.0001 -0.2414 mavere Numero movimenti avere 1 -0.2835 0.0145 384.2701 <.0001 -0.4671 flag_acc_sti Accredito stipendio Y/N 1 -0.858 0.0496 298.7248 <.0001 -0.2163 • Più è bassa la movimentazione di C/C nell’ ultimo semestre più aumenta la probabilità di abbandono (coeff. std. di mesi_bmov=0.3856 segno positivo) • Piu è alta la % di famiglie di prodotti bancari posseduti più diminuisce la probabilità di abbandono (coeff. std. di pprod= - 0.3603 segno negativo) Le variabili dummy…. • La presenza dell’accredito dello stipendio in C/C diminuisce la probabilità di abbandono (coeff. std. di flag_acc_sti= - 0.2163 segno negativo) Il modello di regressione logistica Summary • Scegliere la variabile dipendente, deve essere dicotomica e rappresentare una assenza/presenza o un fallimento/successo. • Scegliere i potenziali regressori: un insieme di variabili quantitative o dummy (codificate con 0/1) – in questo corso non tratteremo l’utilizzo di variabili qualitative • Stimare il modello di regressione logistica • Valutare il modello: • Indicatori sintetici di bontà del Modello • Verifica bontà delle stime • Multicollinearietà (per ovviare a tale problema usare i fattori di un’analisi fattoriale come regressori) • Spiegare il modello: • Importanza dei regressori • Analisi dei segni