Metodi Quantitativi per Economia, Finanza e Management Lezione n°13 Il modello di regressione logistica Indicatori sintetici di bontà del Modello Tanto maggiore è il numero dei CONCORDANT (e quindi tanto minore è il numero dei DISCORDANT), tanto più il modello rappresenterà adeguatamente il fenomeno indagato. Tanto più questi indicatori sono elevati, tanto più il modello è “corretto”. Queste misure variano tra 0 ed 1. Valori più grandi corrispondono a più forte associazione tra valori predetti e valori osservati. Il modello di regressione logistica Indicatori sintetici di bontà del Modello Test per valutare la significatività congiunta dei coefficienti H 0 : ... p 0 Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio 2192.4978 7 <.0001 Score 1399.0552 7 <.0001 Wald 876.2357 7 <.0001 Se il p-value è piccolo, cioè < del livello di significatività α fissato a propri, allora rifiuto H0, quindi il modello ha buona capacità esplicativa! Il modello di regressione logistica Verifica della bontà delle stime Test per valutare la significatività dei singoli coefficienti H 0 : j 0 Se il p-value è piccolo, cioè < del livello di significatività α fissato a propri, allora rifiuto H0, quindi il regressore a cui il coefficiente è associato è rilevante per la spiegazione del fenomeno Il modello di regressione logistica Multicollinearità Analogamente a quanto visto per la regressione lineare, anche per la logistica il problema della multicollinearità può causa effetti indesiderati sulla stabilità delle stime. I metodi di gestione della problematica sono analoghi a quelli trattati nel modello di regressione lineare: • rimozione delle variabili correlate • selezione di una variabile rappresentativa dal gruppo di variabili legate da relazione lineare • analisi fattoriale trasformazione dei regressori in componenti non correlate Il modello di regressione logistica Importanza dei regressori In presenza di regressori quantitativi, i coefficienti standardizzati possono essere utili per valutare l’importanza relativa delle variabili, capire quali sono quelle che pesano di più nel modello. Parameter mavere mesi_bmov pprod mdare flag_acc_sti utenze Label Numero movimenti avere Numero mesi bassa movimentazione ultimo semestre Percentuale famiglie prodotti posseduti Numero movimenti dare Accredito stipendio Y/N Numero utenze in c/c Standardized Valore assoluto del coeff Estimate standardizzato -0.4671 0.4671 0.3856 0.3856 -0.3603 0.3603 -0.2414 0.2414 -0.2163 0.2163 -0.0596 0.0596 Si ordinano i regressori in modo decrescente rispetto al valore assoluto del coefficiente standardizzato. Il modello di regressione logistica Analisi del segno dei coefficienti Dato che la relazione tra probabilità e regressore non è lineare, i coefficienti stimati, a parte per il segno, non sono interpretabili. Analysis of Maximum Likelihood Estimates Parameter DF Estimate Standard Wald Pr > ChiSq Error Chi-Square Intercept 1 -1.253 0.1147 119.3602 <.0001 var1 1 0.5151 0.0432 142.161 <.0001 var2 1 -0.8965 0.1038 74.665 <.0001 segno positivo • Più aumenta il regressore var1, più aumenta la probabilità che si verifichi l’evento segno negativo • Più aumenta il regressore var2, più diminuisce la probabilità che si verifichi l’evento Standardized Estimate 0.6494 -0.2381 Si guarda il segno del coeff. Regressione Logistica Target: acquisto prodotto bancario «carta di credito» (0/1) Potenziali regressori: informazioni relative ai comportamenti dei clienti di una banca (ad saldo CC, importo e numero operazioni, affidamenti, accredito stipendio, titoli, polizze assicurative, certificati di deposito, ecc.). Regressione Logistica Regressori selezionati dal metodo stepwise: • IMPA importo operazioni avere • NTIT numero operazioni titoli • NAVERE: numero operazioni avere • STICONV: importo totale accredito stipendio su conto corrente • S_UTENZE: domiciliazione utenze (si=1; no=0) Regressione Logistica 1. Valutazione della bontà del modello: - % di concordant Misure di associazione tra valori predetti e valori osservati Test per valutare la significatività congiunta dei coefficienti Test per valutare la significatività dei singoli coefficienti 2. Verifica della presenza di multicollinearità e gestione della problematica 3. Ristima del modello, ripetere punto 1 e 2 4. Importanza dei regressori e Analisi del segno dei coefficienti