Metodi Quantitativi per Economia, Finanza e Management Lezione n°14 Riassunto e Case Study Valutazione La valutazione del lavoro di gruppo avverrà tenendo conto dei seguenti criteri: – 30%: completezza analisi – 30%: qualità e correttezza dell’analisi – 30%: implicazioni economico-manageriali – 10%: editing Dovrà essere consegnato • • Report cartaceo in formato .ppt CD Rom contenente il questionario, report in formato .ppt, file di dati in formato xls o SAS, programma SAS e output con le elaborazioni SAS. L’analisi statistica dei dati Statistica descrittiva insieme dei metodi che riguardano la rappresentazione e sintesi di un insieme di dati al fine di evidenziarne le caratteristiche principali Statistica inferenziale insieme dei metodi che permettono la stima di una caratteristica di una popolazione basandosi sull’analisi di un campione Misura riassuntiva, La parte di popolazione calcolata sui dati campionari, utile per descrivere una selezionata per l’analisi caratteristica non nota della popolazione Totalità degli elementi presi in esame dalla indagine Percorso di Analisi Tipo di analisi ANALISI UNIVARIATA Cosa è? La statistica descrittiva univariata ha come obiettivo lo studio della distribuzione di ogni variabile, singolarmente considerata, all’interno della popolazione. Fornisce strumenti per la lettura dei fenomeni osservati di rapida ed immediata interpretazione. Strumenti - DISTRIBUZIONI DI FREQUENZA - INDICI DI POSIZIONE (MISURE DI TENDENZA CENTRALE E MISURE DI TENDENZA NON CENTRALE) - INDICI DI DISPERSIONE - MISURE DI FORMA DELLA DISTRIBUZIONE La statistica descrittiva bivariata si occupa Due variabili qualitative o quantitative discrete: dello studio della distribuzione di due TABELLA DI CONTINGENZA E INDICI CHI QUADRO E V DI CRAMER variabili congiuntamente considerate. TEST CHI QUADRO PER L'INDIPENDENZA STATISTICA Due variabili quantitative continue: ANALSI BIVARIATA E TEST STATISTICI I test statistici per lo studio INDICE DI CORRELAZIONE DI PEARSON (ρ) E COVARIANZA PER LO STUDIO DELL'ASSOCIAZIONE dell'associazione tra variabili ci TRA VARIABILI permettono di formulare delle ipotesi e TEST t PER L'INDIPENDENZA LINEARE verificarle tramite i dati campionari. I dati Una variabile qualitativa e una quantitativa continua: campionari sono utilizzati per stabilire se INDICE η2 tale ipotesi è ragionevolmente accettabile TEST F PER L'INDIPENDENZA IN MEDIA o rifiutabile. ANALISI MULTIVARIATA L'analisi statistica multivariata e' l'insieme di metodi statistici usati per analizzare simultaneamente più variabili. Esistono molte tecniche diverse, usate per risolvere problemi anche lontani fra loro. - ANALISI FATTORIALE - REGRESSIONE LINEARE - REGRESSIONE LOGISTICA - SERIE STORICHE Matrice dei dati: riconoscere la tipologia dei dati variabili qualitative Obs Sesso Professione Marca scale di preferenza variabili variabile numeriche: si usano quantitative quantitativa come var quantitative discrete continua Componenti Nr_caffe _famiglia Eta C_GUSTO C_PREZ C_MARCA C_PREP 1 M STUD ILLY 4 1 25 6 7 3 4 2 F CASAL NESPRESSO 4 1 55 10 8 8 10 3 M LAV DIP NESPRESSO 4 3 56 8 5 7 5 4 M LAV AUT LAVAZZA 2 3 61 10 3 3 3 5 M STUD NESPRESSO 4 3 22 10 6 8 9 6 M LAV AUT LAVAZZA 2 2 61 10 10 2 5 7 M LAV DIP LAVAZZA 4 2 43 9 5 5 7 8 F LAV DIP LAVAZZA 4 3 39 10 7 8 10 9 M LAV DIP PRIVATE 3 2 55 10 10 4 5 10 M STUD NESCAFE 4 3 18 10 8 6 7 11 F CASAL LAVAZZA 4 3 50 10 8 5 5 12 F LAV DIP LAVAZZA 3 5 33 10 8 5 3 13 M LAV DIP LAVAZZA 3 3 41 10 6 6 6 14 M LAV DIP LAVAZZA 4 2 57 8 3 7 2 15 M LAV DIP ILLY 4 2 27 10 4 9 2 16 F CASAL ILLY 3 4 45 9 4 9 2 17 F CASAL SEGAFREDO 2 2 31 10 10 5 9 18 M LAV DIP LAVAZZA 3 3 32 9 10 6 10 19 F LAV DIP LAVAZZA 1 1 46 10 6 6 10 20 F LAV DIP VERGNANO 4 3 55 10 9 10 9 Obiettivi dell’analisi univariata • studio della distribuzione di ogni variabile, singolarmente considerata, all’interno della popolazione • lettura dei fenomeni osservati di rapida ed immediata interpretazione • Data Audit • Errori di imputazione • Dati mancanti (missing) • Valori anomali (outliers) • Analisi preliminari Strumenti per l’analisi univariata 1. Variabili qualitative e quantitative discrete e variabili “punteggio” 1. Distribuzioni di frequenza 2. Variabili quantitative (continue e discrete) e variabili punteggio 2. Misure di sintesi – Misure di posizione – Misure di dispersione – Misure della forma della distribuzione Percorso di Analisi Tipo di analisi ANALISI UNIVARIATA Cosa è? La statistica descrittiva univariata ha come obiettivo lo studio della distribuzione di ogni variabile, singolarmente considerata, all’interno della popolazione. Fornisce strumenti per la lettura dei fenomeni osservati di rapida ed immediata interpretazione. Strumenti - DISTRIBUZIONI DI FREQUENZA - INDICI DI POSIZIONE (MISURE DI TENDENZA CENTRALE E MISURE DI TENDENZA NON CENTRALE) - INDICI DI DISPERSIONE - MISURE DI FORMA DELLA DISTRIBUZIONE La statistica descrittiva bivariata si occupa Due variabili qualitative o quantitative discrete: dello studio della distribuzione di due TABELLA DI CONTINGENZA E INDICI CHI QUADRO E V DI CRAMER variabili congiuntamente considerate. TEST CHI QUADRO PER L'INDIPENDENZA STATISTICA Due variabili quantitative continue: ANALSI BIVARIATA E TEST STATISTICI I test statistici per lo studio INDICE DI CORRELAZIONE DI PEARSON (ρ) E COVARIANZA PER LO STUDIO DELL'ASSOCIAZIONE dell'associazione tra variabili ci TRA VARIABILI permettono di formulare delle ipotesi e TEST t PER L'INDIPENDENZA LINEARE verificarle tramite i dati campionari. I dati Una variabile qualitativa e una quantitativa continua: campionari sono utilizzati per stabilire se INDICE η2 tale ipotesi è ragionevolmente accettabile TEST F PER L'INDIPENDENZA IN MEDIA o rifiutabile. ANALISI MULTIVARIATA L'analisi statistica multivariata e' l'insieme di metodi statistici usati per analizzare simultaneamente più variabili. Esistono molte tecniche diverse, usate per risolvere problemi anche lontani fra loro. - ANALISI FATTORIALE - REGRESSIONE LINEARE - REGRESSIONE LOGISTICA - SERIE STORICHE Statistica descrittiva bivariata Indaga la relazione tra due variabili misurate. Si distingue rispetto alla tipologia delle variabili indagate: Tipologia variabili Tipo di analisi Indici di connessione 2 variabili qualitative e/o quantitative discrete DIPENDENZA STATISTICA - Tabelle di contingenza o a doppia entrata - Indici di connessione (χ² (chiquadrato) e V di Cramer) 2 variabili quantitative continue DIPENDENZA LINEARE analisi di correlazione lineare (misure di connessione Covarianza Cov(X,Y) e Coefficiente di correlazione lineare ρ(X,Y)) 1 variabile quantitativa continua e 1 variabile qualitativa DIPENDENZA IN MEDIA confronto tra le medie (indice relativo per misurare la dipendenza in media η2 (ETA QUADRO)) Test statistici per lo studio dell’associazione tra variabili Tipo di test Statistica test Tipo di variabili a cui si applica Indipendenza statistica Chi quadro 2 variabili qualitative e/o quantitative discrete Indipendenza lineare t di Student 2 variabili quantitative continue Indipendenza in media F di Fisher una variabile qualitativa e una variabile quantitativa continua Percorso di Analisi Tipo di analisi ANALISI UNIVARIATA Cosa è? La statistica descrittiva univariata ha come obiettivo lo studio della distribuzione di ogni variabile, singolarmente considerata, all’interno della popolazione. Fornisce strumenti per la lettura dei fenomeni osservati di rapida ed immediata interpretazione. Strumenti - DISTRIBUZIONI DI FREQUENZA - INDICI DI POSIZIONE (MISURE DI TENDENZA CENTRALE E MISURE DI TENDENZA NON CENTRALE) - INDICI DI DISPERSIONE - MISURE DI FORMA DELLA DISTRIBUZIONE La statistica descrittiva bivariata si occupa Due variabili qualitative o quantitative discrete: dello studio della distribuzione di due TABELLA DI CONTINGENZA E INDICI CHI QUADRO E V DI CRAMER variabili congiuntamente considerate. TEST CHI QUADRO PER L'INDIPENDENZA STATISTICA Due variabili quantitative continue: ANALSI BIVARIATA E TEST STATISTICI I test statistici per lo studio INDICE DI CORRELAZIONE DI PEARSON (ρ) E COVARIANZA PER LO STUDIO DELL'ASSOCIAZIONE dell'associazione tra variabili ci TRA VARIABILI permettono di formulare delle ipotesi e TEST t PER L'INDIPENDENZA LINEARE verificarle tramite i dati campionari. I dati Una variabile qualitativa e una quantitativa continua: campionari sono utilizzati per stabilire se INDICE η2 tale ipotesi è ragionevolmente accettabile TEST F PER L'INDIPENDENZA IN MEDIA o rifiutabile. ANALISI MULTIVARIATA L'analisi statistica multivariata e' l'insieme di metodi statistici usati per analizzare simultaneamente più variabili. Esistono molte tecniche diverse, usate per risolvere problemi anche lontani fra loro. - ANALISI FATTORIALE - REGRESSIONE LINEARE - REGRESSIONE LOGISTICA - SERIE STORICHE Analisi Fattoriale – cosa è E’ una tecnica descrittiva/esplorativa per l’analisi delle relazioni lineari (correlazioni) esistenti tra variabili quantitative. Nelle applicazioni è usata anche con variabili qualitative ordinali che esprimono scale di preferenza numeriche (punteggi). A partire da una matrice di dati nxp con p variabili originarie, consente di sintetizzare l’informazione in un set ridotto di variabili trasformate (le componenti/i fattori latenti). Perché sintetizzare? - se l’informazione è condivisa tra più variabili correlate tra loro, è ridondante utilizzarle tutte; - la sintesi comporta una perdita di informazione non rilevante e semplifica le analisi successive. Analisi Fattoriale – Step di analisi Numero di fattori • Regola Autovalori >1 • Lettura SCREEPLOT • 1/3 variabili originali • Variabilità spiegata 60%75% Confronto soluzioni scelte • Comunalità finali Analisi soluzione • Rotazione fattori • Interpretazione fattori • Produzione dataset con fattori Regressione – impostazione del problema variabile quantitativa continua Regressione Lineare variabile dicotomica Regressione Logistica Il modello di regressione - Obiettivi • Esplicativo - Stimare l’influenza dei regressori sulla variabile target. • Predittivo - Stimare il valore non osservato della variabile target in corrispondenza di valori osservati dei regressori. • Comparativo - Confrontare la capacità di più regressori, o di più set di regressori, di influenzare il target (= confronto tra modelli di regressione diversi). Regressione lineare - steps 1. Individuazione variabili dipendente e regressori 2. Trasformazione di eventuali variabili qualitative in dummy 3. Stimare un modello di regressione lineare utilizzando la procedura automatica di selezione delle variabili (stepwise) 4. Controllare la bontà del modello (R-square, Test F) 5. Controllare la significatività dei singoli coefficienti (Test t) 6. Analisi di influenza con i soli regressori scelti nella stepwise. Se si è in presenza di osservazioni influenti: eliminarle e ripetere i punti 3, 4, 5 In assenza di osservazioni influenti: passare al punto 7 Regressione lineare - steps 7. Verificare la presenza di multicollinearità (se i regressori del modello sono i fattori di un’analisi fattoriale non è necessario perchè risultano non correlati per costruzione tutti i VIFj =1) Se si è in presenza di multicollinearità: azioni per eliminarla e ripetere i punti 3, 4, 5, 6 In assenza di multicollinearità: passare al punto 8 8. Verificare l’impatto dei regressori nella spiegazione del fenomeno (ordinarli usando il valore assoluto dei coefficienti standardizzati e controllare il segno dei coefficienti) 9. Interpretazione del coefficienti standardizzati Regressione logistica - steps 1) Individuare la variabile oggetto di analisi (variabile dipendente dicotomica (0/1)) e i potenziali regressori (variabili quantitative o dummy) 2) Stimare un modello di regressione logistica utilizzando il metodo di selezione automatica STEPWISE per selezionare le variabili 3) Valutare: I. la bontà del modello (percentuale di Concordant e altre misure di associazione tra valori predetti e valori osservati) II. la significatività congiunta dei coefficienti (Likelihood ratio test/Score test/Wald test ) III. la significatività dei singoli coefficienti stimati (Wald Chi-square test) Regressione logistica - steps 4) Valutare la presenza di multicollinearità tra i regressori (analogalmente alla regressione lineare si usa la PROC REG con opzione VIF) 5) Importanza dei regressori e analisi dei segni