Analisi Bivariata & Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°3 Auto formazione obbligatoria • • SAS® Programming 1: Essentials – 1. Getting Started with SAS Programming – 2. Navigating and Using the SAS Interface – 3. Working with SAS Code – 4. Working with SAS Libraries and SAS Data Sets – 5. Creating SAS Data Sets – 6. Creating SAS Data Sets from Microsoft Excel Worksheets – 8. Validating and Cleaning Data Statistics I: Introduction to ANOVA, Regression, and Logistic Regression – Lesson 5: Categorical Data Analysis • Describing Categorical Data (PROC FREQ) • Tests of Association (CHI SQUARE, V DI CRAMER) Lavoro di gruppo • Inviare il questionario via mail a [email protected] e [email protected] • Attendere la validazione del questionario e procedere alla somministrazione dello stesso • Argomenti da trattare nel lavoro di gruppo: – Analisi univariata – Analisi bivariata – Test statistici Tre argomenti a scelta tra – Analisi fattoriale – Regressione lineare utilizzando come regressori i fattori – Regressione Logistica – Serie storiche Metodi Quantitativi per Economia, Finanza e Management Obiettivi di questa esercitazione: 1 Breve Ripasso Teorico 4 3 2 Proc Freq Proc Corr Proc Anova Test per lo studio dell’associazione tra variabili • Nella teoria dei test, il ricercatore fornisce ipotesi riguardo la distribuzione della popolazione; tali ipotesi sono parametriche se riguardano il valore di uno o più parametri della popolazione conoscendone la distribuzione a meno dei parametri stessi; non parametriche se prescindono dalla conoscenza della distribuzione della popolazione. • Obiettivo dei test: come decidere se accettare o rifiutare un’ipotesi statistica alla luce di un risultato campionario. Esistono due ipotesi: – H0 l’ipotesi nulla, cioè l’ipotesi che deve essere verificata – H1 l’ipotesi alternativa la quale rappresenta, di fatto, l’ipotesi che il ricercatore sta cercando di dimostrare. Test per lo studio dell’associazione tra variabili • Si può incorrere in due tipologie di errore: Possibili Risultati Verifica di Ipotesi Stato di Natura Decisione H0 Vera Non Rifiutare H0 No errore (1 - a ) Rifiutare H0 Errore Primo Tipo (a) H0 Falsa Errore Secondo Tipo (β) No Errore (1-β) Legenda: Risultato (Probabilità) Test per lo studio dell’associazione tra variabili • Errore di Primo Tipo – Rifiutare un’ipotesi nulla vera – Considerato un tipo di errore molto serio La probabilità dell’errore di primo tipo è a • Chiamato livello si significatività del test • Fissato a priori dal ricercatore (i valori comuni sono 0.01, 0.05, 0.10) • Errore di Secondo Tipo – Non rifiutare un’ipotesi nulla falsa La probabilità dell’errore di secondo tipo è β • (1 – β) è definito come la potenza del test Potenza = 1 – β = probabilità che un’ipotesi nulla falsa venga rifiutata Lettura di un test statistico (1) Esempio: H0: b1= b2 = ....=bk = 0 1) Ipotesi H1: almeno un bi≠0 2) Statistica test 3) p-value Statistica F Rappresenta la probabilità di commettere l’errore di prima specie. Può essere interpretato come la probabilità che H0 sia “vera” in base al valore osservato della statistica test Lettura di un test statistico (2) Fissato un livello di significatività a: Se p-value piccolo (< a) RIFIUTO H0 Altrimenti (>= a) ACCETTO H0 Il p-value è il più piccolo valore di a per il quale H0 può essere rifiutata Analisi Bivariata In base alla natura delle due variabili in esame si utilizzato Test Statistici differenti. Due Variabili Qualitative • Indipendenza Statistica • Test Chi-Quadro Due Variabili Quantitative • Indipendenza Lineare • Test t Una Qualitative e Una Quantitativa continua • Indipendenza in media • Test F Metodi Quantitativi per Economia, Finanza e Management Obiettivi di questa esercitazione: 1 Breve Ripasso Teorico 4 3 2 Proc Freq Proc Corr Proc Anova PROC FREQ - Descrizione La PROC FREQ permette di • calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete • creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitative discrete PROC FREQ – Sintassi generale Distribuzione di frequenza bivariata proc freq data= dataset; tables variabile1 * variabile2 /option(s); run; OPTIONS: • /missing considera anche i missing nel calcolo delle frequenze PROC FREQ – Esempio 1 Variabili qualitative: sesso e operatore telefonico proc freq data=corso.telefonia; table sesso * operatore; run; Output PROC FREQ - Esempio 1 Frequenze congiunte assolute e relative Frequency Percent Row Pct Col Pct Frequenze subordinate di riga e colonna Distribuzioni marginali: frequenze marginali assolute e relative Table of sesso by operatore sesso operatore Vodafone Total Tre Tim Wind F 7 2.97 7.00 58.33 27 11.44 27.00 49.09 63 26.69 63.00 40.91 3 1.27 3.00 20.00 100 42.37 M 5 2.12 3.68 41.67 28 11.86 20.59 50.91 91 38.56 66.91 59.09 12 5.08 8.82 80.00 136 57.63 Total 12 5.08 55 23.31 154 65.25 15 6.36 236 100.00 Output PROC FREQ – Esempio 1 freq. congiunta relativa =(7/236)*100 Frequency Percent Row Pct Col Pct freq. subordinate: freq. marginale assoluta=7+27+63+3 Table of sesso by operatore sesso operatore Tre Tim Vodafone Total Wind F 7 27 63 3 100 2.97 11.44 26.69 1.27 42.37 7.00 27.00 63.00 3.00 58.33 freq. 49.09marginale 40.91 relativa=(7+27+63+3)/236*100 20.00 M 5 2.12 3.68 41.67 28 11.86 20.59 50.91 91 38.56 66.91 59.09 12 5.08 8.82 80.00 136 57.63 Total 12 5.08 55 23.31 154 65.25 15 6.36 236 100.00 % di riga=5/136*100 % di col=5/12*100 Output PROC FREQ – Esempio 2 C’è indipendenza statistica tra le variabili sesso del rispondente (SESSO) e possesso del computer (COMPUTER)? proc freq data=corso.telefonia; table sesso * computer /missing; run; Output PROC FREQ – Esempio 2 Le frequenze della variabile COMPUTER subordinata a SESSO: sesso=F Cosa sono le frequenze subordinate? Frequency Table of sesso by computer Percent sesso(sesso) computer(computer) Row Pct 0 1 16 84 Col Pct F 6.78 35.59 16 84 28.57 46.67 40 96 M 16.95 40.68 29.41 70.59 71.43 53.33 56 180 Total 23.73 76.27 computer computer Percent Frequency Cumulative Percent 16 100 29.41 70.59 Cumulative Frequency 40 136 Cumulative Percent 29.41 100 16 84 0 1 Total sesso=M 100 42.37 computer 136 57.63 0 1 236 100 16 84 Cumulative Frequency 16 100 computer Percent Frequency 40 96 Le frequenze della variabile di SESSO subordinata a COMPUTER: computer = 0 sesso sesso Frequency Percent 16 40 F M 28.57 71.43 Cumulative Frequency 16 56 Cumulative Percent 28.57 100 Cumulative Frequency 84 180 Cumulative Percent 46.67 100 computer = 1 sesso sesso F M Frequency Percent 84 96 46.67 53.33 PROC FREQ - Descrizione La PROC FREQ permette di • calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete • creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitative discrete • calcolare indici di dipendenza relativi a tabelle di contingenza Test chi-quadro – Indipendenza statistica • Si applica alle tabelle di contingenza a due dimensioni • Per testare l’hp di indipendenza statistica tra le due variabili della tabella (ossia, la distribuzione di X non è influenzata da Y e viceversa) • Si calcola con la PROC FREQ (opzione CHISQ) Due Variabili Qualitative • Indipendenza Statistica • Test Chi-Quadro PROC FREQ – Sintassi generale Calcolo dell’indice chi-quadro proc freq data= dataset; tables variabile1 * variabile2 /option(s); run; OPTIONS: • /missing considera anche i missing nel calcolo delle frequenze • /chisq calcola l’indice chi-quadro e altre misure di associazione basate sul chi-quadro Esempio n°1- Test chi-quadro – Indipendenza statistica C’è indipendenza statistica tra le variabili sesso del rispondente (SESSO) e possesso del computer (COMPUTER)? proc freq data=corso.telefonia; table sesso * computer /chisq; run; Esempio n°1- Test chi-quadro – Indipendenza statistica Le frequenze subordinate (di SESSO subordinata a COMPUTER e viceversa) sono diversedenota influenza di ognuna delle due variabili sulla distribuzione dell’altra (=dipendenza statistica) Frequency Table of sesso by computer Percent sesso(sesso) computer(computer) Row Pct 0 1 16 84 Col Pct F 6.78 35.59 16 84 28.57 46.67 40 96 M 16.95 40.68 29.41 70.59 71.43 53.33 56 180 Total 23.73 76.27 Total 100 42.37 136 57.63 236 100 Esempio n°1- Test chi-quadro – Indipendenza statistica Possiamo concludere che le due variabili sono statisticamente dipendenti? Si considera la distribuzione χ², con un numero di gradi di libertà pari a (k-1)(h-1), dove k è il numero di righe e h il numero di colonne della tabella di contingenza. Qui: H0 : indipendenza statistica tra X e Y H1 : dipendenza statistica tra X e Y Il p-value del test chi-quadro è basso (<0.05) rifiuto l’hp nulla di indipendenza statistica le due variabili sono statisticamente dipendenti Statistic Chi-Square Likelihood Ratio Chi-Square Continuity Adj. Chi-Square Mantel-Haenszel Chi-Square Phi Coefficient Contingency Coefficient Cramer's V DF 1 1 1 1 Value 5.7275 5.9139 5.0104 5.7032 -0.1558 0.1539 -0.1558 Prob 0.0167 0.015 0.0252 0.0169 Esempio n°2 - Test chi-quadro – Indipendenza statistica C’è indipendenza statistica tra le variabili SESSO e MARCA? proc freq data=corso.telefonia; table sesso * marca /chisq; run; Esempio n°2 - Test chi-quadro – Indipendenza statistica Attenzione: molte celle con frequenze congiunte assolute molto bassetest non molto affidabile Frequency Percent Row Pct sesso Col Pct F Altro M Total 2 0.85 2 33.33 4 1.69 2.94 66.67 6 2.54 Lg 8 3.39 8 61.54 5 2.12 3.68 38.46 13 5.51 Motorola 19 8.05 19 36.54 33 13.98 24.26 63.46 52 22.03 Table of sesso by marca marca Nek Nokia PalmOne Samsung Siemens 2 0.85 2 50 2 0.85 1.47 50 4 1.69 45 19.07 45 43.69 58 24.58 42.65 56.31 103 43.64 1 0.42 1 100 0 0 0 0 1 0.42 15 6.36 15 37.5 25 10.59 18.38 62.5 40 16.95 1 0.42 1 20 4 1.69 2.94 80 5 2.12 Total Sony Ericsson 7 2.97 7 58.33 5 2.12 3.68 41.67 12 5.08 100 42.37 136 57.63 236 100 Esempio n°2 - Test chi-quadro – Indipendenza statistica Il p-value del test chi-quadro è alto accetto l’hp di indipendenza statistica le due variabili sono statisticamente indipendenti Statistic Chi-Square Likelihood Ratio ChiSquare Mantel-Haenszel ChiSquare Phi Coefficient Contingency Coefficient DF Value 8 7.0754 8 7.5018 Prob 0.5285 0.4836 1 0.9191 0.0103 0.1731 0.1706 0.1731 Cramer's V WARNING: 44% of the cells have expected counts less than 5. Chi-Square may not be a valid test. Metodi Quantitativi per Economia, Finanza e Management Obiettivi di questa esercitazione: 1 Breve Ripasso Teorico 4 3 2 Proc Freq Proc Corr Proc Anova PROC CORR - Descrizione La PROC CORR permette di • calcolare la correlazione tra due o più variabili quantitative proc corr data= dataset; var variabile1 variabile2 … variabilen; run; Due Variabili Quantitative • Indipendenza Lineare • Test t PROC CORR - Esempio Correlazione tra il numero medio di ore di utilizzo del telefono cellulare e del fisso al giorno. proc corr data=corso.telefonia; var cell_h fisso_h; run; Output PROC CORR - Esempio 20 c e 15 l l _ 10 h 5 1 2 3 f i sso_h Coefficiente di correlazione lineare ρ(X,Y): è un indice relativo, assume valori compresi tra -1 e 1. Se ρ >0 (ρ <0) la relazione tra X e Y è lineare positiva (negativa), se ρ =0 non c’è relazione lineare. 4 5 PROC CORR - Esempio Correlazione tra la durata media delle chiamate effettuate [durata_chiamate_e] e: • durata media delle chiamate ricevute [durata_chiamate_r] • numero medio di ore di utilizzo del telefono cellulare al giorno [cell_h] • numero medio di ore di utilizzo del telefono fisso al giorno [fisso_h] proc corr data=corso.telefonia; var durata_chiamate_e durata_chiamate_r cell_h fisso_h; run; Output PROC CORR - Esempio d 80 u r a 60 t a _ 40 c h i 20 a m 0 0 20 40 60 d u r a t a _ c h i a ma t e _ e 80 Test t – Indipendenza lineare • Si applica a variabili quantitative • Per testare l’hp di indipendenza lineare tra due variabili (ossia, il coefficiente di correlazione lineare tra X e Y è nullo) • Si calcola con la PROC CORR Esempio n°1 - Test t – Indipendenza lineare C’è indipendenza lineare tra il numero medio ore utilizzo cellulare al giorno(CELL_H ) e il numero medio ore utilizzo telefono fisso al giorno (FISSO_H)? proc corr data=corso.telefonia; var cell_h fisso_h; run; Esempio n°1 - Test t – Indipendenza lineare Il p-value del test t è basso rifiuto l’hp di indipendenza lineare esiste una relazione lineare tra le due variabili, anche se non molto forte (il coefficiente di correlazione lineare è non nullo ma ha valore non molto elevato) Il p-value del test chi-quadro è basso (<0.05) rifiuto l’hp nulla di indipendenza lineare, le due variabili sono linearmente dipendenti Esempio n°2 - Test t – Indipendenza lineare C’è indipendenza lineare tra il numero medio ore utilizzo telefono fisso (FISSO_H ) e il numero medio di email inviate al giorno (EMAIL_H)? proc corr data=corso.telefonia; var fisso_h email_h; run; Esempio n°2 - Test t – Indipendenza lineare Il p-value del test t è alto accetto l’hp di indipendenza lineare non esiste una relazione lineare tra le due variabili Il p-value del test chi-quadro è alto (>0.05) accetto l’hp nulla di indipendenza lineare, le due variabili sono linearmente indipendenti Metodi Quantitativi per Economia, Finanza e Management Obiettivi di questa esercitazione: 1 Breve Ripasso Teorico 4 3 2 Proc Freq Proc Corr Proc Anova Test F – Indipendenza in media • test per indagare la relazione esistente tra una variabile quantitativa Y e una variabile qualitativa X, confrontando le distribuzioni di Y condizionate ai valori assunti dalla variabile X • la metodologia consiste nel verificare la significatività delle differenze tra le medie aritmetiche della variabile continua dei gruppi di osservazioni generati dalle modalità assunte dalla variabile qualitativa (ANOVA : ANalysis Of Variance) • il confronto tra le medie avviene tramite il test F, basato sulla scomposizione della varianza H0: μ1 = μ2 = … = μk (le medie sono tutte uguali tra loro ) H1: le μi non sono tutte uguali (esistono almeno due medie diverse tra loro) Test F – Indipendenza in media Devianza Totale somma dei quadrati degli scarti di ogni valore dalla media generale Devianza tra i gruppi somma dei quadrati degli scarti di ogni media di gruppo dalla media generale Devianza interna ai gruppi (o entro i gruppi ) somma degli scarti al quadrato di ogni valore dalla media del suo gruppo gdl = n-1 (n = num. dati) gdl = p-1 (p= num. gruppi) gdl = n-p Varianza tra Varianza nei (o entro) F= VarTRA/ VarNEI Significatività del test p-value : - se il p-value del test F è basso (<α) le differenze riscontrate tra le medie sono significativerifiuto l’ipotesi nullaposso affermare l’esistenza di una relazione tra la variabile Y e la variabile X. PROC ANOVA – Sintassi generale Sia Y una variabile quantitativa e X una variabile qualitativa PROC ANOVA DATA=dataset; CLASS X; MODEL Y=X; MEANS X; RUN; Una Qualitative e Una Quantitativa continua • Indipendenza in media • Test F Esempio (1/2) C’è relazione tra la soddisfazione del cliente (SODDISFAZIONE_GLOBALE) e l’operatore telefonico da lui scelto (OPERATORE)? PROC ANOVA DATA =corso.telefonia; CLASS operatore; MODEL soddisfazione_globale=operatore; MEANS operatore; RUN; Esempio (2/2) Output proc anova: Source Tra Nei (Entro) DF Sum of Squares Varianza Mean Square F Value Pr > F Model 3 8.9317803 2.9772601 Error 231 427.8086453 1.8519855 Corrected Total 234 436.7404255 R-Square eta quadro Devianza Coeff Var 0.020451 Level of operatore Tim Tre Vodafone Wind 1.61 0.1884 Root MSE 20.9571 N 55 12 153 15 soddisfazione_globale Mean 1.360877 6.493617 soddisfazione_globale Mean Std Dev 6.16363636 1.33004645 6.41666667 1.31137217 6.62745098 1.29209313 6.4 2.06328448 Il p-value del test F è alto (>α)accetto l’hp nulla di indipendenza in media non esiste una relazione di dipendenza in media tra le due variabili p-value Dataset Il dataset DENTI contiene dati sul consumo di dentifricio (di marca A e di marca B). Le variabili sono: # 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Variable CODCLI SESSO ETACLASS REGIONE PRESBAMB TRATTOT ALTOCON CONSTOT ACQTOT STOCKTOT TATTITOT TRIP CITYSIZE AREA ACQ_A STOCK_A CONS_A TRAT_A TATTI_A ACQ_B STOCK_B CONS_B TRAT_B TATTI_B Type Num Char Char Char Char Num Num Num Num Num Num Num Char Char Num Num Num Num Num Num Num Num Num Num Label CODICE CLIENTE SESSO CLASSE DI ETA' REGIONE ITALIANA PRESENZA BAMBINI CLIENTE ABITUALE DI DENTIFRICI SI/NO ALTO CONSUMANTE SI/NO TOTALE CONSUMO DI DENTIFRICI NEL PERIODO TOTALE ACQUISTI DI DENTIFRICI NEL PERIODO TOTALE ACCUMULO DI DENTIFRICI NEL PERIODO NUMERO DI CONTATTI PUBBLICITARI TOTALI PERIODO OSSERVAZIONE DIMENSIONE CITTA' DI RESIDENZA IN CLASSI AREA GEOGRAFICA ACQUISTI DI DENTIFRICI DELLA MARCA A NEL PERIODO ACCUMULO DI DENTIFRICI DELLA MARCA A NEL PERIODO CONSUMO DI DENTIFRICI DELLA MARCA A NEL PERIODO CLIENTE ABITUALE DI DENTIFRICI DELLA MARCA A SI/NO NUMERO DI CONTATTI PUBBLICITARI (DENTIFRICI MARCA A) ACQUISTI DI DENTIFRICI DELLA MARCA B NEL PERIODO ACCUMULO DI DENTIFRICI DELLA MARCA B NEL PERIODO CONSUMO DI DENTIFRICI DELLA MARCA B NEL PERIODO CLIENTE ABITUALE DI DENTIFRICI DELLA MARCA B SI/NO NUMERO DI CONTATTI PUBBLICITARI (DENTIFRICI MARCA B) Esercizi 1. Testare se le variabili area geografica e sesso del data set DENTI sono statisticamente indipendenti 2. Testare l’ipotesi di indipendenza lineare tra le variabili consumo di dentifrici della marca A e numero di contatti pubblicitari totali del data set DENTI 3. Testare l’ipotesi di indipendenza in media tra la variabile consumo di dentifrici della marca A e area geografica e confrontarla con quella tra consumo di dentifrici della marca A e dimensione della città di residenza.