Analisi Bivariata Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°4 PROC FREQ - Descrizione La PROC FREQ permette di • calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete • creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitative discrete • calcolare indici di dipendenza relativi a tabelle di contingenza PROC FREQ – Sintassi generale Distribuzione di frequenza bivariata proc freq data= dataset option(s); tables variabile1 * variabile2 /option(s); run; OPTIONS: • noprint non mostra i risultati nella finestra di output • /missing considera anche i missing nel calcolo delle frequenze PROC FREQ - Esempio Variabili qualitative: sesso e operatore telefonico proc freq data=corso.telefonia; table sesso * operatore; run; Output PROC FREQ - Esempio Distribuzioni marginali: frequenze marginali assolute e relative Frequenze congiunte assolute e relative Frequency Percent Row Pct Col Pct Table of sesso by operatore sesso operatore 3 Tim F 7 2.97 7.00 58.33 27 11.44 27.00 49.09 63 26.69 63.00 40.91 3 1.27 3.00 20.00 100 42.37 M 5 2.12 3.68 41.67 28 11.86 20.59 50.91 91 38.56 66.91 59.09 12 5.08 8.82 80.00 136 57.63 Total 12 5.08 55 23.31 154 65.25 15 6.36 236 100.00 Frequenze subordinate Vodafone Total Wind Output PROC FREQ - Esempio freq. congiunta relativa =(7/236)*100 Frequency Percent Row Pct Col Pct freq. subordinate: freq. marginale assoluta=7+27+63+3 Table of sesso by operatore sesso operatore 3 Tim Vodafone Total Wind F 7 27 63 3 100 2.97 11.44 26.69 1.27 42.37 7.00 27.00 63.00 3.00 58.33 freq. 49.09marginale 40.91 relativa=(7+27+63+3)/236*100 20.00 M 5 2.12 3.68 41.67 28 11.86 20.59 50.91 91 38.56 66.91 59.09 12 5.08 8.82 80.00 136 57.63 Total 12 5.08 55 23.31 154 65.25 15 6.36 236 100.00 % di riga=5/136*100 % di col=5/12*100 PROC FREQ - Descrizione La PROC FREQ permette di • calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete • creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitative discrete • calcolare indici di dipendenza relativi a tabelle di contingenza PROC FREQ – Sintassi generale Calcolo dell’indice chi-quadro proc freq data= dataset option(s); tables variabile1 * variabile2 /option(s); run; OPTIONS: • noprint non mostra i risultati nella finestra di output • /missing considera anche i missing nel calcolo delle frequenze • /chisq calcola l’indice chi-quadro e altre misure di associazione basate sul chi-quadro PROC FREQ - Esempio Associazione tra variabili qualitative: sesso e operatore telefonico proc freq data=corso.telefonia; table sesso * operatore /chisq; run; Output PROC FREQ - Esempio 1/2 Tabella di contingenza: Frequency Percent Row Pct Col Pct Table of sesso by operatore sesso operatore Vodafone Total 3 Tim Wind F 7 2.97 7.00 58.33 27 11.44 27.00 49.09 63 26.69 63.00 40.91 3 1.27 3.00 20.00 100 42.37 M 5 2.12 3.68 41.67 28 11.86 20.59 50.91 91 38.56 66.91 59.09 12 5.08 8.82 80.00 136 57.63 Total 12 5.08 55 23.31 154 65.25 15 6.36 236 100.00 Output PROC FREQ - Esempio 2/2 Misure di associazione: Statistic DF Value Prob Chi-Square 3 5.4784 0.1399 Likelihood Ratio Chi-Square 3 5.7417 0.1249 Mantel-Haenszel Chi-Square 1 4.7975 0.0285 Phi Coefficient 0.1524 Contingency Coefficient 0.1506 Cramer's V 0.1524 Chi-quadrato assume valore nullo se i due fenomeni sono indipendenti. Indice di Cramer V è basato sul χ², assume valori compresi tra 0 e 1. E’ uguale a 0 nel caso di indipendenza statistica. PROC CORR - Descrizione La PROC CORR permette di • calcolare la correlazione tra due o più variabili quantitative PROC CORR – Sintassi generale Correlazione tra due variabili proc corr data= dataset; var variabile1; with variabile2; run; PROC CORR - Esempio Correlazione tra il numero medio di ore di utilizzo del telefono cellulare e del fisso al giorno. proc corr data=corso.telefonia; var cell_h; with fisso_h; run; Output PROC CORR - Esempio 1 With Variables: 1 Variables: fisso_h 20 c cell_h e 15 l l Variable fisso_h cell_h N 10 Simple Statistics _ h Mean Std Dev Sum 5 208 0.67933 0.72715 141.3 236 2.43644 3.90018 575 Minimum Maximum Label 0.05 5 fisso_h 0.25 24 cell_h 1 Pearson Correlation Coefficients Prob > |r| under H0: Rho=0 Number of Observations cell_h 0.24403 fisso_h fisso_h 0.0004 208 2 3 4 f i sso_h Coefficiente di correlazione lineare ρ(X,Y): è un indice relativo, assume valori compresi tra -1 e 1. Se ρ >0 (ρ <0) la relazione tra X e Y è lineare positiva (negativa), se ρ =0 non c’è relazione lineare. 5 PROC CORR – Sintassi generale Correlazione tra più variabili proc corr data= dataset; var variabile1; with variabile2 variabile3 variabile4; run; PROC CORR - Esempio Correlazione tra la durata media delle chiamate effettuate e: • durata media delle chiamate ricevute, • numero medio di ore di utilizzo del telefono cellulare al giorno, • numero medio di ore di utilizzo del telefono fisso al giorno. proc corr data=corso.telefonia; var durata_chiamate_e; with durata_chiamate_r cell_h fisso_h; run; Output PROC CORR - Esempio 3 With Variables: 1 Variables: Variable durata_chiamate_r cell_h fisso_h durata_chiamate_e durata_chiamate_r cell_h fisso_h durata_chiamate_e N Simple Statistics Mean Std Dev Sum Minimum Maximum Label 236 12.02119 12.57706 2837 0 90 durata_chiamate_r 236 2.43644 3.90018 575 208 0.67933 0.72715 141.3 236 11.16314 12.40367 2635 Pearson Correlation Coefficients Prob > |r| under H0: Rho=0 Number of Observations durata_chiamate_e 0.78645 durata_chiamate_r durata_chiamate_r cell_h <.0001 236 0.23099 fisso_h 0.0003 236 0.24568 cell_h fisso_h 0.0003 208 d 0.25 0.05 0 24 cell_h 5 fisso_h 90 durata_chiamate_e 80 u r a 60 t a _ 40 c h i 20 a m 0 0 20 40 60 d u r a t a _ c h i a ma t e _ e 80