Analisi Bivariata & Esercizi Analisi Univariata Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°4 Analisi Bivariata PROC FREQ - Descrizione La PROC FREQ permette di • calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete • creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitative discrete PROC FREQ – Sintassi generale Distribuzione di frequenza bivariata proc freq data= dataset option(s); tables variabile1 * variabile2 /option(s); run; OPTIONS: • noprint non mostra i risultati nella finestra di output • /missing considera anche i missing nel calcolo delle frequenze PROC FREQ - Esempio Variabili qualitative: sesso e operatore telefonico proc freq data=corso.telefonia; table sesso * operatore; run; Output PROC FREQ - Esempio Distribuzioni marginali: frequenze marginali assolute e relative Frequenze congiunte assolute e relative Frequency Percent Row Pct Col Pct Table of sesso by operatore sesso operatore Tre Tim F 7 2.97 7.00 58.33 27 11.44 27.00 49.09 63 26.69 63.00 40.91 3 1.27 3.00 20.00 100 42.37 M 5 2.12 3.68 41.67 28 11.86 20.59 50.91 91 38.56 66.91 59.09 12 5.08 8.82 80.00 136 57.63 Total 12 5.08 55 23.31 154 65.25 15 6.36 236 100.00 Frequenze subordinate Vodafone Total Wind Output PROC FREQ - Esempio freq. congiunta relativa =(7/236)*100 Frequency Percent Row Pct Col Pct freq. subordinate: freq. marginale assoluta=7+27+63+3 Table of sesso by operatore sesso operatore Tre Tim Vodafone Total Wind F 7 27 63 3 100 2.97 11.44 26.69 1.27 42.37 7.00 27.00 63.00 3.00 58.33 freq. 49.09marginale 40.91 relativa=(7+27+63+3)/236*100 20.00 M 5 2.12 3.68 41.67 28 11.86 20.59 50.91 91 38.56 66.91 59.09 12 5.08 8.82 80.00 136 57.63 Total 12 5.08 55 23.31 154 65.25 15 6.36 236 100.00 % di riga=5/136*100 % di col=5/12*100 PROC CORR - Descrizione La PROC CORR permette di • calcolare la correlazione tra due o più variabili quantitative PROC CORR – Sintassi generale Correlazione tra due o più variabili proc corr data= dataset; var variabile1 variabile2 … variabilen; run; PROC CORR - Esempio Correlazione tra il numero medio di ore di utilizzo del telefono cellulare e del fisso al giorno. proc corr data=corso.telefonia; var cell_h fisso_h; run; Output PROC CORR - Esempio 20 c e 15 l l _ 10 h 5 1 2 3 f i sso_h Coefficiente di correlazione lineare ρ(X,Y): è un indice relativo, assume valori compresi tra -1 e 1. Se ρ >0 (ρ <0) la relazione tra X e Y è lineare positiva (negativa), se ρ =0 non c’è relazione lineare. 4 5 PROC CORR - Esempio Correlazione tra la durata media delle chiamate effettuate [durata_chiamate_e] e: • durata media delle chiamate ricevute [durata_chiamate_r] • numero medio di ore di utilizzo del telefono cellulare al giorno [cell_h] • numero medio di ore di utilizzo del telefono fisso al giorno [fisso_h] proc corr data=corso.telefonia; var durata_chiamate_e durata_chiamate_r cell_h fisso_h; run; Output PROC CORR - Esempio d 80 u r a 60 t a _ 40 c h i 20 a m 0 0 20 40 60 d u r a t a _ c h i a ma t e _ e 80 Esercizi Analisi Univariata Dataset Il dataset DENTI contiene dati sul consumo di dentifricio (di marca A e di marca B). Le variabili sono: # 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Variable CODCLI SESSO ETACLASS REGIONE PRESBAMB TRATTOT ALTOCON CONSTOT ACQTOT STOCKTOT TATTITOT TRIP CITYSIZE AREA ACQ_A STOCK_A CONS_A TRAT_A TATTI_A ACQ_B STOCK_B CONS_B TRAT_B TATTI_B Type Num Char Char Char Char Num Num Num Num Num Num Num Char Char Num Num Num Num Num Num Num Num Num Num Label CODICE CLIENTE SESSO CLASSE DI ETA' REGIONE ITALIANA PRESENZA BAMBINI CLIENTE ABITUALE DI DENTIFRICI SI/NO ALTO CONSUMANTE SI/NO TOTALE CONSUMO DI DENTIFRICI NEL PERIODO TOTALE ACQUISTI DI DENTIFRICI NEL PERIODO TOTALE ACCUMULO DI DENTIFRICI NEL PERIODO NUMERO DI CONTATTI PUBBLICITARI TOTALI PERIODO OSSERVAZIONE DIMENSIONE CITTA' DI RESIDENZA IN CLASSI AREA GEOGRAFICA ACQUISTI DI DENTIFRICI DELLA MARCA A NEL PERIODO ACCUMULO DI DENTIFRICI DELLA MARCA A NEL PERIODO CONSUMO DI DENTIFRICI DELLA MARCA A NEL PERIODO CLIENTE ABITUALE DI DENTIFRICI DELLA MARCA A SI/NO NUMERO DI CONTATTI PUBBLICITARI (DENTIFRICI MARCA A) ACQUISTI DI DENTIFRICI DELLA MARCA B NEL PERIODO ACCUMULO DI DENTIFRICI DELLA MARCA B NEL PERIODO CONSUMO DI DENTIFRICI DELLA MARCA B NEL PERIODO CLIENTE ABITUALE DI DENTIFRICI DELLA MARCA B SI/NO NUMERO DI CONTATTI PUBBLICITARI (DENTIFRICI MARCA B) Esercizi Analisi univariata Svolgere i seguenti esercizi utilizzando il dataset DENTI: 1. Allocare la libreria CORSO (che punta alla cartella che contiene il file DENTI.XLS) 2. Importare in formato SAS la tabella excel DENTI.XLS e chiamarla DENTI_NEW 3. Utilizzando la procedura più opportuna calcolare la distribuzione delle variabili - AREA - CONSTOT Esercizi Analisi univariata 4. Calcolare la distribuzione e le statistiche di sintesi (quando possibile) moda – mediana – q1 – q3 – media – varianza – max – min per le seguenti variabili (attenzione alla distinzione tra variabili qualitative nominali - qualitative ordinali - quantitative) - TATTITOT - ACQ_A - CITYSIZE - REGIONE 5. Verificare se i clienti abituali della marca B si distribuiscono in modo differente nelle diverse aree geografiche 6. Verificare se il consumo medio totale differisce tra uomini e donne Analisi preliminari – Analisi univariata 7. Verificare se ci sono missing nella variabile ETACLASS 8. Calcolare la distribuzione condizionata della variabile ALTOCON utilizzando come variabile di classificazione prima TRATTOT e poi AREA 9. Verificare simmetria e normalità della variabile TATTI_A e disegnarne il boxplot