Analisi Bivariata
&
Esercizi
Analisi Univariata
Metodi Quantitativi per Economia,
Finanza e Management
Esercitazione n°4
Analisi Bivariata
PROC FREQ - Descrizione
La PROC FREQ permette di
• calcolare le distribuzioni di frequenza univariate
per variabili qualitative e quantitative discrete
• creare tabelle di contingenza a due o più
dimensioni per variabili qualitative e quantitative
discrete
PROC FREQ – Sintassi generale
Distribuzione di frequenza bivariata
proc freq data= dataset option(s);
tables variabile1 * variabile2 /option(s);
run;
OPTIONS:
• noprint non mostra i risultati nella finestra di output
• /missing considera anche i missing nel calcolo delle frequenze
PROC FREQ - Esempio
Variabili qualitative: sesso e operatore
telefonico
proc freq data=corso.telefonia;
table sesso * operatore;
run;
Output PROC FREQ - Esempio
Distribuzioni marginali:
frequenze marginali assolute
e relative
Frequenze congiunte
assolute e relative
Frequency
Percent
Row Pct
Col Pct
Table of sesso by operatore
sesso
operatore
Tre
Tim
F
7
2.97
7.00
58.33
27
11.44
27.00
49.09
63
26.69
63.00
40.91
3
1.27
3.00
20.00
100
42.37
M
5
2.12
3.68
41.67
28
11.86
20.59
50.91
91
38.56
66.91
59.09
12
5.08
8.82
80.00
136
57.63
Total
12
5.08
55
23.31
154
65.25
15
6.36
236
100.00
Frequenze
subordinate
Vodafone
Total
Wind
Output PROC FREQ - Esempio
freq. congiunta relativa =(7/236)*100
Frequency
Percent
Row Pct
Col Pct
freq. subordinate:
freq. marginale assoluta=7+27+63+3
Table of sesso by operatore
sesso
operatore
Tre
Tim
Vodafone
Total
Wind
F
7
27
63
3
100
2.97
11.44 26.69
1.27
42.37
7.00
27.00 63.00
3.00
58.33 freq.
49.09marginale
40.91 relativa=(7+27+63+3)/236*100
20.00
M
5
2.12
3.68
41.67
28
11.86
20.59
50.91
91
38.56
66.91
59.09
12
5.08
8.82
80.00
136
57.63
Total
12
5.08
55
23.31
154
65.25
15
6.36
236
100.00
% di riga=5/136*100
% di col=5/12*100
PROC CORR - Descrizione
La PROC CORR permette di
• calcolare la correlazione tra due o più variabili
quantitative
PROC CORR – Sintassi generale
Correlazione tra due o più variabili
proc corr data= dataset;
var variabile1 variabile2 … variabilen;
run;
PROC CORR - Esempio
Correlazione tra il numero medio di ore di
utilizzo del telefono cellulare e del fisso al
giorno.
proc corr data=corso.telefonia;
var cell_h fisso_h;
run;
Output PROC CORR - Esempio
20
c
e
15
l
l
_
10
h
5
1
2
3
f i sso_h
Coefficiente di correlazione
lineare ρ(X,Y): è un indice
relativo, assume valori
compresi tra -1 e 1. Se ρ >0
(ρ <0) la relazione tra X e Y
è lineare positiva (negativa),
se ρ =0 non c’è relazione
lineare.
4
5
PROC CORR - Esempio
Correlazione tra la durata media delle chiamate effettuate
[durata_chiamate_e] e:
• durata media delle chiamate ricevute
[durata_chiamate_r]
• numero medio di ore di utilizzo del telefono cellulare al giorno
[cell_h]
• numero medio di ore di utilizzo del telefono fisso al giorno
[fisso_h]
proc corr data=corso.telefonia;
var durata_chiamate_e durata_chiamate_r
cell_h fisso_h;
run;
Output PROC CORR - Esempio
d
80
u
r
a
60
t
a
_
40
c
h
i
20
a
m
0
0
20
40
60
d u r a t a _ c h i a ma t e _ e
80
Esercizi
Analisi Univariata
Dataset
Il dataset DENTI contiene dati sul consumo di dentifricio (di
marca A e di marca B). Le variabili sono:
#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Variable
CODCLI
SESSO
ETACLASS
REGIONE
PRESBAMB
TRATTOT
ALTOCON
CONSTOT
ACQTOT
STOCKTOT
TATTITOT
TRIP
CITYSIZE
AREA
ACQ_A
STOCK_A
CONS_A
TRAT_A
TATTI_A
ACQ_B
STOCK_B
CONS_B
TRAT_B
TATTI_B
Type
Num
Char
Char
Char
Char
Num
Num
Num
Num
Num
Num
Num
Char
Char
Num
Num
Num
Num
Num
Num
Num
Num
Num
Num
Label
CODICE CLIENTE
SESSO
CLASSE DI ETA'
REGIONE ITALIANA
PRESENZA BAMBINI
CLIENTE ABITUALE DI DENTIFRICI SI/NO
ALTO CONSUMANTE SI/NO
TOTALE CONSUMO DI DENTIFRICI NEL PERIODO
TOTALE ACQUISTI DI DENTIFRICI NEL PERIODO
TOTALE ACCUMULO DI DENTIFRICI NEL PERIODO
NUMERO DI CONTATTI PUBBLICITARI TOTALI
PERIODO OSSERVAZIONE
DIMENSIONE CITTA' DI RESIDENZA IN CLASSI
AREA GEOGRAFICA
ACQUISTI DI DENTIFRICI DELLA MARCA A NEL PERIODO
ACCUMULO DI DENTIFRICI DELLA MARCA A NEL PERIODO
CONSUMO DI DENTIFRICI DELLA MARCA A NEL PERIODO
CLIENTE ABITUALE DI DENTIFRICI DELLA MARCA A SI/NO
NUMERO DI CONTATTI PUBBLICITARI (DENTIFRICI MARCA A)
ACQUISTI DI DENTIFRICI DELLA MARCA B NEL PERIODO
ACCUMULO DI DENTIFRICI DELLA MARCA B NEL PERIODO
CONSUMO DI DENTIFRICI DELLA MARCA B NEL PERIODO
CLIENTE ABITUALE DI DENTIFRICI DELLA MARCA B SI/NO
NUMERO DI CONTATTI PUBBLICITARI (DENTIFRICI MARCA B)
Esercizi Analisi univariata
Svolgere i seguenti esercizi utilizzando il dataset DENTI:
1. Allocare la libreria CORSO (che punta alla cartella che
contiene il file DENTI.XLS)
2. Importare in formato SAS la tabella excel DENTI.XLS e
chiamarla DENTI_NEW
3. Utilizzando la procedura più opportuna calcolare la
distribuzione delle variabili
- AREA
- CONSTOT
Esercizi Analisi univariata
4. Si può affermare che l’insieme degli intervistati è costituito
principalmente da donne?
5. Determinare l’accumulo medio di dentifrici della marca A
(STOCK_A)
6. Determinare la percentuale di clienti che hanno ricevuto
meno di 11 contatti pubblicitari (TATTITOT)
7. Verificare se i clienti abituali della marca B si
distribuiscono in modo differente nelle diverse aree
geografiche
8. Verificare se il consumo medio totale differisce tra uomini e
donne
Analisi preliminari – Analisi univariata
9. Verificare se ci sono missing nella variabile ETACLASS
10. Calcolare la distribuzione condizionata della variabile
ALTOCON utilizzando come variabile di classificazione
prima TRATTOT e poi AREA
11. Verificare simmetria e normalità della variabile numero di
contatti pubblicitari della marca A (TATTI_A) e disegnarne
il boxplot
Scarica

proc freq