Analisi Bivariata
Metodi Quantitativi per Economia,
Finanza e Management
Esercitazione n°4
PROC FREQ - Descrizione
La PROC FREQ permette di
• calcolare le distribuzioni di frequenza univariate
per variabili qualitative e quantitative discrete
• creare tabelle di contingenza a due o più
dimensioni per variabili qualitative e quantitative
discrete
• calcolare indici di dipendenza relativi a tabelle di
contingenza
PROC FREQ – Sintassi generale
Distribuzione di frequenza bivariata
proc freq data= dataset option(s);
tables variabile1 * variabile2 /option(s);
run;
OPTIONS:
• noprint non mostra i risultati nella finestra di output
• /missing considera anche i missing nel calcolo delle frequenze
PROC FREQ - Esempio
Variabili qualitative: sesso e operatore
telefonico
proc freq data=corso.telefonia;
table sesso * operatore;
run;
Output PROC FREQ - Esempio
Distribuzioni marginali:
frequenze marginali assolute
e relative
Frequenze congiunte
assolute e relative
Frequency
Percent
Row Pct
Col Pct
Table of sesso by operatore
sesso
operatore
3
Tim
F
7
2.97
7.00
58.33
27
11.44
27.00
49.09
63
26.69
63.00
40.91
3
1.27
3.00
20.00
100
42.37
M
5
2.12
3.68
41.67
28
11.86
20.59
50.91
91
38.56
66.91
59.09
12
5.08
8.82
80.00
136
57.63
Total
12
5.08
55
23.31
154
65.25
15
6.36
236
100.00
Frequenze
subordinate
Vodafone
Total
Wind
Output PROC FREQ - Esempio
freq. congiunta relativa =(7/236)*100
Frequency
Percent
Row Pct
Col Pct
freq. subordinate:
freq. marginale assoluta=7+27+63+3
Table of sesso by operatore
sesso
operatore
3
Tim
Vodafone
Total
Wind
F
7
27
63
3
100
2.97
11.44 26.69
1.27
42.37
7.00
27.00 63.00
3.00
58.33 freq.
49.09marginale
40.91 relativa=(7+27+63+3)/236*100
20.00
M
5
2.12
3.68
41.67
28
11.86
20.59
50.91
91
38.56
66.91
59.09
12
5.08
8.82
80.00
136
57.63
Total
12
5.08
55
23.31
154
65.25
15
6.36
236
100.00
% di riga=5/136*100
% di col=5/12*100
PROC FREQ - Descrizione
La PROC FREQ permette di
• calcolare le distribuzioni di frequenza univariate
per variabili qualitative e quantitative discrete
• creare tabelle di contingenza a due o più
dimensioni per variabili qualitative e quantitative
discrete
• calcolare indici di dipendenza relativi a tabelle di
contingenza
PROC FREQ – Sintassi generale
Calcolo dell’indice chi-quadro
proc freq data= dataset option(s);
tables variabile1 * variabile2 /option(s);
run;
OPTIONS:
• noprint non mostra i risultati nella finestra di output
• /missing considera anche i missing nel calcolo delle frequenze
• /chisq calcola l’indice chi-quadro e altre misure di
associazione basate sul chi-quadro
PROC FREQ - Esempio
Associazione tra variabili qualitative: sesso e
operatore telefonico
proc freq data=corso.telefonia;
table sesso * operatore /chisq;
run;
Output PROC FREQ - Esempio 1/2
Tabella di contingenza:
Frequency
Percent
Row Pct
Col Pct
Table of sesso by operatore
sesso
operatore
Vodafone
Total
3
Tim
Wind
F
7
2.97
7.00
58.33
27
11.44
27.00
49.09
63
26.69
63.00
40.91
3
1.27
3.00
20.00
100
42.37
M
5
2.12
3.68
41.67
28
11.86
20.59
50.91
91
38.56
66.91
59.09
12
5.08
8.82
80.00
136
57.63
Total
12
5.08
55
23.31
154
65.25
15
6.36
236
100.00
Output PROC FREQ - Esempio 2/2
Misure di associazione:
Statistic
DF
Value
Prob
Chi-Square
3
5.4784
0.1399
Likelihood Ratio Chi-Square
3
5.7417
0.1249
Mantel-Haenszel Chi-Square
1
4.7975
0.0285
Phi Coefficient
0.1524
Contingency Coefficient
0.1506
Cramer's V
0.1524
Chi-quadrato assume valore nullo se i due fenomeni sono indipendenti.
Indice di Cramer V è basato sul χ², assume valori compresi tra 0 e 1. E’
uguale a 0 nel caso di indipendenza statistica.
PROC CORR - Descrizione
La PROC CORR permette di
• calcolare la correlazione tra due o più variabili
quantitative
PROC CORR – Sintassi generale
Correlazione tra due variabili
proc corr data= dataset;
var variabile1;
with variabile2;
run;
PROC CORR - Esempio
Correlazione tra il numero medio di ore di
utilizzo del telefono cellulare e del fisso al
giorno.
proc corr data=corso.telefonia;
var cell_h;
with fisso_h;
run;
Output PROC CORR - Esempio
1 With
Variables:
1 Variables:
fisso_h
20
c
cell_h
e
15
l
l
Variable
fisso_h
cell_h
N
10
Simple Statistics
_
h
Mean Std Dev
Sum
5
208 0.67933 0.72715 141.3
236 2.43644 3.90018
575
Minimum
Maximum Label
0.05
5 fisso_h
0.25
24 cell_h
1
Pearson Correlation Coefficients
Prob > |r| under H0: Rho=0
Number of Observations
cell_h
0.24403
fisso_h
fisso_h
0.0004
208
2
3
4
f i sso_h
Coefficiente di correlazione
lineare ρ(X,Y): è un indice
relativo, assume valori
compresi tra -1 e 1. Se ρ >0
(ρ <0) la relazione tra X e Y
è lineare positiva (negativa),
se ρ =0 non c’è relazione
lineare.
5
PROC CORR – Sintassi generale
Correlazione tra più variabili
proc corr data= dataset;
var variabile1;
with variabile2 variabile3 variabile4;
run;
PROC CORR - Esempio
Correlazione tra la durata media delle chiamate effettuate e:
• durata media delle chiamate ricevute,
• numero medio di ore di utilizzo del telefono cellulare al giorno,
• numero medio di ore di utilizzo del telefono fisso al giorno.
proc corr data=corso.telefonia;
var durata_chiamate_e;
with durata_chiamate_r cell_h fisso_h;
run;
Output PROC CORR - Esempio
3 With Variables:
1 Variables:
Variable
durata_chiamate_r
cell_h
fisso_h
durata_chiamate_e
durata_chiamate_r
cell_h fisso_h
durata_chiamate_e
N
Simple Statistics
Mean
Std Dev Sum Minimum Maximum
Label
236 12.02119 12.57706 2837
0
90 durata_chiamate_r
236 2.43644 3.90018 575
208 0.67933 0.72715 141.3
236 11.16314 12.40367 2635
Pearson Correlation Coefficients
Prob > |r| under H0: Rho=0
Number of Observations
durata_chiamate_e
0.78645
durata_chiamate_r
durata_chiamate_r
cell_h
<.0001
236
0.23099
fisso_h
0.0003
236
0.24568
cell_h
fisso_h
0.0003
208
d
0.25
0.05
0
24 cell_h
5 fisso_h
90 durata_chiamate_e
80
u
r
a
60
t
a
_
40
c
h
i
20
a
m
0
0
20
40
60
d u r a t a _ c h i a ma t e _ e
80
Scarica

proc freq