Analisi Univariata
Metodi Quantitativi per Economia,
Finanza e Management
Esercitazione n°3
Forma della Distribuzione
• La forma della distribuzione si dice simmetrica se le osservazioni
sono bilanciate, o distribuite in modo approssimativamente regolare
attorno al centro.
Distribuzione Simmetrica
120
100
60
40
20
0
Frequenza
80
10
9
8
7
6
5
4
3
2
1
0
1
2
3
4
5
6
7
8
9
Forma della Distribuzione
• La forma della distribuzione è detta asimmetrica se le
osservazioni non sono distribuite in modo simmetrico
rispetto al centro.
Distribuzione con Asimmetria Positiva
12
10
Frequenza
Una distribuzione con asimmetria
positiva (obliqua a destra) ha una
coda che si estende a destra, nella
direzione dei valori positivi.
8
6
4
2
0
1
2
3
4
5
6
7
8
9
8
9
Distribuzione con Asimmetria Negativa
12
10
Frequenza
Una distribuzione con asimmetria
negativa (obliqua a sinistra) ha una
coda che si estende a sinistra, nella
direzione dei valori negativi.
8
6
4
2
0
1
2
3
4
5
6
7
Misure di Forma della Distribuzione
• Descrive come i dati sono distribuiti
• Misure della forma
– Simmetrica o asimmetrica
Obliqua a sinistra
Media < Mediana
Simmetrica
Media = Mediana
Obliqua a destra
Mediana < Media
Misure di Forma della Distribuzione
Skewness: indice che informa circa il grado di simmetria o
asimmetria di una distribuzione.
– γ=0 ditribuzione simmetrica;
– γ<0 asimmetria negativa (mediana>media);
– γ>0 asimmetria positiva (mediana<media).
Kurtosis: indice che permette di verificare se i dati seguono una
distribuzione di tipo Normale (simmetrica).
– β=3 se la distribuzione è “Normale”;
– β<3 se la distribuzione è iponormale (rispetto alla
distribuzione di una Normale ha densità di frequenza minore
per valori molto distanti dalla media);
– β>3 se la distribuzione è ipernormale (rispetto alla
distribuzione di una Normale ha densità di frequenza
maggiore per i valori molto distanti dalla media).
Esempio
Importo totale accredito stipendio
Skewness>0 asimmetria positiva (mediana<media).
Kurtosis<3 : la distribuzione è iponormale (rispetto alla
distribuzione di una Normale ha densità di frequenza
minore per valori molto distanti dalla media);
Output in HTML
PROC FREQ - Descrizione
La PROC FREQ permette di calcolare le
distribuzioni di frequenza univariate per variabili
qualitative e quantitative discrete
PROC FREQ – Sintassi generale 1/2
Distribuzione di frequenza univariata
proc freq data= dataset options;
tables variabile /options;
run;
OPTIONS:
• noprint non mostra i risultati nella finestra di output
• /missing considera anche i missing nel calcolo delle frequenze
PROC FREQ: Esempio 1
Variabile qualitativa: operatore telefonico
proc freq data=corso.telefonia;
table operatore;
run;
Output PROC FREQ
Frequenza assoluta:
consiste nell’associare a
ciascuna categoria, o
modalità, il numero di volte
in cui compare nei dati
operatore
Frequenza relativa:
rapporto tra la frequenza
assoluta ed il numero
complessivo delle
osservazioni effettuate
Frequency
Percent
Frequenze
cumulate
Cumulative
Cumulative
Frequency
Percent
Tim
55
23.31
55
23.31
Tre
12
5.08
67
28.39
Vodafone
154
65.25
221
93.64
Wind
15
6.36
236
100
PROC FREQ: Esempio 2
Variabile quantitativa discreta:
numero medio giorni utilizzo alla settimana telefono fisso
proc freq data=corso.telefonia;
table fisso_g;
run;
Output PROC FREQ
fisso_g
fisso_g Frequency Percent Cumulative Cumulative
Frequency Percent
0
27
11.44
27
11.44
9
3.81
36
15.25
1
10
4.24
46
19.49
2
19
8.05
65
27.54
3
21
8.90
86
36.44
4
14
5.93
100
42.37
5
19
8.05
119
50.42
6
9
3.81
128
54.24
7
108
45.76
236
100.00
0.5
PROC FREQ: Esempio 3
Variabile qualitativa:
secondo motivo di utilizzo mezzi di comunicazione
proc freq data=corso.telefonia;
table motivo_utilizzo_2 / missing;
run;
OPZIONE missing: considera
anche i missing nel calcolo
delle frequenze
Output PROC FREQ
MISSING
motivo_utilizzo_2
Frequency Percent Cumulative Cumulative
Frequency Percent
24
10.17
24
10.17
Altro
2
0.85
26
11.02
Famigliari
40
16.95
66
27.97
Partner
22
9.32
88
37.29
Piacere/Tempo libero 128
54.24
216
91.53
Studio
8.47
236
100.00
20
Output PROC FREQ
motivo_utilizzo_2
Altro
Frequency Percent Cumulative Cumulative
Frequency Percent
2
0.94
2
0.94
Famigliari
40
18.87
42
19.81
Partner
22
10.38
64
30.19
128
60.38
192
90.57
20
9.43
212
100.00
Piacere/Tempo libero
Studio
Frequency Missing = 24
PROC FREQ – Sintassi generale 2/2
Distribuzione di frequenza univariata con
variabile di classificazione
proc freq data= dataset options;
by variabile_1;
tables variabile_2 /options;
run;
PROC FREQ: Esempio 4
Distribuzione di frequenza univariata con variabile di
classificazione
proc sort data=corso.telefonia;
by sesso;
run;
proc freq data=corso.telefonia;
by sesso;
tables operatore;
run;
PROC SORT:
ordinare le
osservazioni in base
alla variabile di by
Output PROC FREQ
sesso=F
operatore
Frequency
Percent
Cumulative
Frequency
Cumulative
Percent
Tim
27
27.00
27
27.00
Tre
7
7.00
34
34.00
63
63.00
97
97.00
3
3.00
100
100.00
Vodafone
Wind
sesso=M
operatore
Frequency
Percent
Cumulative
Frequency
Cumulative
Percent
Tim
28
20.59
28
20.59
Tre
5
3.68
33
24.26
Vodafone
91
66.91
124
91.18
Wind
12
8.82
136
100.00
PROC UNIVARIATE - Descrizione
La PROC UNIVARIATE permette di calcolare
• misure di sintesi di posizione, variabilità, forma per
variabili quantitative continue
PROC UNIVARIATE – Sintassi 1/2
Distribuzione di frequenza univariata
proc univariate data= dataset options;
var variabile;
run;
OPTIONS:
• noprint non mostra i risultati nella finestra di output
PROC UNIVARIATE – Esempio 1
Misure di sintesi della variabile quantitativa discreta
numero medio sms inviati al giorno
proc univariate data=corso.telefonia;
var num_sms_e;
run;
Output PROC UNIVARIATE (1/5)
Misure di tendenza centrale
• Media aritmetica: somma dei valori diviso il numero di valori
• Mediana: in una lista ordinata, la mediana è il valore
“centrale” (50% sopra, 50% sotto)
• Moda: valore che occorre più frequentemente
Basic Statistical Measures
Location
Variability
Mean
24.31356
Std Deviation
28.46175
Median
10.00000
Variance
810.07147
Mode
10.00000
Range
100.00000
Interquartile Range
25.00000
Output PROC UNIVARIATE (2/5)
Misure di Variabilità
• Scarto Quadratico Medio [Std Deviation]: mostra la variabilità rispetto alla
media
• Varianza [Variance]: media dei quadrati delle differenze fra ciascuna
osservazione e la media
• Campo di Variazione [Range]: differenza tra il massimo e il minimo dei
valori osservati
• Differenza Interquartile
[Interquartile Range]:
3° quartile – 1° quartile
Basic Statistical Measures
Location
Variability
Mean
24.31356
Std Deviation
28.46175
Median
10.00000
Variance
810.07147
Mode
10.00000
Range
100.00000
Interquartile Range
25.00000
Output PROC UNIVARIATE (3/5)
Quantiles (Definition 5)
Quantile
Estimate
100% Max
100
99%
100
95%
100
90%
70
75% Q3
30
50% Median
10
25% Q1
5
10%
2
5%
2
1%
1
0% Min
0
I Quartili dividono la sequenza ordinata dei
dati in 4 segmenti contenenti lo stesso
numero di valori
•
•
•
Il primo quartile, Q1, è il valore per il quale il
25% delle osservazioni sono minori di esso
e il 75% sono maggiori
Q2 coincide con la mediana (50% sono
minori, 50% sono maggiori)
Il terzo quartile, Q3, è il valore per il quale il
75% delle osservazioni sono minori di esso
e il 25% sono maggiori
Output PROC UNIVARIATE (4/5)
• Coeff di variazione [Coeff Variation]: misura la variabilità relativa
rispetto alla media (%)
 s
CV  
 |x |

 100%

Moments
N
236
Sum Weights
236
Mean
24.3135593 Sum Observations
5738
Std Deviation
28.4617546 Variance
810.071475
Skewness
1.59619131 Kurtosis
1.44200254
Uncorrected SS 329878
Corrected SS
190366.797
Coeff Variation
Std Error Mean
1.85270242
117.061242
Output PROC UNIVARIATE (5/5)
Misure di Forma della Distribuzione
•
•
Skewness: indice che informa circa il
grado di simmetria o asimmetria di una
distribuzione
– γ=0 distribuzione simmetrica
– γ<0 asimmetria negativa
(mediana>media)
– γ>0 asimmetria positiva (mediana<media)
Kurtosis: indice che permette di
verificare se i dati seguono una
distribuzione di tipo Normale
(simmetrica)
– β=3 se la distribuzione è “Normale”
– β<3 se la distribuzione è iponormale
– β>3 se la distribuzione è ipernormale
Moments
N
236
Sum Weights
236
Mean
24.3135593 Sum Observations
5738
Std Deviation
28.4617546 Variance
810.071475
Skewness
1.59619131 Kurtosis
1.44200254
Uncorrected SS 329878
Corrected SS
190366.797
Coeff Variation
Std Error Mean
1.85270242
117.061242
PROC UNIVARIATE – Esempio 2
Misure di sintesi della variabile quantitativa continua
numero medio ore utilizzo al giorno telefono cellulare
proc univariate data=corso.telefonia;
var cell_h;
run;
PROC UNIVARIATE – Sintassi 2/2
Distribuzione di frequenza univariata con
variabile di classificazione
proc univariate data= dataset options;
class variabile_1 (options);
var variabile_2;
run;
OPTIONS:
• noprint non mostra i risultati nella finestra di output
• (missing) considera anche la categoria “missing” (contenente tutti i
valori mancanti) della variabile di classificazione
PROC UNIVARIATE – Esempio 3
Misure di sintesi della variabile numero medio ore
utilizzo al giorno telefono cellulare suddivisa per sesso
proc univariate data=corso.telefonia;
class sesso;
var cell_h;
run;
PROC UNIVARIATE – Esempio 4
Misure di sintesi della variabile numero medio ore
utilizzo al giorno telefono cellulare suddivisa per
hobby con opzione “missing”
proc univariate data=corso.telefonia;
class hobby_3(missing);
var cell_h;
run;
BOX PLOT
X
minimo
25%
Q1
Mediana
Q3
(Q2)
25%
25%
X
massimo
25%
Sequenza ordinata di valori assunti da una variabile
Differenza Interquartile
OUTLIERS:
Q1 - 1,5 * Differenza interquartile
Q3 + 1,5 * Differenza interquartile
SAS INSIGHT: Box Plot (1/2)
SAS INSIGHT: Box Plot (2/2)
Scarica

proc freq