Esempio di data set su foglio elettronico.
Variabili e dati sul Piano integrato Territoriale (PIT) “Serre vibonesi”
N=24, m=13
Codice
101
106
114
116
141
144
146
149
151
153
157
179
182
184
198
200
212
228
232
235
236
240
252
253
NOME
Acquaro
Aren a
Brogn aturo
Capis trano
Dasa'
Dinam i
Fab rizia
Fil adel fia
Fil ogas o
Fran cavil l
Gerocarne
Mongi ana
Monte rosso
Nardod ipac
Pizzoni
Poli a
San Ni col a
Serra San
Simb ario
Soria nell o
Soria no Ca
Spad ola
Val lelo nga
Vazzano
SUP POPRES DENS9 9 VEC98 DIP98 LUADIP TANAL F VPR998 1 TIM
253 2
301 8
119 .2 104 .1
63.7
13.4
14.6
-8.4 -14.4
323 5
198 3
61.3 102 .1
62.5
15.0
14.3
-15.2
-4.6
245 0
801
32.7
82.5
66.2
16.5
4.9
-0.2 -10.2
209 4
124 4
59.4 118 .9
61.8
8.0
15.7
-4.2
-6.4
619
137 8
222 .6 164 .8
61.1
5.5
11.4
-14.0
-5.7
440 6
322 2
73.1
68.7
60.0
7.6
12.3
-0.9
-8.3
387 8
277 6
71.6
95.8
63.7
6.0
15.6
-17.0 -15.0
304 8
674 2
221 .2 109 .2
57.3
11.1
12.2
-20.6 -24.0
236 9
139 0
58.7
58.2
53.3
9.5
10.0
18.2
-4.7
282 5
267 0
94.5
95.0
56.4
7.8
9.1
-12.4 -17.3
449 3
263 3
58.6
78.6
58.8
7.9
14.1
-12.9 -23.5
207 0
848
41.0
86.8
63.8
10.4
10.8
-14.2 -19.1
181 6
206 3
113 .6 147 .3
58.5
18.7
9.5
-11.2
-6.9
327 8
153 2
46.7
97.0
63.7
4.7
14.8
-25.8 -17.2
232 3
144 0
62.0 128 .8
63.3
10.5
16.8
-19.8 -14.9
317 8
129 0
40.6 153 .0
78.5
14.6
15.7
-16.9 -16.9
193 2
172 7
89.4 164 .7
76.0
18.0
16.8
-11.0
-6.4
395 8
689 4
174 .2 106 .4
52.8
17.8
9.3
8.2
-2.1
192 5
113 9
59.2 130 .4
72.3
20.1
9.6
-20.5
-8.1
972
168 2
173 .0
62.0
55.9
10.2
14.7
-0.6
-8.7
151 7
315 4
207 .9
77.7
52.7
15.9
8.7
1.6
-9.2
958
818
85.4 116 .8
54.8
20.3
7.6
6.1
-0.5
175 3
852
48.6 138 .5
66.9
15.0
15.2
1.5
-1.2
198 5
128 3
64.6 131 .3
56.7
14.1
9.6
4.4
-0.8
TIN
IMPRLA TIMPR DENSOC
2.2
47.2
29.4
38.2
0.2
47.9
24.8
30.6
3.8
42.0
25.2
57.9
0.6
42.1
22.0
26.6
-2.9
45.4
50.2
71.2
6.5
59.9
33.5
47.0
2.4
55.5
39.5
58.4
3.5
47.8
35.5
57.9
6.0
72.1
39.9
97.2
2.6
33.4
16.3
26.6
5.5
44.8
29.9
38.2
2.8
44.8
26.8
51.4
-2.7
53.2
47.4
64.3
3.2
26.7
15.0
23.4
-2.5
51.8
25.2
36.4
-2.4
48.8
28.2
53.6
-3.8
46.1
27.1
35.4
5.3
54.0
44.5
72.6
-0.6
57.6
28.8
36.2
8.5
71.3
31.3
57.2
5.9
103 .3
65.8
110 .9
-0.7
45.0
69.7
99.3
-2.8
40.6
30.5
36.3
-2.8
56.4
31.8
44.2
Esempio di data set
su pacchetto
applicativo.
STATISTICA
Caratteristiche di alcune
automobili: m=5 variabili
per n=22 unità.
Modello relazionale dei dati
Deriva dal concetto matematico di RELAZIONE
Noti gli insiemi
S1 , S2 ,,Sm
coincidenti ognuno con un dominio
"d" è una RELAZIONE se si configura come una "m-tupla" ordinata di valori
d  d1,d2 ,,dm 
tali che
d1 S1 , d 2 S2 , , d m Sm
E' evidente che "d" coincide con una osservazione
“d” è un elemento del prodotto cartesiano di insiemi
D  S1  S2 Sm
Che costituisce lo SPAZIO DEI DATI
Lo spazio dei dati
Su ogni unità si rilevano "m" variabili
X1 , X2 ,  , X m
Continuo
Quantitativo
Ogni variabile ha un suo dominio
Discreto
Ordinale
S1 , S2 ,,Sm
Qualitativo
Si possono analizzare in tutto "N" unità (ma N può essere molto grande)
P  U1,U2 ,, UN
P è la popolazione (o universo) formata da tutte e solo le unità di interesse di
una ricerca
Su ogni unità è possibile rilevare un insieme di "m" informazioni detto
vettore della osservazione
Xi  Xi1,X i2 ,,Xim , i 1,2,, N
La matrice dei dati
Una rilevazione consiste nella osservazione delle variabili sulle unità
Le osservazioni sono i vettori
Xi , i  1, 2,, n
I cui valori formano la MATRICE DEI DATI
ESEMPIO
Lo staff tecnico di una organizzazione è composto da 6 persone: Donne o
uomini, laureate o no, residenti, vicini, fuori sede.
SPAZIO DEI DATI
D,L,R,u1 D,L,V,u1 D,L,F,u1 D,L,R,u2 D,L,V,u2 D,L,F,u2 D,L,R,u3 D,L,V,u3 D,L,F,u3
D,N,R,u1 D,N,V,u1 D,N,F,u1 D,N,R,u2 D,N,V,u2 D,N,F,u2 D,N,R,u3 D,N,V,u3 D,N,F,u3
U,L,R,u1 U,L,V,u1 U,L,F,u1 U,L,R,u2 U,L,V,u2 U,L,F,u2 U,L,R,u3 U,L ,V,u3 U,L,F,u3
U,N,R,u1 U,N,V,u1 U,N,F,u1 U,N,R,u2 U,N,V,u2 U,N,F,u2 U,N,R,u3 U,N,V,u3 U,N,F,u3
D,L,R,u4 D,L,V,u4 D,L,F,u4 D,L,R,u5  D,L,V,u5 D,L,F,u5 D,L,R,u6 D,L,V,u6 D,L,F,u6
D,N,R,u4 D,N,V,u4 D,N,F ,u4  D,N,R,u5 D,N,V,u5 D,N,F,u5 D,N,R,u6 D,N,V,u6 D,N,F,u6
U,L,R,u4 U,L,V,u4 U,L,F,u4 U,L,R,u5 U,L,V,u5 U,L,F,u5 U,L,R,u6 U,L,V,u6 U,L,F,u6
U,N,R,u4 U,N,V,u4 U,N,F ,u4  U,N,R,u5  U,N,V,u5 U,N,F,u5 U,N,R,u6 U,N,V,u6 U,N,F,u6
Ciò che era possibile osservare
MATRICE DEI DATI
Persona
u1
u2
u3
u4
u5
u6
Sesso
D
D
D
D
D
U
Titolo
L
L
L
L
N
N
Residenza
F
V
V
R
R
V
Ciò che si è effettivamente osservato
Le dimensioni della matrice dei dati
La matrice dei dati ha dimensioni n
x m
n
è il numero di righe dove ogni riga (record) corrisponde ad una unità
m
è il numero di colonne dove ognuna corrispondente ad una variabile
indagine sul self-service
di una biblioteca
meta-dato
Matrice dei dati = data set
Insieme strutturato di informazioni
n=20
m=5
Nome
A.C .
Gi udizi o
N.li bri
6
Tempo
6
Posiz.
Col l.
Cor so
A.R .
10
6
4
DES
A.G.
6
11
Doc
A.T
5
1
FC
D.I.
6
5
DIp
D.S.
7
8
FC
F.D .
11
5
Doc
G.A.
1
4
2
DU S
Otti mo
G.G.
10
1
3
DES
Buono
G.L.
2
1
Est.
G.P.
8
6
4
SSA
Pessimo
G.S.
4
12
L.F.
2
7
1
M.B.
8
8
Doc
M.P.
8
3
3
DEAI
P.A.
5
5
4
SSA
P.C .
8
2
FC
R.B.
6
4
2
DES
R.T.
1
4
2
EA
S.B.
5
2
Doc
Medi o
Medi o
Pessimo
EA
Medi o
Pessimo
SSA
Medi o
Otti mo
Medi o
Imp
Catti vo
EA
Catti vo
Pessimo
Otti mo
Medi o
Medi o
Catti vo
Buono
Otti mo
I dati mancanti
I cosiddetti missing values
insanabili.
sono quelli dovuti a mancate rilevazioni
Derivano anche da mancate risposte o rilevazioni manifestamente
sbagliate o illogiche.
L'elaborazione dei dati non consente vuoti nelle celle. Se mancano i
dati si adotta un codice convenzionale
ESEMPIO
Numero di permessi sindacali
concessi da ammininistrazioni
pubbliche.
Le sedi che non hanno risposto
sono indicate con "-99"
E' anche interessante capire
il perché dei "missing values"
Rilevazione dei dati
133
204
94
209
71
145
204
197
242
197
-99
72
93
182
115
156
245
67
165
232
222
181
199
-99
118
235
130
214
230
220
249
126
203
-99
88
158
188
236
139
200
127
233
91
141
184
237
149
219
128
187
64
115
116
114
188
153
144
82
185
227
243
168
232
115
112
137
-99
87
88
74
204
122
128
68
98
103
177
67
192
62
70
213
117
80
182
94
243
74
-99
122
120
153
-99
156
92
240
-99
128
72
Analisi univariata e multivariata
Ogni problema è una ragnatela: se si tocca un filo tutti gli altri vibrano.
Lo stesso succede per le variabili.
Lo studio univariato ha solo scopo didattico. Nella pratica i dati sono
sempre multivariati
ESEMPIO: dove vanno gli studenti
Nord
numero
%
286555 83.6
Nord Ovest 18783 5.5
Nord Est 27308 8.0
Altre Centro 9149 2.7
929 0.3
r egioni Sud
Totale 56169 16.4
Italia 342724 100 .0
Stessa regione
Centro
Sud
numero
% numero
%
178692 90.7 253887 74.7
1526 0.8 8378 2.5
4749 2.4 11312 3.3
9396 4.8 38800 11.4
2756
1.4 27296 8.0
18427 9.3 85786 25.3
197119 100.0 339663 100.0
Totale
numero
%
719.124 81.8
28687 3.3
43369 4.9
57345 6.5
30981 3.5
160382 18.2
879506 100.0
La lettura di una tabella a più variabili non è difficile.
Lo è la generalizzazione dei risultati
I metadati
Sono codici che identificano in modo sintetico e senza ambiguità
le unità
Esempi:
Se si tratta di persone il record include nome e cognome e altre
informazioni età, sesso, professione
Nel caso di imprese: settore produttivo, forma societaria, dipendenti,
sede degli stabilimenti.
Per dati territoriali è inserito il riferimento geografico delle unità.
I metadati sono dei dati per accedere ad altri dati. Sono il mezzo di
contatto tra rilevazioni diverse sulle stesse unità
La codifica
Le denominazioni delle modalità sono talvolta lunghe o espresse con
termini scomodi che complicano il ragionamento.
Si stabiliscono abbreviazioni (codifica) per facilitarne la trattazione
informatica e saranno poi queste a comparire nella matrice dei dati.
ESEMPIO:
In una indagine internazionale sulla distribuzione dei redditi, il
grado di copertura della popolazione venne rilevato con il dominio
S={NL, URB, NAG, RRL, AG}
che sono abbreviazioni di
{national, urban, nonagricultural, rural, agricultural}
La codifica è utile per sveltire le operazioni di trasferimento dei dati dai
moduli con cui sono acquisite (questionari, schede di richiesta, fogli di
controllo, etc.) e per limitare le sviste nella trascrizione.
Scarica

L270505