Esempio di data set su foglio elettronico. Variabili e dati sul Piano integrato Territoriale (PIT) “Serre vibonesi” N=24, m=13 Codice 101 106 114 116 141 144 146 149 151 153 157 179 182 184 198 200 212 228 232 235 236 240 252 253 NOME Acquaro Aren a Brogn aturo Capis trano Dasa' Dinam i Fab rizia Fil adel fia Fil ogas o Fran cavil l Gerocarne Mongi ana Monte rosso Nardod ipac Pizzoni Poli a San Ni col a Serra San Simb ario Soria nell o Soria no Ca Spad ola Val lelo nga Vazzano SUP POPRES DENS9 9 VEC98 DIP98 LUADIP TANAL F VPR998 1 TIM 253 2 301 8 119 .2 104 .1 63.7 13.4 14.6 -8.4 -14.4 323 5 198 3 61.3 102 .1 62.5 15.0 14.3 -15.2 -4.6 245 0 801 32.7 82.5 66.2 16.5 4.9 -0.2 -10.2 209 4 124 4 59.4 118 .9 61.8 8.0 15.7 -4.2 -6.4 619 137 8 222 .6 164 .8 61.1 5.5 11.4 -14.0 -5.7 440 6 322 2 73.1 68.7 60.0 7.6 12.3 -0.9 -8.3 387 8 277 6 71.6 95.8 63.7 6.0 15.6 -17.0 -15.0 304 8 674 2 221 .2 109 .2 57.3 11.1 12.2 -20.6 -24.0 236 9 139 0 58.7 58.2 53.3 9.5 10.0 18.2 -4.7 282 5 267 0 94.5 95.0 56.4 7.8 9.1 -12.4 -17.3 449 3 263 3 58.6 78.6 58.8 7.9 14.1 -12.9 -23.5 207 0 848 41.0 86.8 63.8 10.4 10.8 -14.2 -19.1 181 6 206 3 113 .6 147 .3 58.5 18.7 9.5 -11.2 -6.9 327 8 153 2 46.7 97.0 63.7 4.7 14.8 -25.8 -17.2 232 3 144 0 62.0 128 .8 63.3 10.5 16.8 -19.8 -14.9 317 8 129 0 40.6 153 .0 78.5 14.6 15.7 -16.9 -16.9 193 2 172 7 89.4 164 .7 76.0 18.0 16.8 -11.0 -6.4 395 8 689 4 174 .2 106 .4 52.8 17.8 9.3 8.2 -2.1 192 5 113 9 59.2 130 .4 72.3 20.1 9.6 -20.5 -8.1 972 168 2 173 .0 62.0 55.9 10.2 14.7 -0.6 -8.7 151 7 315 4 207 .9 77.7 52.7 15.9 8.7 1.6 -9.2 958 818 85.4 116 .8 54.8 20.3 7.6 6.1 -0.5 175 3 852 48.6 138 .5 66.9 15.0 15.2 1.5 -1.2 198 5 128 3 64.6 131 .3 56.7 14.1 9.6 4.4 -0.8 TIN IMPRLA TIMPR DENSOC 2.2 47.2 29.4 38.2 0.2 47.9 24.8 30.6 3.8 42.0 25.2 57.9 0.6 42.1 22.0 26.6 -2.9 45.4 50.2 71.2 6.5 59.9 33.5 47.0 2.4 55.5 39.5 58.4 3.5 47.8 35.5 57.9 6.0 72.1 39.9 97.2 2.6 33.4 16.3 26.6 5.5 44.8 29.9 38.2 2.8 44.8 26.8 51.4 -2.7 53.2 47.4 64.3 3.2 26.7 15.0 23.4 -2.5 51.8 25.2 36.4 -2.4 48.8 28.2 53.6 -3.8 46.1 27.1 35.4 5.3 54.0 44.5 72.6 -0.6 57.6 28.8 36.2 8.5 71.3 31.3 57.2 5.9 103 .3 65.8 110 .9 -0.7 45.0 69.7 99.3 -2.8 40.6 30.5 36.3 -2.8 56.4 31.8 44.2 Esempio di data set su pacchetto applicativo. STATISTICA Caratteristiche di alcune automobili: m=5 variabili per n=22 unità. Modello relazionale dei dati Deriva dal concetto matematico di RELAZIONE Noti gli insiemi S1 , S2 ,,Sm coincidenti ognuno con un dominio "d" è una RELAZIONE se si configura come una "m-tupla" ordinata di valori d d1,d2 ,,dm tali che d1 S1 , d 2 S2 , , d m Sm E' evidente che "d" coincide con una osservazione “d” è un elemento del prodotto cartesiano di insiemi D S1 S2 Sm Che costituisce lo SPAZIO DEI DATI Lo spazio dei dati Su ogni unità si rilevano "m" variabili X1 , X2 , , X m Continuo Quantitativo Ogni variabile ha un suo dominio Discreto Ordinale S1 , S2 ,,Sm Qualitativo Si possono analizzare in tutto "N" unità (ma N può essere molto grande) P U1,U2 ,, UN P è la popolazione (o universo) formata da tutte e solo le unità di interesse di una ricerca Su ogni unità è possibile rilevare un insieme di "m" informazioni detto vettore della osservazione Xi Xi1,X i2 ,,Xim , i 1,2,, N La matrice dei dati Una rilevazione consiste nella osservazione delle variabili sulle unità Le osservazioni sono i vettori Xi , i 1, 2,, n I cui valori formano la MATRICE DEI DATI ESEMPIO Lo staff tecnico di una organizzazione è composto da 6 persone: Donne o uomini, laureate o no, residenti, vicini, fuori sede. SPAZIO DEI DATI D,L,R,u1 D,L,V,u1 D,L,F,u1 D,L,R,u2 D,L,V,u2 D,L,F,u2 D,L,R,u3 D,L,V,u3 D,L,F,u3 D,N,R,u1 D,N,V,u1 D,N,F,u1 D,N,R,u2 D,N,V,u2 D,N,F,u2 D,N,R,u3 D,N,V,u3 D,N,F,u3 U,L,R,u1 U,L,V,u1 U,L,F,u1 U,L,R,u2 U,L,V,u2 U,L,F,u2 U,L,R,u3 U,L ,V,u3 U,L,F,u3 U,N,R,u1 U,N,V,u1 U,N,F,u1 U,N,R,u2 U,N,V,u2 U,N,F,u2 U,N,R,u3 U,N,V,u3 U,N,F,u3 D,L,R,u4 D,L,V,u4 D,L,F,u4 D,L,R,u5 D,L,V,u5 D,L,F,u5 D,L,R,u6 D,L,V,u6 D,L,F,u6 D,N,R,u4 D,N,V,u4 D,N,F ,u4 D,N,R,u5 D,N,V,u5 D,N,F,u5 D,N,R,u6 D,N,V,u6 D,N,F,u6 U,L,R,u4 U,L,V,u4 U,L,F,u4 U,L,R,u5 U,L,V,u5 U,L,F,u5 U,L,R,u6 U,L,V,u6 U,L,F,u6 U,N,R,u4 U,N,V,u4 U,N,F ,u4 U,N,R,u5 U,N,V,u5 U,N,F,u5 U,N,R,u6 U,N,V,u6 U,N,F,u6 Ciò che era possibile osservare MATRICE DEI DATI Persona u1 u2 u3 u4 u5 u6 Sesso D D D D D U Titolo L L L L N N Residenza F V V R R V Ciò che si è effettivamente osservato Le dimensioni della matrice dei dati La matrice dei dati ha dimensioni n x m n è il numero di righe dove ogni riga (record) corrisponde ad una unità m è il numero di colonne dove ognuna corrispondente ad una variabile indagine sul self-service di una biblioteca meta-dato Matrice dei dati = data set Insieme strutturato di informazioni n=20 m=5 Nome A.C . Gi udizi o N.li bri 6 Tempo 6 Posiz. Col l. Cor so A.R . 10 6 4 DES A.G. 6 11 Doc A.T 5 1 FC D.I. 6 5 DIp D.S. 7 8 FC F.D . 11 5 Doc G.A. 1 4 2 DU S Otti mo G.G. 10 1 3 DES Buono G.L. 2 1 Est. G.P. 8 6 4 SSA Pessimo G.S. 4 12 L.F. 2 7 1 M.B. 8 8 Doc M.P. 8 3 3 DEAI P.A. 5 5 4 SSA P.C . 8 2 FC R.B. 6 4 2 DES R.T. 1 4 2 EA S.B. 5 2 Doc Medi o Medi o Pessimo EA Medi o Pessimo SSA Medi o Otti mo Medi o Imp Catti vo EA Catti vo Pessimo Otti mo Medi o Medi o Catti vo Buono Otti mo I dati mancanti I cosiddetti missing values insanabili. sono quelli dovuti a mancate rilevazioni Derivano anche da mancate risposte o rilevazioni manifestamente sbagliate o illogiche. L'elaborazione dei dati non consente vuoti nelle celle. Se mancano i dati si adotta un codice convenzionale ESEMPIO Numero di permessi sindacali concessi da ammininistrazioni pubbliche. Le sedi che non hanno risposto sono indicate con "-99" E' anche interessante capire il perché dei "missing values" Rilevazione dei dati 133 204 94 209 71 145 204 197 242 197 -99 72 93 182 115 156 245 67 165 232 222 181 199 -99 118 235 130 214 230 220 249 126 203 -99 88 158 188 236 139 200 127 233 91 141 184 237 149 219 128 187 64 115 116 114 188 153 144 82 185 227 243 168 232 115 112 137 -99 87 88 74 204 122 128 68 98 103 177 67 192 62 70 213 117 80 182 94 243 74 -99 122 120 153 -99 156 92 240 -99 128 72 Analisi univariata e multivariata Ogni problema è una ragnatela: se si tocca un filo tutti gli altri vibrano. Lo stesso succede per le variabili. Lo studio univariato ha solo scopo didattico. Nella pratica i dati sono sempre multivariati ESEMPIO: dove vanno gli studenti Nord numero % 286555 83.6 Nord Ovest 18783 5.5 Nord Est 27308 8.0 Altre Centro 9149 2.7 929 0.3 r egioni Sud Totale 56169 16.4 Italia 342724 100 .0 Stessa regione Centro Sud numero % numero % 178692 90.7 253887 74.7 1526 0.8 8378 2.5 4749 2.4 11312 3.3 9396 4.8 38800 11.4 2756 1.4 27296 8.0 18427 9.3 85786 25.3 197119 100.0 339663 100.0 Totale numero % 719.124 81.8 28687 3.3 43369 4.9 57345 6.5 30981 3.5 160382 18.2 879506 100.0 La lettura di una tabella a più variabili non è difficile. Lo è la generalizzazione dei risultati I metadati Sono codici che identificano in modo sintetico e senza ambiguità le unità Esempi: Se si tratta di persone il record include nome e cognome e altre informazioni età, sesso, professione Nel caso di imprese: settore produttivo, forma societaria, dipendenti, sede degli stabilimenti. Per dati territoriali è inserito il riferimento geografico delle unità. I metadati sono dei dati per accedere ad altri dati. Sono il mezzo di contatto tra rilevazioni diverse sulle stesse unità La codifica Le denominazioni delle modalità sono talvolta lunghe o espresse con termini scomodi che complicano il ragionamento. Si stabiliscono abbreviazioni (codifica) per facilitarne la trattazione informatica e saranno poi queste a comparire nella matrice dei dati. ESEMPIO: In una indagine internazionale sulla distribuzione dei redditi, il grado di copertura della popolazione venne rilevato con il dominio S={NL, URB, NAG, RRL, AG} che sono abbreviazioni di {national, urban, nonagricultural, rural, agricultural} La codifica è utile per sveltire le operazioni di trasferimento dei dati dai moduli con cui sono acquisite (questionari, schede di richiesta, fogli di controllo, etc.) e per limitare le sviste nella trascrizione.