Trasformazione dei dati: ricodifica - 1
• Molto spesso si rilevano e/o si creano variabili che prevedono
molte modalità (es. la popolazione residente conteggiata per i
comuni di Italia)
• L’alto numero di modalità, dovute ad una definizione operativa
molto precisa della proprietà (nel nostro caso, appunto, “popolazione
residente”), rischia di mettere a disposizione per l’analisi una
variabile troppo carica di informazioni, risultando così di difficile
lettura
• La presenza di molte modalità, infine, rende difficoltosa la
rappresentazione tabellare e grafica della variabile, poiché andrebbe
contro la funzione precipua di tali rappresentazioni, ossia la
sinteticità.
Trasformazione dei dati: ricodifica - 2
• Per ovviare a questo problema si possono operare più scelte, sia prima
della rilevazione vera e propria dei dati (se, ovviamente, questa fase è
prevista), sia direttamente nella matrice dei dati (se, la natura dei dati ci
permette operazioni di questo genere)
•
Nell’ambito della rilevazione dei dati, si può decidere di adottare
una definizione operativa meno “sensibile” (ossia che preveda un
numero minore di modalità rispetto agli stati sulla proprietà che si
potrebbero rilevare), con il risultato di costruire una variabile con
poche modalità
Comune
Pop. Res.
Comune
Pop. Res.
Basiglio
8336
Basiglio
Torre d’Isola
1857
Torre d’Isola
Fino a 2.000 ab.
Pavia
71214
Pavia
Oltre 50.000 ab.
Segrate
33199
Segrate
Da 10.001 a 50.000 ab.
Cusago
3046
Cusago
Da 2.001 a 10.000 ab.
…
…
…
Da 2.001 a 10.000 ab.
…
Trasformazione dei dati: ricodifica - 3
• Operare nell’ambito della rilevazione dei dati, però, è poco conveniente,
poiché si preclude, già all’origine, la possibilità di avere a disposizione
un’informazione più dettagliata possibile. Nel caso, quindi, si proceda alla
raccolta diretta dei dati, è opportuno creare definizioni operative più
“sensibili” possibile, e lasciare ai passaggi successivi le azioni di riduzione
dei dati.
• E’ più conveniente, invece, operare forme di trasformazione dei dati
direttamente all’interno della matrice dei dati
• Tale riduzione consiste nella creazione, all’interno della matrice, di
una nuova variabile, derivata direttamente da quella che intendiamo
semplificare
RICODIFICA
Trasformazione dei dati: ricodifica - 4
• Le operazioni di ricodifica riguardano principalmente le variabili cardinali,
poiché sono le variabili che contano, in genere, il più alto numero di
modalità. Spesso, poi, non siamo interessati a conoscere (ed a
rappresentare) la frequenza associata a ciascuna modalità; si è più
interessati, invece, ad una sintesi della rappresentazione della distribuzione
(cfr. ad es. variabili quali il reddito, l’età, ecc…)
Modalità
%
20 anni
2,7
21 anni
2,7
22 anni
2,9
23 anni
3,0
24 anni
3,4
…
…
Modalità
%
20-24 anni
14,7
25-29 anni
20,9
30-34 anni
30,5
35-39 anni
33,9
Totale
100,0
(N=343.647)
Fonte: demo.istat.it – Milano 2007
Trasformazione dei dati: ricodifica - 5
• La ricodifica può essere utile anche per le variabili nominali e ordinali, le
quali hanno tendenzialmente un numero minore di modalità. Essa viene
usata soprattutto se alcune di queste modalità hanno una frequenza molto
bassa e si preferisce, quindi, presentare un’unica modalità che le raggruppi
(es. percentuale di voto verso i partiti politici)
Partito politico
%
Forza Italia
29,43
Democratici di Sinistra
16,57
Forza Italia
29,43
La Margherita
14,52
Democratici di Sinistra
16,57
Alleanza Nazionale
12,02
La Margherita
14,52
Alleanza Nazionale
12,02
…
…
Partito politico
%
Comunisti Italiani
1,67
…
Fiamma Tricolore
0,54
Altri Partiti
2,26
Forza Nuova
0,04
Totale
100
Comunismo
0,01
Totale
100
…
Trasformazione dei dati: ricodifica - 6
• Sempre per le variabili nominali e ordinali, si può usare la ricodifica
anche per “semplificare” la variabile, aggregando modalità specifiche in
modalità più generiche, sempre che la perdita di informazioni non limiti la
nostra analisi.
Titolo di studio
%
Dottorato di ricerca o specializzazione post-laurea
2
Laurea
26
Diploma universitario
0
Diploma o qualifica di scuola media superiore (4-5 anni)
30
Diploma o qualifica di scuola media superiore (2-3 anni)
9
Licenza di scuola media inferiore
14
Licenza elementare
17
Nessun titolo (sa leggere e scrivere)
2
Nessun titolo (non sa leggere e/o scrivere)
0
Totale
100
Titolo di studio
%
Laurea o specializ. post-laurea
28
Diploma
39
Media inferiore
14
Elementare
17
Nessun titolo
2
Totale
100
Trasformazione dei dati: ricodifica - 7
• Sempre per le variabili ordinali, si può utilizzare la ricodifica per “invertire”
la codifica della variabile, in modo da far coincidere la direzione della serie
numerica con la direzione “semantica” della variabile
Modalità
Titolo di studio
%
1
Laurea o specializ. post-laurea
28
2
Diploma
39
3
Media inferiore
14
4
Elementare
17
5
Nessun titolo
2
Totale
100
Modalità
Titolo di studio
%
1
Nessun titolo
2
2
Elementare
17
3
Media inferiore
14
4
Diploma
39
5
Laurea o specializ. post-laurea
28
Totale
100
Trasformazione dei dati: normalizzazione - 1
• Se vogliamo confrontare due o più variabili cardinali che hanno sistemi di
riferimento (valori minimi e massimi) differenti, è possibile operare una serie
di trasformazioni sui dati affinché le variabili considerate facciamo
riferimento ad un comune campo di variazione.
Es. Voto di maturità pre- e post-riforma
Voto pre-riforma
Voto post-riforma
Vmin = 36
Vmin = 60
Vmax = 60
Vmax = 100
NORMALIZZAZIONE
Carlo (maturità pre-riforma) ha conseguito una
votazione di 52
Simona (maturità post-riforma) ha conseguito,
invece, una votazione di 91
Chi dei due ha preso il voto più alto?
Carlo = (52 – 36) / (60 – 36) = 0.67
Simona = (91 – 60) / (100 – 60) = 0.77
Ni = [K ×] (Xi – Xmin) / (Xmax – Xmin)
Se preferiamo il che la variazione sia 0÷100:
Con K = nuovo Vmax assunto da Ni
Carlo = 100 × (52 – 36) / (60 – 36) = 67
Simona = 100 × (91 – 60) / (100 – 60) = 77
Trasformazione dei dati: normalizzazione - 2
• Attraverso la normalizzazione i valori della variabile potranno variare da un
valore minimo, pari a 0, ad un valore massimo, pari a K (se K non viene
indicato, il valore massimo è pari a 1).
• La forma di normalizzazione qui proposta non tiene di come effettivamente
si distribuisce la variabile, ma si basa sui valori teorici che la variabile può
assumere (normalizzazione assoluta). Se si vuole un maggiore ancoraggio
alla distribuzione della variabile è possibile operare una normalizzazione
relativa, dove il valore minimo corrisponde al valore minimo effettivamente
rilevato, ed il valore massimo corrisponde al valore massimo effettivamente
rilevato.
NORMALIZZAZIONE RELATIVA
Xi
Yi
Vmin = 44
Vmin = 80
Vmax =
58
Vmax = 98
Nx = [K ×] (Xi – 44) / (58 – 44) = 0,57
Ny = [K ×] (Xi – 80) / (98 – 80) = 0,61
Trasformazione dei dati: standardizzazione - 1
• La standardizzazione è una forma più complessa di normalizzazione, che
entra in gioco quando la sola normalizzazione non dà dei risultati
soddisfacenti.
• La normalizzazione, infatti, si basa solo sui valori minimo e massimo, e
non, invece, su l’intera distribuzione della variabile. A volte è necessaria,
invece, una trasformazione che tenga conto della variabilità.
Es. Esame di Matematica in 3 classi diverse
Classe A
Classe B
Classe C
Questo è l’andamento di una stessa variabile
(“votazione”) in tre gruppi diversi (classi A, B e C).
Come esempio possiamo considerare 3 casi, uno
per classe:
Voto
Freq.
Voto
Freq.
Voto
Freq.
3
0
3
0
3
0
4
0
4
0
4
12
5
5
5
3
5
10
6
9
6
7
6
5
Classe B – Barbara = 7  (7-3)/(10-3)= 0.57
7
7
7
14
7
3
Classe C – Costantino = 7  (7-3)/(10-3)= 0.57
8
5
8
7
8
1
9
4
9
0
9
1
10
0
10
0
10
1
Se utilizzassimo la normalizzazione assoluta i voti
rimarrebbero gli stessi, poiché il min, il max ed il
voto sono uguali per tutti e tre gli individui.
Classe A – Andrea = 7  (7-3)/(10-3)= 0.57
Trasformazione dei dati: standardizzazione - 2
Potrei usare la normalizzazione relativa (min e max effettivamente rilevati):
Andrea  (7-5)/(9-5)x10 = 5,0
Barbara  (7-5)/(8-5)x10 = 6,7
Costantino  (7-4)(10-4)x10 = 5,0
I voti così normalizzati, però, non sono soddisfacenti, poiché non tengono conto del
“valore” del voto rispetto ai voti dati all’interno della classe. Barbara ha preso un voto pari
alla moda della variabile (quindi, nulla di eccezionale), mentre Costantino ha ottenuto,
insieme a pochi, un voto oltre la sufficienza.
Classe A
Classe B
Classe C
Voto
Freq.
Voto
Freq.
Voto
Freq.
3
0
3
0
3
0
4
0
4
0
4
12
5
5
5
3
5
10
6
9
6
7
6
5
7
7
7
14
7
3
8
5
8
7
8
1
9
4
9
0
9
1
10
0
10
0
10
1
Bisogna operare una trasformazione
che tenga conto di come i valori si
distribuiscono nella variabile.
STANDARDIZZAZIONE
Zi = (Xi – X)/S
Trasformazione dei dati: standardizzazione - 3
1. Per ogni distribuzione è necessario, quindi, calcolare sia la media che la deviazione
standard:
Classe A  media = 6,8
deviazione standard = 1,28
Classe B  media = 6,8
deviazione standard = 0,90
Classe C  media = 5,3
deviazione standard = 1,50
2. Ora è possibile calcolare i punteggi standardizzati per i nostri tre casi:
Andrea  Zi = (7 – 6,8)/1,28 = 0,16
Barbara  Zi = (7 – 6,8)/0,90 = 0,22
Costantino  Zi = (7 – 5,3)/1,50 = 1,13
Come già ipotizzato, il punteggio standardizzato più alto va a Costantino, che più si è
distinto rispetto a i suoi compagni.
Trasformazione dei dati: standardizzazione - 4
Alcune precisazioni:
-
La trasformazione operata dalla standardizzazione crea una nuova variabile, con
alcune caratteristiche definite:
-
L’unità di misura è detta punto standard. Per comprendere il significato
utilizziamo l’esempio precedente. Costantino assume un valore di 1.13
punti standard: ciò significa che il suo punteggio si discosta di 1,13
deviazioni standard (pari a 1,50) dal voto medio della sua classe (pari a
5,3)  5,3 + 1,13(1,50) = 7
-
I valori di tendenza centrale e di variabilità sono uguali in tutte le
distribuzioni standardizzate.
-
La media è pari a 0
-
La deviazione standard è pari a 1
Tali caratteristiche permettono di confrontare tra loro qualsiasi
distribuzione, poiché tutte si comporteranno allo stesso modo  la
standardizzazione, quindi, è utile nel caso si voglia confrontare variabili
cardinali con diverse unità di misura e diversa tendenza centrale e
variabilità
Contatti
Domingo Scisci
Università di Milano-Bicocca
Via Bicocca degli Arcimboldi 8 20126 Milano
Edificio U7/II Piano
Stanza 207
Telefono: 02 64487513
Mail: [email protected]
Quest'opera è stata rilasciata sotto la licenza Creative Commons Attribuzione-Non commerciale-Condividi allo stesso
modo 2.5 Italia. Per leggere una copia della licenza visita il sito web http://creativecommons.org/licenses/by-nc-sa/2.5/it/
o spedisci una lettera a Creative Commons, 171 Second Street, Suite 300, San Francisco, California, 94105, USA.
Scarica

lezione_20080528_stat_soc