Trasformazione dei dati: ricodifica - 1 • Molto spesso si rilevano e/o si creano variabili che prevedono molte modalità (es. la popolazione residente conteggiata per i comuni di Italia) • L’alto numero di modalità, dovute ad una definizione operativa molto precisa della proprietà (nel nostro caso, appunto, “popolazione residente”), rischia di mettere a disposizione per l’analisi una variabile troppo carica di informazioni, risultando così di difficile lettura • La presenza di molte modalità, infine, rende difficoltosa la rappresentazione tabellare e grafica della variabile, poiché andrebbe contro la funzione precipua di tali rappresentazioni, ossia la sinteticità. Trasformazione dei dati: ricodifica - 2 • Per ovviare a questo problema si possono operare più scelte, sia prima della rilevazione vera e propria dei dati (se, ovviamente, questa fase è prevista), sia direttamente nella matrice dei dati (se, la natura dei dati ci permette operazioni di questo genere) • Nell’ambito della rilevazione dei dati, si può decidere di adottare una definizione operativa meno “sensibile” (ossia che preveda un numero minore di modalità rispetto agli stati sulla proprietà che si potrebbero rilevare), con il risultato di costruire una variabile con poche modalità Comune Pop. Res. Comune Pop. Res. Basiglio 8336 Basiglio Torre d’Isola 1857 Torre d’Isola Fino a 2.000 ab. Pavia 71214 Pavia Oltre 50.000 ab. Segrate 33199 Segrate Da 10.001 a 50.000 ab. Cusago 3046 Cusago Da 2.001 a 10.000 ab. … … … Da 2.001 a 10.000 ab. … Trasformazione dei dati: ricodifica - 3 • Operare nell’ambito della rilevazione dei dati, però, è poco conveniente, poiché si preclude, già all’origine, la possibilità di avere a disposizione un’informazione più dettagliata possibile. Nel caso, quindi, si proceda alla raccolta diretta dei dati, è opportuno creare definizioni operative più “sensibili” possibile, e lasciare ai passaggi successivi le azioni di riduzione dei dati. • E’ più conveniente, invece, operare forme di trasformazione dei dati direttamente all’interno della matrice dei dati • Tale riduzione consiste nella creazione, all’interno della matrice, di una nuova variabile, derivata direttamente da quella che intendiamo semplificare RICODIFICA Trasformazione dei dati: ricodifica - 4 • Le operazioni di ricodifica riguardano principalmente le variabili cardinali, poiché sono le variabili che contano, in genere, il più alto numero di modalità. Spesso, poi, non siamo interessati a conoscere (ed a rappresentare) la frequenza associata a ciascuna modalità; si è più interessati, invece, ad una sintesi della rappresentazione della distribuzione (cfr. ad es. variabili quali il reddito, l’età, ecc…) Modalità % 20 anni 2,7 21 anni 2,7 22 anni 2,9 23 anni 3,0 24 anni 3,4 … … Modalità % 20-24 anni 14,7 25-29 anni 20,9 30-34 anni 30,5 35-39 anni 33,9 Totale 100,0 (N=343.647) Fonte: demo.istat.it – Milano 2007 Trasformazione dei dati: ricodifica - 5 • La ricodifica può essere utile anche per le variabili nominali e ordinali, le quali hanno tendenzialmente un numero minore di modalità. Essa viene usata soprattutto se alcune di queste modalità hanno una frequenza molto bassa e si preferisce, quindi, presentare un’unica modalità che le raggruppi (es. percentuale di voto verso i partiti politici) Partito politico % Forza Italia 29,43 Democratici di Sinistra 16,57 Forza Italia 29,43 La Margherita 14,52 Democratici di Sinistra 16,57 Alleanza Nazionale 12,02 La Margherita 14,52 Alleanza Nazionale 12,02 … … Partito politico % Comunisti Italiani 1,67 … Fiamma Tricolore 0,54 Altri Partiti 2,26 Forza Nuova 0,04 Totale 100 Comunismo 0,01 Totale 100 … Trasformazione dei dati: ricodifica - 6 • Sempre per le variabili nominali e ordinali, si può usare la ricodifica anche per “semplificare” la variabile, aggregando modalità specifiche in modalità più generiche, sempre che la perdita di informazioni non limiti la nostra analisi. Titolo di studio % Dottorato di ricerca o specializzazione post-laurea 2 Laurea 26 Diploma universitario 0 Diploma o qualifica di scuola media superiore (4-5 anni) 30 Diploma o qualifica di scuola media superiore (2-3 anni) 9 Licenza di scuola media inferiore 14 Licenza elementare 17 Nessun titolo (sa leggere e scrivere) 2 Nessun titolo (non sa leggere e/o scrivere) 0 Totale 100 Titolo di studio % Laurea o specializ. post-laurea 28 Diploma 39 Media inferiore 14 Elementare 17 Nessun titolo 2 Totale 100 Trasformazione dei dati: ricodifica - 7 • Sempre per le variabili ordinali, si può utilizzare la ricodifica per “invertire” la codifica della variabile, in modo da far coincidere la direzione della serie numerica con la direzione “semantica” della variabile Modalità Titolo di studio % 1 Laurea o specializ. post-laurea 28 2 Diploma 39 3 Media inferiore 14 4 Elementare 17 5 Nessun titolo 2 Totale 100 Modalità Titolo di studio % 1 Nessun titolo 2 2 Elementare 17 3 Media inferiore 14 4 Diploma 39 5 Laurea o specializ. post-laurea 28 Totale 100 Trasformazione dei dati: normalizzazione - 1 • Se vogliamo confrontare due o più variabili cardinali che hanno sistemi di riferimento (valori minimi e massimi) differenti, è possibile operare una serie di trasformazioni sui dati affinché le variabili considerate facciamo riferimento ad un comune campo di variazione. Es. Voto di maturità pre- e post-riforma Voto pre-riforma Voto post-riforma Vmin = 36 Vmin = 60 Vmax = 60 Vmax = 100 NORMALIZZAZIONE Carlo (maturità pre-riforma) ha conseguito una votazione di 52 Simona (maturità post-riforma) ha conseguito, invece, una votazione di 91 Chi dei due ha preso il voto più alto? Carlo = (52 – 36) / (60 – 36) = 0.67 Simona = (91 – 60) / (100 – 60) = 0.77 Ni = [K ×] (Xi – Xmin) / (Xmax – Xmin) Se preferiamo il che la variazione sia 0÷100: Con K = nuovo Vmax assunto da Ni Carlo = 100 × (52 – 36) / (60 – 36) = 67 Simona = 100 × (91 – 60) / (100 – 60) = 77 Trasformazione dei dati: normalizzazione - 2 • Attraverso la normalizzazione i valori della variabile potranno variare da un valore minimo, pari a 0, ad un valore massimo, pari a K (se K non viene indicato, il valore massimo è pari a 1). • La forma di normalizzazione qui proposta non tiene di come effettivamente si distribuisce la variabile, ma si basa sui valori teorici che la variabile può assumere (normalizzazione assoluta). Se si vuole un maggiore ancoraggio alla distribuzione della variabile è possibile operare una normalizzazione relativa, dove il valore minimo corrisponde al valore minimo effettivamente rilevato, ed il valore massimo corrisponde al valore massimo effettivamente rilevato. NORMALIZZAZIONE RELATIVA Xi Yi Vmin = 44 Vmin = 80 Vmax = 58 Vmax = 98 Nx = [K ×] (Xi – 44) / (58 – 44) = 0,57 Ny = [K ×] (Xi – 80) / (98 – 80) = 0,61 Trasformazione dei dati: standardizzazione - 1 • La standardizzazione è una forma più complessa di normalizzazione, che entra in gioco quando la sola normalizzazione non dà dei risultati soddisfacenti. • La normalizzazione, infatti, si basa solo sui valori minimo e massimo, e non, invece, su l’intera distribuzione della variabile. A volte è necessaria, invece, una trasformazione che tenga conto della variabilità. Es. Esame di Matematica in 3 classi diverse Classe A Classe B Classe C Questo è l’andamento di una stessa variabile (“votazione”) in tre gruppi diversi (classi A, B e C). Come esempio possiamo considerare 3 casi, uno per classe: Voto Freq. Voto Freq. Voto Freq. 3 0 3 0 3 0 4 0 4 0 4 12 5 5 5 3 5 10 6 9 6 7 6 5 Classe B – Barbara = 7 (7-3)/(10-3)= 0.57 7 7 7 14 7 3 Classe C – Costantino = 7 (7-3)/(10-3)= 0.57 8 5 8 7 8 1 9 4 9 0 9 1 10 0 10 0 10 1 Se utilizzassimo la normalizzazione assoluta i voti rimarrebbero gli stessi, poiché il min, il max ed il voto sono uguali per tutti e tre gli individui. Classe A – Andrea = 7 (7-3)/(10-3)= 0.57 Trasformazione dei dati: standardizzazione - 2 Potrei usare la normalizzazione relativa (min e max effettivamente rilevati): Andrea (7-5)/(9-5)x10 = 5,0 Barbara (7-5)/(8-5)x10 = 6,7 Costantino (7-4)(10-4)x10 = 5,0 I voti così normalizzati, però, non sono soddisfacenti, poiché non tengono conto del “valore” del voto rispetto ai voti dati all’interno della classe. Barbara ha preso un voto pari alla moda della variabile (quindi, nulla di eccezionale), mentre Costantino ha ottenuto, insieme a pochi, un voto oltre la sufficienza. Classe A Classe B Classe C Voto Freq. Voto Freq. Voto Freq. 3 0 3 0 3 0 4 0 4 0 4 12 5 5 5 3 5 10 6 9 6 7 6 5 7 7 7 14 7 3 8 5 8 7 8 1 9 4 9 0 9 1 10 0 10 0 10 1 Bisogna operare una trasformazione che tenga conto di come i valori si distribuiscono nella variabile. STANDARDIZZAZIONE Zi = (Xi – X)/S Trasformazione dei dati: standardizzazione - 3 1. Per ogni distribuzione è necessario, quindi, calcolare sia la media che la deviazione standard: Classe A media = 6,8 deviazione standard = 1,28 Classe B media = 6,8 deviazione standard = 0,90 Classe C media = 5,3 deviazione standard = 1,50 2. Ora è possibile calcolare i punteggi standardizzati per i nostri tre casi: Andrea Zi = (7 – 6,8)/1,28 = 0,16 Barbara Zi = (7 – 6,8)/0,90 = 0,22 Costantino Zi = (7 – 5,3)/1,50 = 1,13 Come già ipotizzato, il punteggio standardizzato più alto va a Costantino, che più si è distinto rispetto a i suoi compagni. Trasformazione dei dati: standardizzazione - 4 Alcune precisazioni: - La trasformazione operata dalla standardizzazione crea una nuova variabile, con alcune caratteristiche definite: - L’unità di misura è detta punto standard. Per comprendere il significato utilizziamo l’esempio precedente. Costantino assume un valore di 1.13 punti standard: ciò significa che il suo punteggio si discosta di 1,13 deviazioni standard (pari a 1,50) dal voto medio della sua classe (pari a 5,3) 5,3 + 1,13(1,50) = 7 - I valori di tendenza centrale e di variabilità sono uguali in tutte le distribuzioni standardizzate. - La media è pari a 0 - La deviazione standard è pari a 1 Tali caratteristiche permettono di confrontare tra loro qualsiasi distribuzione, poiché tutte si comporteranno allo stesso modo la standardizzazione, quindi, è utile nel caso si voglia confrontare variabili cardinali con diverse unità di misura e diversa tendenza centrale e variabilità Contatti Domingo Scisci Università di Milano-Bicocca Via Bicocca degli Arcimboldi 8 20126 Milano Edificio U7/II Piano Stanza 207 Telefono: 02 64487513 Mail: [email protected] Quest'opera è stata rilasciata sotto la licenza Creative Commons Attribuzione-Non commerciale-Condividi allo stesso modo 2.5 Italia. Per leggere una copia della licenza visita il sito web http://creativecommons.org/licenses/by-nc-sa/2.5/it/ o spedisci una lettera a Creative Commons, 171 Second Street, Suite 300, San Francisco, California, 94105, USA.