Elementi di Psicometria con Laboratorio di SPSS 1 02-Variabili descrittive: Tabelle e grafici vers. 1.2 (9 ottobre 2014) Germano Rossi1 [email protected] 1 Dipartimento di Psicologia, Università di Milano-Bicocca 2014-2015 G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 1 / 39 Introduzione In questa ricerca è stato somministrato un questionario di 147 variabili e sono stati raccolti 162 questionari. Immaginatevi altre righe e molte altre colonne di dati grezzi. Impossibile avere un’idea di cosa abbiamo raccolto. Tabelle e grafici ci possono aiutare. E anche le statistiche descrittive. G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 2 / 39 Scopo Grafici e tabelle devono essere chiari e concisi (non troppo complessi) comunicare velocemente le principali tendenze dei dati preferibile usare le tabelle al posto di grafici troppo elemtari Le statistiche descrittive sono tecniche relativamente semplici di tipo visivo e numerico permettono la descrizione degli aspetti principali dei dati È importante non considerare l’analisi statistica descrittiva come una parte inutile o banale della ricerca Ci permettono di conoscere i dati su cui dovremo lavorare G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 3 / 39 Scegliere tabelle e grafici Distinguere le variabili qualitative da quelle quantitative è un passo fondamentale Variabili qualitative: tabelle di frequenza e grafici a barre o a torta Variabili quantitative: grafici di frequenza e istogrammi La tabelle, al primo passaggio si fanno con tutti i valori trovati; successivamente si possono “manipolare” Le categorie poco frequenti delle variabili qualitative possono essere accorpate E anche certi valori delle variabili quantitative possono essere accorpati Lo scopo è quello di rendere chiari e semplici i grafici e/o le tabelle G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 4 / 39 Distribuzione di frequenza Distribuzione di frequenza semplice Si tratta di contare quanti elementi appartengono ad una stessa categoria presente in una variabile. Esempio Se abbiamo la seguente distribuzione di dati, la distribuzione di frequenza sarà: MFMFFMMMFFMMFFM MFFMMMMFFMFMFMM F M f 13 17 ← ← ff fm Tot 30 ← N File: Esempio2-1.xls G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 5 / 39 Distribuzione di frequenza Distribuzione di frequenza semplice Si tratta di contare quanti elementi appartengono ad una stessa categoria presente in una variabile. Esempio Se abbiamo la seguente distribuzione di dati, la distribuzione di frequenza sarà: MFMFFMMMFFMMFFM MFFMMMMFFMFMFMM F M f 13 17 ← ← ff fm Tot 30 ← N File: Esempio2-1.xls Contiamo le F; il loro numero è la frequenza delle femmine (ff ) G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 5 / 39 Distribuzione di frequenza Distribuzione di frequenza semplice Si tratta di contare quanti elementi appartengono ad una stessa categoria presente in una variabile. Esempio Se abbiamo la seguente distribuzione di dati, la distribuzione di frequenza sarà: MFMFFMMMFFMMFFM MFFMMMMFFMFMFMM F M f 13 17 ← ← ff fm Tot 30 ← N File: Esempio2-1.xls Contiamo le F; il loro numero è la frequenza delle femmine (ff ) Contiamo le M; il loro numero è la frequenza dei maschi (fm ) G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 5 / 39 Distribuzione di frequenza Distribuzione di frequenza semplice Si tratta di contare quanti elementi appartengono ad una stessa categoria presente in una variabile. Esempio Se abbiamo la seguente distribuzione di dati, la distribuzione di frequenza sarà: MFMFFMMMFFMMFFM MFFMMMMFFMFMFMM F M f 13 17 ← ← ff fm Tot 30 ← N File: Esempio2-1.xls Contiamo le F; il loro numero è la frequenza delle femmine (ff ) Contiamo le M; il loro numero è la frequenza dei maschi (fm ) La somma di tutte le frequenze equivale al numero dei casi statistici (indicato con N) G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 5 / 39 Distribuzione di frequenza Tabella delle frequenze Una tabelle delle frequenze indica quanti valori abbiamo per ogni categoria della variabile. Sesso Maschi Femmine Totale freq 17 13 30 G. Rossi (Dip. Psicologia) prop .57 .43 1.00 % 56.67 43.33 100 ElemPsico Di solito si indicano le frequenze e le percentuali oppure frequenze e proporzioni 2014-2015 6 / 39 Distribuzione di frequenza Distribuzione di frequenza semplice La somma di tutte le frequenze, deve necessariamente equivalere a N (chiamata numerosità ovvero il numero di casi statistici). la distribuzione di frequenza permette di riassumere velocemente molti dati si applica sicuramente a scale Nominali, Ordinali ed è possibile anche a livello Intervallo/Rapporto (ma non sempre è utile) G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 7 / 39 Distribuzione di frequenza Distribuzione di frequenza cumulata È la somma delle frequenze che precedono una determinata categoria La frequenza cumulata della prima categoria è uguale a se stessa la frequenza cumulata delle categorie intermedie, si ottiene sommando i singoli valori di frequenza delle categorie precedenti la frequenza cumulata dell’ultima categoria è uguale a N (somma di tutte le frequenze) si applica a scale Ordinali e Intervallo/Rapporto Nessuna 1 scelta 2-4 scelte 5 o più scelte Totale f 4 2 52 18 76 G. Rossi (Dip. Psicologia) fc 4 6 58 76 4 4+2 6+52 58+18 4+2+52 4+2+52+18 ElemPsico 2014-2015 8 / 39 Distribuzione di frequenza Distribuzione di frequenza cumulata È la somma delle frequenze che precedono una determinata categoria La frequenza cumulata della prima categoria è uguale a se stessa la frequenza cumulata delle categorie intermedie, si ottiene sommando i singoli valori di frequenza delle categorie precedenti la frequenza cumulata dell’ultima categoria è uguale a N (somma di tutte le frequenze) si applica a scale Ordinali e Intervallo/Rapporto Nessuna 1 scelta 2-4 scelte 5 o più scelte Totale f 4 2 52 18 76 G. Rossi (Dip. Psicologia) fc 4 6 58 76 4 4+2 6+52 58+18 4+2+52 4+2+52+18 ElemPsico 2014-2015 8 / 39 Distribuzione di frequenza Distribuzione di frequenza cumulata È la somma delle frequenze che precedono una determinata categoria La frequenza cumulata della prima categoria è uguale a se stessa la frequenza cumulata delle categorie intermedie, si ottiene sommando i singoli valori di frequenza delle categorie precedenti la frequenza cumulata dell’ultima categoria è uguale a N (somma di tutte le frequenze) si applica a scale Ordinali e Intervallo/Rapporto Nessuna 1 scelta 2-4 scelte 5 o più scelte Totale f 4 2 52 18 76 G. Rossi (Dip. Psicologia) fc 4 6 58 76 4 4+2 6+52 58+18 4+2+52 4+2+52+18 ElemPsico 2014-2015 8 / 39 Distribuzione di frequenza Distribuzione di frequenza cumulata È la somma delle frequenze che precedono una determinata categoria La frequenza cumulata della prima categoria è uguale a se stessa la frequenza cumulata delle categorie intermedie, si ottiene sommando i singoli valori di frequenza delle categorie precedenti la frequenza cumulata dell’ultima categoria è uguale a N (somma di tutte le frequenze) si applica a scale Ordinali e Intervallo/Rapporto Nessuna 1 scelta 2-4 scelte 5 o più scelte Totale f 4 2 52 18 76 G. Rossi (Dip. Psicologia) fc 4 6 58 76 4 4+2 6+52 58+18 4+2+52 4+2+52+18 ElemPsico 2014-2015 8 / 39 Distribuzione di frequenza Distribuzione di frequenza cumulata È la somma delle frequenze che precedono una determinata categoria La frequenza cumulata della prima categoria è uguale a se stessa la frequenza cumulata delle categorie intermedie, si ottiene sommando i singoli valori di frequenza delle categorie precedenti la frequenza cumulata dell’ultima categoria è uguale a N (somma di tutte le frequenze) si applica a scale Ordinali e Intervallo/Rapporto Nessuna 1 scelta 2-4 scelte 5 o più scelte Totale f 4 2 52 18 76 G. Rossi (Dip. Psicologia) fc 4 6 58 76 4 4+2 6+52 58+18 4+2+52 4+2+52+18 ElemPsico 2014-2015 8 / 39 Distribuzione di frequenza Proporzioni e percentuali Esprimono il rapporto fra una parte rispetto ad un tutto (o ad un valore di riferimento) Proporzione Percentuale f N f × 100 N la somma dev’essere 1 e nessuna proporzione può superare 1 Esempio la somma dev’essere 100 e nessuna percentuale può superare 100 Esempio proporzione di femmine percentuale di maschi 17 × 100 = 56.67 30 13 = 0.43 30 G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 9 / 39 Distribuzione di frequenza Percentuali Quando la N su cui si calcolano le percentuali è molto piccola, la percentuale perde di significato In genere non si calcolano le percentuali se la N è inferiore a 20 (ma anche se è 22!) Infatti 1 unità su 20 equivale al 5%, mentre 1 unità su 100 equivale all’1% Se per un qualunque motivo, si è verificato un errore di misurazione e una unità è stata “categorizzata” male, se N è basso, le percentuali cambieranno parecchio dando una visione falsata della realtà G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 10 / 39 Distribuzione di frequenza Percentuali Le percentuali non hanno senso se non si conosce la N su cui sono calcolate G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 11 / 39 Distribuzione di frequenza Percentuali Le percentuali non hanno senso se non si conosce la N su cui sono calcolate Marca Sales Flavia Sant’Anna Vitasnella Bagolino San Benedetto Ferrarelle G. Rossi (Dip. Psicologia) % sodio .00004 .00007 <.0001 <.0002 .0002 <.0007 Residuo fisso in mg/l 198.5 264.1 39.2 380.0 130.0 250.0 1245.0 ElemPsico Sodio in mg/l 0.45 0.70 0.90 3.00 2.30 6.80 48.00 2014-2015 11 / 39 Distribuzione di frequenza Test “Alla conferenza di ieri sera hanno partecipato 65 persone. Alla fine della serata, agli ascoltatori è stato proposto di compilare un questionario sul loro grado di soddisfazione. 45 persone hanno restituito il questionario compilato. L’analisi dei risultati indica che cinque ascoltatori giudicano la conferenza ottima, dodici buona, ventidue sufficiente, cinque insufficiente e uno pessima.” Proviamo a rispondere a qualche domanda! Quanti partecipanti c’erano alla conferenza? Quanti hanno restituito il questionario? Qual è la percentuale dei questionari restituiti? Quanti hanno giudicato “ottima” la conferenza? Qual è la percentuali di tutti i presenti che ha detto “ottima”? Più di un quarto dei partecipanti ha detto “insufficiente” o “pessima”? Qual è la percentuale dei rispondenti che ha detto “ottima”? G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 12 / 39 Distribuzione di frequenza Grafico Questi dati possono essere riassunti sia in un grafico sia in una tabella. Quanti partecipanti c’erano alla conferenza? Quanti hanno restituito il questionario? Qual è la percentuale dei questionari restituiti? Quanti hanno giudicato “ottima” la conferenza? Qual è la percentuali di tutti i presenti che ha detto “ottima”? Più di un quarto dei partecipanti ha detto “insufficiente” o “pessima”? Qual è la percentuale dei rispondenti che ha detto “ottima”? G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 13 / 39 Distribuzione di frequenza Tabella Valutazione f % % ottima buona sufficiente insufficiente pessima 5 12 22 5 1 7,7 18,5 33,8 7,7 1,5 11,1 26,7 48,9 11,1 2,2 non risponde 20 30,8 N= 65 (N=65) %c 11,1 37,8 86,7 97,8 100,0 Quanti partecipanti c’erano alla conferenza? Quanti hanno restituito il questionario? Qual è la percentuale dei questionari restituiti? Quanti hanno giudicato “ottima” la conferenza? (N=45) Qual è la percentuali di tutti i presenti che ha detto “ottima”? Più di un quarto dei partecipanti ha detto “insufficiente” o “pessima”? Qual è la percentuale dei rispondenti che ha detto “ottima”? G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 14 / 39 Distribuzione di frequenza Principi grafici Il metodo grafico serve a semplificare le cose complesse e noiose Un grafico è più accessibile di una tabella Il metodo grafico va d’accordo con la vista Il metodo grafico aiuta il cervello a capire e memorizzare meglio Se bisogna spiegare un grafico usando i numeri, meglio usare una tabella Regole generali per fare un grafico Fare in modo che si evidenzino le relazioni fra i dati Evitare il superfluo Non esagerare il numero di variabili Usare una linea di riferimento quando c’è un valore che è importante vedere in più grafici G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 15 / 39 Distribuzione di frequenza Scopo dei grafici Grafico di propaganda: cerca di dimostrare ulteriormente quello che si è già visto e capito in altro modo Grafico analitico: permette di vedere quello che sta succedendo all’interno dei dati Grafico sostitutivo di tabella: bisogna leggere i numeri che contiene Grafico decorativo: si usano perché sono belli G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 16 / 39 Distribuzione di frequenza Grafici Si possono rappresentare graficamente sia le frequenze, sia le proporzioni sia le percentuali; la forma del grafico non cambia Si possono fare grafici a barre o “torte” 17 Sesso 13 Femmine Frequenza 43.33% 56.67% Femmine Maschi Sesso G. Rossi (Dip. Psicologia) Maschi ElemPsico 2014-2015 17 / 39 Distribuzione di frequenza Grafico a barre (Nominale/Ordinale) la variabile è misurata su una scala a 10 punti che vanno da 1=sinistra a 10=destra (ordinale) ogni barra rappresenta la frequenza o la percentuale di una categoria le barre non si toccano G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 18 / 39 Distribuzione di frequenza Grafico a barre (Nominale/Ordinale) G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 19 / 39 Distribuzione di frequenza Grafico a torta (N/O) Distribuzione vendite 50 60 Distribuzione vendite Giovanni 10 20 30 40 Giacomo 0 Susanna Giovanni Giacomo Susanna Le informazioni fornite sono analoghe; le torte fanno più scena, ma diventano complicate da interpretare se ci sono molte categorie con frequenze molto vicine fra loro G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 20 / 39 Distribuzione di frequenza Caratteristiche delle tabelle Una tabella deve mostrare le sue informazioni “a colpo d’occhio” Non deve avere troppe categorie (max 20 circa) Né troppo poche (2?) Perciò se la tabella dev’essere “pubblicata”, le troppe categorie vanno in qualche modo “ridotte” accorpando categorie simili o mettendo tutte le categorie con bassa frequenza in una categoria “Altro” È il caso delle tabelle di frequenza delle variabili quantitative G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 21 / 39 Distribuzione di frequenza Istogramma (I/R) la variabili quantitative (in particolare quelle continue) vengono rappresentate tramite intervalli di classe (SPSS lo fa automaticamente) 30 Frequenze in questo caso l’intervallo (e la larghezza della barra) corrisponde a 5000 0 10 le barre si toccano perché la variabile è continua 20 40 50 Istogramma 0 5000 10000 15000 20000 25000 30000 Reddito G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 22 / 39 Distribuzione di frequenza Istogramma con classi più piccole (I/R) se la variabile non è molto simmetrica, l’ampiezza degli intervalli può cambiare moltissimo la distribuzione raffigurata 15 in questo caso l’intervallo (e la larghezza della barra) corrisponde a 2000 0 5 10 Frequenze 20 25 Istogramma con classi più piccole 0 5000 10000 15000 20000 25000 Reddito G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 23 / 39 Grafici non presenti sul libro Ramo e foglia [Stem & leaf] Consideriamo un insieme di dati (EsempioG.xls) G=2 3 4 5 6 2 2 2 5 5 3 4 2 6 3 4 4 5 3 2 ordiniamo i dati: 2 2 2 2 2 2 3 3 3 3 4 4 4 4 5 5 5 5 6 6 2 3 4 5 6 | | | | | 000000 0000 0000 0000 00 Per ogni valore attiviamo un “ramo” e usiamo poi lo 0 per indicare la “foglia” Abbiamo 6 volte il valore 2 Sul ramo “2” avremo 6 “foglie” e via così In questo modo otteniamo un “grafico” (a caratteri) molto simile ai grafici a barre orizzontali Complichiamo un po’ le cose G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 24 / 39 Grafici non presenti sul libro Ramo e foglia [Stem & leaf] (I/R) A=33, 45, 39, 31, 37, 46, 34, 22, 30, 35, 27, 45, 42, 27, 31, 33, 44, 39, 36, 24, 27, 30, 24, 22, 33, 36, 54, 54, 46, 32, 33, 24, 24, 36, 35, 42, 24, 42, 45, 27, 41 (EsempioA.xls) Dati ordinati: 22 22 24 24 24 24 24 27 27 27 27 30 30 31 31 32 33 33 33 33 34 35 35 36 36 36 37 39 39 41 42 42 42 44 45 45 45 46 46 54 54 2 2 3 3 4 4 5 | | | | | | | 2244444 7777 0011233334 55666799 12224 55566 44 G. Rossi (Dip. Psicologia) Se i valori utilizzano le decine, queste vengono usate per i “rami” e le unità per le “foglie” Se su un ramo ci sono molte foglie il ramo viene “spezzato in due” (per non avere pochi rami e troppe foglie) ElemPsico 2014-2015 25 / 39 Grafici non presenti sul libro Ramo e foglia [Stem & leaf] Con variabili più complesse come il Reddito Min. 611 ramo-foglia 0e6 G. Rossi (Dip. Psicologia) Max. 25880 ramo-foglia 24 e 9 ElemPsico Esempio SPSS 2014-2015 26 / 39 Grafici non presenti sul libro Ramo e foglia [Stem & leaf] Con variabili più complesse come il Reddito Min. 611 ramo-foglia 0e6 Max. 25880 ramo-foglia 24 e 9 Esempio SPSS Il punto decimale è 3 posizioni a destra del | 0 | 6979 2 | 44689001125556667999 4 | 012233456777881111234566889 6 | 01233556679901145679 8 | 000012334488999936 10 | 4004 12 | 45 14 | 026 16 | 5 18 | 3 20 | 22 | 24 | 39 G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 26 / 39 In SPSS Cos’è SPSS SPSS significa Statistical Package for Social Sciences (Pacchetto statistico per le scienze sociali) ed è un programma per gestire dati e calcolare statistiche. Adesso di chiama IBM Spss Permette di inserire, nominare e gestire le misurazioni statistiche Permette di manipolare le variabili (in modo analogo ai fogli elettronici Permette di calcolare le statistiche descrittive, di fare grafici Permette di fare l’analisi dei dati Esiste un clone “open source” chiamato PSPP (http://www.gnu.org/software/pspp/, gratuito ma non ancora completo, siamo solo alla versione 0.8.4) G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 27 / 39 In SPSS Primo avvio Per eseguire SPSS (Win) Start | Tutti i programmi | IBM Spss Statistics | IBM Spss Statistics 2x Selezionate “Immettere dati” Alla prima esecuzione compare una finestra di dialogo che permette di effettuare alcune scelte. Per disattivarla, click-ate qui poi OK G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 28 / 39 In SPSS Finestra di base La finestra principale è formata da due pannelli uno per la visualizzazione dei dati uno per la descrizione delle variabili G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 29 / 39 In SPSS Finestra di base Le principali voci di menù sono: Dati: permette di agire sul file dei dati (ordinare, selezionare, filtrare. . . ) Trasforma: permette di manipolare le variabili (calcolare nuove variabili, ricodificare, contare valori. . . ) Analizza: È il menù più utilizzato perché contiene tutte le procedure statistiche disponibili La prima volta che usate SPSS vi conviene fare l’esercitazione disponibile nell’Help. Per indicare un percorso di menù, userò questa convenzione voce principale | sottomenù | sotto-sottomenù: ad es. Aiuto | Esercitazione G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 30 / 39 In SPSS Distribuzione e grafici in SPSS La maggior parte delle statistiche che abbiamo visto e che vedremo e i relativi grafici, si ottengono in SPSS tramite due comandi Analizza | Statistiche descrittive | Frequenze... Analizza | Statistiche descrittive | Esplora... In Spss si può fare solo quello che è previsto dal software; i grafici non sono bellissimi In Excel si possono fare molti più grafici (anche più “belli”) In R (usato in questi lucidi) si può fare praticamente tutto, ma è molto più complicato G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 31 / 39 In SPSS Spss Usando il file esempio1.sav vediamo le statistiche presentate. Usando File | Apri | Dati cerchiamo e apriamo il file G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 32 / 39 In SPSS Spss: frequenze Calcoliamo le frequenze con il comando Analizza | Statistiche descrittive | Frequenze... Poi spostiamo Genere fra le Variabili E premiamo G. Rossi (Dip. Psicologia) OK ElemPsico 2014-2015 33 / 39 In SPSS Spss: frequenze G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 34 / 39 In SPSS Spss: istogramma (Frequenze) Analizza | Statistiche descrittive | Frequenze... Pulsante Grafici... Selezioniamo Istogramma eventualmente anche Con curva normale Pulsante e poi Continua OK G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 35 / 39 In SPSS Spss: istogramma (Frequenze/Esplora) Spss usa automaticamente gli intervalli di classe non è possibile modificare l’ampiezza di classe La curva normale non c’è con Esplora G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 36 / 39 In SPSS Spss: istogramma (Esplora) Analizza | Statistiche descrittive | Esplora... Pulsante Grafici... Selezioniamo Istogramma (non è possibile avere la curva normale) Pulsante e poi Continua OK G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 37 / 39 In SPSS Spss: torta Analizza | Statistiche descrittive | Frequenze... Pulsante Grafici... Selezioniamo Grafici a torta Pulsante e Continua OK G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 38 / 39 In SPSS Spss: Steam-leaf (Esplora) Analizza | Statistiche descrittive | Esplora... Pulsante Grafici... Selezioniamo Ramo-foglia Pulsante e Continua OK G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 39 / 39