Questionario Analisi Univariata e Bivariata Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°3 Questionario Per redigere un questionario è necessario tener presenti i seguenti punti: ogni questionario somministrato deve avere un codice identificativo univoco solo domande chiuse (cioè con un insieme di modalità definite) sono ammesse le domande a risposta multipla raccogliere informazioni di carattere quantitativo (necessario per costruire modelli statistici consistenti) tipologia dei dati • strutturali (che descrivono l’intervistato, ad esempio l’età) • di indagine Questionario - Step La raccolta -tramite questionario- di dati utili per effettuare analisi statistiche procede attraverso i seguenti step: 1. 2. 3. 4. Predisporre il questionario Sottoporre i questionari agli intervistati (NB: ad ogni intervistato deve corrispondere un codice univoco che identifica il questionario da lui compilatotenere traccia di questi codici!) Per ogni domanda definire un’opportuna (qualitativa o quantitativa) variabile statistica, che assume come valori le possibili risposte alla domanda Inserire in un foglio excel i dati raccolti: ogni riga corrisponde ad un singolo intervistato/questionario compilato e ci saranno una (nel caso di domande a risposta singola) o più (nel caso di domande a risposta multipla) colonne che corrispondono alle singole domande del questionario. Nella generica cella corrispondente all’incrocio della riga “i” e della colona “j” ci sarà dunque il “valore” della risposta dell’individuo “i” alla domanda “j”. Dal questionario al Data Set Costruire la variabile n_questionario che associa un codice univoco ad ogni intervistato. Identificare ogni variabile con un nome facilmente riconducibile alla domanda corrispondente (ad esempio la domanda n°1 corrisponde alla variabile D_1). Nel caso di domande a risposte multiple andranno create un numero di variabili dicotomiche (0/1) pari al numero di modalità definite nella risposta. Data Entry: controllo correttezza dei dati inseriti e analisi delle distribuzioni delle variabili (con valenza di controllo e valenza interpretativa). Esempio domanda – variabile qualitativa ordinale 1. Su una scala da 1 a 9 (con 1 = per nulla e 9 = moltissimo) quanto ritiene importante comunicare e relazionarsi con le altre persone nella sua vita quotidiana? R: 8 n_questionario 125 … … D_1 …. … 8 … Esempio domanda – variabile quantitativa 2. Mediamente, quante ore al giorno utilizza il cellulare? 1) 15 minuti 2) 30 minuti 3) 1 ora 4) 2 ore 5) 3 ore 6) 4 ore 7) 5 ore 8) 6 ore 9) … R: 3 ore ; R: 10 ore n_questionario … 125 …. 34 … D_1 D_2 8 … 3 10 Esempio domanda – variabile qualitativa nominale 10. Perché non utilizza un telefono cellulare? 1) Non mi interessano i telefoni cellulari NO INTERESSE 2) Possiedo altri mezzi di comunicazione e sono già soddisfatto così ALTRI MEZZI 3) Mi piacerebbe ma sento che lo troverei difficile da utilizzareDIFFICILE 4) Sarei interessato, ma non abbastanza da sostenere il costo d’acquisto COSTO 5) Altro ALTRO R: 1 ; R: 4 n_questionario … 125 …. 34 … D_1 D_2 8 … D_10 3 10 NO INTERESSE COSTO Esempio domanda – variabile qualitativa nominale 12. Qual è la tecnologia del suo telefono cellulare principale? (possibile fornire 1 sola risposta) 1) Gsm 2) Umts 3) Palmare 4) Non so R: Gsm n_questionario … 125 …. 34 … D_1 D_2 8 … D_12 3 10 Gsm … Esempio domanda – variabile quantitativa 14. Ogni quanto cambia il suo telefono cellulare? (esprimere la risposta in mesi) R: 18 n_questionario … 125 …. 34 … D_1 D_2 8 … D_12 3 10 D_14 Gsm … 18 … Domande a risposte multiple 17. Per quale motivo utilizza il telefono cellulare? (possibile fornire massimo 3 risposte) 1) Lavoro D_17_1 2) Studio D_17_2 3) Comunicare con famigliari D_17_3 4) Comunicare con il partner D_17_4 5) Piacere/tempo libero 6) Altro D_17_5 D_17_6 n_questionario … D_17_1 D_17_2 D_17_3 D_17_4 D_17_5 D_17_6 45 …. 1 0 1 1 0 0 … … … … … … … … Domande a risposte multiple 9. In quale momento della giornata comunica maggiormente? (distribuisca 100 punti % tra le possibili risposte) 1) Mattino (7.00-13.00) 2) Pomeriggio (13.00-19.00) 3) Sera (19.00-24.00) 4) Notte (24.00-7.00) R: 30% - 40% - 10% - 20% n_questionario … 250 …. … … D_9_1 D_9_2 30 … D_9_3 40 … D_9_4 10 … 20 … … … Analisi Univariata PROC UNIVARIATE - Descrizione La PROC UNIVARIATE permette di calcolare • distribuzioni di frequenza univariate per variabili quantitative continue • misure di sintesi di posizione, variabilità, forma per variabili quantitative continue PROC UNIVARIATE – Sintassi Distribuzione di frequenza univariata proc univariate data= dataset option(s); var variabile; run; OPTIONS: • noprint non mostra i risultati nella finestra di output PROC UNIVARIATE – Esempio 1 Misure di sintesi della variabile quantitativa discreta numero medio sms inviati al giorno proc univariate data=corso.telefonia; var num_sms_e; run; Output PROC UNIVARIATE (1/2) Misure di Variabilità • Scarto Quadratico Medio [Std Deviation]: mostra la variabilità rispetto alla media • Varianza [Variance]: media dei quadrati delle differenze fra ciascuna osservazione e la media • Campo di Variazione [Range]: differenza tra il massimo e il minimo dei valori osservati • Differenza Interquartile [Interquartile Range]: 3° quartile – 1° quartile Basic Statistical Measures Location Variability Mean 24.31356 Std Deviation 28.46175 Median 10.00000 Variance 810.07147 Mode 10.00000 Range 100.00000 Interquartile Range 25.00000 Output PROC UNIVARIATE (2/2) • Coeff di variazione [Coeff Variation]: misura la variabilità relativa rispetto alla media (%) s CV |x| 100% Moments N 236 Sum Weights 236 Mean 24.3135593 Sum Observations 5738 Std Deviation 28.4617546 Variance 810.071475 Skewness 1.59619131 Kurtosis 1.44200254 Uncorrected SS 329878 Corrected SS 190366.797 Coeff Variation Std Error Mean 1.85270242 117.061242 Output PROC UNIVARIATE (2/2) Misure di Forma della Distribuzione • Skewness: indice che informa circa il grado di simmetria o asimmetria di una distribuzione • – γ=0 distribuzione simmetrica; – γ<0 asimmetria negativa (mediana>media); – γ>0 asimmetria positiva (mediana<media). Kurtosis: indice che permette di verificare se i dati seguono una distribuzione di tipo Normale (simmetrica) – β=3 se la distribuzione è “Normale”; – β<3 se la distribuzione è iponormale; – β>3 se la distribuzione è ipernormale. Moments N 236 Sum Weights 236 Mean 24.3135593 Sum Observations 5738 Std Deviation 28.4617546 Variance 810.071475 Skewness 1.59619131 Kurtosis 1.44200254 Uncorrected SS 329878 Corrected SS 190366.797 Coeff Variation Std Error Mean 1.85270242 117.061242 Analisi di Concentrazione Per caratteri quantitativi trasferibili Equidistribuzione: Max concentrazione: x1 x 2 x3 ....... xn μ x1 x2 x3 ....... xn 1 0 xn Nμ 1. Ordinare le osservazioni x1 x2 x3 ....... xn i x i 2. Calcolare le quantità: Fi N Qi j j1 N x j1 j Analisi di Concentrazione CONCENTRAZIONE 100 90 80 70 60 50 40 30 EQUIDISTRIBUZIONE 20 Numero SMS effettuati 10 0 0 10 20 30 10% 45% 40 50 60 70 80 90 100 Analisi Bivariata PROC FREQ - Descrizione La PROC FREQ permette di • calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete • creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitative discrete PROC FREQ – Sintassi generale 1/2 Distribuzione di frequenza bivariata proc freq data= dataset option(s); tables variabile1 * variabile2 /option(s); run; OPTIONS: • noprint non mostra i risultati nella finestra di output • /missing considera anche i missing nel calcolo delle frequenze PROC FREQ: Esempio Variabili qualitative: sesso e operatore telefonico proc freq data=corso.telefonia; table sesso * operatore; run; Output PROC FREQ: Esempio Distribuzioni marginali: frequenze marginali assolute e relative Frequenze congiunte assolute e relative Frequency Percent Row Pct Col Pct Table of sesso by operatore sesso operatore 3 Tim F 7 2.97 7.00 58.33 27 11.44 27.00 49.09 63 26.69 63.00 40.91 3 1.27 3.00 20.00 100 42.37 M 5 2.12 3.68 41.67 28 11.86 20.59 50.91 91 38.56 66.91 59.09 12 5.08 8.82 80.00 136 57.63 Total 12 5.08 55 23.31 154 65.25 15 6.36 236 100.00 Frequenze subordinate Vodafone Total Wind Output PROC FREQ: Esempio freq. congiunta relativa =(7/236)*100 Frequency Percent Row Pct Col Pct freq. subordinate: freq. marginale assoluta=7+27+63+3 Table of sesso by operatore sesso operatore 3 Tim Vodafone Total Wind F 7 27 63 3 100 2.97 11.44 26.69 1.27 42.37 7.00 27.00 63.00 3.00 58.33 freq. 49.09marginale 40.91 relativa=(7+27+63+3)/236*100 20.00 M 5 2.12 3.68 41.67 28 11.86 20.59 50.91 91 38.56 66.91 59.09 12 5.08 8.82 80.00 136 57.63 Total 12 5.08 55 23.31 154 65.25 15 6.36 236 100.00 % di riga=5/136*100 % di col=5/12*100