Analisi Bivariata e Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5 Statistica descrittiva bivariata Indaga la relazione tra due variabili misurate. Si distingue rispetto alla tipologia delle variabili indagate: • var. qualitative/quantitative discrete: tavole di contingenza (o a doppia entrata) • var. quantitative: analisi di correlazione lineare • una var. qualitativa e una quantitativa: confronto tra le medie Test per lo studio dell’associazione tra variabili • Nella teoria dei test, il ricercatore fornisce ipotesi riguardo la distribuzione della popolazione; tali ipotesi sono parametriche se riguardano il valore di uno ò più parametri della popolazione conoscendone la distribuzione a meno dei parametri stessi; non parametriche se prescindono dalla conoscenza della distribuzione della popolazione. • Obiettivo dei test: come decidere se accettare o rifiutare un’ipotesi statistica alla luce di un risultato campionario. Esistono due ipotesi: – H0 l’ipotesi nulla, cioè l’ipotesi che deve essere verificata – H1 l’ipotesi alternativa la quale rappresenta, di fatto, l’ipotesi che il ricercatore sta cercando di dimostrare. Test per lo studio dell’associazione tra variabili • Si può incorrere in due tipologie di errore: Possibili Risultati Verifica di Ipotesi Stato di Natura Decisione Non Rifiutare H0 Rifiutare H0 H0 Vera No errore Errore Primo Tipo H0 Falsa Errore Secondo Tipo No Errore Test per lo studio dell’associazione tra variabili • Errore di Primo Tipo – Rifiutare un’ipotesi nulla vera – Considerato un tipo di errore molto serio La probabilità dell’errore di primo tipo è • Chiamato livello si significatività del test • Fissato a priori dal ricercatore (i valori comuni sono 0.01, 0.05, 0.10) Test per lo studio dell’associazione tra variabili • Errore di Secondo Tipo – Non rifiutare un’ipotesi nulla falsa La probabilità dell’errore di secondo tipo è β Test per lo studio dell’associazione tra variabili Possibili Risultati Verifica di Ipotesi Stato di Natura Legenda: Risultato (Probabilità) Decisione H0 Vera Non Rifiutare H0 No errore (1 - ) Rifiutare H0 Errore Primo Tipo () H0 Falsa Errore Secondo Tipo (β) No Errore (1-β) Test per lo studio dell’associazione tra variabili Errore di primo tipo ed errore di secondo tipo non si posso verificare contemporanemente Errore di primo tipo può occorrere solo se H0 è vera Errore di secondo tipo può occorrere solo se H0 è falsa Se la probabilità dell’errore di primo tipo ( ) , allora la probabilità dell’errore di secondo tipo ( β ) Lettura di un test statistico (1) Esempio: H0: b1= b2 = ....=bk = 0 1) Ipotesi H1: almeno un bi≠0 2) Statistica test 3) p-value Statistica F Rappresenta la probabilità di commettere l’errore di prima specie. Può essere interpretato come la probabilità che H0 sia “vera” in base al valore osservato della statistica test Lettura di un test statistico (2) Fissato un livello di significatività : Se p-value piccolo (< ) RIFIUTO H0 Altrimenti (>= ) ACCETTO H0 Il p-value è il più piccolo valore di per il quale H0 può essere rifiutata Test χ² per l’indipendenza statistica Si considera la distribuzione χ², con un numero di gradi di libertà pari a (k-1)(h-1), dove k è il numero di righe e h il numero di colonne della tabella di contingenza. Qui: • H0 :indipendenza statistica tra X e Y • H1 : dipendenza statistica tra X e Y La regione di rifiuto cade nella coda di destra della distribuzione 0.2 0.15 0.1 0.05 La regione di rifiuto è caratterizzata da valori relativamente elevati di χ²; se il livello di significatività è al 5%, si rifiuta per χ²> χ²0.95 0 Regione di rifiuto 0 1.1 2.2 3.3 4.4 5.5 6.6 7.7 8.8 9.9 11 Test χ² per l’indipendenza statistica Chi-Square Tests Pears on Chi-Square Likelihood Ratio N of Valid Cases Value 5.471 a 5.402 221 df 3 3 Asymp. Sig. (2-s ided) .140 .145 a. 0 cells (.0%) have expected count les s than 5. The minimum expected count is 15.95. p-value=0.140 > =0.05 accetto l’ipotesi di indipendenza statistica Chi-Square Tests Pears on Chi-Square Likelihood Ratio N of Valid Cases Value 26.304a 28.928 221 df 8 8 Asymp. Sig. (2-s ided) .001 .000 a. 0 cells (.0%) have expected count les s than 5. The minimum expected count is 5.47. p-value=0.001 < =0.05 rifiuto l’ipotesi di indipendenza statistica Test t per l’indipendenza lineare Questo test verifica l’ipotesi di indipendenza lineare tra due variabili, partendo dall’indice di correlazione lineare ρ. Si ha: • H0: indipendenza lineare tra X e Y (ρpopolaz=0) • H1: dipendenza lineare tra X e Y (ρpopolaz ≠ 0) La statistica test è distribuita come una t di Student con n-2 gradi di libertà, e tende a crescere all’aumentare dell’ampiezza campionaria t= ρ √(n-2)/ (1- ρ²) Test t per l’indipendenza lineare La regione di rifiuto è caratterizzata da valori relativamente elevati di t in modulo; se il livello di significatività è al 5%, si rifiuta per |t| >t0,975 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 Regione di rifiuto Regione di rifiuto Test t per l’indipendenza lineare Correlations Qualità degli ingredienti Genuinità Leggerezza Sapore/gusto Pears on Correlation Sig. (2-tailed) N Pears on Correlation Sig. (2-tailed) N Pears on Correlation Sig. (2-tailed) N Pears on Correlation Sig. (2-tailed) N Qualità degli ingredienti 1 Genuinità Leggerezza Sapore/gusto .629** .299** .232** .000 .000 .001 220 220 218 220 .629** 1 .468** .090 .000 .000 .181 220 220 218 220 .299** .468** 1 .030 .000 .000 .657 218 218 219 219 .232** .090 .030 1 .001 .181 .657 220 220 219 221 **. Correlation is s ignificant at the 0.01 level (2-tailed). p-value=0.657 > =0.05 accetto l’ipotesi di indipendenza lineare tra le variabili leggerezza e sapore/gusto Test F per la verifica di ipotesi sulla differenza tra medie Si considerino le medie di una variabile quantitativa calcolate per ognuna delle modalità di una variabile categorica (ad esempio reddito medio per area geografica=nord, per area geografica=centro e per area geografica=sud). • H0: le medie sono tutte uguali tra loro • H1: esistono almeno due medie diverse tra loro La statistica test da utilizzare, sotto l’ipotesi H0, si distribuisce come una F di Fisher con (c-1,n-1) gradi di libertà. Tende a crescere all’aumentare della varianza tra medie e al diminuire della variabilità interna alle categorie. Cresce inoltre all’aumentare dell’ampiezza campionaria. Test F per la verifica di ipotesi sulla differenza tra medie La regione di rifiuto cade nella coda di destra della distribuzione, cioè è caratterizzata da valori relativamente elevati di F; se il livello di significatività è 5%, si rifiuta per F> F0,95 0.8 0.7 0.6 0.5 0.4 0.3 0.2 Regione di rifiuto 0.1 0 0 0.7 1.4 2.1 2.8 3.5 4.2 4.9 Test F per la verifica di ipotesi sulla differenza tra medie Report Measures of Association Produzione artigianale Età 18-25 26-35 36-50 Over 50 Total Mean 5.01 5.53 6.00 6.09 5.55 Eta N 78 55 41 47 221 Std. Deviation 2.224 2.609 2.098 2.320 2.352 Produzione artigianale * Età Eta Squared .191 .036 ANOVA Table Produzione artigianale * Età Between Groups Within Groups Total (Combined) Sum of Squares 44.296 1172.356 1216.652 df 3 217 220 Mean Square 14.765 5.403 F 2.733 Sig. .045 p-value=0.045 < =0.05 rifiuto l’ipotesi di uguaglianza tra medie Report Attenzione a bis ogni s pecifici Età 18-25 26-35 36-50 Over 50 Total Mean 4.05 4.53 5.00 5.83 4.73 N Std. Deviation 2.772 2.791 2.837 8.168 4.536 78 53 41 47 219 ANOVA Table Attenzione a bisogni s pecifici * Età Between Groups Within Groups Total (Combined) Sum of Squares 97.921 4387.641 4485.562 df 3 215 218 Mean Square 32.640 20.408 F 1.599 p-value=0.191 > =0.05 accetto l’ipotesi di uguaglianza tra medie Sig. .191 PROC FREQ - Descrizione La PROC FREQ permette di • calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete • creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitative discrete • calcolare indici di dipendenza relativi a tabelle di contingenza PROC FREQ – Sintassi generale Distribuzione di frequenza bivariata proc freq data= dataset option(s); tables variabile1 * variabile2 /option(s); run; OPTIONS: • noprint non mostra i risultati nella finestra di output • /missing considera anche i missing nel calcolo delle frequenze PROC FREQ - Esempio Variabili qualitative: sesso e operatore telefonico proc freq data=corso.telefonia; table sesso * operatore; run; Output PROC FREQ - Esempio Distribuzioni marginali: frequenze marginali assolute e relative Frequenze congiunte assolute e relative Frequency Percent Row Pct Col Pct Table of sesso by operatore sesso operatore 3 Tim F 7 2.97 7.00 58.33 27 11.44 27.00 49.09 63 26.69 63.00 40.91 3 1.27 3.00 20.00 100 42.37 M 5 2.12 3.68 41.67 28 11.86 20.59 50.91 91 38.56 66.91 59.09 12 5.08 8.82 80.00 136 57.63 Total 12 5.08 55 23.31 154 65.25 15 6.36 236 100.00 Frequenze subordinate Vodafone Total Wind Output PROC FREQ - Esempio freq. congiunta relativa =(7/236)*100 Frequency Percent Row Pct Col Pct freq. subordinate: freq. marginale assoluta=7+27+63+3 Table of sesso by operatore sesso operatore 3 Tim Vodafone Total Wind F 7 27 63 3 100 2.97 11.44 26.69 1.27 42.37 7.00 27.00 63.00 3.00 58.33 freq. 49.09marginale 40.91 relativa=(7+27+63+3)/236*100 20.00 M 5 2.12 3.68 41.67 28 11.86 20.59 50.91 91 38.56 66.91 59.09 12 5.08 8.82 80.00 136 57.63 Total 12 5.08 55 23.31 154 65.25 15 6.36 236 100.00 % di riga=5/136*100 % di col=5/12*100 PROC FREQ - Descrizione La PROC FREQ permette di • calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete • creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitative discrete • calcolare indici di dipendenza relativi a tabelle di contingenza Test chi-quadro – Indipendenza statistica • Si applica alle tabelle di contingenza a due dimensioni • Per testare l’hp di indipendenza statistica tra le due variabili della tabella (ossia, la distribuzione di X non è influenzata da Y e viceversa) • Si calcola con la PROC FREQ (opzione CHISQ) PROC FREQ – Sintassi generale Calcolo dell’indice chi-quadro proc freq data= dataset option(s); tables variabile1 * variabile2 /option(s); run; OPTIONS: • noprint non mostra i risultati nella finestra di output • /missing considera anche i missing nel calcolo delle frequenze • /chisq calcola l’indice chi-quadro e altre misure di associazione basate sul chi-quadro Esempio n°1- Test chi-quadro – Indipendenza statistica C’è indipendenza statistica tra le variabili sesso del rispondente (SESSO) e possesso del computer (COMPUTER)? proc freq data=corso.telefonia; table sesso * computer /chisq; run; Esempio n°1- Test chi-quadro – Indipendenza statistica Le frequenze della variabile COMPUTER subordinata a SESSO: sesso=F Cosa sono le frequenze subordinate? Frequency Table of sesso by computer Percent sesso(sesso) computer(computer) Row Pct 0 1 16 84 Col Pct F 6.78 35.59 16 84 28.57 46.67 40 96 M 16.95 40.68 29.41 70.59 71.43 53.33 56 180 Total 23.73 76.27 computer computer Percent Frequency 136 57.63 236 100 Cumulative Percent 16 100 29.41 70.59 Cumulative Frequency 40 136 Cumulative Percent 29.41 100 16 84 0 1 sesso=M Total 100 42.37 16 84 Cumulative Frequency 16 100 computer 0 1 computer Percent Frequency 40 96 Le frequenze della variabile di SESSO subordinata a COMPUTER: computer = 0 sesso sesso Frequency Percent 16 40 F M 28.57 71.43 Cumulative Frequency 16 56 Cumulative Percent 28.57 100 Cumulative Frequency 84 180 Cumulative Percent 46.67 100 computer = 1 sesso sesso F M Frequency Percent 84 96 46.67 53.33 Esempio n°1- Test chi-quadro – Indipendenza statistica Le frequenze subordinate (di SESSO subordinata a COMPUTER e viceversa) sono diversedenota influenza di ognuna delle due variabili sulla distribuzione dell’altra (=dipendenza statistica) Frequency Table of sesso by computer Percent sesso(sesso) computer(computer) Row Pct 0 1 16 84 Col Pct F 6.78 35.59 16 84 28.57 46.67 40 96 M 16.95 40.68 29.41 70.59 71.43 53.33 56 180 Total 23.73 76.27 Total 100 42.37 136 57.63 236 100 Esempio n°1- Test chi-quadro – Indipendenza statistica Possiamo concludere che le due variabili sono statisticamente dipendenti? Il p-value del test chi-quadro è basso (<0.05) rifiuto l’hp di indipendenza statistica le due variabili sono statisticamente dipendenti Statistic Chi-Square Likelihood Ratio Chi-Square Continuity Adj. Chi-Square Mantel-Haenszel Chi-Square Phi Coefficient Contingency Coefficient Cramer's V DF 1 1 1 1 Value 5.7275 5.9139 5.0104 5.7032 -0.1558 0.1539 -0.1558 Prob 0.0167 0.015 0.0252 0.0169 Esempio n°2 - Test chi-quadro – Indipendenza statistica C’è indipendenza statistica tra le variabili SESSO e MARCA? proc freq data=corso.telefonia; table sesso * marca /chisq; run; Esempio n°2 - Test chi-quadro – Indipendenza statistica Attenzione: molte celle con frequenze congiunte assolute molto bassetest non molto affidabile Frequency Percent Row Pct sesso Col Pct F Altro M Total 2 0.85 2 33.33 4 1.69 2.94 66.67 6 2.54 Lg 8 3.39 8 61.54 5 2.12 3.68 38.46 13 5.51 Motorola 19 8.05 19 36.54 33 13.98 24.26 63.46 52 22.03 Table of sesso by marca marca Nek Nokia PalmOne Samsung Siemens 2 0.85 2 50 2 0.85 1.47 50 4 1.69 45 19.07 45 43.69 58 24.58 42.65 56.31 103 43.64 1 0.42 1 100 0 0 0 0 1 0.42 15 6.36 15 37.5 25 10.59 18.38 62.5 40 16.95 1 0.42 1 20 4 1.69 2.94 80 5 2.12 Total Sony Ericsson 7 2.97 7 58.33 5 2.12 3.68 41.67 12 5.08 100 42.37 136 57.63 236 100 Esempio n°2 - Test chi-quadro – Indipendenza statistica Il p-value del test chi-quadro è alto accetto l’hp di indipendenza statistica le due variabili sono statisticamente indipendenti Statistic Chi-Square Likelihood Ratio ChiSquare Mantel-Haenszel ChiSquare Phi Coefficient Contingency Coefficient DF Value 8 7.0754 8 7.5018 Prob 0.5285 0.4836 1 0.9191 0.0103 0.1731 0.1706 0.1731 Cramer's V WARNING: 44% of the cells have expected counts less than 5. Chi-Square may not be a valid test. Test t – Indipendenza lineare • Si applica a variabili quantitative • Per testare l’hp di indipendenza lineare tra due variabili (ossia, il coefficiente di correlazione lineare tra X e Y è nullo) • Si calcola con la PROC CORR PROC CORR - Descrizione La PROC CORR permette di • calcolare la correlazione tra due o più variabili quantitative PROC CORR – Sintassi generale Correlazione tra due variabili proc corr data= dataset; var variabile1; with variabile2; run; PROC CORR - Esempio Correlazione tra il numero medio di ore di utilizzo del telefono cellulare e del fisso al giorno. proc corr data=corso.telefonia; var cell_h; with fisso_h; run; Output PROC CORR - Esempio 1 With Variables: 1 Variables: fisso_h 20 c cell_h e 15 l l Variable fisso_h cell_h N 10 Simple Statistics _ h Mean Std Dev Sum 5 208 0.67933 0.72715 141.3 236 2.43644 3.90018 575 Minimum Maximum Label 0.05 5 fisso_h 0.25 24 cell_h 1 Pearson Correlation Coefficients Prob > |r| under H0: Rho=0 Number of Observations cell_h 0.24403 fisso_h fisso_h 0.0004 208 2 3 4 f i sso_h Coefficiente di correlazione lineare ρ(X,Y): è un indice relativo, assume valori compresi tra -1 e 1. Se ρ >0 (ρ <0) la relazione tra X e Y è lineare positiva (negativa), se ρ =0 non c’è relazione lineare. 5 PROC CORR – Sintassi generale Correlazione tra più variabili proc corr data= dataset; var variabile1; with variabile2 variabile3 variabile4; run; proc corr data= dataset; var variabile1 variabile2 variabile3 variabile4; run; PROC CORR - Esempio Correlazione tra la durata media delle chiamate effettuate e: • durata media delle chiamate ricevute, • numero medio di ore di utilizzo del telefono cellulare al giorno, • numero medio di ore di utilizzo del telefono fisso al giorno. proc corr data=corso.telefonia; var durata_chiamate_e; with durata_chiamate_r cell_h fisso_h; run; Output PROC CORR - Esempio 3 With Variables: 1 Variables: Variable durata_chiamate_r cell_h fisso_h durata_chiamate_e durata_chiamate_r cell_h fisso_h durata_chiamate_e N Simple Statistics Mean Std Dev Sum Minimum Maximum Label 236 12.02119 12.57706 2837 0 90 durata_chiamate_r 236 2.43644 3.90018 575 208 0.67933 0.72715 141.3 236 11.16314 12.40367 2635 Pearson Correlation Coefficients Prob > |r| under H0: Rho=0 Number of Observations durata_chiamate_e 0.78645 durata_chiamate_r durata_chiamate_r cell_h <.0001 236 0.23099 fisso_h 0.0003 236 0.24568 cell_h fisso_h 0.0003 208 d 0.25 0.05 0 24 cell_h 5 fisso_h 90 durata_chiamate_e 80 u r a 60 t a _ 40 c h i 20 a m 0 0 20 40 60 d u r a t a _ c h i a ma t e _ e 80 Esempio n°1 - Test t – Indipendenza lineare C’è indipendenza lineare tra il numero medio ore utilizzo cellulare al giorno(CELL_H ) e il numero medio ore utilizzo telefono fisso al giorno (FISSO_H)? proc corr data=corso.telefonia; var cell_h; with fisso_h; run; Esempio n°1 - Test t – Indipendenza lineare Il p-value del test t è basso rifiuto l’hp di indipendenza lineare esiste una relazione lineare tra le due variabili, anche se non molto forte (il coefficiente di correlazione lineare è non nullo ma ha valore non molto elevato) Pearson Correlation Prob > |r| under H0: Rho=0 Number of Observations cell_h fisso_h fisso_h 0.24403 0.0004 208 Esempio n°2 - Test t – Indipendenza lineare C’è indipendenza lineare tra il numero medio ore utilizzo telefono fisso (FISSO_H ) e il numero medio di email inviate al giorno (EMAIL_H)? proc corr data=corso.telefonia; var fisso_h; with email_h; run; Esempio n°2 - Test t – Indipendenza lineare Il p-value del test t è alto accetto l’hp di indipendenza lineare non esiste una relazione lineare tra le due variabili Pearson Correlation Prob > |r| under H0: Rho=0 Number of Observations fisso_h email_h email_h 0.06069 0.3838 208 Test F – Indipendenza in media • Si applica a variabili quantitative • Per testare l’hp di indipendenza in media tra due variabili, di cui una categorica (ossia, se X è categorica, le medie di Y calcolate per ogni categoria di X sono uguali tra di loro e uguali alla media globale di Y) • Si calcola con la PROC REG (la vedremo quando parleremo di modelli di regressione lineare) Esercizi 1. Testare se le variabili area geografica e sesso del data set DENTI sono statisticamente indipendenti 2. Testare l’ipotesi di indipendenza lineare tra le variabili consumo di dentifrici della marca A e numero di contatti pubblicitari totali del data set DENTI