Introduzione alla statistica per la ricerca Lezione IV Stefano Guidi Siena, 30Ottobre 2010 1 Statistica Inferenziale Processo di verifica di ipotesi: • Assumo che H0 sia vera • Calcolo la probabilità (p) di osservare i risultati ottenuti per caso • Se p < 5% rigetto H0 e concludo H1 vera Test significativo al 5% (α=5%) Se H0 fosse vera i risultati che ho trovato sarebbero troppo improbabili->H0 falsa 2 Confrontare medie (usi del t-test) • Confrontare la media di un campione ad un valore di riferime nto T test ad un campione (H0: μ=μ0 vs Ha:μ≠μ0) Es: I bambini di 4 anni comprendono il passivo o danno una risposta a caso? (H0: μ=0.5 vs Ha:μ≠0.5) • Confrontare le medie di due campioni T test a due campioni indipendenti (H0: μ1=μ2 vs Ha:μ1≠μ0) Es: La comprensione del passivo dei maschi è diversa da quella delle femmine? (H0: μm=μf vs Ha:μm≠μf) 3 BrightStats • Web-application (gratuita) per analisi statistiche (registrazione obbligatoria) • http://www.brightstat.com/ • 3 tipi di finestre: Data: I dati Variables: elenco delle variabili presenti e delle loro caratteristiche (tipo di scala) Output: grafici e risultati delle analisi 4 BrightStats (Interfaccia) Barra menù Icone accesso rapido Area dati/variabili/output Navigazione finestre 5 Menu File (gestione file dati) • Caricare i dati (da file esterni): 1. Comando: File/Upload Database Scegliere e caricare un file .xls(x) o .txt (occhio al formato) 2. Comando: File/Import from Database Scegliere il file precedentemente uploadato • Salvare i dati in locale: Comando: File/Save from Local Specificare il nome del file • Caricare i dati (da locale): Comando: File/Load to local Specificare il nome del file 6 T test in BrightStats • Formato dati: una colonna per i valori della variabile dipendente (scala numerica), una riga per (ogni) soggetto • Esplorare prima i dati Comando: Analyze/Descriptives Scegliere variabili di interesse e selezionare le statistiche richieste (media, mediana, deviazione standard, min, max…) Comando: Graphs/Histograms Specificare estremi ed intervallo 7 T test in BrightStats • Effettuare il test Comando: Analyze/Compare Means/One Sample T test Specificare il valore contro cui testare la media del gruppo • Output Valore di t; P value: probabilità di osservare il risultato per caso con H0 vera (Test significativo se p ≤ 0.05) df: gradi di libertà del test (riportare insieme a t e p!) 8 Confrontare 2 medie • La paura dei ragni (aracnofobia) è causata solo dai ragni veri o anche dalle immagini dei ragni? • 24 aracnofobici • 2 gruppi (formati a caso) 12 vedono ragni veri 12 vedono immagini di ragni Il gruppo è la variabile indipendente • Test per ansia (variabile dipendente) 9 T test in BrightStats • Formato dati: una colonna per i valori della variabile dipendente (scala numerica), una riga per (ogni) soggetto [ex: Anxiety) Una colonna per indicare il gruppo di appartenza (scala numerica, labels per i nomi gruppi) [ex: Group] • Esplorare i dati: Comando: Graphs>Lines Scegliere il tipo di grafico (Single lines + Summaries for groups) Specificare cosa rappresenta la linea (other Summary) Specificare quale è la variabile di interesse (Variable) Specificare il tipo di indice da calcolare (Function. Ex: Mean) Specificare quale è l’asse delle categoria (Category Axis) 10 T test in BrightStats • Effettuare il test Comando: Analyze>Compare Mean>Indipendent Samples T test Specificare quale è la variabile dipendente (test variables) Specificare quale è la variabile indipendente (grouping variable) Specificare quali livelli della variabile indipendente definiscono i gruppi (group 1 e group 2) • Output Test della varianza (se significativo, varianze diverse) Esito del T-test (per varianze uguali e diverse) • Cosa riportare Media del gruppo o dei gruppi e della differenza, e relativi standar error t(df) = valore t; p = p value 11 Campioni appaiati • A volte i campioni che io voglio confrontare riguardano le stesse persone, che io osservo in condizioni diverse (misure ripetute) Ex: Paura prima-dopo terapia • Violate le assunzioni del t-test Usare il related samples t-test 12 Esempio 1 • Terapia Cognitivo-Comportamentale ed anoressia. • Soggetti: 29 ragazze con diagnosi di anoressia • Misura (variabile indipendente) Peso (lb) prima della terapia 12 settimane dopo la terapia 13 Campioni appaiati in BrightStats • Formato dati: Almeno due colonne per la variabile dipendente Ex: prima e dopo terapia Una riga per soggetto • T-test a campioni appaiati (paired) Comando: Analyze/Compare Means/2 Related Samples Specificare le coppie di variabili 14 Campioni appaiati • Vantaggi rispetto al test a campioni indipendenti: Più potenza statistica con minor numero di soggetti Maggiore sensibilità per rigettare H0 anche con differenze piccole Considero la variazione individuale • Contro: Non sempre applicabile Effetti di carry over (ordine dei trattamenti) 15 Oltre il t test • T test confronta 2 gruppi alla volta • Spesso vogliamo confrontare più di 2 gruppi (livelli della variabile indipendente) Ex: Valutare le differenze tra l’efficacia di 10 possibili loghi per un nuovo brand Ex: Verificare l’efficacia di due diversi dosaggi di un farmaco, (rispetto ad un controllo - placebo) • Altre volte vogliamo confrontare l’effetto di più di una variabile indipendente Ex: efficacia di uno spot in base al contenuto di immagini di donne discinte (nessuno, basso, alto) per uomini e donne (seconda variabile indipendente) 16 Oltre il t test • Posso fare tanti t test, 1 per ogni possibile coppia di loghi, ma Tanti test: 10 loghi -> 45 coppie! Richiede molti calcoli I risultati sono meno comprensibili I test non sono indipendenti Aumentano le probabilità di avere un test significativo per caso (familywise error rate) 1 test significativo su 20 è uno sbaglio! • Soluzione: Analisi della Varianza (ANOVA) 17 Analisi della Varianza (ANOVA) • Ronald Fisher • Permette di confrontare le differenze tra le medie di 2 o più gruppi/trattamenti H0:μi=μj per ogni i e j Ha:μi≠μj per almeno una coppia i,j • Stessa logica di fondo nel test • Calcolo di una statistica F che misura il grado in cui H0 è violata F misura la probabilità di osservare per caso i risultati ottenuti, assumendo che H0 sia vera • F grande indica differenze difficilmente attribuibili al caso 18 Esempio 1 • Sono interessato agli effetti di un farmaco sul grado di allerta in un compito di natura attentiva • 18 soggetti, 3 gruppi • Variabile indipendente (dosaggio) Basso dosaggio farmaco Alto dosaggio farmaco Controllo (placebo) • Test del grado di allerta Numero di errori nel compito (variabile dipendente) 19 ANOVA in BrightStats (I) • Formato dati Una riga per ogni soggetto Una colonna per nome/numero del soggetto (consigliato) Una colonna per (ogni) variabile indipendente Variabile di tipo “string” (measure = “scale”) per ANOVA 1-way, OPPURE Variabile scala numerica (più generale, consigliato) Per trasformare una variabile string in una numerica usare: Transform/Automatic Recode Una colonna per i valori della variabile dipendente (scala numerica) 20 ANOVA in BrightStats (II) • Esplorare i dati (descrittive, grafico medie) • Condurre il test (opzione 1 - limitata) Comando: Analyze/Compare Means/One Way ANOVA Specificare la(e) variabile(i) dipendente (Test Variables) Specificare la variabile indipendente (Grouping Variable) • Condurre il test (opzione 2 - migliore) * Comando: Analyze/ANOVA/ANOVA Specificare la variabile dipendente (Dependent Variable) Specificare la(e) variabile(i) indipendente (Fixed Factors) * solo se indipendente(i) numerica 21 Output ANOVA • Output BrightStas Tabella medie Test varianze (opz.) Tabella anova • Riportare: Valore di F; P value: (Test significativo se p ≤ 0.05) df: gradi di libertà (Between Groups e Within Groups) Esempio F(2,15)=8,789; P<.01 22 F è un test generalista • F test significativo Fornisce evidenza contro H0 H0 è specifica Ha è generica: molti pattern possibili Non mi dice come H0 è violata Non distingue diversi possibili pattern compatibili con Ha • Test Omnibus (generalista) Non fornisce informazioni sulla natura degli effetti dei trattamenti 23 Quali medie differiscono? • 2 strumenti diversi per individuare quali gruppi differiscano Confronti analitici/contrasti pianificati/ad hoc Confronti sistematici/post hoc (in BrightStats) • Entrambi i sistemi permettono di controllare il rischio di errori di tipo I (cioè rifiutare l’ipotesi nulla quando questa è vera), • Gli errori di tipo I aumentano con il numero di test indipendenti condotti sui dati di un esperimento Ecco perché non è consigliabile applicare semplicemente un ttest a tutte le coppie di medie 24 Post hoc (confronti a coppie) • Confronti tra le medie di tutte le possibili coppie di gruppi: Alto vs basso Alto vs controllo Basso vs controllo • Selezionarli dalle opzioni della finestra di dialogo del test: Tukey HSD (pochi gruppi) Scheffe (molti gruppi) Duncan (sconsigliato) 25 Esempio 2 (1-way) • Sono interessato agli effetti di 2 farmaci per i disordini da iperattività nei bambini • 15 bambini affetti di età uguale 5 placebo 5 farmaco A 5 farmaco B • Test di comprensione su testo Numero di errori (variabile dipendente) 26 Esempio 3 (1-Way) • Consumo di caffeina e controllo motorio • Finger tapping test: Battere con un dito su un tasto in un intervallo di tempo (10s) Numero di battutte nell’intervallo (variabile dipendente) • Variabile indipendente Dose di caffeina assunta (4 livelli) Livelli: 0, 100, 200 o 300 ml 27 ANOVA 1-way e Fattoriale • In una ANOVA 1-way i gruppi sono definiti dai livelli di una sola variabile indipendente: Num. dei gruppi = num. dei livelli del fattore indipendente • Una ANOVA fattoriale analizza simultaneamente l’effetto di più di un fattore sulla variabile dipendente Num. gruppi = (num. livelli del I fattore) x (num. livelli del II fattore) x (…) Es: Fattore Età (3 anni, 6 anni, adulti) Fattore Lingua Madre (Italiano, Inglese) 3 x 2 = 6 gruppi 28 Esempio ANOVA fattoriale (2-way) • Variabile dipendente: Valore della bellezza del partner • 2 Fattori: Genere (2 livelli) Alcool assunto (3 livelli: no alcool, 2, 4 pinte) 2 x 3 = 6 possibili combinazioni • Interazione tra i fattori 29 Interazione di Fattori • In una ANOVA fattoriale possiamo analizzare non solo gli effetti dei singoli fattori (sulla variabile dipendente), ma anche gli effetti di interazione tra i fattori Interazione: l’effetto di uno dei fattori sulla variabile dipendente cambia ai diversi livelli di un altro fattore Effetto semplice: l’effetto di uno dei fattori ad uno specifico livello di un altro fattore Effetto principale: effetto di un fattore indipendentemente dai livelli degli altri fattori 30 Esempio 3: La mariuana ti rallenta? • Fattori: Precedente uso di mariuana (3 livelli) Nessuno Lieve Moderato Condizione (2 livelli): Fuma una sigaretta che sembra e odora come una canna Fuma una canna • Variabile dipendente: tempo di reazione (ms) 31 Esempio Fattoriale 2 • Uno psicologo vuole sapere se Gli effetti fisiologici dell’alcol influenzano l’aggressività, e se Le aspettative (psicologiche) sul consumo di alcol influenzano l’aggressività • Fattori: Consumo di alcol: si vs no Aspettativa di assumere alcol: si vs no • Variabile dipendente Intensità scossa somministrata 32 Tipi di Fattori e di ANOVA • Si distinguono 2 tipi di fattori in una ANOVA: Fattori Between Subjects Soggetti diversi assegnati ai diversi livelli del fattore (Gruppo di età) Analogia con t test per campioni indipendenti Fattori Within Subjects (ANOVA a misure ripetute) Ogni soggetto testato a tutti i livelli del fattore Analogia con t test per campioni appaiati In un’ANOVA mista sono combinati fattori between subjects e within subjects 33 Esempio 1-Way Within • Differenze tra tutor nella severità nel correggere i compiti • Fattore (variabile indipendente): tutor incaricato di correggere i compiti 4 livelli (diversi tutor) • Variabile dipendente (misura): Voto assegnato dal tutor 10 compiti 34 ANOVA Misure Ripetute in BrightStats • Formato dati Numero di colonne (numeriche) = Numero di livelli fattore Within [EX: tutor = 4] Una riga per ogni soggetto Le celle contengono la variabile dipendente • Effettuare il test * Comando: Analyze/Compare Means/Rep. One Way ANOVA Specificare le variabili con le misure (una per ogni livello del fattore) nel campo Test Variables Specificare i post-hoc e altre opzioni * Valido solo in caso di solo fattore (1-Way) Within 35 Output BrightStats • Tabella medie • Tabella ANOVA • Eventuali post-hoc • Eventuali correzioni sfericità 36 Esempio 2-Way mista • Scrivere sms peggiora la grammatica? • Fattori Gruppo (between - 2 livelli): Incoraggiati a scrivere sms Proibito scrivere sms Tempo (Within - 2 livelli): All’inizio dello studio Sei mesi dopo • Variabile dipendente (misura): Punteggio in test di grammatica 50 bambini (25 per gruppo) 37 ANOVA Mista in BrightStats * • Comando: Analyze/ANOVA Repeated Measurements Scegliere il formato dei dati (SPSS style per il formato wide) Definire i fattore Within ed il numero di livelli (add per aggiungere, poi continue) Specificare quali colonne della tabella (Variables) corrispondono ai livelli dei fattori within Specificare il/i fattore/i Between (Grouping Factors) Specificare opzioni e post-doc * Valido solo in caso di solo fattore Within, per 2 o più fattori Within usare EzAnova o altri (SPSS, R) 38 Esempio 2-Way mista • Grande fratello e personalità borderline? • Fattori Gruppo (between - 2 livelli): Concorrenti GF Controlli Tempo (Within - 2 livelli): Prima di entrare nella casa Dopo l’uscita dalla casa • Variabile dipendente (misura): Percentuale di personalità borderline 16 partecipanti (8 x gruppo) 39 Esempio 2-way Within (Luci, birra, ecc…) • Quali fattori mediano l’effetto dell’alcool sui giudizi di attrattività? • Fattori: Consumo di alcool (4 livelli): 0, 2, 4, o 6 pinte di birra Tipo di luce: Soffusa Forte • Variabile dipendente: Bellezza del partner scelto 40 Formato Dati x ANOVA Within Subject • Numero di colonne (per variabile dipendente) = Numero di livelli fattore Within 1 x Numero di livelli fattore Within 2 2 (tipo di luce) x 4 (consumo alcol) = 8 colonne • Una riga per ogni soggetto • Altre eventuali colonne Es: Soggetto sperimentale, Eventuali Fattori Between ecc. 41 Esempio 2-way Within (Stroop Effect) • Tipi di parole: Nomi di colori Nomi di oggetti • Condizioni presentazione: Normale (b/n) Congruente Incongruente • Misura Tempo di lettura (ms) 42 Esempio 2-way Mista • Matteini: Preverbal possessor construction in production • 1 fattore Between (gruppo): Conoscenza lingua (madre lingua, beginner, intermediate, advanced) • 1 fattore Within: Struttura Frase: Agg + Nome vs Nome Proporzione di frasi corrette per i due tipi di frasi 43 ANOVA: Applicabilità e assunzioni • Applicabilità: 1 Variabile dipendente di tipo continuo 1 o più variabili indipendenti categoriali (fattori) Ogni fattore indipendente può assumere 2 o più livelli (≠ t-test) • Assunzioni principali: Variabile dipendente con distribuzione normale Varianze omogenee tra i gruppi Effetto dei fattori di tipo additivo • Trasformazioni dei dati: Quando le precedenti condizioni non completamente soddisfatte, si possono applicare trasformazioni numeriche dei dati per cercare di ripristinare le assunzioni Es: trasformazione arcosen su proporzioni Es: trasformazione logaritmica su tempi di reazione 44