Introduzione alla statistica per la ricerca Lezione III Dr. Stefano Guidi Siena, 18 Ottobre 2012 1 Esempi di affermazioni statistiche • Gli studenti di Science della Comunicazione hanno un QI più alto della media • La memoria a breve termine (linguistica) ha una maggiore capacità per le parole concrete che per quelle astratte • Guardare film violenti aumenta l’aggressività nei bambini • L’efficacia di un farmaco sulla concentrazione dipende dal dosaggio • Le persone tendono ad essere più persuasive quando guardano gli altri negli occhi e parlano al alta voce e velocemente 2 Dalla statistica descrittiva alla statistica inferenziale… • Descrittiva Descrivere, riassumere (indicatori) e visualizzare (grafici) insiemi di dati • Statistica matematica Probabilità, distribuzioni, ecc… • Inferenziale Fare inferenze su una popolazione in base ad un campione estratto dalla popolazione 3 Statistica Inferenziale Trarre inferenze su una popolazione a partire da un campione Inferenze probabilistiche: •Conclusioni basate sulla probabilità di osservare i dati per caso •In pratica si basano su misure di variabilità •Possono sempre essere errate, ma decido il rischio di errore (livello di significatività) 4 Distribuzioni e probabilità Conoscere una distribuzione vuol dire poter calcolare la probabilità P(a<t<b) P(t>b) 0 a b • Area sotto la curva è 1 • Probabilità di ogni singolo valore di x è 0 • L’area sottesa dalla curva tra 2 punti sull’asse x è la probabilità che un numero scelto a caso cada tra i due punti 5 t (ms) Distribuzioni e probabilità μ (media) (punteggio QI di 100) σ (dev. standard) (15 punti QI) Area della parte colorata è la probabilità di osservare per caso un valore di QI compreso tra 85 e 115 (68.27% di probabilità). 6 Statistica Inferenziale • Verifica di Ipotesi Decidere se i dati a mia disposizione forniscono evidenza per rigettare una data ipotesi Ex: capacità MBT parole concrete ≠ parole astratte? • Stima Stimare un intervallo dei valori più probabili per un parametro di una popolazione a partire da un campione: Intervallo di confidenza Ex: capacità MBT = 7 parole? 7 Un Esperimento • Studiare l’effetto della mancanza di sonno nell’effettuare un compito Assenza di sonno influenza l’attenzione? • 20 Soggetti effettuano un compito in 2 condizioni controllate dallo sperimentatore 10 hanno dormito una notte (controllo) 10 non hanno dormito da 24h • Misura della performance nel compito Numero di errori commessi nel compito 8 Un Esperimento II • Come verificare se la mancanza di sonno (variabile indipendente) influenza la performance (variabile dipendente)? • I punteggi osservati saranno naturalmente diversi: Tra soggetto e soggetto E tra le medie di due gruppi • Dobbiamo formulare due ipotesi alternative Ipotesi nulla (H0) Ipotesi alternativa (H1) 9 Ipotesi Nulla (H0) (H0): La privazione del sonno non influenza il compito •È sempre un’ipotesi di uguaglianza. Io voglio dimostrare che è falsa. In realtà non posso dimostrare che è vera. (vedi dopo) •Ma assumo inizialmente che lo sia. I gruppi appartengono alla stessa popolazione Le differenze osservate tra le medie dei punteggi sono dovute solo: al caso e/o ad altri fattori non controllati e ignoti 10 Ipotesi Alternativa (H1) H1: La privazione del sonno influenza il compito •È quello che in realtà voglio dimostrare, in genere una differenza. •Ragionando in modo controfattuale, a ritroso •Dimostrando la differenza io dimostro che cosa la causa. Dimostro una relazione tra due fenomeni. I gruppi appartengono a popolazioni diverse Le differenze riscontrate tra le medie dei punteggio sono dovute: al trattamento sperimentale, oltre che al caso e/o ad altri fattori non controllati e ignoti 11 Verifica delle Ipotesi • Non è possibile verificare direttamente l’ipotesi alternativa • Io posso solo stimare la probabilità che le differenze osservate tra i due gruppi siano dovute solo al caso, e che quindi i due gruppi siano campioni estratti dalla stessa popolazione 12 Verifica delle Ipotesi Processo di verifica di ipotesi: Assumo che l’ipotesi nulla sia vera Stimo la probabilità di ottenere i risultati osservati a partire da campioni estratti dalla stessa popolazione (p value) Se la probabilità stimata è bassa, inferiore a una data soglia (p<5%), decido di rigettare l’ipotesi nulla e assumere l’ipotesi alternativa 13 Verifica delle Ipotesi • I test statistici di verifica di ipotesi calcolano questa probabilità basandosi sulle proprietà della distribuzione, o più precisamente in base alla distribuzione campionaria di una statistica. • Si calcola sempre una statistica che mi quantifica questa probabilità . Una statistica di cui conosco la distribuzione (t, F, ecc…). • In genere tanto più grande è il valore, tanto minori saranno le probabilità di osservarlo per caso. 14 Alcune considerazioni • Le statistiche che calcolo sui campioni, rapportano la differenza che osservo tra le medie dei campioni (o cmq tra una data caratteristica dei campioni) alla variabilità intrinseca all’interno dei campioni. • Esistono diversi test statistici per la verifica di ipotesi: T-test (statistica t di student) Analisi della varianza (statistica F di Fisher) … • I test differiscono nel tipo di ipotesi 15 Alcune considerazioni • I test forniscono evidenza Un risultato improbabile non è impossibile Non potrò mai essere sicuro al 100% delle mie conclusioni La decisione spetta a noi • Statistica necessaria ma non sufficiente Design sperimentale Evitare che altre cause nascoste influiscano sul risultato (controllo) Assegnamento casuale alla condizioni Raccogliere un numero sufficiente di dati 16 Film violenti ed aggressività • Guardare film violenti spinge i bambini a mettere in atto comportamenti violenti? • 2 gruppi: 10 bambini guardano un film in cui adulti maltrattano un pupazzo (Bobo) 10 non guardano film • Tutti i bambini sono lasciati in una stanza a giocare con Bobo, e si conta il numero di comportamenti sul pupazzo per ogni bambino • Faccio un test di significatività per verificare se i comportamenti violenti nei due gruppi sono diversi 17 Test di significatività Ipotesi: •H1: quello che voglio provare Chi ha guardato il film è più violento •H0: Ipotesi nulla (che voglio rigettare) Non ci sono differenze tra chi ha guardato il film e chi non l’ha fatto Se H0 fosse vera, allora quello che osservo sarebbe molto improbabile Quindi H1 è (probabilmente) vera! 18 5% di significatività? Dice che: se H0 è vera allora la probabilità che l’effetto osservato sia dovuto al caso è minore di 1 su 20 (5%) pertanto H0 è improbabile che sia vera e H1 è probabile che lo sia 19 5% di significatività NON vuole dire che: •La probabilità di H0 è < 1 su 20 (5%) •La probabilità di H1 è >0,95 •L’effetto osservato è importante i.e. significativo nel senso comune del termine 20 5% di significatività TUTTO quello che posso dire: Se H0 fosse vera … … l’effetto sarebbe improbabile (prob. < 1 su 20) 21 Vero o falso? 1. Test significativo al 5% H0 è falsa e H1 vera (i gruppi sono diversi) 2. Test non significativo H0 è vera e H1 è falsa (i gruppi sono uguali) 22 Nessuna delle 2! 1. Test significativo al 5% i gruppi sono diversi quasi vero 2. Test non significativo I gruppi sono uguali NO!!! 23 1) Significativo (5%) Ragionamento: risultato significativo H0 falsa I gruppi sono diversi •1 volta su 20 sarò in errore ex: concludo che un farmaco migliora la salute (p<5%) 1 possibilità su 20 che sia mortale! •1 risultato significativo su 20 è falso 24 Prove statistiche TUTTO quello che si può fare: •Dire che qualcosa è vero •Sapere quanto spesso sbaglieremo (in media) •Scegliere quanto spesso sbaglieremo! (scelta del livello di significatività) 25 2) Risultato non significativo Non possiamo MAI ragionare così: •Risultato non significativo H1 falsa (non ci sono differenze) Possiamo solo dire che: •H1 non è statisticamente dimostrata 26 Provare l’uguaglianza • Non significativo – non ci sono prove di una differenza • Può sempre esserci una differenza reale, ma troppo piccola per poterla cogliere/dimostrare Non possiamo mai dimostrare l’uguaglianza • Possiamo stimare i limiti della differenza 27 Intervallo di confidenza (CI) • È un limite al valore reale della media la media dei dati è 0.6 95% CI è [-0.7, 1.3] • Vuol dire che se concludo che: La media della popolazione è nell’intervallo [-0.7, 1.3] • Il 95% dei casi avrò ragione 28 Intervallo di confidenza • 95% CI è [-0.7, 1.3]: • NON vuol dire che: c’è il 95% di probabilità che la media reale sia in quell’intervallo • La media o lo è o non lo è! • Tutto quello che significa: 95% di probabilità di avere ragione 29 Provare l’uguaglianza H0: nessuna differenza (la media reale è 0) risultato sperimentale: media è 0.6 test di significatività: n.s. al 5% 95% CI: [-0.7, 1.3] 30 Quali test? • T-test Confrontare le medie di due campioni, o quella di un campione rispetto ad un valore di riferimento • ANOVA Confrontare le medie di due o più campioni. Verificare l’effetto di diverse variabili indipendenti (fattori) 31 Quali gruppi? • I campioni si riferiscono a persone diverse: T-test a campioni indipendenti ANOVA between-subjects • I campioni si riferiscono alle stesse persone T-test a campioni accoppiati (paired) ANOVA within-subject (misure ripetute) 32 Altri test • X2 (Chi-square) Dati categoriali Confrontare le proporzioni Verificare associazioni • E per le correlazioni? Testi di significatività del coefficiente di correlazione (r): r≠0? 33 Distribuzioni Campionarie • Immaginiamo avere una popolazione la cui distribuzione ha media e varianza note (μ e σ2), e di ripetere molte volte questo processo: Prendere un campione di n elementi Calcolare una statistica, come la media del campione (m) • I valori ottenuti costituiranno un insieme di cui potrò: Visualizzare la distribuzione di frequenza (Istogrammi) Calcolare indicatori (media, varianza) • E’ ragionevole ipotizzare un legame tra le proprietà di questo insieme e quelli della popolazione di partenza 34 Distribuzione Campionaria • Una distribuzione campionaria o sampling distribution (di una statistica) è la distribuzione di probabilità dei valori di quella statistica calcolati su infiniti campioni di una data dimensione n, estratti da una popolazione con date media e varianza (μ e σ2) • Distribuzione teorica • E’ possibile caratterizzarla esattamente in certe condizioni, e • Usare la distribuzione campionaria per calcolare la probabilità di estrarre un campione con date caratteristiche (media e varianza) a partire dalla popolazione di partenza! 35 Distribuzione Campionaria della Media • La distribuzione campionaria più importante è quella della media • Se il campionamento è casuale, e la distribuzione di partenza è normale, si può dimostrare che la distribuzione campionaria della media ha queste proprietà: Media μM = μ Varianza σM2= σ2/n E’ normale • La sua deviazione standard si indica come il termine standard error se = σM/√n • E’ possibile quindi convertirla in forma normale, e calcolare la probabilità di estrarre un campione con una certa media dalla popolazione 36 Test di una media di una campione • Calcolo i parametri della distribuzione campionaria mM = m = 50 s se = s M = = n 5 100 • Converto in punteggi z z= m - mM sM 48 - 50 = =4 0.5 • Converto il punteggio z in una probabilità La probabilità di ottenere un valore simile è 0.00003167! 37 Introduzione al t-test • Confronto la media di un campione con un valore di riferimento H0: μ=μ0 Ha:μ≠μ0 • Confronto le medie di due campioni: H0: μfilm=μnon film Ha:μfilm ≠μnon film • La statistica test si chiama t di Student 38 La Distribuzione t di Student • • • • William Gonnet (Student) Famiglia di distribuzioni Simmetriche Indicizzate dai gradi di libertà (df) df=n-1 numero di osservazioni indipendenti usate per una stima (della varianza) Approssimativamente indicizzano il grado di accuratezza della stima • Tendono a diventare normali al crescere dei df • E’ possibile trasformare un t in una probabilità 39 Distribuzioni di t per vari df • Al variare di df cambia la proporzione dell’area compresa tra valori uguali di t 40 T critici e significatività del test • Il t ottenuto a partire da un campione è quello che mi serve per verificare una ipotesi su di una popolazione • In quanto permette di misurare la probabilità p di aver ottenuto quella media per caso • La sua grandezza indicizza, a parità di df, indica quanto è violata l’ipotesi nulla H0 • Se p è minore di una soglia convenzionale, detta livello di significatività (α) Rigetto H0 a favore di Ha (implausibile) • Se p > α Ritengo H0 (come spiegazione possibile dei dati) • Soglie sono convenzionali in genere 0.05 o 0.01 41 Esempio di T test (un campione) • La media del QI degli studenti universitari è 105 • Ipotizzo che quella degli studenti iscritti a Siena sia più alta • Ho raccolto un campione di 40 studenti a cui ho somministrato un test per il QI • Compio un t test per testare la mia ipotesi H0:μ=105 Ha:μ≠105 42 Assunzioni del test • I test si basano sulla conoscenza distribuzione campionaria di una statistica • Questa conoscenza mi richiede di fare assunzioni, di specificare delle condizioni in cui la mia statistica test (t) è distribuita in un modo noto • Assunzioni basate Sulle modalità di campionamento Osservazioni hanno la stessa distribuzione Sono mutuamente indipendenti Sono rappresentative della popolazione Sulla forma della distribuzione Normale • Soddisfatte se: il campionamento è casuale Il numero degli elementi nel campione >20 43 Direzionalità del t test I • Se un t test è significativo H0: μ=μ0 falsa • Ma Ha è generica Ha: μ≠μ0 • 2 possibilità: μ>μ0 oppure μ<μ0 • La regione di rigetto è equamente distribuita sotto le due code della distribuzione Qualunque sia il segno di t, quello che conta è il suo valore assoluto • Test omnidirezionale (a 2 code, two tailed) 44 Direzionalità del t test II • Se mi interessa una specifica Ha Ha: μ>μ0 oppure μ<μ0 • Posso usare un t critico che metta α solo sotto una sola coda della distribuzione • In questo modo anche t più piccoli potranno portare ad un risultato significativo Più probabilità di rigettare H0 (potenza), che esprimerò come H0: μ≤μ0 oppure μ≥μ0 • Test unidirezionale (ad 1 coda, one tailed) 45 Tipi di Errori • Rigettare o ritenere H0 è una decisione basata su un calcolo di probabilità • Rischiosa • 2 possibili errori Tipo I: Rigetto H0 quando è vera Tipo II: Non rigetto H0 quando è falsa • Io vorrei quantificare il rischio Calcolare il tasso di commettere i diversi tipi di errore 46 Tipi di Errori Rigetto H0 Accetto H0 H0 Falsa H0 Vera Decisione Corretta (1) Errore Tipo II () Errore Tipo I () Decisione Corretta (1) 47 Errori Tipo I • Abbiamo detto che io rigetto H0 se La probabilità di ottenere quel valore per caso, se H0 è vera, è minore del livello di significatività scelto α • Questo avviene quando tobt > tcrit • Ma il modo con cui scelgo tcrit è che: la probabilità di osservarlo per caso, se H0 è vera, è pari ad α Poiché la proporzione dell’area sottesa dalla distribuzione t, nell’intervallo che fa da t crit in poi è α • Quindi se H0 è vera, ho α probabilità di rigettarla! • α = tasso di errore di Tipo I 48 Errori Tipo II e Potenza di un Test • Il tasso di errori di Tipo II (β) Probabilità che ho di NON rigettare (ritenere) H0 se falsa • Potenza (power) di un test è Probabilità di rigettare H0 se falsa Power = 1 - β • Io voglio una buona potenza! • Dipende da Livello di α scelto Aumento power abbassando α Rischioso cambiarla Dimensione del campione Dimensione dell’effetto y - m0 t= s n 49 H0 1- H1 1 coda aumenta la potenza La dimensione dell’effetto aumenta la potenza La diminuzione della dispersione aumenta la potenza 50 Dimensione dell’effetto e Power • Misura di quanto l’ipotesi nulla è violata Più sono diverse le caratteristiche della vera popolazione da cui viene il campione, più è facile che io rigetti H0 • Posso stimare la potenza a posteriori basandomi su stime da precedenti studi per avere d • Calcolare da tabelle o grafici (power charts) la dimensione del campione adatta per cogliere un effetto di dimensione d con la potenza che voglio my - m0 y - m0 d= Þd= s s 51 Raccomandazioni • Per ottenere una buona potenza è consigliabile Formulare l’ipotesi alternativa nel modo più specifico possibile Raccogliere un adeguato numero di soggetti: Per dimostrare un effetto piccolo servono molti soggetti! Cercare di basarsi su una stima della dimensione dell’effetto (prevista o in letteratura) 52 T test a 2 campioni (indipendenti) • In genere io non testo la media di un campione contro un valore ipotizzato nella popolazione, ma confronto quelle di 2 campioni per vedere se H0:μ1=μ2 Ha:μ1≠μ2 • Ma questo è analogo a dire H0:μ1-μ2=0 (o in generale μ1-μ2=γ0) Ha:μ1-μ2≠0 (μ1-μ2≠γ0) • Posso ricondurmi al t test classico, usando la distribuzione campionaria delle differenze tra le medie di 2 campioni 53 Esempio 1 • Sono interessato al potenziale di un nuovo metodo per l’apprendimento della statistica • 40 studenti 20 metodo classico 20 metodo innovativo • Test di comprensione statistica Numero di risposte corrette 54 Risultati • Le medie dei punteggi dei sue gruppi sono significativamente diverse • Il gruppo sottoposto al metodo innovativo ha in media un punteggio più alto di 6.2 • t(38)=2.043; p<0.05 • È utile riportare anche altri indici (medie e deviazioni standard dei gruppi, intervalli di confidenza) 55