Metodologia della ricerca e analisi dei dati in (psico)linguistica 22-26 Giugno 2015 Bognanco (VB) Mirta Vernice Università Milano-Bicocca [email protected] Cosa ci aspetta? • 5 giorni, 10 lezioni con altrettante esercitazioni, vostre presentazioni personali. • Basi di statistica descrittiva e inferenziale; • Familiarizzazione con Excel e R; • Accenno a tecniche di analisi statistica con R. Obiettivo della summer school • Pensare in modo più consapevole agli esperimenti (già condotti o da condurre); • Possibilità di approfondire autonomamente tecniche di analisi dei dati più complesse. Le nostre giornate • • • • • • 9:15-10:45 11:00-13:00 13:00-14:30 14:30-16:00 16:00-17:45 18:00-19:00 Lezione teorica Esercitazione Pausa Lezione teorica Esercitazione/talk Passeggiata Sito del corso • http://esercitazionestatistica.pbworks.com • Cliccare sul link Summer school. • Troverete tutto il materiale rilevante. Quali testi? Analizzare dati linguistici con R • http://www.ualberta.ca/~baayen/publications /baayenCUPstats.pdf Nota bene • Richiedono una (seppur minima) pregressa conoscenza statistica! Come contattarmi • https://sites.google.com/site/mirtavernice/ • [email protected] 1^ giornata • Mattina: Metodologia della ricerca • Misurare • Manipolare • Cenni sui diversi disegni sperimentali • Pomeriggio: Esplorare i dati • Predisporre un file dati per l’analisi • Metodi per indagare come si distribuiscono 2^ giornata • Mattina: Statistica descrittiva • Frequenza • Misure di tendenza centrale e dispersione • Pomeriggio: Distribuzioni teoriche di probabilità • Punti z; • Distribuzione binomiale. 3^ giornata • Mattina: Introduzione ad R • Familiarizzazione con Rstudio; • Dalle variabili ai data frame; • Dai comandi alle funzioni. • Pomeriggio: Prime funzioni in R • Impostare un file dati per l’analisi in R; • Installare e caricare pacchetti. 4^ giornata • Mattina: GLM • Cross tabulazione • Introduzione ai modelli di Analisi della varianza; • Pomeriggio: GLM in R • Regressione semplice; • Calcolare il fit di un modello; • Interpretazione di un output. 5^ giornata • Mattina: Regressione multipla in R • Interpretazione di un output • Pomeriggio: Modelli misti in R • Effetti random • Reference level Domande? Metodologia della ricerca • Individuare un oggetto di indagine – Lettura/produzione sintattica/accesso lessicale/ • e un paradigma sperimentale – Self paced reading/masked priming/ecc. • • • • Disegnare un esperimento Costruirlo Testare partecipanti Analizzare i dati Da cosa si parte? •Da una ipotesi… •Per esempio? Ipotesi sperimentali • Parole bisillabiche lette più velocemente di parole trisillabiche. • Parole acquisite prima lette più velocemente di parole meno frequenti. • (punto critico: come definiamo AoA?) Burani et al., 2002 • Parole morfologicamente complesse lette più velocemente di parole non complesse, a parità di numero di lettere e frequenza. • CAMMELLO RT > CASSIERE • Ma solo in popolazioni a sviluppo atipico (es. dislessici). Hp sperimentale • Deve essere verificata. • Come si procede? 1. Prevedere che tipo di risultato si otterrebbe assumendo che l’Hp sperimentale sia valida; 2. Prevedere che tipo di risultato si otterrebbe assumendo che l’Hp sperimentale NON lo sia. Hp sperimentale vs. Hp nulla • Nel caso di Burani et al., 2002? • Definiamo Hp sperimentale e Hp nulla. Hp Nulla: importante • No: Non esiste relazione tra i due eventi (complessità morfologica delle parole/velocità lettura/popolazione a sviluppo atipico vs. tipico) • Bensì: le eventuali variazioni riscontrate negli eventi considerati sono dovute al CASO. Hp sperimentale • Predice una relazione tra due o più eventi (complessità morfologica di una parola/velocità di lettura); • Assume che questo si verifichi in una popolazione a sviluppo atipico. • Come chiamiamo questi eventi? Variabili dipendenti/indipendenti • Variabile dipendente: quella che misuro. • Variabile indipendente: quella che manipolo. • Indipendente: Causa • Dipendente: Effetto Variabile indipendente • Che significa manipolare? • Variare. • Condizioni sperimentali: diverse “versioni” in cui può comparire un item nell’esperimento (es. parole complesse vs. non complesse). Variabile dipendente • Quella che posso misurare. • Su cui conduco l’analisi dei dati. • La natura della variabile dipendente determina il tipo di analisi. Variabile dipendente • Variabile categorica – corretto/sbagliato – attivo/passivo – SVO/OVS • Variabile continua – Tempo di lettura (Reading time) – RTs (Reaction time) Una Hp sperimentale… • Permette di predire chiaramente sia quello che avverrà, sia ciò che non avverrà. Statistica • Permette di verificare se l’Hp sperimentale è verificata oppure no. • Quando Hp sperimentale non è verificata, non è detto che Hp nulla lo sia. • Si dirà semplicemente che bisogna rigettare Hp sperimentale. Dan Navarro • “Statistics is deeply intertwined with research design. If you want to be good at designing psychological studies, you need to understand the basics of stats.” Un esempio Carminati, 2002; 2005 • • • • Esperimento Self paced reading Position of Antecedent Strategy (PAS): In contesti anaforici osserva che: Pronomi nulli sono assegnati a un antecedente in Spec IP (in genere, il soggetto). • Pronomi espliciti sono assegnati (di solito) a un antecedente non-soggetto. Carminati, 2002; 2005 1a. Quando Vanessa ha visitato Giovanna in ospedale, lei le ha portato un mazzo di fiori. 1b. Quando Vanessa ha visitato Giovanna in ospedale, Ø le ha portato un mazzo di fiori. 1c. Quando Vanessa ha visitato Giovanna in ospedale, lei era già fuori pericolo. 1d. Quando Vanessa ha visitato Giovanna in ospedale, Ø era già fuori pericolo. Self Paced Reading Quando ____ ____ ____ ___ ___ ____ ___ ___ ____ Self Paced Reading ____Vanessa ____ ____ ___ ___ ____ ___ ___ ____ Self Paced Reading ____ ____ ha ____ ___ ___ ____ ___ ___ ____ Self Paced Reading ____ ____ ____visitato ___ ___ ____ ___ ___ ____ ___ Disegno fattoriale • Manipolazione 2x2 • 2(Pronoun: overt vs. null) x 2 (Semantically plausible co-referent: object vs. subject). • Manipolazione within items e within subjects. • Cosa significa? Carminati, 2002; 2005 1a. Quando Vanessa ha visitato Giovanna in ospedale, lei le ha portato un mazzo di fiori. 1b. Quando Vanessa ha visitato Giovanna in ospedale, Ø le ha portato un mazzo di fiori. 1c. Quando Vanessa ha visitato Giovanna in ospedale, lei era già fuori pericolo. 1d. Quando Vanessa ha visitato Giovanna in ospedale, Ø era già fuori pericolo. Lista latin square • • • • • • • Soggetto 1 Item 1 condizione a Item 2 condizione b Item 3 condizione c Item 4 condizione d Item 5 condizione a …. Lista latin square • • • • • • • Soggetto 2 Item 1 condizione b Item 2 condizione c Item 3 condizione d Item 4 condizione a Item 5 condizione b …. Latin square Vetrata commemorativa in onore di Ronald Fisher Caius College, Cambridge Manipolazione • Può essere: – Entro item (within-items) – Tra item (between-items) – Entro soggetti (within-subjects) – Tra soggetti (between-subjects) • Between/within items • Manipolazioni “between-” richiedono MOLTI partecipanti. Necessario manipolare ordine di occorrenza dei trial tra soggetti. • Manipolazioni “within-” richiedono un numero più limitato di partecipanti perché controllano variabilità soggetti/item. Pilot study/Norming • Nella costruzione item sperimentali controllare: – Frequenza verbi/NP – Accettabilità – Familiarità – AoA (age of acquisition) E i filler? • Necessari. • “Assorbono” la manipolazione degli item sperimentali. • Almeno 3 volte il numero degli item sperimentali. Partecipanti • Adulti • Popolazioni specifiche? Bambini? Bilingui? SLI? • Quali criteri di inclusione? • Impatto sul disegno dell’esperimento. Importante: somministrare un questionario sul background linguistico-culturale Partecipanti • • • • Quanti ce ne vogliono? Dipende dal nostro studio. È within o between subjects? Quante condizioni sperimentali abbiamo? • NB: in genere minimo 6 partecipanti per ogni lista latinsquare. Partecipanti • Mai lasciarli a sé stessi… • Istruzioni possono fare la differenza. – Rating di accettabilità scala -5 punti: • A. “….basa le tue risposte sulla tua intuizione di parlante nativo” • B. “…credi che un professore di italiano accetterebbe questa espressione?” Metodologia e statistica nel paper Introduzione • • • • • Breve introduzione dell’area di indagine Cenni su qualche ricerca condotta in precendenza Scopo dello studio Breve descrizione dei metodi Ipotesi Nell’introduzione • Dopo aver brevemente spiegato il metodo, introdurre l’ipotesi • Ipotesi: – A) “Ci si aspetta una differenza tra condizione X e Y” oppure: – B) “Ci si aspetta una performance migliore nella condizione X rispetto a Y” Che differenza tra queste due ipotesi? • Hp direzionale; • Hp non direzionale; • Avrà delle implicazioni sull’analisi statistica che condurremo. Metodo • Sottosezioni: – Participanti: Chi? – Materiali: Cosa è stato usato? Descrivere gli item. – Disegno: Quale manipolazione sperimentale è stata attuata? – Procedura: Come si è svolto l’esperimento? Partecipanti • 20 studenti (3 M) dell’Università X hanno preso parte al nostro studio. Tutti i partecipanti avevano una vista nella norma. Materiali • Indicare: • Item sperimentali utilizzati (quanti erano, come erano) • Eventuali filler • Supporti tecnici usati per la somministrazione (foglio di risposta, computer) Disegno • Variabile dipendente • Variabile indipendente • Com’è stata manipolata var indipendente? • Within- (entro) o between-(tra) participants? Procedura • Tipo di somministrazione (individuale o collettiva?) • Come si è svolto l’esperimento? • Che tipo di istruzioni hanno ricevuto? Metodo: Importante • Chi lo legge deve essere in grado di replicare al dettaglio l’esperimento! Risultati • 2 informazioni • Statistica descrittiva (punteggi grezzi, misure di tendenza centrale, di dispersione, frequenze, percentuali); • Statistica inferenziale (valori ottenuti dall’applicazione di un test statistico). • La statistica descrittiva elabora dati per descrivere fenomeni; • La statistica inferenziale stima le caratteristiche di un fenomeno che si riferisce a una popolazione a partire dall’analisi delle caratteristiche di un campione. Popolazione e campione • Popolazione – L’insieme di unità (persone, piante, città, ecc.) su cui vogliamo generalizzare un certo risultato (o un modello statistico). • Campione – Un insieme più piccolo di unità (ma idealmente rappresentativo) estratte da una popolazione, usato per determinare delle caratteristiche circa quella popolazione. = 10 Caveat • Dati descrittivi sono puramente speculativi! (non si può concludere granché a partire da una media o da una percentuale...) • Solo statistica inferenziale permette di confermare che l’Hp sperimentale sia valida (o meglio che non sia valida l’Hp nulla…). Caveat 2 • Entrambe indispensabili; • La descrittiva precede l’inferenziale; offre informazioni cruciali per esplorare i dati. L’inferenziale stabilisce generalizzabilità risultati all’intera popolazione. Risultati • Descrittivi • NB: se i dati (medie e dev standard) sono riportati nelle Tavole, non occorre ripeterle nel testo. Altrimenti, nel testo bisogna includere i numeri esatti. Tavole Tavola 1: Proporzione di risposte corrette tra partecipanti di genere maschile e femminile. Donne Uomini Condizione 1 M SD .67 .34 .70 .27 Condizione 2 M SD .58 .32 .56 .40 Importante: in genere si mette sempre media (M), e Deviazione Standard (DS) (oppure, se non DS, Errore Standard, SE). Risultati • Statistica inferenziale • “L’analisi ha permesso di rilevare una significativa differenza tra la condizione X e Y.” Tipi di studi Ricerca sperimentale – Una o più variabili manipolate sistematicamente per osservare l’effetto (da solo o combinato) che causano su una ulteriore variabile. – È possibile stabilire un rapporto di causa-effetto tra variabili. – Si applica alla maggioranza degli studi in psicolinguistica. Ricerche Cross-sectional – I dati sono raccolti da partecipanti di diverse età (es. 6 mesi, 12, 18 mesi), ogni gruppo di età è costituito da partecipanti diversi. – ≠Studi longitudinali – Stesso partecipante testato in diverse età della sua vita. Studi correlazionali – Osservare quello che avviene senza interferire sperimentalmente (manipolare una variabile). – Indagare relazione tra abilità in prove diverse di uno o più gruppi di partecipanti. – Es. Accuratezza in lettura e accuratezza ortografica in scrittura. Altre nozioni utili Nozione di Causa-Effetto 1. Abituarsi a pensare all’indipendente come causa e la dipendente come effetto. 2. Devono essere contigue (nel tempo). 3. L’effetto non deve occorrere in presenza della causa. I “Confounding” – Una variabile (che in genere non abbiamo controllato), diversa dalla nostra indipendente, che potenzialmente può avere un effetto sulla dipendente; – Es. La relazione tra età e competenza morfosintattica potrebbe essere influenzato da SES. Eliminare i confounding • Ruling out confounds (Mill, 1865) – Un effetto deve essere presente quando la causa è presente. Quando la causa è assente anche l’effetto deve essere assente. – Condizione di controllo: la causa è assente. Paradigmi sperimentali – Repetition task/continuation task – Priming (si adatta ad esperimenti di produzione/comprensione/accesso lessicale) – Self paced reading – Eye tracking (reading, visual word paradigm) – Tecniche neuro… Paradigmi sperimentali per lo studio della comprensione Decisione lessicale Ascolta la parola e decidi: è una parola reale? Var. dipendente: RT e accuratezza. • Linger • Software gratuito per esperimenti self-paced reading. • http://tedlab.mit.edu/~dr/Linger// Software per condurre esperimenti Software commerciali • Presentation • E-prime • preparare lo script in e-prime e condurre l'esperimento con e-run (free). • PsyScope • http://psy.ck.sissa.it/ • Disegnato per condurre tutti i tipi di esperimenti psicolinguistici. Misura RTs. • NB: solo su Mac. • DMDX • http://www.u.arizona.edu/~kforster/dmdx/d mdx.htm • Adatto a diversi tipi di esperimenti di psicolinguistica. Misura i RTs rispetto a stimoli visivi e uditivi. • NB: solo su PCs. Poco flessibile. • Praat • http://www.fon.hum.uva.nl/praat/ • Ottimo per esperimenti di identificazione o discriminazione di stringhe di suoni. Speech analysis/synthesis. • MA non misura RTs. Mechanical turk Un esempio Per oggi Avere una domanda di ricerca sensata. Mantenere costante tutto quello che non interessa indagare. Sapere come “gestire” bias e altre variabili difficilmente controllabili. Costruire un esperimento bilanciato. Conoscere i propri dati descrittivi prima delle analisi statistiche.