Metodologia della ricerca e analisi dei
dati in (psico)linguistica
22-26 Giugno 2015
Bognanco (VB)
Mirta Vernice
Università Milano-Bicocca
[email protected]
Cosa ci aspetta?
• 5 giorni, 10 lezioni con altrettante
esercitazioni, vostre presentazioni personali.
• Basi di statistica descrittiva e inferenziale;
• Familiarizzazione con Excel e R;
• Accenno a tecniche di analisi statistica con R.
Obiettivo della summer school
• Pensare in modo più consapevole agli
esperimenti (già condotti o da condurre);
• Possibilità di approfondire autonomamente
tecniche di analisi dei dati più complesse.
Le nostre giornate
•
•
•
•
•
•
9:15-10:45
11:00-13:00
13:00-14:30
14:30-16:00
16:00-17:45
18:00-19:00
Lezione teorica
Esercitazione
Pausa
Lezione teorica
Esercitazione/talk
Passeggiata
Sito del corso
• http://esercitazionestatistica.pbworks.com
• Cliccare sul link Summer school.
• Troverete tutto il materiale rilevante.
Quali testi?
Analizzare dati linguistici con R
• http://www.ualberta.ca/~baayen/publications
/baayenCUPstats.pdf
Nota bene
• Richiedono una (seppur minima) pregressa
conoscenza statistica!
Come contattarmi
• https://sites.google.com/site/mirtavernice/
• [email protected]
1^ giornata
• Mattina: Metodologia della ricerca
• Misurare
• Manipolare
• Cenni sui diversi disegni sperimentali
• Pomeriggio: Esplorare i dati
• Predisporre un file dati per l’analisi
• Metodi per indagare come si distribuiscono
2^ giornata
• Mattina: Statistica descrittiva
• Frequenza
• Misure di tendenza centrale e dispersione
• Pomeriggio: Distribuzioni teoriche di
probabilità
• Punti z;
• Distribuzione binomiale.
3^ giornata
• Mattina: Introduzione ad R
• Familiarizzazione con Rstudio;
• Dalle variabili ai data frame;
• Dai comandi alle funzioni.
• Pomeriggio: Prime funzioni in R
• Impostare un file dati per l’analisi in R;
• Installare e caricare pacchetti.
4^ giornata
• Mattina: GLM
• Cross tabulazione
• Introduzione ai modelli di Analisi della varianza;
• Pomeriggio: GLM in R
• Regressione semplice;
• Calcolare il fit di un modello;
• Interpretazione di un output.
5^ giornata
• Mattina: Regressione multipla in R
• Interpretazione di un output
• Pomeriggio: Modelli misti in R
• Effetti random
• Reference level
Domande?
Metodologia della ricerca
• Individuare un oggetto di indagine
– Lettura/produzione sintattica/accesso lessicale/
• e un paradigma sperimentale
– Self paced reading/masked priming/ecc.
•
•
•
•
Disegnare un esperimento
Costruirlo
Testare partecipanti
Analizzare i dati
Da cosa si parte?
•Da una ipotesi…
•Per esempio?
Ipotesi sperimentali
• Parole bisillabiche lette più velocemente di
parole trisillabiche.
• Parole acquisite prima lette più velocemente
di parole meno frequenti.
• (punto critico: come definiamo AoA?)
Burani et al., 2002
• Parole morfologicamente complesse lette più
velocemente di parole non complesse, a parità
di numero di lettere e frequenza.
• CAMMELLO RT > CASSIERE
• Ma solo in popolazioni a sviluppo atipico (es.
dislessici).
Hp sperimentale
• Deve essere verificata.
• Come si procede?
1. Prevedere che tipo di risultato si otterrebbe
assumendo che l’Hp sperimentale sia valida;
2. Prevedere che tipo di risultato si otterrebbe
assumendo che l’Hp sperimentale NON lo sia.
Hp sperimentale vs. Hp nulla
• Nel caso di Burani et al., 2002?
• Definiamo Hp sperimentale e Hp nulla.
Hp Nulla: importante
• No: Non esiste relazione tra i due eventi
(complessità morfologica delle parole/velocità
lettura/popolazione a sviluppo atipico vs.
tipico)
• Bensì: le eventuali variazioni riscontrate negli
eventi considerati sono dovute al CASO.
Hp sperimentale
• Predice una relazione tra due o più eventi
(complessità morfologica di una
parola/velocità di lettura);
• Assume che questo si verifichi in una
popolazione a sviluppo atipico.
• Come chiamiamo questi eventi?
Variabili dipendenti/indipendenti
• Variabile dipendente: quella che misuro.
• Variabile indipendente: quella che manipolo.
• Indipendente: Causa
• Dipendente: Effetto
Variabile indipendente
• Che significa manipolare?
• Variare.
• Condizioni sperimentali: diverse “versioni” in
cui può comparire un item nell’esperimento
(es. parole complesse vs. non complesse).
Variabile dipendente
• Quella che posso misurare.
• Su cui conduco l’analisi dei dati.
• La natura della variabile dipendente
determina il tipo di analisi.
Variabile dipendente
• Variabile categorica
– corretto/sbagliato
– attivo/passivo
– SVO/OVS
• Variabile continua
– Tempo di lettura (Reading time)
– RTs (Reaction time)
Una Hp sperimentale…
• Permette di predire chiaramente sia quello
che avverrà, sia ciò che non avverrà.
Statistica
• Permette di verificare se l’Hp sperimentale è
verificata oppure no.
• Quando Hp sperimentale non è verificata, non
è detto che Hp nulla lo sia.
• Si dirà semplicemente che bisogna rigettare
Hp sperimentale.
Dan Navarro
• “Statistics is deeply intertwined with research
design. If you want to be good at designing
psychological studies, you need to understand
the basics of stats.”
Un esempio
Carminati, 2002; 2005
•
•
•
•
Esperimento Self paced reading
Position of Antecedent Strategy (PAS):
In contesti anaforici osserva che:
Pronomi nulli sono assegnati a un
antecedente in Spec IP (in genere, il soggetto).
• Pronomi espliciti sono assegnati (di solito) a
un antecedente non-soggetto.
Carminati, 2002; 2005
1a. Quando Vanessa ha visitato Giovanna in
ospedale, lei le ha portato un mazzo di fiori.
1b. Quando Vanessa ha visitato Giovanna in
ospedale, Ø le ha portato un mazzo di fiori.
1c. Quando Vanessa ha visitato Giovanna in
ospedale, lei era già fuori pericolo.
1d. Quando Vanessa ha visitato Giovanna in
ospedale, Ø era già fuori pericolo.
Self Paced Reading
Quando ____ ____ ____ ___ ___ ____ ___ ___ ____
Self Paced Reading
____Vanessa ____ ____ ___ ___ ____ ___ ___ ____
Self Paced Reading
____ ____ ha ____ ___ ___ ____ ___ ___ ____
Self Paced Reading
____ ____ ____visitato ___ ___ ____ ___ ___ ____ ___
Disegno fattoriale
• Manipolazione 2x2
• 2(Pronoun: overt vs. null) x 2 (Semantically
plausible co-referent: object vs. subject).
• Manipolazione within items e within subjects.
• Cosa significa?
Carminati, 2002; 2005
1a. Quando Vanessa ha visitato Giovanna in
ospedale, lei le ha portato un mazzo di fiori.
1b. Quando Vanessa ha visitato Giovanna in
ospedale, Ø le ha portato un mazzo di fiori.
1c. Quando Vanessa ha visitato Giovanna in
ospedale, lei era già fuori pericolo.
1d. Quando Vanessa ha visitato Giovanna in
ospedale, Ø era già fuori pericolo.
Lista latin square
•
•
•
•
•
•
•
Soggetto 1
Item 1 condizione a
Item 2 condizione b
Item 3 condizione c
Item 4 condizione d
Item 5 condizione a
….
Lista latin square
•
•
•
•
•
•
•
Soggetto 2
Item 1 condizione b
Item 2 condizione c
Item 3 condizione d
Item 4 condizione a
Item 5 condizione b
….
Latin square
Vetrata
commemorativa in
onore di Ronald Fisher
Caius College,
Cambridge
Manipolazione
• Può essere:
– Entro item (within-items)
– Tra item (between-items)
– Entro soggetti (within-subjects)
– Tra soggetti (between-subjects)
• Between/within items
• Manipolazioni “between-” richiedono MOLTI
partecipanti. Necessario manipolare ordine di
occorrenza dei trial tra soggetti.
• Manipolazioni “within-” richiedono un
numero più limitato di partecipanti perché
controllano variabilità soggetti/item.
Pilot study/Norming
• Nella costruzione item sperimentali
controllare:
– Frequenza verbi/NP
– Accettabilità
– Familiarità
– AoA (age of acquisition)
E i filler?
• Necessari.
• “Assorbono” la manipolazione degli item
sperimentali.
• Almeno 3 volte il numero degli item
sperimentali.
Partecipanti
• Adulti
• Popolazioni specifiche? Bambini? Bilingui?
SLI?
• Quali criteri di inclusione?
• Impatto sul disegno dell’esperimento.
Importante: somministrare un questionario sul
background linguistico-culturale
Partecipanti
•
•
•
•
Quanti ce ne vogliono?
Dipende dal nostro studio.
È within o between subjects?
Quante condizioni sperimentali abbiamo?
• NB: in genere minimo 6 partecipanti per ogni
lista latinsquare.
Partecipanti
• Mai lasciarli a sé stessi…
• Istruzioni possono fare la differenza.
– Rating di accettabilità scala -5 punti:
• A. “….basa le tue risposte sulla tua intuizione di
parlante nativo”
• B. “…credi che un professore di italiano accetterebbe
questa espressione?”
Metodologia e statistica nel
paper
Introduzione
•
•
•
•
•
Breve introduzione dell’area di indagine
Cenni su qualche ricerca condotta in precendenza
Scopo dello studio
Breve descrizione dei metodi
Ipotesi
Nell’introduzione
• Dopo aver brevemente spiegato il metodo,
introdurre l’ipotesi
• Ipotesi:
– A) “Ci si aspetta una differenza tra condizione X e
Y”
oppure:
– B) “Ci si aspetta una performance migliore nella
condizione X rispetto a Y”
Che differenza tra queste due
ipotesi?
• Hp direzionale;
• Hp non direzionale;
• Avrà delle implicazioni sull’analisi statistica che
condurremo.
Metodo
• Sottosezioni:
– Participanti: Chi?
– Materiali: Cosa è stato usato? Descrivere gli item.
– Disegno: Quale manipolazione sperimentale è
stata attuata?
– Procedura: Come si è svolto l’esperimento?
Partecipanti
• 20 studenti (3 M) dell’Università X hanno
preso parte al nostro studio. Tutti i
partecipanti avevano una vista nella norma.
Materiali
• Indicare:
• Item sperimentali utilizzati (quanti erano,
come erano)
• Eventuali filler
• Supporti tecnici usati per la somministrazione
(foglio di risposta, computer)
Disegno
• Variabile dipendente
• Variabile indipendente
• Com’è stata manipolata var indipendente?
• Within- (entro) o between-(tra) participants?
Procedura
• Tipo di somministrazione (individuale o
collettiva?)
• Come si è svolto l’esperimento?
• Che tipo di istruzioni hanno ricevuto?
Metodo: Importante
• Chi lo legge deve essere in grado di replicare al
dettaglio l’esperimento!
Risultati
• 2 informazioni
• Statistica descrittiva (punteggi grezzi, misure
di tendenza centrale, di dispersione,
frequenze, percentuali);
• Statistica inferenziale (valori ottenuti
dall’applicazione di un test statistico).
• La statistica descrittiva elabora dati per
descrivere fenomeni;
• La statistica inferenziale stima le
caratteristiche di un fenomeno che si riferisce
a una popolazione a partire dall’analisi delle
caratteristiche di un campione.
Popolazione e campione
• Popolazione
– L’insieme di unità (persone, piante, città, ecc.) su
cui vogliamo generalizzare un certo risultato (o un
modello statistico).
• Campione
– Un insieme più piccolo di unità (ma idealmente
rappresentativo) estratte da una popolazione,
usato per determinare delle caratteristiche circa
quella popolazione.
 = 10
Caveat
• Dati descrittivi sono puramente speculativi!
(non si può concludere granché a partire da
una media o da una percentuale...)
• Solo statistica inferenziale permette di
confermare che l’Hp sperimentale sia valida (o
meglio che non sia valida l’Hp nulla…).
Caveat 2
• Entrambe indispensabili;
• La descrittiva precede l’inferenziale; offre
informazioni cruciali per esplorare i dati.
L’inferenziale stabilisce generalizzabilità
risultati all’intera popolazione.
Risultati
• Descrittivi
• NB: se i dati (medie e dev standard) sono
riportati nelle Tavole, non occorre ripeterle
nel testo. Altrimenti, nel testo bisogna
includere i numeri esatti.
Tavole
Tavola 1: Proporzione di risposte corrette tra partecipanti di
genere maschile e femminile.
Donne
Uomini
Condizione 1
M
SD
.67
.34
.70
.27
Condizione 2
M
SD
.58
.32
.56
.40
Importante: in genere si mette sempre media (M), e
Deviazione Standard (DS) (oppure, se non DS, Errore
Standard, SE).
Risultati
• Statistica inferenziale
• “L’analisi ha permesso di rilevare una
significativa differenza tra la condizione X e Y.”
Tipi di studi
Ricerca sperimentale
– Una o più variabili manipolate sistematicamente
per osservare l’effetto (da solo o combinato) che
causano su una ulteriore variabile.
– È possibile stabilire un rapporto di causa-effetto
tra variabili.
– Si applica alla maggioranza degli studi in
psicolinguistica.
Ricerche Cross-sectional
– I dati sono raccolti da partecipanti di diverse età
(es. 6 mesi, 12, 18 mesi), ogni gruppo di età è
costituito da partecipanti diversi.
– ≠Studi longitudinali
– Stesso partecipante testato in diverse età della sua
vita.
Studi correlazionali
– Osservare quello che avviene senza interferire
sperimentalmente (manipolare una variabile).
– Indagare relazione tra abilità in prove diverse di
uno o più gruppi di partecipanti.
– Es. Accuratezza in lettura e accuratezza ortografica
in scrittura.
Altre nozioni utili
Nozione di Causa-Effetto
1. Abituarsi a pensare all’indipendente come causa
e la dipendente come effetto.
2. Devono essere contigue (nel tempo).
3. L’effetto non deve occorrere in presenza della
causa.
I “Confounding”
– Una variabile (che in genere non abbiamo
controllato), diversa dalla nostra indipendente,
che potenzialmente può avere un effetto sulla
dipendente;
– Es. La relazione tra età e competenza
morfosintattica potrebbe essere influenzato da
SES.
Eliminare i confounding
• Ruling out confounds (Mill, 1865)
– Un effetto deve essere presente quando la causa è
presente. Quando la causa è assente anche
l’effetto deve essere assente.
– Condizione di controllo: la causa è assente.
Paradigmi sperimentali
– Repetition task/continuation task
– Priming (si adatta ad esperimenti di
produzione/comprensione/accesso lessicale)
– Self paced reading
– Eye tracking (reading, visual word paradigm)
– Tecniche neuro…
Paradigmi sperimentali per lo studio
della comprensione
Decisione lessicale
Ascolta la parola e
decidi: è una parola
reale?
Var. dipendente: RT e
accuratezza.
• Linger
• Software gratuito per esperimenti self-paced
reading.
• http://tedlab.mit.edu/~dr/Linger//
Software per condurre
esperimenti
Software commerciali
• Presentation
• E-prime
• preparare lo script in e-prime e condurre
l'esperimento con e-run (free).
• PsyScope
• http://psy.ck.sissa.it/
• Disegnato per condurre tutti i tipi di
esperimenti psicolinguistici. Misura RTs.
• NB: solo su Mac.
• DMDX
• http://www.u.arizona.edu/~kforster/dmdx/d
mdx.htm
• Adatto a diversi tipi di esperimenti di
psicolinguistica. Misura i RTs rispetto a stimoli
visivi e uditivi.
• NB: solo su PCs. Poco flessibile.
• Praat
• http://www.fon.hum.uva.nl/praat/
• Ottimo per esperimenti di identificazione o
discriminazione di stringhe di suoni. Speech
analysis/synthesis.
• MA non misura RTs.
Mechanical turk
Un esempio
Per oggi





Avere una domanda di ricerca sensata.
Mantenere costante tutto quello che non
interessa indagare.
Sapere come “gestire” bias e altre variabili
difficilmente controllabili.
Costruire un esperimento bilanciato.
Conoscere i propri dati descrittivi prima delle
analisi statistiche.
Scarica

La raccolta e l`analisi dei dati linguistici