Metodologia della ricerca e analisi dei dati in (psico)linguistica 24 Giugno 2015 Statistica inferenziale [email protected] Distribuzione di frequenza • Distribuzione degli errori nel dettato in 2^ 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Un salto logico… • Da quanto è frequente un certo numero di errori in seconda • a… • Quanto è probabile che un bambino di seconda commetta 2 (o 10 o 7) errori? La probabilità • La probabilità di un evento varia da 0 (non c’è alcuna possibilità che si verifichi) a 1 (occorrerà sicuramente). • Si esprime in termini decimali (es. probabilità del .05; .10 ) • Ma la si può interpretare in termini di percentuale. • Per ogni distribuzione di frequenza possiamo calcolare la probabilità che si verifichi un certo evento (es. numero di errori). • Ma è complicato! Distribuzioni teoriche di probabilità • Esistono alcune distribuzioni di frequenza che permettono, mediante l’uso di formule, di individuare subito qual è la probabilità di occorrenza di un particolare punteggio. • Distribuzione normale, binomiale, chi quadro… Come è possibile? • Esempio distribuzione normale standard Normal Curve 20 Frequency 16 12 8 4 0 -4 -2 0 Score (X) 2 4 Distribuzione Normale standard • Distribuzione con media 0 e Deviazione Standard 1, ottenuta dalla trasformazione della variabile casuale X in unità di deviazione standard (variabile z). Proprietà della Normale 1. Media, mediana e moda hanno il medesimo valore 2. La curva è simmetrica rispetto alla media 3. La curva è asintotica all’asse delle X 4. L’area al di sotto della curva normale è uguale a 1. Area sottesa alla curva –L’area sottesa alla Normale fra -1.96 DS e +1.96 DS è pari al 95% dell’area totale –L’area sottesa alla Normale fra -3ds e +3ds è pari 99.8% dell’area totale Che cosa dobbiamo fare? • Dobbiamo SOLO trasformare i nostri dati in una distribuzione teorica di probabilità! Standardizzazione (o normalizzazione) Trasformare i dati grezzi in una distribuzione di dati con media e deviazione standard note. (x X ) z s Che cosa otteniamo? • Distribuzione con M = 0 e DS= 1; • Il 95% dei valori si colloca tra z = -1.96 e z=+1.96 Tavole di z • Come le leggiamo? Facciamo un esempio • Bambino di seconda elementare; • Tempo di lettura lista aa della prova di lettura di parole (Batteria Sartori, Job, Tressoldi). • Tavole di z • Norme tempi di lettura Batteria Sartori Job Tressoldi. • Variabile dipendente: tempo di lettura lista aa • 68 sec Come procediamo? • Vedi foglio con dati normativi. • Attenzione: cosa sono i dati normativi? • Individuiamo M e DS per aa, nella riga 2^ elementare Stabiliamo Hp speriementale • La velocità di lettura del bambino si discosta da quella della popolazione. • (NP: Hp alternativa assume sempre che ci sia un effetto, una differenza). • Il bambino NON è estratto da una popolazione con media = 35 e DS = 15. Stabiliamo una Hp nulla • La velocità di lettura del bambino è = a quella della popolazione. • Si può anche dire… • il bambino è estratto da una popolazione (a sviluppo tipico) con media = 35 e DS = 15. Calcoliamo il Punto z • Z = (68-35)/15 = 2,2 • A che valore di probabilità è associato? • Prendere le tavole. • 0,98 (valore estremo) • = 1- 0,98 = 0,2 f(x) 0.4 0.3 98% 0.2 2% 0.1 0 -4 -3 -2 -2 0 1 2 Z = 2,2 3 4 • Diremo che: • C’è 2% di probabilità che questo bambino sia estratto da una popolazione a sviluppo tipico con M = 35 e DS = 15. P <.05? • Hp sperimentale è valida. • La velocità di lettura del bambino si discosta da quella della popolazione. Standardizzazione: a quali dati si applica? • Variabili casuali continue • QI, velocità di lettura, ecc. E quando ho una variabile categorica? • Es. lancio di una moneta • Immaginiamo di lanciare una moneta 10 volte. • Qual è ogni volta probabilità di ottenere Testa o Croce? • .5 • Se ottengo 8 volte testa mi insospettisco…. Binomiale • La distribuzione binomiale indica la probabilità che si verifichino diversi eventi casuali fra loro indipendenti, ognuno dei quali può assumere solo uno fra due (o più) valori diversi: giusto o sbagliato (es. testa o croce). Nella pratica quotidiana? • Test di comprensione sintattica delle relative: • 10 item • 2 possibili risposte (p = 0,5 di indovinare la giusta) Definiamo le Hp • Hp0= il partecipante sta rispondendo a caso (below chance); • Hp1 = il partecipante non sta rispondendo a caso (above chance). • Es. bambino risponde correttamente a 8 su 10 item; • N = 10 • P = 0,5 • r (successi) = 8 Distribuzione BINOMIALE N = 10 P = 0,5 r=8 r 0 1 2 3 4 5 6 7 8 9 10 Probabilità 0,00098 0,00977 0,04395 0,11719 0,20508 0,24609 0,20508 0,11719 0,04395 0,00977 0,00098 Per ogni evento r (successo) la binomiale indica quanto è probabile, assumendo che sia dovuto a fluttuazioni casuali. Come procediamo? • Sommiamo i valori estremi di probabilità (includendo anche la probabilità associata all’evento r = 8): • P (0,1,9,10,8) = 0,00098 + 0,00977 + 0,00977 + 0,00098 + 0,04395 = 0,0644 p ≥ 0,05 • r = 8 non rientra tra i valori estremi di successi (0,1,9,10) tali per cui p ≤ 0,05 • Non posso rigettare Hp0. • Il bambino è below chance. • Vedi foglio di calcolo excel Distribuzione campionaria della media e uso nel test delle Hp Usare la distribuzione campionaria per testare ipotesi? • La media campionaria é distribuita in modo Normale; • Se prendiamo x campioni, e costruiamo la distribuzione di frequenza delle medie campionarie, questa avrà una distribuzione normale. Distribuzione campionaria = 10 = 10 M = 10 M=9 M = 11 M = 10 M=9 M=8 M = 12 M = 11 M = 10 Distribuzione campionaria • Frequenza con cui si distribuiscono le medie dei campioni estratti da una stessa popolazione. Frequenza Come si distribuiscono? Medie dei campioni Come procediamo? Applichiamo la distribuzione teorica di probabilità normale per testare se: X Assumendo che nella popolazione Hp nulla sia valida; Quindi cos’è il p? • Probabilità che il nostro campione sia estratto da una popolazione in cui Hp nulla è valida. • Possiamo anche dire: • p = Probabilità che la differenza tra condizioni che abbiamo ottenuto sia dovuto a fattori CASUALI. La distribuzione del Chi quadro Quando si applica? (a) i dati non sono normalmente distribuiti; (b) le varianze possono essere non omogenee; (c) i dati sono misurati su una scala ordinale. Il Chi-Quadrato (2) • Si usa con dati nominali, quando tutto quello che si ha a disposizione è la frequenza con cui è occorso un certo evento. Come funziona? • Confronta una distribuzione di frequenza osservata con una distribuzione di frequenza attesa. La distribuzione attesa è quella che noi avremmo se H0 valida. La formula del 2 O E 2 2 E Necessario calcolare le frequenze attese (E – expected). Come inseriamo i nostri dati? Compito 1 Compito 2 RISOLTO ERRORE La tabella rappresenta le frequenze osservate (O observed) E la media e la DS? • Non possiamo calcolarle. • Abbiamo una frequenza. • Che potremo riportare come % • x% dei partecipanti ha svolto correttamente il compito 1, mentre solo il x% ha svolto correttamente il compito 2. Come lo calcoleremo? • In R