Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva [email protected] Analisi dei dati • Statistica descrittiva – Misure di tendenza centrale e di dispersione. – Frequenze/occorrenze/percentuali. • Statistica inferenziale – Applicazione test statistico – Interpretazione dei risultati Frequenza • Cosa è? • Numero di occorrenze di un certo evento nel campione. • Prendiamo il foglio data_scrittura.xls Frequenza cumulativa Frequenza cumulativa • somma della frequenza delle osservazioni con valore inferiore o uguale al valore considerato. Pensare in termini di frequenze • Per es. Quante volte vengono commessi 2, 3, …, 10 errori nel dettato nel data-set seconda elementare? Distribuzione di Frequenza • Partendo dalla frequenza… • Una distribuzione di frequenza è un insieme di dati raccolti in un campione (Es. occorrenze di errori in seconda elementare). • Una distribuzione può essere rappresentata sinteticamente mediante “numeri” (statistiche o parametri). Come descriviamo una distribuzione di frequenza? • Tendenza centrale • Forma della distribuzione • Dispersione Misure di tendenza centrale • Ci permettono di calcolare dove si colloca il centro di una distribuzione di frequenza. Tipi di misure di tendenza centrale: • • • • Media Mediana Moda Quartili La media M • La somma di tutti i punteggi diviso per il numero totale delle osservazioni. • È il modello statistico più semplice. • Può essere influenzata dai dati più estremi di una distribuzione. N X Slide 11 x i 1 N i Perchè? • Mi dite quanti amici avete su FB? Media come modello matematico • Statistica ricorre a modelli matematici per rappresentare i nostri dati. • La media è un valore ipotetico (i.e. può anche essere un valore che non esiste nel data-set). • Ergo… • Media è il più semplice modello statistico che possiamo applicare ai nostri dati. Mediana • Quel valore che, nella serie ordinata dei dati, si lascia alla destra il 50% delle osservazioni e alla sinistra il 50% delle osservazioni. • Se l’ampiezza del campione è un numero dispari, la mediana coincide con l’osservazione che occupa la posizione (n+1)/2 nella serie ordinata delle osservazioni. • Se l’ampiezza del campione è un numero pari, la mediana coincide con la media dei valori corrispondenti alle due osservazioni centrali. Un po’ di pratica… MEDIANA – numero osservazioni pari • Corrisponde alla media tra l’osservazione in posizione N/2 e l’osservazione in posizione [(N/2)+1] 21 N = 40 38 40 41 42 42 43 44 45 45 48 50 54 56 57 57 61 63 64 64 65 20 65 65 66 66 68 68 69 69 70 70 70 71 71 72 73 73 73 74 77 78 (65+65)/2=65 MEDIANA 17 87 87 89 89 93 95 97 98 105 106 106 108 109 111 113 114 16 115 116 117 119 120 122 123 125 126 127 130 132 134 135 140 144 • Individuiamo osservazione in posizione N/2 e quella in posizione (N/2)+1 • Cacoliamo media (114+115)/2=114,5 Moda • La moda è il valore più frequente in un insieme di dati. • Ma… • un insieme di dati può non avere moda, se nessun valore è “più tipico”. Quartili • quartili sono misure che dividono i dati ordinati in quattro parti. • Q1: valore tale che 25% osservazioni è più piccolo di Q1, 75% delle osservazioni è più grande di Q1. • Q3: valore tale che 75% osservazioni è più piccolo di Q3, 25% delle osservazioni è più grande di Q3. Misure esplorative di una distribuzione • x min Q1 Mediana Q3 • Come si distribuiscono i nostri «dati_scrittura.xls»? x max Il box plot Boxplot 80,00 Valore più alto 75 %centile (terzo quartile) 70,00 Mediana 60,00 25 %centile (primo quartile) 50,00 40,00 Valore più basso 30,00 voti Forma della distribuzione • • • • • • • Confrontiamo la media con la mediana. Se media = mediana distribuzione simmetrica. Se media < mediana asimmetria negativa (negatively skewed) media > mediana: asimmetria positiva (positively skewed) Nozioni da ricordare • Skewness: asimmetria dei valori rispetto alla media. • Kurtosis: quanto è «a punta»/ appiattita una distribuzione? • Se a punta -> curtosi positiva • Se appiattita -> curtosi negativa Forma della distribuzione: skewness Forma della distribuzione: kurtosis • Quando ci può servire? Item analysis • Come si distribuiscono le risposte in un item di un test/esperimento. • Number missing: quante persone saltano quell’item; • Skewness • Kurtosis Tutto chiaro? Facciamo una prova… Com’è questa distribuzione? E questa? Indici di dispersione Varianza sintetizza la dispersione dei valori osservati attorno alla media. (xX ) 2 s 2 i i (N 1 ) Varianza: in questo caso? • 6 osservazioni (5, 5, 5, 5, 5) • Quanto sarà la media? E la varianza? 6 5 4 3 2 1 0 0 1 2 3 4 5 6 Varianza = 0 • Caso di «Fit» perfetto: La media cattura (rappresenta) perfettamente la variabilità dei dati. E qui? Deviazione Standard (DS) • Altrimenti definita scarto quadratico medio • Radice della varianza. • Radice dello «Scarto» di ogni punto dalla media/numero totale di osservazioni ( x X ) 2 ss 2 i i ( N 1 ) A che serve la DS? • ci aiuta a stabilire se e quanto i dati sono concentrati o dispersi intorno alla loro media. • Nota bene: • In alcune distribuzioni, la maggior parte dei valori osservati si trovano nell’intervallo dalla media a ± 1 DS. Cosa vuol dire? • Come si distribuiscono i valori osservati in termini di DS? Dipende dalla distribuzione… È chiara questa nozione? Stessa media, diversa DS Gamma • Gamma (range): misura della distanza fra il valore più alto e il più basso nella distribuzione. • Gamma (range) interquartile: la differenza tra il terzo e il primo quartile in un insieme di dati. • un limite della gamma consiste nel fatto che non tiene conto di come i dati si distribuiscono effettivamente. • Per es. osservazioni estreme. Cosa ci dicono le misure di dispersione? • Quanto maggiori sono questi indici, tanto più sono dispersi i valori osservati; • Quanto minori, tanto più sarà concentrata e omogenea la distribuzione dei valori osservati. • Quindi…. • DS ci dice quanto bene la media rappresenta la distribuzione dei nostri dati. • Una DS ampia implica una situazione in cui i dati sono molto distanti dalla media. • La media non è così rappresentativa della distribuzione dei nostri dati. Nota bene • Finora ci siamo riferiti a parametri propri di un campione; • Parametri di una popolazione sono indicati con lettere greche. • = Media della popolazione; • 2 = Varianza; 2 ( X ) N 2 Attenzione! • Ulteriore misura di varianza è STANDARD ERROR • ≠ Deviazione standard. Distribuzione campionaria = 10 = 10 M = 10 M=9 M = 11 M = 10 M=9 M=8 M = 12 M = 11 M = 10 Distribuzione campionaria • Frequenza con cui si distribuiscono le medie dei campioni estratti da una stessa popolazione. Frequenza Come si distribuiscono? Medie dei campioni Standard Error • Lo «scarto» (la deviazione standard) che c’è tra la media di ogni singolo campione e la media della popolazione. • È una misura di quanto è rappresentativo un campione della popolazione. s X N Standard Error • Deviazione standard di una distribuzione campionaria. EXCEL: Principali funzioni statistiche •MEDIA (num1, num2,…) •MEDIANA (num1, num2,…) •MODA (num1, num2,…) •DEV.ST (num1, num2,…) • FREQUENZA(matrice_dati; matrice_classi) •VAR (num1, num2,…) •MAX (num1, num2,…) •MIN (num1, num2,…) ESERCIZI - Statistica descrittiva • Frequenza • Frequenza cumulativa • Rappresentazione grafica distribuzione di frequenza (istogrammi) • Misure di Tendenza centrale • Misure di Dispersione Bard