Metodologia della ricerca e analisi dei
dati in (psico)linguistica
23 Giugno 2015
Statistica descrittiva
[email protected]
Analisi dei dati
• Statistica descrittiva
– Misure di tendenza centrale e di dispersione.
– Frequenze/occorrenze/percentuali.
• Statistica inferenziale
– Applicazione test statistico
– Interpretazione dei risultati
Frequenza
• Cosa è?
• Numero di occorrenze di un certo evento nel
campione.
• Prendiamo il foglio data_scrittura.xls
Frequenza cumulativa
Frequenza cumulativa
• somma della frequenza delle osservazioni con
valore inferiore o uguale al valore considerato.
Pensare in termini di frequenze
• Per es. Quante volte vengono commessi 2, 3,
…, 10 errori nel dettato nel data-set seconda
elementare?
Distribuzione di Frequenza
• Partendo dalla frequenza…
• Una distribuzione di frequenza è un insieme di
dati raccolti in un campione (Es. occorrenze di
errori in seconda elementare).
• Una distribuzione può essere rappresentata
sinteticamente mediante “numeri” (statistiche
o parametri).
Come descriviamo una
distribuzione di frequenza?
• Tendenza centrale
• Forma della distribuzione
• Dispersione
Misure di tendenza centrale
• Ci permettono di calcolare dove si colloca il
centro di una distribuzione di frequenza.
Tipi di misure di tendenza centrale:
•
•
•
•
Media
Mediana
Moda
Quartili
La media M
• La somma di tutti i punteggi diviso per il
numero totale delle osservazioni.
• È il modello statistico più semplice.
• Può essere influenzata dai dati più estremi
di una distribuzione.
N
X
Slide 11
x
i 1
N
i
Perchè?
• Mi dite quanti amici avete su FB?
Media come modello matematico
• Statistica ricorre a modelli matematici per
rappresentare i nostri dati.
• La media è un valore ipotetico (i.e. può anche
essere un valore che non esiste nel data-set).
• Ergo…
• Media è il più semplice modello statistico che
possiamo applicare ai nostri dati.
Mediana
• Quel valore che, nella serie ordinata dei dati,
si lascia alla destra il 50% delle osservazioni e
alla sinistra il 50% delle osservazioni.
• Se l’ampiezza del campione è un numero
dispari, la mediana coincide con l’osservazione
che occupa la posizione (n+1)/2 nella serie
ordinata delle osservazioni.
• Se l’ampiezza del campione è un numero pari,
la mediana coincide con la media dei valori
corrispondenti alle due osservazioni centrali.
Un po’ di pratica…
MEDIANA – numero osservazioni pari
• Corrisponde alla media tra l’osservazione in
posizione N/2 e l’osservazione in posizione
[(N/2)+1]
21
N = 40
38
40
41
42
42
43
44
45
45
48
50
54
56
57
57
61
63
64
64
65
20
65
65
66
66
68
68
69
69
70
70
70
71
71
72
73
73
73
74
77
78
(65+65)/2=65
MEDIANA
17
87
87
89
89
93
95
97
98
105
106
106
108
109
111
113
114
16
115
116
117
119
120
122
123
125
126
127
130
132
134
135
140
144
• Individuiamo
osservazione in
posizione N/2 e
quella in posizione
(N/2)+1
• Cacoliamo media
(114+115)/2=114,5
Moda
• La moda è il valore più frequente in un
insieme di dati.
• Ma…
• un insieme di dati può non avere moda, se
nessun valore è “più tipico”.
Quartili
• quartili sono misure che dividono i dati
ordinati in quattro parti.
• Q1: valore tale che 25% osservazioni è più
piccolo di Q1, 75% delle osservazioni è più
grande di Q1.
• Q3: valore tale che 75% osservazioni è più
piccolo di Q3, 25% delle osservazioni è più
grande di Q3.
Misure esplorative di una
distribuzione
• x min
Q1
Mediana Q3
• Come si distribuiscono i nostri
«dati_scrittura.xls»?
x max
Il box plot
Boxplot
80,00
Valore più alto
75 %centile (terzo quartile)
70,00
Mediana
60,00
25 %centile (primo quartile)
50,00
40,00
Valore più basso
30,00
voti
Forma della distribuzione
•
•
•
•
•
•
•
Confrontiamo la media con la mediana.
Se media = mediana
distribuzione simmetrica.
Se media < mediana
asimmetria negativa (negatively skewed)
media > mediana:
asimmetria positiva (positively skewed)
Nozioni da ricordare
• Skewness: asimmetria dei valori rispetto alla
media.
• Kurtosis: quanto è «a punta»/ appiattita una
distribuzione?
• Se a punta -> curtosi positiva
• Se appiattita -> curtosi negativa
Forma della distribuzione: skewness
Forma della distribuzione: kurtosis
• Quando ci può servire?
Item analysis
• Come si distribuiscono le risposte in un item di
un test/esperimento.
• Number missing: quante persone saltano
quell’item;
• Skewness
• Kurtosis
Tutto chiaro? Facciamo una
prova…
Com’è questa distribuzione?
E questa?
Indici di dispersione
Varianza
sintetizza la dispersione dei valori osservati
attorno alla media.
(xX
)

2
s
2
i
i
(N

1
)

Varianza: in questo caso?
• 6 osservazioni (5, 5, 5, 5, 5)
• Quanto sarà la media? E la varianza?
6
5
4
3
2
1
0
0
1
2
3
4
5
6
Varianza = 0
• Caso di «Fit» perfetto: La media cattura
(rappresenta) perfettamente la variabilità dei
dati.
E qui?
Deviazione Standard (DS)
• Altrimenti definita scarto quadratico medio
• Radice della varianza.
• Radice dello «Scarto» di ogni punto dalla
media/numero totale di osservazioni
(
x
X
)

2
ss 
2
i
i
(
N

1
)

A che serve la DS?
• ci aiuta a stabilire se e quanto i dati sono
concentrati o dispersi intorno alla loro media.
• Nota bene:
• In alcune distribuzioni, la maggior parte dei
valori osservati si trovano nell’intervallo dalla
media a ± 1 DS.
Cosa vuol dire?
• Come si distribuiscono i valori osservati in
termini di DS?
Dipende dalla distribuzione…
È chiara questa nozione?
Stessa media, diversa DS
Gamma
• Gamma (range): misura della distanza fra il
valore più alto e il più basso nella
distribuzione.
• Gamma (range) interquartile: la differenza
tra il terzo e il primo quartile in un insieme di
dati.
• un limite della gamma consiste nel fatto che
non tiene conto di come i dati si distribuiscono
effettivamente.
• Per es. osservazioni estreme.
Cosa ci dicono le misure di
dispersione?
• Quanto maggiori sono questi indici, tanto più
sono dispersi i valori osservati;
• Quanto minori, tanto più sarà concentrata e
omogenea la distribuzione dei valori osservati.
• Quindi….
• DS ci dice quanto bene la media rappresenta
la distribuzione dei nostri dati.
• Una DS ampia implica una situazione in cui i
dati sono molto distanti dalla media.
• La media non è così rappresentativa della
distribuzione dei nostri dati.
Nota bene
• Finora ci siamo riferiti a parametri propri di un
campione;
• Parametri di una popolazione sono indicati
con lettere greche.
•  = Media della popolazione;
•  2 = Varianza;

2
( X  )


N
2
Attenzione!
• Ulteriore misura di varianza è STANDARD
ERROR
• ≠ Deviazione standard.
Distribuzione campionaria

= 10
= 10
M = 10
M=9
M = 11
M = 10
M=9
M=8
M = 12
M = 11
M = 10
Distribuzione campionaria
• Frequenza con cui si distribuiscono le medie
dei campioni estratti da una stessa
popolazione.
Frequenza
Come si distribuiscono?
Medie dei campioni
Standard Error
• Lo «scarto» (la deviazione standard) che c’è
tra la media di ogni singolo campione e la
media della popolazione.
• È una misura di quanto è rappresentativo un
campione della popolazione.
s
X 
N
Standard Error
• Deviazione standard di una distribuzione
campionaria.
EXCEL: Principali funzioni statistiche
•MEDIA (num1, num2,…)
•MEDIANA (num1, num2,…)
•MODA (num1, num2,…)
•DEV.ST (num1, num2,…)
• FREQUENZA(matrice_dati; matrice_classi)
•VAR (num1, num2,…)
•MAX (num1, num2,…)
•MIN (num1, num2,…)
ESERCIZI - Statistica descrittiva
• Frequenza
• Frequenza cumulativa
• Rappresentazione grafica distribuzione di
frequenza (istogrammi)
• Misure di Tendenza centrale
• Misure di Dispersione
Bard
Scarica

Presentazione standard di PowerPoint