Introduzione alla statistica
per la ricerca
Lezione I
Dr. Stefano Guidi
Siena, 3 Ottobre 2012
1
Perché statistica?
La conoscenza della statistica è importante
per valutare la variabilità del mondo, e per
aiutarci a vedere schemi all’interno di un
mondo dominato dalla casualità, ed a
distinguere tra relazioni causali tra diversi
fenomeni e relazioni solo apparenti.
2
Introduzione
Statistica
 “Scienza di derivazione matematica che si occupa
di studiare e descrivere la realtà fenomenica nei
suoi aspetti di rilevazione numerica“
Insieme di tecniche e procedure per:




Visualizzare dati
Analizzare
Interpretare
Prendere decisioni a partire da essi
Fondamentali nella ricerca scientifica
3
Ricerca Scientifica
• Metodo Scientifico
 Basato sull’osservazione
 Formulazione di ipotesi
 Verifica sperimentale
• Dati (risultato dell’osservazione)
 Incerti
 Parzialmente dovuti al caso
 Limitati
 Io voglio giungere a conclusioni generali
• Necessarie tecniche per ovviare ai problemi
4
Statistica
• Descrittiva
 Descrivere, riassumere e visualizzare insiemi di dati
• Matematica
 Fornisce la base teorica dei concetti di variabilità e
probabilità
• Inferenziale
 Fare inferenze su una popolazione in base ad un
campione estratto dalla popolazione
5
Statistica Descrittiva
Insieme di metodi per riassumere in maniera
chiara, comprensibile e possibilmente concisa un
insieme di dati
•2 Approcci:
 Grafico
 Numerico
•Variabile:
 una proprietà, o una caratteristica di eventi, oggetti o
persone che può assumere diversi valori (se
misurata)
6
Classificazione delle Variabili
Diversi modi per classificare una variabile:
• In base ai valori che possono assumere
(livelli)
• In base alla scala su cui le misuro
• In base al loro status in uno studio
sperimentale
7
In base ai valori
• Qualitative
 Sesso, colore dei capelli, ecc…
• Quantitative
 Età, altezza, QI, ecc…
• Discrete
 Possono assumere un numero finito di livelli
• Continue
 Possono assumere un numero infinito di livelli
8
In base alla scala
• Scale Nominali
 Permettono di dire quali elementi sono diversi e quali uguali
(categorie)
• Scale Ordinali
 I valori sono ordinati, e permettono quindi di distinguere due
valori in base al loro posto nella scala (classifica di una gara)
• Scale ad intervalli
 Permettono di definire la distanza tra due elementi (no zero
assoluto): temperatura in C
• Scale a rapporti
 Permettono di definire dei rapporti: temperatura in K
9
Istogrammi
Un istogramma è grafico che rappresenta la distribuzione
di frequenza di un insieme di dati
•sull'asse delle ascisse (x)
 Le categorie a cui può appartenere il dato nominale
 Intervalli in cui può cadere un dato numerico
•sull'asse delle ordinate (y)
 il numero di volte che ho osservato un evento di una data
categoria (frequenza assoluta)
 Il rapporto tra frequenza assoluta dell’evento ed numero totale di
dati osservati (frequenza relativa)
10
Frequenza relativa (proporzione)
Frequenza (relativa) dell’altezza (in pollici) di
un campione di individui
Altezza (pollici)
11
Frequenza assoluta (conteggio)
Frequenza assoluta (conteggio)
Frequenze degli esiti del lancio di una
moneta e di un dado dopo 100 lanci
Esito (moneta)
Esito (dado)
12
Occhio alla scala!
La scelta degli estremi della scala usata per l’asse Y ha
conseguenze drammatiche per evidenziare visivamente (o
nascondere!) differenze nei dati di frequenza.
Stessi Dati
Maggiore differenza
Minore differenza
13
Considerazioni
Istogrammi (e altri grafici) permettono di visualizzare la
variabilità dei dati e di identificare tendenze.
Informazioni soltanto indicative.
Occhio alla scala:
•Unità di misura (y):
 Frequenza assoluta vs relativa (tra 0 e 1)
 Si può sempre passare dalla prima alla seconda, e viceversa (sapendo
il numero totale di dati)
•Estremi (intervallo rappresentato su y):
 Più l’intervallo (range) rappresentato è piccolo, più grandi appariranno le
differenze
 Le statistiche possono essere usate per mentire…
14
Indici Numerici
Indicatori di tendenze centrali:
•Indicano dove tendono a concentrarsi i valori osservati
della nostra variabile
Indicatori di dispersione:
•Indicano il grado di variabilità dei valori della variabile nei
dati
Indicatori di forma:
•Indicano proprietà generali della distribuzione delle
frequenze dei valori che può assumere la variabile
15
Media
Somma dei valori
osservati divisa per il
numero dei dati
•Per scale numeriche
•Facilmente calcolabile
e trattabile
•Molto sensibile a
valori “anomali”
y=
i
reddito
3500
5800
8000
8300
8450
8450
8680
15750
17500
media
9381,11
åy
i
n
3500
5800
8000
8300
8450
8450
8680
15750
17500
200000
28443
16
Mediana
Il valore sotto cui si collocano
il 50% delle osservazioni nei
miei dati
•Per scale ordinali
•Meno sensibile ai dati “anomali”, più
adatta per distribuzioni asimmetriche
media
mediana
reddito
3500
5800
8000
8300
8450
8450
8680
15750
17500
9381,11
8450
3500
5800
8000
8300
8450
8450
8680
15750
17500
200000
28443
8450
17
Moda
Il valore più frequente
nei miei dati
•Poco usato
•Può esserci più di una
moda in una distribuzione
18
Indicatori di dispersione
Misurano la variabilità delle
osservazioni rispetto ad un valore
centrale
SS = å ( y i - y )
•Devianza (SS)
•Varianza (s2)
•Deviazione standard (s)
SS
SS
s =
=
df n -1
Possono essere usati per stimare la
variabilità nella popolazione
generale
2
i
2
s= s
2
19
Devianza (SS)
La somma degli scarti
quadratici dei valori dalla
media
 Più sono i valori “distanti” dalla
media nei miei dati, più sarà grande
 Cresce con il numero delle
osservazioni
SS = å ( y i - y )
i
2
20
Varianza
2
(s )
La devianza (SS) divisa per il
numero delle osservazioni
 Più è grande più c’è variabilità
 Non dipende dal numero di
osservazioni
 Buona stima della variabilità di una
popolazione
 Difficile da interpretare
SS = å ( y i - y )
i
2
SS
SS
s =
=
df n -1
2
21
Deviazione standard
Radice quadrata della varianza
•Riporta la variabilità delle osservazioni
in unità di misure significative (la stessa
unità di misura della variabile misurata)
•Solo per distribuzioni normali
SS = å ( y i - y )
i
2
SS
SS
s =
=
df n -1
2
s= s
2
22
Indicatori di Forma
• Simmetria (Skew)
 La direzione in cui punta
• Kurtosi
 Misura la concentrazioni dei dati attorno alla media
23
Esercizi
Calcolate media, mediana, moda, devianza,
varianza e deviazione standard dei seguenti set di
dati (osservazioni):
• Numero di canestri su 10 lanci liberi per ogni persona
(10 persone):
 1, 2, 4, 5, 5, 6, 6, 6, 8, 9
• Numero di birre bevute da un pacco da 12 in una notte
da ogni persona ad una festa (10 persone):
 12, 4, 8, 6, 11, 12, 7, 9, 6, 10
24
Statistica Matematica
• Probabilità vs Frequenza
• Variabili Aleatorie
 Astrazioni che denotano l’incertezza che
precede ad ogni evento
• Distribuzione di probabilità
 Discrete
 Continue
25
Distribuzioni
26
Distribuzione Normale
• Famiglia di distribuzioni di
probabilità
• Forma “a campana”
• Media=mediana=moda
• Completamente specificate da 2
parametri indipendenti
 μ (media)
 σ (deviazione standard)
• Moltissimi fenomeni naturali
sono distribuiti in modo normale
• Assunta dai test statistici
27
Distribuzione Normale II
μ (media) (ex:
punteggio QI di 100)
σ (deviazione
standard) (ex: 10 punti
QI)
Area della parte colorata
è la probabilità di
osservare per caso un
valore di QI compreso tra
90 e 110 (68.27% di
probabilità).
28
Scarica

Lezione 1 - Dipartimento di Scienze della Comunicazione