Introduzione alla statistica
per la ricerca
Lezione II
Dr. Stefano Guidi
Siena, 11 Ottobre 2012
1
Riferimenti
• Online statistics
(http://onlinestatbook.com/)
 Semplice, completo e con molte dimostrazioni
interattive (anche ebook!)
• Psychological statistics
(http://www4.uwsp.edu/psych/stat/)
 Corso di statistica online
• Statistics Hell
(http://www.statisticshell.com)
 Più avanzato, ma strutturato a livelli, con esempi,
esercizi e dati per SPSS
Esempi di affermazioni statistiche
• 4 dentisti su 5 raccomandano Mentadent
• Quasi l’85% dei casi di cancro al polmone negli uomini
ed il 45% nelle donne sono legati al fumo
• Gli studenti di Science della Comunicazione hanno un QI
più alto degli altri
• Le persone tendono ad essere più persuasive quando
guardano gli altri negli occhi e parlano al alta voce e
velocemente
• Gli americani tendono ad essere più individualisti degli
europei
• Il numero di crimini violenti nelle città aumenta con il
numero di chiese
3
Studiate queste parole x 2 minuti
TROTTOLA
PAUSA
BOTTONE
FORZA
TAPPO
SENSO
CUSCINO
GIOIA
TAPPETO
CORAGGIO
CHITARRA
FORZA
LAMPIONE
FURBIZIA
SEDIA
AIUTO
VASO
PERDITA
MATITA
SALUTE
CHIAVE
PENSIERO
MAGLIONE
GIOVENTU’
CANDELA
IMPULSO
OMBRELLO
LANGUORE
4
Provate a rievocare
Avete adesso 2 minuti per scrivere su un
foglio tutte le parole che riuscite a ricordare
5
Quante parole ricordavate?
TROTTOLA
PAUSA
BOTTONE
FORZA
TAPPO
SENSO
CUSCINO
GIOIA
TAPPETO
CORAGGIO
CHITARRA
FORZA
LAMPIONE
FURBIZIA
SEDIA
AIUTO
VASO
PERDITA
MATITA
SALUTE
CHIAVE
PENSIERO
MAGLIONE
GIOVENTU’
CANDELA
IMPULSO
OMBRELLO
LANGUORE
6
Introduzione
• Descrittiva
 Descrivere, riassumere (indicatori) e visualizzare
(grafici) insiemi di dati
• Dati sono osservazioni del mondo
 Limitati in numero: abbiamo solo un campione di
osservazioni, tra tutte quelle possibili
• Inferenziale
 Fare inferenze su una popolazione in base ad un
campione estratto dalla popolazione
7
Frequenza relativa (proporzione)
Frequenza relativa (proporzione)
Istogrammi (frequenza relativa N=100)
Esito (moneta)
Esito (dado)
8
Indicatori di tendenze centrali
• Media
 “Il salario medio dei dipendenti di un’azienda è 4.800
€”
• Mediana
 Il valore al di sopra del quale si collocano il 50% delle
osservazioni
 “La mediana del salario dei dipendenti è 1.300 €”
• Moda
 Il valore più frequente dell’insieme
 “Mentadent è il dentifricio più comprato dagli italiani”
9
Indicatori di dispersione
Misurano la variabilità delle osservazioni
•Devianza (SS)
 Cresce con il numero delle osservazioni
•Varianza (s2)
 Rapporta la devianza al numero delle osservazioni
 Buona stima della variabilità di una popolazione
•Deviazione standard (s)
 Unità di misura significativa (la stessa della variabile che
ho misurato: punti QI, numero di parole, ecc…)
10
Dati bivariati
• 2 variabili prese (simultaneamente) per ogni
soggetto:




Età, peso
Altezza, peso
Età del marito, età della moglie
Peso auto, consumo di benzina (l/km)
• Statistiche descrittive
 Diagrammi a dispersione (scatterplots)
 Indicatori di associazione (correlazione)
Scatterplots
r=0.97
r=0.63
Correlazione
Misura di associazione tra 2 variabili osservate
•Indice di correlazione lineare di Pearson (r)




r > 0  all’aumentare di una variabile aumenta l’altra
r < 0  all’aumentare di una variabile diminuisce l’altra
r = 0 assenza di correlazione
r = ±1 correlazione perfetta
•Correlazione NON implica causazione
 Non si può stabilire la direzione dell’influenza (A->B vs B->A)
 Ci possono essere variabili latenti (non osservate) che causano
la relazione
r=-1
r=0
r=0,63
r=0,97
Indice r misura quanto sono sparsi i dati attorno ad una retta
Popolazioni
Popolazione (il mondo)
•l'insieme completo, infinito o finito, di
oggetti, osservazioni o punteggi
appartenenti ad una data classe
•Popolazione può essere solo ipotetica
•In pratica è l’oggetto del mio interesse,
il ricercatore definisce una popolazione
come quello che vuole studiare
•Indici relativi ad una popolazione si
dicono parametri
15
Campioni
Campione (i dati)
•Sottoinsieme di dati di una popolazione
a cui ho accesso
•Sono tutte le osservazioni che ho
effettuato
•Indici relativi ad un campione si dicono
statistiche
È importante il modo in cui è stato
scelto! (campionamento)
16
Campionamento
• Come scelgo le mie osservazioni
 Devono essere rappresentative della popolazione per consentire
inferenze
 Evitare bias nella scelta
• Campionamento casuale
 Tutti i membri della popolazione hanno la stessa probabilità di
entrare nel campione
 In pratica è spesso impossibile, ma basta un’approssimazione
• Campionamento stratificato
 Il campione rispecchia in alcune caratteristiche la popolazione
 Per garantire rappresentatività
17
Dimensioni del campione
All’aumentare del
campione le differenze
dovute solo al caso
tendono a cancellarsi a
vicenda, ed a fare
avvicinare le statistiche
ai parametri
Frequenza relativa
Fondamentali per la rappresentatività e per
contrastare la variabilità casuale
n=10
n=100
18
Statistica Inferenziale
Trarre inferenze su una popolazione a partire da
un campione
Inferenze probabilistiche:
•Conclusioni basate sulla probabilità di osservare i dati per
caso (necessario campionamento casuale!)
•In pratica si basano su misure di variabilità
•Possono essere errate, ma posso cercare di contenere il
rischio di errore
19
Probabilità
• Un concetto controverso…
• Definizione a priori
 Dati N esiti equiprobabili di un evento, la probabilità
che ognuno di essi si verifichi è 1/N
• Definizione frequentista
 La proporzione di volte che un evento si verifica dopo
un numero sufficientemente grande (in realtà infinito)
di osservazioni
• Probabilità soggettiva
20
Probabilità
• P(evento) è compresa tra 0 e 1
 P(testa)=1/2
• La probabilità di un evento certo è 1
• La probabilità di un evento impossibile è 0
• P(non evento) = 1 – P(evento)
 P(≠1)=1-1/6 = 5/6
21
Probabilità: alcune leggi
Dati due eventi A e B indipendenti, così che
l’esito di A non ha nessuna influenza su
quello di B, con probabilità rispettivamente
pari a P(A) e P(B):
 P(A e B) = P(A)*P(B)
 Ex lancio 2 monete: P(T e T) = ?
 P(A o B) = P(A) + P(B) – P(A e B)
22
Distribuzioni di probabilità
Per variabili discrete la distribuzione di probabilità
contiene le probabilità di tutti gli esiti possibili
23
Distribuzione del QI
24
Distribuzioni continue
(densità di probabilità)
Per variabili continue si parla di densità di
probabilità:
Ex: tempo di reazione in ms (cliccare un tasto
quando hai trovato una lettera T in un insieme di L)
•Qual è la probabilità di rispondere in
598,95629815730251 ms?
•Praticamente 0!
25
Distribuzioni continue
(densità di probabilità)
Descrive il variare della densità della probabilità (y)
di una variabile continua (x)
P(a<t<b)
0
a
b
• Area sotto la curva è 1
• Probabilità di ogni singolo
valore di x è 0
• L’area sottesa dalla curva tra
2 punti sull’asse x è la
probabilità che un numero
scelto a caso cada tra i due
punti
26
t (ms)
Distribuzioni continue
27
Distribuzione Normale
• Famiglia di distribuzioni di
probabilità simmetriche
• Forma “a campana”
• Media=mediana=moda
• Completamente specificate da 2
parametri indipendenti
 μ (media)
 σ (deviazione standard)
• Moltissimi fenomeni naturali
sono distribuiti in modo normale
• Assunta dai test statistici
28
Distribuzione Normale II
μ (media) (ex:
punteggio QI di 100)
σ (deviazione
standard) (ex: 15 punti
QI)
Area della parte colorata
è la probabilità di
osservare per caso un
valore di QI compreso tra
85 e 115 (68.27% di
probabilità).
29
Distribuzione Normale Standard
μ = 0; σ = 1
• Posso sempre convertire una variabile con distribuzione
normale in forma standard
 Esprimo la distanza di una variabile (normale) dalla media in
termini di unità di deviazione standard
 Posso calcolare la probabilità di osservare casualmente quel
valore!
30
Statistica Inferenziale
Diverse tecniche, diversi fini:
•Stima
 Stimare un intervallo dei valori più probabili per un
parametro di una popolazione a partire da un
campione: Intervallo di confidenza
 Ex: capacità MBT = 7 parole?
•Verifica di Ipotesi
 Decidere se i dati a mia disposizione forniscono
evidenza per rigettare una data ipotesi
 Ex: capacità MBT parole concrete ≠ parole astratte?
31
Scarica

Lezione 2 - Dipartimento di Scienze della Comunicazione