Corso di Laurea in
Scienze e tecniche psicologiche
Esame di
Psicometria
L’anova fattoriale between
A cura di
Matteo Forgiarini
[email protected]
1
Il test anova
Esercitazione N° 4 – L’anova
between
Spesso per scopi di ricerca siamo interessati a stabilire se due popolazioni indipendenti in media
mostrano valori statisticamente diversi per la stessa variabile osservata – misurata su scala
ordinale.
Nelle precedenti analisi abbiamo affrontato e risolto questo problema mediante il t-test:
abbiamo confrontato le due medie osservate sui due differenti campioni e analizzando la
significatività del valore t sperimentale, abbiamo potuto decidere se accettare o rifiutare
l’ipotesi nulla di uguaglianza delle due medie.
Ma...
Se si volessero confrontare contemporaneamente i valori medi di più di due campioni?
Ad esempio, in riferimento al file “competenze.sav”, è possibile domandarsi se i soggetti nati
prima del 1948, tra il 1948 e il 1954 e i dopo il 1954, abbiano in media la stessa pressione
massima.
È un tipo di domanda frequente in molte ricerche: di fatto stiamo cercando di capire se il fattore
“età” influisce sulla variabile “pressione massima”; ovvero se nelle 3 differenti fasce di età i
soggetti hanno in media la stessa pressione o se le medie differiscono significativamente.
In questo caso non è possibile utilizzare i modelli di regressione perché la V.I. non è
quantitativa.
Per rispondere a questo tipo di domande occorre utilizzare il test anova.
2
Il test anova
Esercitazione N° 4 – L’anova
between
Occorre utilizzare l’anova ogni volta che:
•Si vuole sapere se una V.D. (misurata su scala a rapporto o a intervallo) presenta valori medi
uguali nei diversi livelli di un a V.I. (misurata su scala qualsiasi).
Cioè:
•Si vuole sapere se una variabile categoriale influisce su una variabile quantitativa.
•Ogni livello della V.I. forma un gruppo di soggetti: dunque ogni livello della V.I. ha un proprio
valore medio della V.D.
•La V.I. ha più di due livelli: dunque occorre confrontare contemporaneamente più di due medie.
•Se la V.I. ha 2 livelli, è indifferente utilizzare l’anova o il t-test (cfr. diapositive successive).
Indicando con µ1, µ2, … µk le medie della V.D. nei k livelli della V.I., l’ipotesi nulla del test anova
risulta:
H0: µ1= µ2=…= µk
H1: µ i≠ µj per almeno una coppia di livelli della V.I. (i e j indicano 2 generici livelli della V.I.)
3
Il t-test e l’anova
Esercitazione N° 4 – L’anova
between
Se la V.I. presenta due livelli, il t-test e l’anova permettono di rispondere allo stesso tipo di
domanda, infatti:
In riferimento al file “competenze.sav” ipotizziamo di dividere in due grandi classi di età (di
uguale numerosità) i soggetti e di chiederci se i soggetti giovani in media hanno la stessa
pressione massima dei soggetti più anziani.
Statistics
anno di nascita
N
Valid
Mis sing
Percentiles 50
100
0
1951,00
Abbiamo selezionato l’opzione per ottenere il valore – ovvero la
mediana - della variabile “anno di nascita” che divide il campione
totale in due sotto-campioni di uguale numerosità. Possiamo quindi
4
costruire una nuova variabile per eseguire il t-test e l’anova.
Il t-test e l’anova
Esercitazione N° 4 – L’anova
between
Con “ ricodifica in una
nuova variabile” a partire
dalla variabile “nascita”
creiamo la variabile
“nasc_2f”, creiamo cioè
una variabile che indica
le due fasce di età dei
soggetti:
la
nuova
variabile assume valore 1
per soggetti nati prima
del 1951 e assume valore
2 per tutti gli altri
soggetti più giovani.
Ipotizziamo di volere sapere se la variabile pressione sanguigna assume in media lo stesso valore nei
due livelli della variabile nasc_2f. Ovvero ci stiamo chiedendo se la variabile età influisce sulla
variabile pressione sanguigna. Per rispondere a questa domanda possiamo usare sia il t-test sia
l’anova, perché?
Perché stiamo confrontando contemporaneamente i valori medi di 2 livelli della V.I.
H0: µ1= µ2
H1: µ1≠ µ2
5
Esercitazione N° 4 – L’anova
between
Il t-test e l’anova
Eseguiamo il t-test per campioni indipendenti utilizzando come variabile di gruppo “nasc_2f” e
come variabile dipendente “pressione massima”.
Group Statistics
press ione mas s ima
nas c_2f
1,00
2,00
N
52
48
Mean
133,46
139,63
Std. Deviation
13,854
14,676
Std. Error
Mean
1,921
2,118
Independent Samples Test
Levene's Tes t for
Equality of Variances
F
pres s ione mas s ima
Equal variances
ass umed
Equal variances
not as sumed
,926
Sig.
,338
t-tes t for Equality of Means
t
df
Sig. (2-tailed)
Mean
Difference
Std. Error
Difference
95% Confidence
Interval of the
Difference
Lower
Upper
-2,160
98
,033
-6,163
2,853
-11,825
-,501
-2,155
96,161
,034
-6,163
2,860
-11,840
-,487
Il t-test risulta significativo, è possibile rifiutare l’ipotesi nulla e concludere che la pressione
sanguigna nelle persone “più giovani” è significativamente maggiore che negli “anziani”.
6
Esercitazione N° 4 – L’anova
between
Il t-test e l’anova
ANOVA
press ione mas s ima
Sum of
Squares
Between Groups
948,187
Within Groups
19912,173
Total
20860,360
df
1
98
99
Mean Square
948,187
203,185
F
4,667
Sig.
,033
Il test dell’anova risulta significativo (pvalue<0,05): come per il t-test, possiamo
concludere che in media la pressione
sanguigna nei soggetti “più giovani” è
statisticamente maggiore rispetto ai
soggetti “più anziani”. È interessante
notare che il livello di significatività
ottenuto è il medesimo che abbiamo
ottenuto con il t-test.
È importante notare però che l’anova si
basa sul test F: infatti vengono
confrontate le varianze tra i gruppi
(between) ed entro i gruppi (within).
7
Partizione della varianza
Tra gruppi (SSM)
Varianza totale (SST)
=
Entro i gruppi (SSR)
Come decido se la variazione legata al trattamento (variabilità osservata tra i gruppi) è
superiore a quella non legata al trattamento?
variazione tra gruppi
test statistico 
variazione entro i gruppi
Al test statistico è associato un valore di significatività
= un valore di probabilità di ottenere quel risultato – o risultati più estremi – per
effetto del caso
8
Rappresentazione grafica
B
B
W
B
W
W
9
Alcuni esempi
B
F1=B/W
W
B=, W>
F2<F1
B>, W=
F3>F1
10
L’anova between
Esercitazione N° 4 – L’anova
between
Come ipotizzato all’inizio, dividiamo ora i soggetti in tre grandi fasce di età di numerosità
omogenea.
Statistics
anno di nascita
N
Valid
Mis sing
Percentiles 33,33333333
66,66666667
100
0
1948,00
1954,00
Dagli output notiamo che un terzo dei soggetti è nato prima
del 1948, un terzo tra il ’48 e il ’54 e il restante 33% è nato
dopo il 1954.
11
L’anova between
Esercitazione N° 4 – L’anova
between
Possiamo quindi costruire una nuova variabile “nasc_3f” che divide i soggetti in tre grandi
fasce di età e che assume:
Valore 1 se i soggetti sono nati prima del 1948,
Valore 2 se i soggetti sono nati dal 1948 al 1954
Valore 3 se i soggetti sono nati dopo il 1954.
Possiamo quindi eseguire il test dell’anova e confrontare le medie della variabile “pressione
massima” all’interno dei tre livelli di età che abbiamo creato.
12
Esercitazione N° 4 – L’anova
between
L’anova between
H0: µ1= µ2= µ3
H1: esiste almeno una coppia di livelli in cui le medie della “pressione sanguigna” hanno una differenza
statisticamente significativa.
ANOVA
press ione mas s ima
Sum of
Squares
Between Groups 1703,670
Within Groups
19156,690
Total
20860,360
df
2
97
99
Il test risulta significativo (p-value<0,05).
Possiamo rifiutare l’ipotesi nulla e concludere
che la variabile età ha influenza sulla variablile
pressione sanguigna: in altri termini esiste una
coppia di livelli della V.I. per i quali le due medie
di gruppo hanno una differenza significativa.
Ma...
Con 3 livelli della V.I. esistono 3 coppie di
medie, qual è la coppia che rende significativo
l ’ anova? Ne esiste più di una? Andiamo a
scoprirlo...
Mean Square
851,835
197,492
F
4,313
Gradi di libertà
Sig.
,016
Varianza
within
Varianza
between
13
L’anova between
Esercitazione N° 4– L’anova
between
Per capire quale coppia di fasce di età ha reso significativo l’anova, occorre eseguire i test post hoc.
I test post hoc confrontano contemporaneamente le n*(n-1)/2 coppie di medie della V.D. (con n pari al
numero di livelli della V.I.). Ma...
Il confronto contemporaneo altera il livello di significatività dei test: il livello alfa (generalmente
pari a 0,05) viene “gonfiato” rendendo quindi più elevato il rischio di commettere l’errore di I tipo.
Occorre quindi mettere in atto strategie che permettano di controllare il valore di alfa: negli esempi
proposti verrà usata la correzione di Tukey.
I problemi che si incontrano confrontando contemporaneamente più di 2 medie, sono gli stessi problemi
che impediscono di usare il t-test quando la V.I. ha più di 2 livelli: anche in questo caso il livello alfa si
gonfierebbe e aumenterebbe dunque il rischio di commettere l’errore di I tipo.
14
L’anova between
Esercitazione N° 4 – L’anova
between
Multiple Comparisons
Dependent Variable: pres sione mas sima
Tukey HSD
(I) nas c_3f
1,00
2,00
3,00
(J) nasc_3f
2,00
3,00
1,00
3,00
1,00
2,00
Mean
Difference
(I-J)
2,669
-7,433
-2,669
-10,102*
7,433
10,102*
Std. Error
3,317
3,586
3,317
3,500
3,586
3,500
Sig.
,701
,101
,701
,013
,101
,013
95% Confidence Interval
Lower Bound Upper Bound
-5,23
10,57
-15,97
1,10
-10,57
5,23
-18,43
-1,77
-1,10
15,97
1,77
18,43
*. The mean difference is significant at the .05 level.
Notiamo
che
la
media
2
risulta
significativamente diversa dalla media 3. Gli
scarti tra media 1 e media 2 e tra media 1 e 3 non
risultano invece significativi.
Dagli output possiamo notare che il test
anova è risultato significativo poiché
una coppia di medie presenta uno
scarto statisticamente significativo e
rende quindi falsa l’ ipotesi nulla di
uguaglianza delle 3 medie.
15
Scarica

Lucidi 4 MP - e