Corso di Laurea magistrale in
Psicologia Clinica, dello Sviluppo e Neuropsicologia
Esame di
Analisi Multivariata dei Dati
L’anova fattoriale between
Mercoledì 23 ottobre 2013
A cura di
Matteo Forgiarini
1
Il test anova
L’anova between
Spesso per scopi di ricerca siamo interessati a stabilire se due popolazioni indipendenti in media
mostrano valori statisticamente diversi per la stessa variabile osservata – misurata su scala
ordinale.
Nelle precedenti analisi abbiamo affrontato e risolto questo problema mediante il t-test:
abbiamo confrontato le due medie osservate sui due differenti campioni e analizzando la
significatività del valore t sperimentale, abbiamo potuto decidere se accettare o rifiutare
l’ipotesi nulla di uguaglianza delle due medie.
Ma...
Se si volessero confrontare contemporaneamente i valori medi di più di due campioni?
Ad esempio, in riferimento al file “competenze.sav”, è possibile domandarsi se i soggetti nati
prima del 1948, tra il 1948 e il 1954 e i dopo il 1954, abbiano in media la stessa pressione
massima.
È un tipo di domanda frequente in molte ricerche: di fatto stiamo cercando di capire se il fattore
“età” influisce sulla variabile “pressione massima”; ovvero se nelle 3 differenti fasce di età i
soggetti hanno in media la stessa pressione o se le medie differiscono significativamente.
In questo caso non è possibile utilizzare i modelli di regressione perché la V.I. non è
quantitativa.
Per rispondere a questo tipo di domande occorre utilizzare il test anova.
2
Il test anova
L’anova between
Occorre utilizzare l’anova ogni volta che:
•Si vuole sapere se una V.D. (misurata su scala a rapporto o a intervallo) presenta valori medi
uguali nei diversi livelli di un a V.I. (misurata su scala qualsiasi).
Cioè:
•Si vuole sapere se una variabile categoriale influisce su una variabile quantitativa.
•Ogni livello della V.I. forma un gruppo di soggetti: dunque ogni livello della V.I. ha un proprio
valore medio della V.D.
•La V.I. ha più di due livelli: dunque occorre confrontare contemporaneamente più di due medie.
•Se la V.I. ha 2 livelli, è indifferente utilizzare l’anova o il t-test (cfr. diapositive successive).
Indicando con µ1, µ2, … µk le medie della V.D. nei k livelli della V.I., l’ipotesi nulla del test anova
risulta:
H0: µ1= µ2=…= µk
H1: µ i≠ µj per almeno una coppia di livelli della V.I. (i e j indicano 2 generici livelli della V.I.)
3
Il t-test e l’anova
L’anova between
Se la V.I. presenta due livelli, il t-test e l’anova permettono di rispondere allo stesso tipo di
domanda, infatti:
In riferimento al file “competenze.sav” ipotizziamo di dividere in due grandi classi di età (di
uguale numerosità) i soggetti e di chiederci se i soggetti giovani in media hanno la stessa
pressione massima dei soggetti più anziani.
Statistics
anno di nascita
N
Valid
Mis sing
Percentiles 50
100
0
1951,00
Abbiamo selezionato l’opzione per ottenere il valore – ovvero la
mediana - della variabile “anno di nascita” che divide il campione
totale in due sotto-campioni di uguale numerosità. Possiamo quindi
4
costruire una nuova variabile per eseguire il t-test e l’anova.
L’anova between
Il t-test e l’anova
Con “ricodifica in una
nuova variabile” a partire
dalla variabile “nascita”
creiamo la variabile
“nasc_2f”, creiamo cioè
una variabile che indica
le due fasce di età dei
soggetti:
la
nuova
variabile assume valore 1
per soggetti nati prima
del 1951 e assume valore
2 per tutti gli altri
soggetti più giovani.
Ipotizziamo di volere sapere se la variabile pressione sanguigna assume in media lo stesso valore nei
due livelli della variabile nasc_2f. Ovvero ci stiamo chiedendo se la variabile età influisce sulla
variabile pressione sanguigna. Per rispondere a questa domanda possiamo usare sia il t-test sia
l’anova, perché?
Perché stiamo confrontando contemporaneamente i valori medi di 2 livelli della V.I.
H0: µ1= µ2
H1: µ1≠ µ2
5
L’anova between
Il t-test e l’anova
Eseguiamo il t-test per campioni indipendenti utilizzando come variabile di gruppo “nasc_2f” e
come variabile dipendente “pressione massima”.
Group Statistics
press ione mas s ima
nas c_2f
1,00
2,00
N
52
48
Mean
133,46
139,63
Std. Deviation
13,854
14,676
Std. Error
Mean
1,921
2,118
Independent Samples Test
Levene's Tes t for
Equality of Variances
F
pres s ione mas s ima
Equal variances
ass umed
Equal variances
not as sumed
,926
Sig.
,338
t-tes t for Equality of Means
t
df
Sig. (2-tailed)
Mean
Difference
Std. Error
Difference
95% Confidence
Interval of the
Difference
Lower
Upper
-2,160
98
,033
-6,163
2,853
-11,825
-,501
-2,155
96,161
,034
-6,163
2,860
-11,840
-,487
Il t-test risulta significativo, è possibile rifiutare l’ipotesi nulla e concludere che la pressione
sanguigna nelle persone “più giovani” è significativamente maggiore che negli “anziani”.
6
L’anova between
Il t-test e l’anova
ANOVA
press ione mas s ima
Sum of
Squares
Between Groups
948,187
Within Groups
19912,173
Total
20860,360
df
1
98
99
Mean Square
948,187
203,185
F
4,667
Sig.
,033
Il test dell’anova risulta significativo (pvalue<0,05): come per il t-test, possiamo
concludere che in media la pressione
sanguigna nei soggetti “più giovani” è
statisticamente maggiore rispetto ai
soggetti “più anziani”. È interessante
notare che il livello di significatività
ottenuto è il medesimo che abbiamo
ottenuto con il t-test.
È importante notare però che l’anova si
basa sul test F: infatti vengono
confrontate le varianze tra i gruppi
(between) ed entro i gruppi (within).
7
L’anova between
L’anova between
Come ipotizzato all’inizio, dividiamo ora i soggetti in tre grandi fasce di età di numerosità
omogenea.
Statistics
anno di nascita
N
Valid
Mis sing
Percentiles 33,33333333
66,66666667
100
0
1948,00
1954,00
Dagli output notiamo che un terzo dei soggetti è nato prima
del 1948, un terzo tra il ’48 e il ’54 e il restante 33% è nato
dopo il 1954.
8
L’anova between
L’anova between
Possiamo quindi costruire una nuova variabile “nasc_3f” che divide i soggetti in tre grandi
fasce di età e che assume:
Valore 1 se i soggetti sono nati prima del 1948,
Valore 2 se i soggetti sono nati dal 1948 al 1954
Valore 3 se i soggetti sono nati dopo il 1954.
Possiamo quindi eseguire il test dell’anova e confrontare le medie della variabile “pressione
massima” all’interno dei tre livelli di età che abbiamo creato.
9
L’anova between
L’anova between
H0: µ1= µ2= µ3
H1: esiste almeno una coppia di livelli in cui le medie della “pressione sanguigna” hanno una differenza
statisticamente significativa.
ANOVA
press ione mas s ima
Sum of
Squares
Between Groups 1703,670
Within Groups
19156,690
Total
20860,360
df
2
97
99
Il test risulta significativo (p-value<0,05).
Possiamo rifiutare l’ipotesi nulla e concludere
che la variabile età ha influenza sulla variablile
pressione sanguigna: in altri termini esiste una
coppia di livelli della V.I. per i quali le due medie
di gruppo hanno una differenza significativa.
Ma...
Con 3 livelli della V.I. esistono 3 coppie di
medie, qual è la coppia che rende significativo
l’anova? Ne esiste più di una? Andiamo a
scoprirlo...
Mean Square
851,835
197,492
F
4,313
Gradi di libertà
Sig.
,016
Varianza
within
Varianza
between
10
L’anova between
L’anova between
Per capire quale coppia di fasce di età ha reso significativo l’anova, occorre eseguire i test post hoc.
I test post hoc confrontano contemporaneamente le n*(n-1)/2 coppie di medie della V.D. (con n pari al
numero di livelli della V.I.). Ma...
Il confronto contemporaneo altera il livello di significatività dei test: il livello alfa (generalmente
pari a 0,05) viene “gonfiato” rendendo quindi più elevato il rischio di commettere l’errore di I tipo.
Occorre quindi mettere in atto strategie che permettano di controllare il valore di alfa: negli esempi
proposti verrà usata la correzione di Tukey.
I problemi che si incontrano confrontando contemporaneamente più di 2 medie, sono gli stessi problemi
che impediscono di usare il t-test quando la V.I. ha più di 2 livelli: anche in questo caso il livello alfa si
gonfierebbe e aumenterebbe dunque il rischio di commettere l’errore di I tipo.
11
L’anova between
L’anova between
Multiple Comparisons
Dependent Variable: pres sione mas sima
Tukey HSD
(I) nas c_3f
1,00
2,00
3,00
(J) nasc_3f
2,00
3,00
1,00
3,00
1,00
2,00
Mean
Difference
(I-J)
2,669
-7,433
-2,669
-10,102*
7,433
10,102*
Std. Error
3,317
3,586
3,317
3,500
3,586
3,500
Sig.
,701
,101
,701
,013
,101
,013
95% Confidence Interval
Lower Bound Upper Bound
-5,23
10,57
-15,97
1,10
-10,57
5,23
-18,43
-1,77
-1,10
15,97
1,77
18,43
*. The mean difference is significant at the .05 level.
Notiamo
che
la
media
2
risulta
significativamente diversa dalla media 3. Gli
scarti tra media 1 e media 2 e tra media 1 e 3 non
risultano invece significativi.
Dagli output possiamo notare che il test
anova è risultato significativo poiché
una coppia di medie presenta uno
scarto statisticamente significativo e
rende quindi falsa l’ipotesi nulla di
uguaglianza delle 3 medie.
12
L’anova between fattoriale
L’anova between
Oltre alle applicazioni fino ad ora affrontate, l’anova permette di rispondere a domande più
complesse: infatti è possibile inserire contemporaneamente più di un avariabile indipendente.
Ovvero...
È possibile eseguire l’anova su disegni fattoriali tramite i quali viene testata, oltre agli effetti
principali dei singoli fattori sulla variabile dipendente, anche l’interazione tra i fattori stessi.
Infatti se sulla variabile dipendente agiscono 2 fattori contemporaneamente è possibile che essi
interagiscano tra loro e che l’effetto di un fattore sulla variabile dipendente sia “modulato”
dall’altro fattore, ovvero è possibile che l’effetto del fattore 1 assuma valori differenti nei
diversi livelli del fattore 2.
Ipotizziamo di testare l’ipotesi che la pressione sanguigna sia influenzata contemporaneamente
dal sesso dei soggetti (livello1=femmina;livello2=maschio) e dall’essere fumatori o no dei
soggetti stessi.
Stiamo testando un anova between fattoriale 2X2.
13
L’anova between fattoriale
L’anova between
Per testare i modelli anova fattoriali, occorre scegliere il modello lineare generalizzato univariato; nei
fattori fissi, inseriamo il “genere” e la variabile “fuma”; inoltre l’analisi dei grafici risulta interessante e
utile alla comprensione: selezioniamo “plots” e inseriamo i due fattori per ottenere due diverse linee;
infine “aggiungiamo” il grafico desiderato.
14
L’anova between
L’anova between fattoriale
Tests of Between-Subjects Effects
Dependent Variable: pres sione mas sima
Effetti
principali
Interazione
Type III Sum
Source
of Squares
Corrected Model
10596,207 a
Intercept
1729967,459
genere
616,785
fuma
8907,754
genere * fuma
59,637
Error
9847,069
Total
1836589,000
Corrected Total
20443,276
df
3
1
1
1
1
94
98
97
Mean Square
F
3532,069
33,717
1729967,459 16514,249
616,785
5,888
8907,754
85,033
59,637
,569
104,756
Sig.
,000
,000
,017
,000
,452
a. R Squared = ,518 (Adjusted R Squared = ,503)
Testando un modello fattoriale con due variabili indipendenti verranno eseguiti 3 test f: un test
per l’effetto principale del fattore 1, un test per l’effetto principale del fattore 2 e un test
sull’interazione tra i due fattori.
Dall’analisi degli output, possiamo notare che gli effetti principali dei due fattori risultano
significativi (p-value<0,05): la media della pressione sanguigna dei maschi risulta statisticamente
diversa da quella delle femmine; similmente i non fumatori hanno una pressione media differente
dai fumatori.
Risulta interessante notare che l’interazione tra i fattori risulta non significativa: i due fattori
in modo indipendente hanno influenza sulla V.D., ma l’effetto di ogni fattore non varia nei
diversi livelli dell’altro fattore: il fattore “genere” influisce in ugual misura per i fumatori e per i
non fumatori; similmente è possibile concludere che il fattore “fuma” influisce sulla V.D. con la
15
stessa forza in modo indipendente dal genere dei soggetti.
L’anova between fattoriale
Estimated Marginal Means of pressione massima
genere del soggetto
150
maschio
femmina
Estimated Marginal Means
145
140
L’anova between
È possibile notare la mancanza di
interferenza tra i fattori anche
osservando il grafico che spss ha
prodotto: le linee sono quasi
parallele: infatti la riduzione di
pressione nei soggetti non
fumatori ha quasi la stessa entità
per i maschi e per le femmine.
Dicendo che le linee sono “quasi”
parallele,
considerando
che
l’interazione
non
risulta
significativa, affermiamo che il
“quasi” identifica una differenza
tanto piccola da non rendere
significativo
l’effetto
di
interazione.
135
130
125
120
fumatore
non fumatore
fuma
16
L’anova between fattoriale
Tests of Between-Subjects Effects
Dependent Variable: pres sione mas sima
Type III Sum
Source
of Squares
Corrected Model
3945,062a
Intercept
1777436,257
genere
1404,369
città
627,491
genere * città
1690,121
Error
16915,298
Total
1881902,000
Corrected Total
20860,360
df
7
1
1
3
3
92
100
99
Mean Square
563,580
1777436,257
1404,369
209,164
563,374
183,862
a. R Squared = ,189 (Adjusted R Squared = ,127)
F
3,065
9667,234
7,638
1,138
3,064
Sig.
,006
,000
,007
,338
,032
L’anova between
Analizziamo ora un modello
anova fattoriale che permetta di
capire se la pressione sanguigna
(V.D.) è influenzata dal genere dei
soggetti
(fattore
1)
e
contemporaneamente
dalla
residenza
in
diverse
città
lombarde (Bergamo, Milano,
Cremona e Varese) (fattore 2).
Dall’analisi degli output, notiamo che il fattore genere risulta significativo (p-value<0,05); il
fattore “città” risulta invece non significativo (p-value>0,05): possiamo quindi concludere che la
pressione sanguigna dei soggetti non è influenzata in modo significativo dai differenti stili di vita
delle 4 città lombarde.. Contemporaneamente la pressione dei soggetti maschi risulta
statisticamente diversa da quella dei soggetti femmine.
Ma...
Notiamo che l’interazione tra i due fattori risulta significativa (p-value<0,05): possiamo quindi
concludere che il fattore “genere” influenza la pressione sanguigna in modo differente nelle 4
città.
Esaminiamo il grafico...
17
L’anova between fattoriale
L’anova between
Estimated Marginal Means of pressione massima
città di provenienza
bergamo
cremona
145
varese
Estimated Marginal Means
milano
140
135
Le quattro rette non risultano
parallele: la riduzione media della
pressione sanguigna delle femmine
rispetto ai maschi non è omogenea
nelle 4 città lombarde considerate. In
particolare a Milano si può notare
che le femmine hanno in media una
pressione maggiore dei soggetti
maschi.
130
maschio
femmina
genere del soggetto
18
Scarica

Lucidi 3 - e