L’analisi della varianza
Introduzione e concetti generali
Giovanni Battista Flebus AA 2013-14
L’analisi della varianza (ANOVA, ANalysi Of VAriance) è
una tecnica statistica che permette di valutare se le
medie di due o più gruppi sono uguali fra loro.
La variabile Dipendente è misurata su una scala a intervalli
e ha una distribuzione normale
La variabile indipendente (classificazione in più gruppi) è
una misurazione a livello di scala nominale
La classificazione è fatta in modo indipendente
L’analisi della varianza
• Si basa su due principi:
• (1) si può stimare la varianza della popolazione
in due modi diversi, che tengano conto della
suddivisione in gruppi
• (2) Si possono confrontare due varianze e
verificare se sono estratte dalla stessa
popolazione
Le ipotesi di ricerca
• Le due ipotesi di ricerca sono le seguenti
• H0 : le medie dei k gruppi sono uguali
• H1 : almeno una delle medie dei k gruppi è
diversa dalle altre
Ulteriori esplorazioni
• Se il test statistico permette di concludere che
c’è almeno un gruppo diverso dagli altri, si
possono applicare altre tecniche per individuare i
gruppi diversi
Esempio preliminare
• In un campione di studenti, si rileva il senso di
benessere (un test, scala a intervalli) per vedere se le
bocciature a scuola hanno influenza su tale tratto.
• Il benessere si rileva con un test (BeSco, Test di
Benessere Scolastico)
• Le bocciature a scuola (nessuna, una o due), anche se
sono una scala a rapporti, sono considerate qui come
una classificazione e quindi come scala nominale.
• La frequenza dei tre gruppi è la seguente
Ecco i dati del campione
Boccia ture
Validi
0
1
2
Totale
Frequenza
87
51
19
157
Percentuale
55,4
32,5
12,1
100,0
Percentuale
valida
55,4
32,5
12,1
100,0
Percentuale
cumulata
55,4
87,9
100,0
Il punteggio di benessere
nei tre gruppi pare
diverso.
Ma le differenze sono
attribuibili alla variabilità
stocastica o sono
veramente consistenti?
• Ma queste differenze sono reali o non sono piuttosto
dovuti a fluttuazioni casuali?
• Ricorriamo al grafico con basette
Esaminiano il grafico a basette
Ci sono sovrapposizioni di
intervalli di fiducia per le
medie.
Nemmeno il grafico a
basette ci permette di
trarre una conclusione
sicura
Esaminiamo i risultati dell’ANOVA
ANOVA univariata
benessere
Fra gruppi
Entro gruppi
Totale
Somma
dei
quadrati
6,767
149,111
155,878
Questa tabella è prodotta
dall’applicazione
dell’ANOVA ai dati, che ci
permette di passare alla
conclusione…
df
2
154
156
Media dei
quadrati
3,384
,968
F
3,495
Sig.
,033
La significatività ci dice che
le tre medie non possono
essere considerate uguali
Principio dell’ANOVA
• Si può stimare la varianza della popolazione in
due modi diversi e confrontare le due stime
• Primo metodo: calcolare la varianza delle k
medie come se fossero k osservazioni
• Secondo metodo: calcolare la varianza media,
usando tutte le osservazioni, eliminando però da
ciascuna osservazione l’influenza del proprio
gruppo.
g2
g1
g3
Media dei
singoli
gruppi
Media totale
Singole
osservazioni, in
ciascun gruppo
Distanza del
punto dalla media
del gruppo
Punto zero per
gruppo 2 (Media
del gruppo )
g3
Media del
gruppo 2
g2
Media
totale
g1
Media del
gruppo 2
Piccolo esempio numerico
• Un ricercatore pensa che il tempo passato a muoversi
in città sia di detrimento per il rendimento accademico
degli studenti universitari. Ha osservato il numero di
esami di 12 studenti, suddivisi in tre gruppi secondo
l’uso di trasporto per andare in facoltà:
• A) prendono i mezzi
• B) Hanno un loro mezzo (moto – auto)
• C) vivono in zona e quindi vanno a piedi
studente
s1
s2
s3
s4
media
s5
s6
s7
s8
gruppo
Mezzi pubblici
Mezzi pubblici
Mezzi pubblici
Mezzi pubblici
Mezzi propri
Mezzi propri
Mezzi propri
Mezzi propri
Media
s9
s10
s11
s12
media
Media totale
Residenti
Residenti
Residenti
Residenti
N_esami
2
4
4
6
4
4
5
7
8
6
5
7
8
8
7
5,7
Le medie e varianze dei tre
gruppi
Report
num_esami
gruppo
1 mezzi pubblici
2 auto
3 residenti
Totale
Media
4,00
6,00
7,00
5,67
N
4
4
4
12
Varianza
2,667
3,333
2,000
3,879
Consideriamo gli elementi utili
1 Le medie
dei gruppi
Report
num_esami
gruppo
1 mezzi pubblici
2 auto
3 residenti
Totale
3 La media
totale
Media
4,00
6,00
7,00
5,67
N
4
4
4
12
2 Le
varianze dei
gruppi
Varianza
2,667
3,333
2,000
3,879
Calcoliamo la varianza fra i gruppi
1 Le medie
dei gruppi
Report
num_esami
gruppo
1 mezzi pubblici
2 auto
3 residenti
Totale
2 La numerosità dei
gruppi è 3
Media
4,00
6,00
7,00
5,67
3 La media
totale
N
4
4
4
12
Varianza
2,667
3,333
2,000
3,879
Calcoliamo la varianza delle medie dei gruppi
(varianza fra i k gruppi (Xi-M)2/(n-1)
Report
num_esami
gruppo
1 mezzi pubblici
2 auto
3 residenti
Totale
Media
4,00
6,00
7,00
5,67
N
Varianza fra i gruppi =
[(4-5,67)2+(6-5,67)2+(7-5,67)2 ] / 2 =
(2,7889+0,1089+1,7689)/2= 2,3335
4
4
4
12
Varianza
2,667
3,333
2,000
3,879
Varianza della popolazione o varianza della
distribuzione campionaria delle medie?
La varianza delle k medie (s2) è però la
varianza della distribuzione campionaria
delle medie: s2 /n
A noi serve la varianza della popolazione: s2
Perciò dobbiamo moltiplicare il valore per n
(numerosità nei gruppi):
Calcoliamo la varianza della
popolazione con la stima della
varianza fra i gruppi
Report
num_esami
gruppo
1 mezzi pubblici
2 auto
3 residenti
Totale
Media
4,00
6,00
7,00
5,67
2
2
N
4
4
4
12
2
Varianza
2,667
3,333
2,000
3,879
Varianza fra i gruppi= [(4-5,67) +(6-5,67) +(7-5,67) ] / 2 =
(2,7889+0,1089+1,7689)/2= 2,3335 =Varianza delle distribuzione campionaria delle
medie (s2/n)
Varianza della popolazione = n S2 2,3335 x 4 = 9,3334
Calcoliamo la varianza della
popolazione con la stima della
varianza dentro i gruppi
Report
num_esami
gruppo
1 mezzi pubblici
2 auto
3 residenti
Totale
Media
4,00
6,00
7,00
5,67
Calcoliamo la media delle varianze nei
gruppi: 2,667+3,333+2,000=8,00
Media della varianza nei gruppi 8,00/3=
2,667
N
4
4
4
12
Varianza
2,667
3,333
2,000
3,879
I gradi di libertà
• I gradi di libertà sono dati da
• (1) Numero di gruppi -1 per la varianza fra i
gruppi
• (2) Numero di osservazioni meno i gruppi, per
la varianza nei gruppi.
• Nel nostro caso, 3-1= 2 gl per la varianza fra i
gruppi
• 12-3 = 9 gl per la varianza nei gruppi
Otteniamo il valore di F
• Il rapporto fra le due stime della varianza della
popolazione (una nei gruppi e l’altra fra i gruppi)
ha una distribuzione descritta dalla variabile
casuale F di Fisher Snedecor con gl1 e gl2 gradi
di libertà.
Nel nostro caso otteniamo
F= 9,334/ 2,666 = 3,500 con 2 e 9 gradi di
libertà.
Grafico di F con 2 e 9 g.l.
Funzione di Densità di Probabilità
y=F(x;2;9)
Questo grafico è disponibile grazie al
computer, nel passato si usavano le tavole
per valori singoli di n1 e n2 e per valori
selezionati di p (0,10; 0,05; 0,01 ecc.)
1,0
0,8
0,6
0,4
0,2
0,0
0
1
2
3
4
5
Le tavole di F
ci dicono che
il valore 3,500
ricade al di
sotto della
zona critica e
perciò
accettiamo
l’ipotesi nulla
di uguaglianza
delle medie
dei tre gruppi
Grafico di F con 2 e 9 g.l.
Funzione di Densità di Probabilità
y=F(x;2;9)
1,0
Valore teorico che
separa le aree fra 0,95 e
0,05
Area di
accettazione di
H0= 0,925,
0,8
F=4,256
0,6
Area di
rifiuto di
H0= 0,0,5,
maggiore
di 0,075
F=3,50
0,4
0,2
0,0
0
1
2
3
4
5
Per il calcolo con spss
Le due varianze sono però calcolate in modo diverso
da quello che è stato presentato: si parte dalla somma
dei quadrati (distanza dell’osservazione dalla media)
(devianza in italiano, Sum of squares in inglese) dentro
e fra i gruppi, divisi per i rispettivi gradi di libertà.
Il rapporto F è sempre stampato usando la devianza
nei e fra i gruppi. La loro somma è uguale alla devianza
totale
Passiamo a SPSS
• Selezioniamo il menu Analizza->Confronta Medie->
ANOVA univariata. Compare questo finestra.
Inseriamo la variabile Gruppo come fattore, e il numero
di esami come variabile dipendente
Output di SPSS per l’ANOVA
Significatività di F
ANOVA univariata
Guardiamo
solo una parte
della tabella
num_esami
Fra gruppi
Entro gruppi
Totale
Somma dei
quadrati
18,667
24,000
42,667
df
2
9
11
Media dei
quadrati
9,333
2,667
F
3,500
Sig.
,075
Valore F calcolato
Gradi di liberta FRA e
DENTRO i gruppi, quelli totali
Le due varianze calcolate nei
due modi diversi
Il metodo di calcolo seguito è
diverso
• Le due varianze appena confrontate sono di
solito concepite come un rapporto di scarti
quadrati, divisi per i rispettivi gradi di libertà, per
produrre delle stime delle varianze
• Per rendere questo metodo di calcolo utilizzabile
con gruppi di diversa numerosità, si procede
ricordando il concetto di devianza totale,
suddivisa in devianza fra i gruppi e devianza nei
gruppi
Scomposizione della variabilità
totale
La variabilità totale è descritta da SQT, ovvero Devianza
totale:
SQT    yij  y 
p
ni
i 1 j 1
2
Scomposizione della variabilità totale
La variabilità fra i gruppi è descritta con la formula
seguente
Devianza fra i gruppi:
k
SQF   ni  yi  y 
i 1
2
Scomposizione della variabilità totale
La variabilità nei (o dentro i) gruppi è descritta dalla SSE
detta anche variabilità dell’errore:
Devianza dentro i gruppi:
SQE    yij  yi 
k
ni
i 1 j 1
2
Rappresentazione grafica
della devianza
Dalle devianze alle due varianze
• Le due varianze (dentro e fra i gruppi) sono
quindi calcolate come rapporti fra due somme
di quadrati, divise dai rispettivi gradi di libertà.
Test F per ANOVA
I risultati del test F per la ANOVA sono generalmente presentati
in una tabella come questa:
Fonti di
Variabilità
Devianze
g.l.
Varianze
F
Fra i gruppi
Entro i
gruppi
SS(A)
k-1
MS(A)
MS(A)/ MS(E)
Totale
SSTOT
SS(E)
nt-k
nt-1
MS(E)
MSTOT
Output di SPSS per l’ANOVA
Significatività di F
ANOVA univariata
Guardiamo
solo una parte
della tabella
num_esami
Fra gruppi
Entro gruppi
Totale
Somma dei
quadrati
18,667
24,000
42,667
df
2
9
11
Media dei
quadrati
9,333
2,667
F
3,500
Sig.
,075
Valore F calcolato
Gradi di liberta FRA e
DENTRO i gruppi, quelli totali
Le due varianze calcolate nei
due modi diversi
Output di SPSS per l’ANOVA
Significatività di F
ANOVA univariata
Guardiamo
solo una parte
della tabella
num_esami
Fra gruppi
Entro gruppi
Totale
Somma dei
quadrati
18,667
24,000
42,667
df
2
9
11
Media dei
quadrati
9,333
2,667
F
3,500
Sig.
,075
Valore F calcolato
Gradi di liberta FRA e
DENTRO i gruppi, quelli totali
Le due varianze calcolate nei
due modi diversi
Nel grafico seguente, per ogni n
osservazione, sono riportati solo
gli scarti dalle medie: dalla media
generale, dalla media del gruppo
e scarto del gruppo dalla media
generale.
Rappresentazione grafice di
punteggi, scarti dalla media
e devianza
9
punteggio
medie gruppo
media totale
8
7
6
5
4
3
2
1
0
1
2
3
4
5
6
7
8
9
10
11
12
Rappresentazione degli scarti
dalle medie
3
Grafico degli scarti da tre medie
2
1
0
A
A
A
A
B
-1
-2
scarto dalla media
-3
scarto dal gruppo
scarto gruppo dal totale
-4
B
B
B
C
C
C
C
3
Grafico degli scarti da tre medie
2
1
0
A
A
A
A
B
B
B
B
C
C
C
-1
-2
scarto dalla media
-3
scarto dal gruppo
scarto gruppo dal totale
-4
Ingrandiamo il
grafico
C
3
2
2
1,33
1
1
0,33
0
0
s2
s3
0,33
0,33
0,33
0
s1
s4
s5
-0,67
-1
-1
-2
-1,67 -1,67 -1,67 -1,67 -1,67
-2
-1,67 -1,67
-2
scarto dalla media totale
-3
scarto dal gruppo
-4
s6
-3,67
scarto gruppo dal totale
s7
3
2
2
scarto dalla media totale
scarto dal gruppo
scarto gruppo dal totale
1,33
1
1
0,33
0
s1
0
0
s2
s3
0,33
s4
s5
-1,67
-2
-3
-4
s6
0,33
s7
-0,67
-1
-1
-2
0,33
-3,67
-1,67 -1,67
-1,67 -1,67
-1,67
-1,67
-2
Per ogni osservazione, lo scarto dalla media totale è
uguale alla somma degli altri due
- 3,67 = (- 2) + (-1,67)
La devianza
Si usa il termine devianza per indicare
la somma dei quadrati delle
distanze dalla media.
In inglese Sum of Squares
• La varianza stimata della popolazione si ottiene
dividendo la devianza per il numero dei gradi di libertà
– Si usano i termini inglesi within (W) per indicare la devianza
nei gruppi e between (B) per indicare la devianza fra i gruppi
•
•
•
•
Esaminiamo il primo studente, che ha un
Numero di esami pari a 2
La media del suo gruppo è 4
La media dell’intero campione è pari a 5,67
5,67
6
5
4
Per l’osservazione 1, la
distanza del primo
soggetto dalla media
totale è pari a -3,67, il
suo quadrato
contribuisce alla
devianza totale
4,00
3
2,00
2
1
0
punteggio
medie gruppo
media totale
6
5
La prima osservazione è pari a 2, dista 2 dalla media
del suo gruppo;
il quadrato della distanza contribuisce al calcolo
della devianza nei gruppi
5,67
4,00
4
3
2,00
2
1
0
punteggio
medie gruppo
media totale
6 Per la medesima osservazione 1, la
5,67
distanza della media del gruppo
dalla media globale è 1,67; il suo
quadrato contribuisce alla devianza
5
fra i gruppi
4,00
4
3
2,00
2
1
0
punteggio
medie gruppo
media totale
• Usando gli scarti dalla media, rappresentiamo i
due quadrati per il primo caso (osservazione)
che ha un punteggio di 2. La media del suo
gruppo è 4 e quella del campione intero è pari a
5,67
3
2
2
scarto dalla media totale
scarto dal gruppo
scarto gruppo dal totale
1,33
1
1
0,33
0
s1
0
0
s2
s3
0,33
s4
s5
-1,67
-2
-3
-4
s6
-0,67
-1
-1
-2
0,33
-3,67
-1,67 -1,67
-1,67 -1,67
-1,67
-1,67
-2
0,33
s7
3
2
2
scarto dalla media totale
scarto dal gruppo
scarto gruppo dal totale
1,33
1
1
0,33
0
s1
0
0
s2
s3
0,33
s4
s5
-1,67
-2
-3
-4
s6
-0,67
-1
-1
-2
0,33
-3,67
-1,67 -1,67
-1,67 -1,67
-1,67
-1,67
-2
•All’interno di ciascun gruppo, i
quadrati ocra sono tutti uguali
(devianza fra i gruppi). Perché?
0,33
s7
Dati sul foglio excel
N_esa medie media scarto dalla
mi
gruppo totale media totale
stud gruppo
A
2
4
5,6667
s1
-3,666667
A
4
4
5,6667
s2
-1,666667
A
4
4 Devianza
5,6667
s3
-1,666667
A
6
4
5,6667
s4
0,333333
totale.
per i
B
4
6 Serve
5,6667
s5
-1,666667
controlli
B
5
6
5,6667
s6
-0,666667
B
7
6
5,6667
s7
1,333333
B
8
6
5,6667
s8
2,333333
C
5
7
5,6667
s9
-0,666667
C
7
7
5,6667
s10
1,333333
C
8
7
5,6667
s11
2,333333
C
8
7
5,6667
s12
2,333333
somma
0
gradi di liberta
68
68
68
quadrato
13,444447
2,7777789
2,7777789
0,1111109
2,7777789
0,4444449
1,7777769
5,4444429
0,4444449
1,7777769
5,4444429
5,4444429
0,00 42,66667
11
nei gruppi
scarto
N
medie media dal
stud gruppo esami gruppo totale gruppo
A
2
4
5,67
s1
-2
A
4
4
5,67
s2
0
A
4
4
5,67
s3
0
A
6
4
5,67
s4
2
B
4
6
5,67
s5
-2
B
5
6
5,67
s6
-1
B
7
6
5,67
s7
1
B
8
6
5,67
s8
2
C
5
7
5,67
s9
-2
C
7
7
5,67
s10
0
C
8
7
5,67
s11
1
C
8
7
5,67
s12
1
somma
0
gradi di liberta
varianza
68
68
68
Devianza
nei gruppi
0
fra i gruppi
scarto
gruppo
dal
quadr totale
Quadr
4
-1,6667 2,78
0
-1,6667 2,78
0
-1,6667 2,78
4
-1,6667 2,78
4
0,33333 0,11
1
0,33333 0,11
1
0,33333 0,11
4
0,33333 0,11
4
1,33333 1,78
0
1,33333 1,78
1
1,33333 1,78
1
1,33333 1,78
24
0,00 18,67
9
2,67
2,00
9,33
Valore F
3,5
Devianza
fra i
gruppi
I gradi di libertà
Ad ognuna delle devianze sono associati i gradi di libertà:
• la devianza totale ha n − 1 gradi di libertà
• la devianza tra gruppi ha k − 1 gradi di libertà
• la devianza entro i gruppi ha n - p gradi di libertà
Dividendo ciascuna devianza per i rispettivi gradi di libertà si
ottengono le media dei quadrati, cioè le VARIANZE:
SQF
var fra 
p 1
Varianza tra i gruppi
SQE
var err 
nt  p
Varianza entro i gruppi
Il rapporto F
• La statistica F è quindi
un rapporto fra due
varianze, calcolate
dividendo la devianza fra
i gruppi per la devianza
nei gruppi, ognuno divisa
per i rispettivi gradi di
libertà
SQfra /( k  1)
SQdentro (n  k )
Output completo di SPSS
ANOV A univariata
num_esami
Somma
dei
quadrati
Fra gruppi
18,667
Entro gruppi 24,000
Totale
42,667
df
2
9
11
Media dei
quadrati
9,333
2,667
F
3,500
Sig.
,075
nei gruppi
scarto
N
medie media dal
stud gruppo esami gruppo totale gruppo
A
2
4
5,67
s1
-2
A
4
4
5,67
s2
0
A
4
4
5,67
s3
0
A
6
4
5,67
s4
2
B
4
6
5,67
s5
-2
B
5
6
5,67
s6
-1
B
7
6
5,67
s7
1
B
8
6
5,67
s8
2
C
5
7
5,67
s9
-2
C
7
7
5,67
s10
0
C
8
7
5,67
s11
1
C
8
7
5,67
s12
1
somma
0
gradi di liberta
varianza
68
68
68
0
fra i gruppi
scarto
gruppo
dal
quadr totale
Quadr
4
-1,6667 2,78
0
-1,6667 2,78
0
-1,6667 2,78
4
-1,6667 2,78
4
0,33333 0,11
1
0,33333 0,11
1
0,33333 0,11
4
0,33333 0,11
4
1,33333 1,78
0
1,33333 1,78
1
1,33333 1,78
1
1,33333 1,78
24
0,00 18,67
9
2,67
2,00
9,33
Valore F
3,5
nei gruppi
scarto
dal
gruppo
quadr
-2
0
0
2
-2
-1
1
2
-2
0
1
1
4
0
0
4
4
1
1
4
4
0
1
1
0
24
fra i gruppi
scarto
gruppo
dal
Quadr
totale
Output completo di SPSS
stud gruppo
A
s1
A
s2
A
s3
A
s4
B
s5
B
s6
B
s7
B
s8
C
s9
C
s10
C
s11
C
s12
N
esami
2
4
4
6
4
5
7
8
5
7
8
8
somma
0
gradi di liberta
varianza
medie media
gruppo totale
4
5,67
4
5,67
4
5,67
4
5,67
6
5,67
6
5,67
6
5,67
6
5,67
7
5,67
7
5,67
7
5,67
7
5,67
68
68
68
ANOV A univariata
-1,6667
-1,6667
-1,6667
-1,6667
0,33333
0,33333
0,33333
0,33333
1,33333
1,33333
1,33333
1,33333
0,00
9
2,67
2,78
2,78
2,78
2,78
0,11
0,11
0,11
0,11
1,78
1,78
1,78
1,78
18,67
2,00
9,33
Valore F
3,5
num_esami
Somma
dei
quadrati
Fra gruppi
18,667
Entro gruppi 24,000
Totale
42,667
df
2
9
11
Media dei
quadrati
9,333
2,667
F
3,500
Sig.
,075
nei gruppi
stud gruppo
A
s1
A
s2
A
s3
A
s4
B
s5
B
s6
B
s7
B
s8
C
s9
C
s10
C
s11
C
s12
N
esami
2
4
4
6
4
5
7
8
5
7
8
8
somma
0
gradi di liberta
varianza
medie media
gruppo totale
4
5,67
4
5,67
4
5,67
4
5,67
6
5,67
6
5,67
6
5,67
6
5,67
7
5,67
7
5,67
7
5,67
7
5,67
68
68
68
scarto
dal
gruppo
quadr
-2
0
0
2
-2
-1
1
2
-2
0
1
1
4
0
0
4
4
1
1
4
4
0
1
1
0
24
ANOV A univariata
fra i gruppi
scarto
gruppo
dal
Quadr
totale
-1,6667
2,78
-1,6667
2,78
-1,6667
2,78
-1,6667
2,78
0,33333
0,11
0,33333
0,11
0,33333
0,11
0,33333
0,11
1,33333
1,78
1,33333
1,78
1,33333
1,78
1,33333
1,78
0,00
9
2,67
18,67
2,00
9,33
Valore F
3,5
num_esami
Somma
dei
quadrati
Fra gruppi
18,667
Entro gruppi 24,000
Totale
42,667
df
2
9
11
Media dei
quadrati
9,333
2,667
F
3,500
Sig.
,075
Concludendo…
• Se le k medie sono simili, la variabilità fra i k gruppi è bassa, la
varianza della popolazione è stimata in modo corretto, (tenuto
conto della variabilità stocastica), il rapporto F è vicino all’unità e
si conclude con l’accettazione di H0.
• Se c’è molta variabilità fra i k gruppi, la variabilità fra i gruppi è
elevata, la varianza della popolazione è sovrastimata, il rapporto
F è molto più grande dell’unità, il test statistico di F dà valori di
probabilità molto bassi
• Se la probabilità di ottenere il valore F calcolato è molto bassa, si
conclude con il rifiuto dell’ipotesi di nullità di differenze, per
accettare l’ipotesi alternativa: almeno un gruppo proviene da una
popolazione diversa, ossia con medie diverse
ANOVA per due gruppi?
• Il test dell’ANOVA dà gli stessi risultati della t di
Student: infatti il rapporto F è il quadrato della t.
Confronti post-hoc
• Sono confronti che si fanno a posteriori, se l’Anova è significativa e se ci
sono più di 2 gruppi in una variabile indipendente
• La logica è quella di tenere sotto controllo i problemi di significatività legati ai
confronti multipli.
• Vi sono diverse procedure di confronti
• alcuni presumono che le varianze siano uguali: LSD (Least Significant
Difference), Bonferroni,Sidak, Scheffé, SNK (Student-Neumann-Kouls),
Tukey HSD (Honestly Significant Difference), Duncan, Hochberg, Gabriel,
Waller-Duncan, Dunnett
• altre no: Tamhane, Dunnett, Games-Howell, C di Dunnett
• In Spss, premete il bottone Post Hoc... e selezionate tutti i test che volete
• gli output sono di due tipi: confronti multipli completi oppure gruppi
omogenei
Esempio con dati reali
• Differenze di vocabolario nei quattro gruppi di
studenti di terza media
De scri ttivi
g4 vocabolario
13
14
15
16
Totale
N
21
515
87
12
635
Media
18,90
18,47
15,37
17,17
18,03
Deviazione
std.
5,638
5,163
4,273
4,407
5,157
Errore std.
1,230
,227
,458
1,272
,205
Intervallo di
confidenza 95% per
la media
Limite
Limite
inferiore superiore
16,34
21,47
18,02
18,91
14,46
16,28
14,37
19,97
17,63
18,43
Minimo
8
4
8
12
4
Massimo
28
35
28
28
35
Il test F è significativo
ANOVA univariata
g4 vocabolario
Fra gruppi
Entro gruppi
Totale
Somma
dei
quadrati
740,378
16119,9
16860,3
df
3
631
634
Media dei
quadrati
246,793
25,547
F
9,660
Sig.
,000
Si conclude che…
Almeno un gruppo ha la media diversa dagli altri.
In altre parole, il gruppo con la media più alta è
statistica mente diverso dal gruppo con la media
più bassa.
Un grafico è sempre utile…
E degli altri gruppi, che si può
dire?
Come si differenziano fra di loro? Esiste un solo
gruppo diverso dagli altri? Esistono più gruppi
diversi dagli altri? Si possono individuare i
gruppi simili e quelli diversi?
Differenze a priori e a posteriori
Si può dare risposta a questi interrogativi con i
post hoc (termine latino per indicare che si
cercano differenze fra i gruppi a posteriori, ossia
dopo che si è stabilità la differenza statistica fra i
gruppi.
I confronti pianificati invece si cercano a priori,
perché la teoria prevede già una differenza nei
gruppi
Test post hoc (LSD)
Confronti mul tipli
Variabile dipendente: g4 vocabolario
Differenza
fra medie
(I) età (J) età
(I-J)
Errore std.
LSD 13
14
,437
1,125
15
3,537*
1,229
16
1,738
1,829
14
13
-,437
1,125
15
3,100*
,586
16
1,301
1,476
15
13
-3,537*
1,229
14
-3,100*
,586
16
-1,799
1,556
16
13
-1,738
1,829
14
-1,301
1,476
15
1,799
1,556
*. La differenza media è significativa al livello .05
Sig.
,698
,004
,342
,698
,000
,378
,004
,000
,248
,342
,378
,248
Intervallo di
confidenza 95%
Limite
Limite
inferiore superiore
-1,77
2,65
1,12
5,95
-1,85
5,33
-2,65
1,77
1,95
4,25
-1,60
4,20
-5,95
-1,12
-4,25
-1,95
-4,86
1,26
-5,33
1,85
-4,20
1,60
-1,26
4,86
Test dei sottoinsieme omogenei
(SNK)
g4 vocabolario
Student-Newmana,b
Keuls
età
15
16
14
13
Sig.
N
87
12
515
21
Sottoinsieme per
alfa = .05
1
2
15,37
17,17
17,17
18,47
18,47
18,90
,059
,407
Sono visualizzate le medie per i gruppi di sottoins iemi omogenei.
a. Utilizza dimensione campionaria media armonica =
27,703.
b. Le dimensioni dei gruppi non sono uguali. Verrà
utilizzata la media armonica delle dimensioni dei
gruppi. Non vengono garantiti i livelli di errore Tipo I.
Dati sul test di vocabolario, per
scuole
De scri ttivi
g4 vocabolario
1 CFP
2 IPSIA
3 ipscom
4 ITC
5 ITI
6 Classico
7 Scientifico
8 Magistrali
Totale
N
128
105
62
120
72
31
80
37
635
Media
13,80
16,42
16,76
19,08
20,35
24,42
22,16
17,22
18,03
Devia
std
3
4
3
4
3
4
4
4
5
Le differenze di vocabolario in studenti che
andranno in scuole diverse non ci sorprende
ANOVA univariata
g4 vocabolario
Fra gruppi
Entro gruppi
Totale
Somma
dei
quadrati
5842,46
11017,8
16860,3
df
7
627
634
Media dei
quadrati
834,637
17,572
F
47,497
Sig.
,000
Il test post hoc sui gruppo omogenei dà
risultati molto ben interpretabili
g4 vocabolario
Student-Newmana,b
Keuls
scuola
1 CFP
2 IPSIA
3 ipscom
8 Magistrali
4 ITC
5 ITI
7 Scientifico
6 Classico
Sig.
N
128
105
62
37
120
72
80
31
1
13,80
Sottoinsieme per alfa = .05
2
3
4
5
16,42
16,76
17,22
19,08
20,35
22,16
1,000
,536
,092
1,000
Sono visualizzate le medie per i gruppi di s ottoinsiemi omogenei.
a. Utilizza dimensione campionaria media armonica = 62,759.
b. Le dimensioni dei gruppi non sono uguali. Verrà utilizzata la media armonica delle
dimensioni dei gruppi. Non vengono garantiti i livelli di errore Tipo I.
24,42
1,000
Le differenze di vocabolario in studenti che
andranno in scuole diverse non ci sorprende
ANOVA univariata
g4 vocabolario
Fra gruppi
Entro gruppi
Totale
Somma
dei
quadrati
5842,46
11017,8
16860,3
df
7
627
634
Media dei
quadrati
834,637
17,572
F
47,497
De scri ttivi
g4 vocabolario
1 CFP
2 IPSIA
3 ipscom
4 ITC
5 ITI
6 Classico
7 Scientifico
8 Magistrali
Totale
N
128
105
62
120
72
31
80
37
635
Media
13,80
16,42
16,76
19,08
20,35
24,42
22,16
17,22
18,03
Deviazione
std.
3,528
4,258
3,570
4,572
3,958
4,911
4,811
4,158
5,157
Sig.
,000
Confronti a priori
• Oltre ai post hoc si possono effettuare dei confronti a priori ovvero decisi
prima ancora di effettuare l’anova, sulla base di una teoria
• Questi confronti si chiamano anche contrasti perché contrastano la media di
uno o più gruppi con quella di altri
Anche in questo caso ci sono due possibilità:
• contrasti predefiniti: lineare, quadratico, Helmert...contrasti decisi da noi
In Spss, premete il bottone Contrasti...
• se selezionare Polinomiale, poi potete scegliere fra Lineare,
• Quadratico, Cubico... (ipotizzo che le medie aumentano o
• diminuiscono nella varie categorie in modo lineare, quadratico...)
• altrimenti dovrete inserire dei coefficienti (uno alla volta e poi premere
Aggiungi).
• dopo aver inserito un contrasto è possibile inserirne un secondo
• tramite il pulsante Successivo
Scarica

Lez 2013 20 A Anova 2014