L’analisi della varianza Introduzione e concetti generali Giovanni Battista Flebus AA 2013-14 L’analisi della varianza (ANOVA, ANalysi Of VAriance) è una tecnica statistica che permette di valutare se le medie di due o più gruppi sono uguali fra loro. La variabile Dipendente è misurata su una scala a intervalli e ha una distribuzione normale La variabile indipendente (classificazione in più gruppi) è una misurazione a livello di scala nominale La classificazione è fatta in modo indipendente L’analisi della varianza • Si basa su due principi: • (1) si può stimare la varianza della popolazione in due modi diversi, che tengano conto della suddivisione in gruppi • (2) Si possono confrontare due varianze e verificare se sono estratte dalla stessa popolazione Le ipotesi di ricerca • Le due ipotesi di ricerca sono le seguenti • H0 : le medie dei k gruppi sono uguali • H1 : almeno una delle medie dei k gruppi è diversa dalle altre Ulteriori esplorazioni • Se il test statistico permette di concludere che c’è almeno un gruppo diverso dagli altri, si possono applicare altre tecniche per individuare i gruppi diversi Esempio preliminare • In un campione di studenti, si rileva il senso di benessere (un test, scala a intervalli) per vedere se le bocciature a scuola hanno influenza su tale tratto. • Il benessere si rileva con un test (BeSco, Test di Benessere Scolastico) • Le bocciature a scuola (nessuna, una o due), anche se sono una scala a rapporti, sono considerate qui come una classificazione e quindi come scala nominale. • La frequenza dei tre gruppi è la seguente Ecco i dati del campione Boccia ture Validi 0 1 2 Totale Frequenza 87 51 19 157 Percentuale 55,4 32,5 12,1 100,0 Percentuale valida 55,4 32,5 12,1 100,0 Percentuale cumulata 55,4 87,9 100,0 Il punteggio di benessere nei tre gruppi pare diverso. Ma le differenze sono attribuibili alla variabilità stocastica o sono veramente consistenti? • Ma queste differenze sono reali o non sono piuttosto dovuti a fluttuazioni casuali? • Ricorriamo al grafico con basette Esaminiano il grafico a basette Ci sono sovrapposizioni di intervalli di fiducia per le medie. Nemmeno il grafico a basette ci permette di trarre una conclusione sicura Esaminiamo i risultati dell’ANOVA ANOVA univariata benessere Fra gruppi Entro gruppi Totale Somma dei quadrati 6,767 149,111 155,878 Questa tabella è prodotta dall’applicazione dell’ANOVA ai dati, che ci permette di passare alla conclusione… df 2 154 156 Media dei quadrati 3,384 ,968 F 3,495 Sig. ,033 La significatività ci dice che le tre medie non possono essere considerate uguali Principio dell’ANOVA • Si può stimare la varianza della popolazione in due modi diversi e confrontare le due stime • Primo metodo: calcolare la varianza delle k medie come se fossero k osservazioni • Secondo metodo: calcolare la varianza media, usando tutte le osservazioni, eliminando però da ciascuna osservazione l’influenza del proprio gruppo. g2 g1 g3 Media dei singoli gruppi Media totale Singole osservazioni, in ciascun gruppo Distanza del punto dalla media del gruppo Punto zero per gruppo 2 (Media del gruppo ) g3 Media del gruppo 2 g2 Media totale g1 Media del gruppo 2 Piccolo esempio numerico • Un ricercatore pensa che il tempo passato a muoversi in città sia di detrimento per il rendimento accademico degli studenti universitari. Ha osservato il numero di esami di 12 studenti, suddivisi in tre gruppi secondo l’uso di trasporto per andare in facoltà: • A) prendono i mezzi • B) Hanno un loro mezzo (moto – auto) • C) vivono in zona e quindi vanno a piedi studente s1 s2 s3 s4 media s5 s6 s7 s8 gruppo Mezzi pubblici Mezzi pubblici Mezzi pubblici Mezzi pubblici Mezzi propri Mezzi propri Mezzi propri Mezzi propri Media s9 s10 s11 s12 media Media totale Residenti Residenti Residenti Residenti N_esami 2 4 4 6 4 4 5 7 8 6 5 7 8 8 7 5,7 Le medie e varianze dei tre gruppi Report num_esami gruppo 1 mezzi pubblici 2 auto 3 residenti Totale Media 4,00 6,00 7,00 5,67 N 4 4 4 12 Varianza 2,667 3,333 2,000 3,879 Consideriamo gli elementi utili 1 Le medie dei gruppi Report num_esami gruppo 1 mezzi pubblici 2 auto 3 residenti Totale 3 La media totale Media 4,00 6,00 7,00 5,67 N 4 4 4 12 2 Le varianze dei gruppi Varianza 2,667 3,333 2,000 3,879 Calcoliamo la varianza fra i gruppi 1 Le medie dei gruppi Report num_esami gruppo 1 mezzi pubblici 2 auto 3 residenti Totale 2 La numerosità dei gruppi è 3 Media 4,00 6,00 7,00 5,67 3 La media totale N 4 4 4 12 Varianza 2,667 3,333 2,000 3,879 Calcoliamo la varianza delle medie dei gruppi (varianza fra i k gruppi (Xi-M)2/(n-1) Report num_esami gruppo 1 mezzi pubblici 2 auto 3 residenti Totale Media 4,00 6,00 7,00 5,67 N Varianza fra i gruppi = [(4-5,67)2+(6-5,67)2+(7-5,67)2 ] / 2 = (2,7889+0,1089+1,7689)/2= 2,3335 4 4 4 12 Varianza 2,667 3,333 2,000 3,879 Varianza della popolazione o varianza della distribuzione campionaria delle medie? La varianza delle k medie (s2) è però la varianza della distribuzione campionaria delle medie: s2 /n A noi serve la varianza della popolazione: s2 Perciò dobbiamo moltiplicare il valore per n (numerosità nei gruppi): Calcoliamo la varianza della popolazione con la stima della varianza fra i gruppi Report num_esami gruppo 1 mezzi pubblici 2 auto 3 residenti Totale Media 4,00 6,00 7,00 5,67 2 2 N 4 4 4 12 2 Varianza 2,667 3,333 2,000 3,879 Varianza fra i gruppi= [(4-5,67) +(6-5,67) +(7-5,67) ] / 2 = (2,7889+0,1089+1,7689)/2= 2,3335 =Varianza delle distribuzione campionaria delle medie (s2/n) Varianza della popolazione = n S2 2,3335 x 4 = 9,3334 Calcoliamo la varianza della popolazione con la stima della varianza dentro i gruppi Report num_esami gruppo 1 mezzi pubblici 2 auto 3 residenti Totale Media 4,00 6,00 7,00 5,67 Calcoliamo la media delle varianze nei gruppi: 2,667+3,333+2,000=8,00 Media della varianza nei gruppi 8,00/3= 2,667 N 4 4 4 12 Varianza 2,667 3,333 2,000 3,879 I gradi di libertà • I gradi di libertà sono dati da • (1) Numero di gruppi -1 per la varianza fra i gruppi • (2) Numero di osservazioni meno i gruppi, per la varianza nei gruppi. • Nel nostro caso, 3-1= 2 gl per la varianza fra i gruppi • 12-3 = 9 gl per la varianza nei gruppi Otteniamo il valore di F • Il rapporto fra le due stime della varianza della popolazione (una nei gruppi e l’altra fra i gruppi) ha una distribuzione descritta dalla variabile casuale F di Fisher Snedecor con gl1 e gl2 gradi di libertà. Nel nostro caso otteniamo F= 9,334/ 2,666 = 3,500 con 2 e 9 gradi di libertà. Grafico di F con 2 e 9 g.l. Funzione di Densità di Probabilità y=F(x;2;9) Questo grafico è disponibile grazie al computer, nel passato si usavano le tavole per valori singoli di n1 e n2 e per valori selezionati di p (0,10; 0,05; 0,01 ecc.) 1,0 0,8 0,6 0,4 0,2 0,0 0 1 2 3 4 5 Le tavole di F ci dicono che il valore 3,500 ricade al di sotto della zona critica e perciò accettiamo l’ipotesi nulla di uguaglianza delle medie dei tre gruppi Grafico di F con 2 e 9 g.l. Funzione di Densità di Probabilità y=F(x;2;9) 1,0 Valore teorico che separa le aree fra 0,95 e 0,05 Area di accettazione di H0= 0,925, 0,8 F=4,256 0,6 Area di rifiuto di H0= 0,0,5, maggiore di 0,075 F=3,50 0,4 0,2 0,0 0 1 2 3 4 5 Per il calcolo con spss Le due varianze sono però calcolate in modo diverso da quello che è stato presentato: si parte dalla somma dei quadrati (distanza dell’osservazione dalla media) (devianza in italiano, Sum of squares in inglese) dentro e fra i gruppi, divisi per i rispettivi gradi di libertà. Il rapporto F è sempre stampato usando la devianza nei e fra i gruppi. La loro somma è uguale alla devianza totale Passiamo a SPSS • Selezioniamo il menu Analizza->Confronta Medie-> ANOVA univariata. Compare questo finestra. Inseriamo la variabile Gruppo come fattore, e il numero di esami come variabile dipendente Output di SPSS per l’ANOVA Significatività di F ANOVA univariata Guardiamo solo una parte della tabella num_esami Fra gruppi Entro gruppi Totale Somma dei quadrati 18,667 24,000 42,667 df 2 9 11 Media dei quadrati 9,333 2,667 F 3,500 Sig. ,075 Valore F calcolato Gradi di liberta FRA e DENTRO i gruppi, quelli totali Le due varianze calcolate nei due modi diversi Il metodo di calcolo seguito è diverso • Le due varianze appena confrontate sono di solito concepite come un rapporto di scarti quadrati, divisi per i rispettivi gradi di libertà, per produrre delle stime delle varianze • Per rendere questo metodo di calcolo utilizzabile con gruppi di diversa numerosità, si procede ricordando il concetto di devianza totale, suddivisa in devianza fra i gruppi e devianza nei gruppi Scomposizione della variabilità totale La variabilità totale è descritta da SQT, ovvero Devianza totale: SQT yij y p ni i 1 j 1 2 Scomposizione della variabilità totale La variabilità fra i gruppi è descritta con la formula seguente Devianza fra i gruppi: k SQF ni yi y i 1 2 Scomposizione della variabilità totale La variabilità nei (o dentro i) gruppi è descritta dalla SSE detta anche variabilità dell’errore: Devianza dentro i gruppi: SQE yij yi k ni i 1 j 1 2 Rappresentazione grafica della devianza Dalle devianze alle due varianze • Le due varianze (dentro e fra i gruppi) sono quindi calcolate come rapporti fra due somme di quadrati, divise dai rispettivi gradi di libertà. Test F per ANOVA I risultati del test F per la ANOVA sono generalmente presentati in una tabella come questa: Fonti di Variabilità Devianze g.l. Varianze F Fra i gruppi Entro i gruppi SS(A) k-1 MS(A) MS(A)/ MS(E) Totale SSTOT SS(E) nt-k nt-1 MS(E) MSTOT Output di SPSS per l’ANOVA Significatività di F ANOVA univariata Guardiamo solo una parte della tabella num_esami Fra gruppi Entro gruppi Totale Somma dei quadrati 18,667 24,000 42,667 df 2 9 11 Media dei quadrati 9,333 2,667 F 3,500 Sig. ,075 Valore F calcolato Gradi di liberta FRA e DENTRO i gruppi, quelli totali Le due varianze calcolate nei due modi diversi Output di SPSS per l’ANOVA Significatività di F ANOVA univariata Guardiamo solo una parte della tabella num_esami Fra gruppi Entro gruppi Totale Somma dei quadrati 18,667 24,000 42,667 df 2 9 11 Media dei quadrati 9,333 2,667 F 3,500 Sig. ,075 Valore F calcolato Gradi di liberta FRA e DENTRO i gruppi, quelli totali Le due varianze calcolate nei due modi diversi Nel grafico seguente, per ogni n osservazione, sono riportati solo gli scarti dalle medie: dalla media generale, dalla media del gruppo e scarto del gruppo dalla media generale. Rappresentazione grafice di punteggi, scarti dalla media e devianza 9 punteggio medie gruppo media totale 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 10 11 12 Rappresentazione degli scarti dalle medie 3 Grafico degli scarti da tre medie 2 1 0 A A A A B -1 -2 scarto dalla media -3 scarto dal gruppo scarto gruppo dal totale -4 B B B C C C C 3 Grafico degli scarti da tre medie 2 1 0 A A A A B B B B C C C -1 -2 scarto dalla media -3 scarto dal gruppo scarto gruppo dal totale -4 Ingrandiamo il grafico C 3 2 2 1,33 1 1 0,33 0 0 s2 s3 0,33 0,33 0,33 0 s1 s4 s5 -0,67 -1 -1 -2 -1,67 -1,67 -1,67 -1,67 -1,67 -2 -1,67 -1,67 -2 scarto dalla media totale -3 scarto dal gruppo -4 s6 -3,67 scarto gruppo dal totale s7 3 2 2 scarto dalla media totale scarto dal gruppo scarto gruppo dal totale 1,33 1 1 0,33 0 s1 0 0 s2 s3 0,33 s4 s5 -1,67 -2 -3 -4 s6 0,33 s7 -0,67 -1 -1 -2 0,33 -3,67 -1,67 -1,67 -1,67 -1,67 -1,67 -1,67 -2 Per ogni osservazione, lo scarto dalla media totale è uguale alla somma degli altri due - 3,67 = (- 2) + (-1,67) La devianza Si usa il termine devianza per indicare la somma dei quadrati delle distanze dalla media. In inglese Sum of Squares • La varianza stimata della popolazione si ottiene dividendo la devianza per il numero dei gradi di libertà – Si usano i termini inglesi within (W) per indicare la devianza nei gruppi e between (B) per indicare la devianza fra i gruppi • • • • Esaminiamo il primo studente, che ha un Numero di esami pari a 2 La media del suo gruppo è 4 La media dell’intero campione è pari a 5,67 5,67 6 5 4 Per l’osservazione 1, la distanza del primo soggetto dalla media totale è pari a -3,67, il suo quadrato contribuisce alla devianza totale 4,00 3 2,00 2 1 0 punteggio medie gruppo media totale 6 5 La prima osservazione è pari a 2, dista 2 dalla media del suo gruppo; il quadrato della distanza contribuisce al calcolo della devianza nei gruppi 5,67 4,00 4 3 2,00 2 1 0 punteggio medie gruppo media totale 6 Per la medesima osservazione 1, la 5,67 distanza della media del gruppo dalla media globale è 1,67; il suo quadrato contribuisce alla devianza 5 fra i gruppi 4,00 4 3 2,00 2 1 0 punteggio medie gruppo media totale • Usando gli scarti dalla media, rappresentiamo i due quadrati per il primo caso (osservazione) che ha un punteggio di 2. La media del suo gruppo è 4 e quella del campione intero è pari a 5,67 3 2 2 scarto dalla media totale scarto dal gruppo scarto gruppo dal totale 1,33 1 1 0,33 0 s1 0 0 s2 s3 0,33 s4 s5 -1,67 -2 -3 -4 s6 -0,67 -1 -1 -2 0,33 -3,67 -1,67 -1,67 -1,67 -1,67 -1,67 -1,67 -2 0,33 s7 3 2 2 scarto dalla media totale scarto dal gruppo scarto gruppo dal totale 1,33 1 1 0,33 0 s1 0 0 s2 s3 0,33 s4 s5 -1,67 -2 -3 -4 s6 -0,67 -1 -1 -2 0,33 -3,67 -1,67 -1,67 -1,67 -1,67 -1,67 -1,67 -2 •All’interno di ciascun gruppo, i quadrati ocra sono tutti uguali (devianza fra i gruppi). Perché? 0,33 s7 Dati sul foglio excel N_esa medie media scarto dalla mi gruppo totale media totale stud gruppo A 2 4 5,6667 s1 -3,666667 A 4 4 5,6667 s2 -1,666667 A 4 4 Devianza 5,6667 s3 -1,666667 A 6 4 5,6667 s4 0,333333 totale. per i B 4 6 Serve 5,6667 s5 -1,666667 controlli B 5 6 5,6667 s6 -0,666667 B 7 6 5,6667 s7 1,333333 B 8 6 5,6667 s8 2,333333 C 5 7 5,6667 s9 -0,666667 C 7 7 5,6667 s10 1,333333 C 8 7 5,6667 s11 2,333333 C 8 7 5,6667 s12 2,333333 somma 0 gradi di liberta 68 68 68 quadrato 13,444447 2,7777789 2,7777789 0,1111109 2,7777789 0,4444449 1,7777769 5,4444429 0,4444449 1,7777769 5,4444429 5,4444429 0,00 42,66667 11 nei gruppi scarto N medie media dal stud gruppo esami gruppo totale gruppo A 2 4 5,67 s1 -2 A 4 4 5,67 s2 0 A 4 4 5,67 s3 0 A 6 4 5,67 s4 2 B 4 6 5,67 s5 -2 B 5 6 5,67 s6 -1 B 7 6 5,67 s7 1 B 8 6 5,67 s8 2 C 5 7 5,67 s9 -2 C 7 7 5,67 s10 0 C 8 7 5,67 s11 1 C 8 7 5,67 s12 1 somma 0 gradi di liberta varianza 68 68 68 Devianza nei gruppi 0 fra i gruppi scarto gruppo dal quadr totale Quadr 4 -1,6667 2,78 0 -1,6667 2,78 0 -1,6667 2,78 4 -1,6667 2,78 4 0,33333 0,11 1 0,33333 0,11 1 0,33333 0,11 4 0,33333 0,11 4 1,33333 1,78 0 1,33333 1,78 1 1,33333 1,78 1 1,33333 1,78 24 0,00 18,67 9 2,67 2,00 9,33 Valore F 3,5 Devianza fra i gruppi I gradi di libertà Ad ognuna delle devianze sono associati i gradi di libertà: • la devianza totale ha n − 1 gradi di libertà • la devianza tra gruppi ha k − 1 gradi di libertà • la devianza entro i gruppi ha n - p gradi di libertà Dividendo ciascuna devianza per i rispettivi gradi di libertà si ottengono le media dei quadrati, cioè le VARIANZE: SQF var fra p 1 Varianza tra i gruppi SQE var err nt p Varianza entro i gruppi Il rapporto F • La statistica F è quindi un rapporto fra due varianze, calcolate dividendo la devianza fra i gruppi per la devianza nei gruppi, ognuno divisa per i rispettivi gradi di libertà SQfra /( k 1) SQdentro (n k ) Output completo di SPSS ANOV A univariata num_esami Somma dei quadrati Fra gruppi 18,667 Entro gruppi 24,000 Totale 42,667 df 2 9 11 Media dei quadrati 9,333 2,667 F 3,500 Sig. ,075 nei gruppi scarto N medie media dal stud gruppo esami gruppo totale gruppo A 2 4 5,67 s1 -2 A 4 4 5,67 s2 0 A 4 4 5,67 s3 0 A 6 4 5,67 s4 2 B 4 6 5,67 s5 -2 B 5 6 5,67 s6 -1 B 7 6 5,67 s7 1 B 8 6 5,67 s8 2 C 5 7 5,67 s9 -2 C 7 7 5,67 s10 0 C 8 7 5,67 s11 1 C 8 7 5,67 s12 1 somma 0 gradi di liberta varianza 68 68 68 0 fra i gruppi scarto gruppo dal quadr totale Quadr 4 -1,6667 2,78 0 -1,6667 2,78 0 -1,6667 2,78 4 -1,6667 2,78 4 0,33333 0,11 1 0,33333 0,11 1 0,33333 0,11 4 0,33333 0,11 4 1,33333 1,78 0 1,33333 1,78 1 1,33333 1,78 1 1,33333 1,78 24 0,00 18,67 9 2,67 2,00 9,33 Valore F 3,5 nei gruppi scarto dal gruppo quadr -2 0 0 2 -2 -1 1 2 -2 0 1 1 4 0 0 4 4 1 1 4 4 0 1 1 0 24 fra i gruppi scarto gruppo dal Quadr totale Output completo di SPSS stud gruppo A s1 A s2 A s3 A s4 B s5 B s6 B s7 B s8 C s9 C s10 C s11 C s12 N esami 2 4 4 6 4 5 7 8 5 7 8 8 somma 0 gradi di liberta varianza medie media gruppo totale 4 5,67 4 5,67 4 5,67 4 5,67 6 5,67 6 5,67 6 5,67 6 5,67 7 5,67 7 5,67 7 5,67 7 5,67 68 68 68 ANOV A univariata -1,6667 -1,6667 -1,6667 -1,6667 0,33333 0,33333 0,33333 0,33333 1,33333 1,33333 1,33333 1,33333 0,00 9 2,67 2,78 2,78 2,78 2,78 0,11 0,11 0,11 0,11 1,78 1,78 1,78 1,78 18,67 2,00 9,33 Valore F 3,5 num_esami Somma dei quadrati Fra gruppi 18,667 Entro gruppi 24,000 Totale 42,667 df 2 9 11 Media dei quadrati 9,333 2,667 F 3,500 Sig. ,075 nei gruppi stud gruppo A s1 A s2 A s3 A s4 B s5 B s6 B s7 B s8 C s9 C s10 C s11 C s12 N esami 2 4 4 6 4 5 7 8 5 7 8 8 somma 0 gradi di liberta varianza medie media gruppo totale 4 5,67 4 5,67 4 5,67 4 5,67 6 5,67 6 5,67 6 5,67 6 5,67 7 5,67 7 5,67 7 5,67 7 5,67 68 68 68 scarto dal gruppo quadr -2 0 0 2 -2 -1 1 2 -2 0 1 1 4 0 0 4 4 1 1 4 4 0 1 1 0 24 ANOV A univariata fra i gruppi scarto gruppo dal Quadr totale -1,6667 2,78 -1,6667 2,78 -1,6667 2,78 -1,6667 2,78 0,33333 0,11 0,33333 0,11 0,33333 0,11 0,33333 0,11 1,33333 1,78 1,33333 1,78 1,33333 1,78 1,33333 1,78 0,00 9 2,67 18,67 2,00 9,33 Valore F 3,5 num_esami Somma dei quadrati Fra gruppi 18,667 Entro gruppi 24,000 Totale 42,667 df 2 9 11 Media dei quadrati 9,333 2,667 F 3,500 Sig. ,075 Concludendo… • Se le k medie sono simili, la variabilità fra i k gruppi è bassa, la varianza della popolazione è stimata in modo corretto, (tenuto conto della variabilità stocastica), il rapporto F è vicino all’unità e si conclude con l’accettazione di H0. • Se c’è molta variabilità fra i k gruppi, la variabilità fra i gruppi è elevata, la varianza della popolazione è sovrastimata, il rapporto F è molto più grande dell’unità, il test statistico di F dà valori di probabilità molto bassi • Se la probabilità di ottenere il valore F calcolato è molto bassa, si conclude con il rifiuto dell’ipotesi di nullità di differenze, per accettare l’ipotesi alternativa: almeno un gruppo proviene da una popolazione diversa, ossia con medie diverse ANOVA per due gruppi? • Il test dell’ANOVA dà gli stessi risultati della t di Student: infatti il rapporto F è il quadrato della t. Confronti post-hoc • Sono confronti che si fanno a posteriori, se l’Anova è significativa e se ci sono più di 2 gruppi in una variabile indipendente • La logica è quella di tenere sotto controllo i problemi di significatività legati ai confronti multipli. • Vi sono diverse procedure di confronti • alcuni presumono che le varianze siano uguali: LSD (Least Significant Difference), Bonferroni,Sidak, Scheffé, SNK (Student-Neumann-Kouls), Tukey HSD (Honestly Significant Difference), Duncan, Hochberg, Gabriel, Waller-Duncan, Dunnett • altre no: Tamhane, Dunnett, Games-Howell, C di Dunnett • In Spss, premete il bottone Post Hoc... e selezionate tutti i test che volete • gli output sono di due tipi: confronti multipli completi oppure gruppi omogenei Esempio con dati reali • Differenze di vocabolario nei quattro gruppi di studenti di terza media De scri ttivi g4 vocabolario 13 14 15 16 Totale N 21 515 87 12 635 Media 18,90 18,47 15,37 17,17 18,03 Deviazione std. 5,638 5,163 4,273 4,407 5,157 Errore std. 1,230 ,227 ,458 1,272 ,205 Intervallo di confidenza 95% per la media Limite Limite inferiore superiore 16,34 21,47 18,02 18,91 14,46 16,28 14,37 19,97 17,63 18,43 Minimo 8 4 8 12 4 Massimo 28 35 28 28 35 Il test F è significativo ANOVA univariata g4 vocabolario Fra gruppi Entro gruppi Totale Somma dei quadrati 740,378 16119,9 16860,3 df 3 631 634 Media dei quadrati 246,793 25,547 F 9,660 Sig. ,000 Si conclude che… Almeno un gruppo ha la media diversa dagli altri. In altre parole, il gruppo con la media più alta è statistica mente diverso dal gruppo con la media più bassa. Un grafico è sempre utile… E degli altri gruppi, che si può dire? Come si differenziano fra di loro? Esiste un solo gruppo diverso dagli altri? Esistono più gruppi diversi dagli altri? Si possono individuare i gruppi simili e quelli diversi? Differenze a priori e a posteriori Si può dare risposta a questi interrogativi con i post hoc (termine latino per indicare che si cercano differenze fra i gruppi a posteriori, ossia dopo che si è stabilità la differenza statistica fra i gruppi. I confronti pianificati invece si cercano a priori, perché la teoria prevede già una differenza nei gruppi Test post hoc (LSD) Confronti mul tipli Variabile dipendente: g4 vocabolario Differenza fra medie (I) età (J) età (I-J) Errore std. LSD 13 14 ,437 1,125 15 3,537* 1,229 16 1,738 1,829 14 13 -,437 1,125 15 3,100* ,586 16 1,301 1,476 15 13 -3,537* 1,229 14 -3,100* ,586 16 -1,799 1,556 16 13 -1,738 1,829 14 -1,301 1,476 15 1,799 1,556 *. La differenza media è significativa al livello .05 Sig. ,698 ,004 ,342 ,698 ,000 ,378 ,004 ,000 ,248 ,342 ,378 ,248 Intervallo di confidenza 95% Limite Limite inferiore superiore -1,77 2,65 1,12 5,95 -1,85 5,33 -2,65 1,77 1,95 4,25 -1,60 4,20 -5,95 -1,12 -4,25 -1,95 -4,86 1,26 -5,33 1,85 -4,20 1,60 -1,26 4,86 Test dei sottoinsieme omogenei (SNK) g4 vocabolario Student-Newmana,b Keuls età 15 16 14 13 Sig. N 87 12 515 21 Sottoinsieme per alfa = .05 1 2 15,37 17,17 17,17 18,47 18,47 18,90 ,059 ,407 Sono visualizzate le medie per i gruppi di sottoins iemi omogenei. a. Utilizza dimensione campionaria media armonica = 27,703. b. Le dimensioni dei gruppi non sono uguali. Verrà utilizzata la media armonica delle dimensioni dei gruppi. Non vengono garantiti i livelli di errore Tipo I. Dati sul test di vocabolario, per scuole De scri ttivi g4 vocabolario 1 CFP 2 IPSIA 3 ipscom 4 ITC 5 ITI 6 Classico 7 Scientifico 8 Magistrali Totale N 128 105 62 120 72 31 80 37 635 Media 13,80 16,42 16,76 19,08 20,35 24,42 22,16 17,22 18,03 Devia std 3 4 3 4 3 4 4 4 5 Le differenze di vocabolario in studenti che andranno in scuole diverse non ci sorprende ANOVA univariata g4 vocabolario Fra gruppi Entro gruppi Totale Somma dei quadrati 5842,46 11017,8 16860,3 df 7 627 634 Media dei quadrati 834,637 17,572 F 47,497 Sig. ,000 Il test post hoc sui gruppo omogenei dà risultati molto ben interpretabili g4 vocabolario Student-Newmana,b Keuls scuola 1 CFP 2 IPSIA 3 ipscom 8 Magistrali 4 ITC 5 ITI 7 Scientifico 6 Classico Sig. N 128 105 62 37 120 72 80 31 1 13,80 Sottoinsieme per alfa = .05 2 3 4 5 16,42 16,76 17,22 19,08 20,35 22,16 1,000 ,536 ,092 1,000 Sono visualizzate le medie per i gruppi di s ottoinsiemi omogenei. a. Utilizza dimensione campionaria media armonica = 62,759. b. Le dimensioni dei gruppi non sono uguali. Verrà utilizzata la media armonica delle dimensioni dei gruppi. Non vengono garantiti i livelli di errore Tipo I. 24,42 1,000 Le differenze di vocabolario in studenti che andranno in scuole diverse non ci sorprende ANOVA univariata g4 vocabolario Fra gruppi Entro gruppi Totale Somma dei quadrati 5842,46 11017,8 16860,3 df 7 627 634 Media dei quadrati 834,637 17,572 F 47,497 De scri ttivi g4 vocabolario 1 CFP 2 IPSIA 3 ipscom 4 ITC 5 ITI 6 Classico 7 Scientifico 8 Magistrali Totale N 128 105 62 120 72 31 80 37 635 Media 13,80 16,42 16,76 19,08 20,35 24,42 22,16 17,22 18,03 Deviazione std. 3,528 4,258 3,570 4,572 3,958 4,911 4,811 4,158 5,157 Sig. ,000 Confronti a priori • Oltre ai post hoc si possono effettuare dei confronti a priori ovvero decisi prima ancora di effettuare l’anova, sulla base di una teoria • Questi confronti si chiamano anche contrasti perché contrastano la media di uno o più gruppi con quella di altri Anche in questo caso ci sono due possibilità: • contrasti predefiniti: lineare, quadratico, Helmert...contrasti decisi da noi In Spss, premete il bottone Contrasti... • se selezionare Polinomiale, poi potete scegliere fra Lineare, • Quadratico, Cubico... (ipotizzo che le medie aumentano o • diminuiscono nella varie categorie in modo lineare, quadratico...) • altrimenti dovrete inserire dei coefficienti (uno alla volta e poi premere Aggiungi). • dopo aver inserito un contrasto è possibile inserirne un secondo • tramite il pulsante Successivo