L’Analisi della Varianza ANOVA (ANalysis Of VAriance) 1 Concetti generali (1/3): • Confronto simultaneo tra più di due popolazioni, esempi..... •La analisi della varianza estende il confronto a p gruppi con p>2. 2 Concetti generali (2/3) • Fattore: variabile utilizzata per differenziare un gruppo da un altro gruppo. • Livello (o trattamento): uno dei possibili valori/stati/caratteristiche che il fattore può assumere • Variabile risposta: variabile quantitativa oggetto dello studio Esempio: Si vuole verificare se la razza dei vitelli (FATTORE) considerando tre razze (LIVELLI) influenza il peso (VARIABILE RISPOSTA) di 20 vitelli : bovini Razza 1 Razza 2 Razza 3 1 63,3 72,8 82,3 2 ... ... ... ... ... ... ... ..... 20 ... 3 Il disegno completamente randomizzato E’ il disegno sperimentale più semplice Si utilizza quando si considera un solo fattore sperimentale a più livelli. I trattamenti/livelli sono assegnati alle unità sperimentali in modo casuale (randomizzazione). Se il numero di repliche è uguale per tutti i trattamenti il disegno è detto bilanciato (preferibile), altrimenti è detto sbilanciato. 4 Concetti generali (3/3) In genere i livelli o gruppi possono essere non solo numerici ma anche qualitativi. I fattori che definiscono i gruppi possono essere più di uno. Con un solo fattore analisi della varianza ad un fattore o ad una via Con due (o più) fattori analisi della varianza a due ( o più) fattori o a due vie (o più vie) 5 Predisposizione dei dati Fattore repliche 1 2 ..... i .... p 1 y11 y21 .... yi1 yp1 2 y12 y22 .... yi2 yp2 ... ... .... ... y1j y2j .... yij ypj J ... ni Medie .... Y1n (i) Y2n(i) .... Yin(i) Ypn(i) y1 y2 .... yi yp y 6 ANALISI DELLA VARIANZA ESEMPIO: peso di 20 vitelli y1 = y2 = y3 = 68 74 74 y4 = y5 = 72 73 ripetizioni y6 y7 y8 y9 y10 y11 = = = = = = 62 64 65 63 68 65 j=1 j=2 j=3 j=4 j=5=ni medie y12 y13 y14 y15 y16 y17 y18 y19 y20 = = = = = = = = = 62 66 68 66 64 65 64 66 65 media = 66,7 i=1 68 74 74 72 73 72,2 livelli i=2 i=3 62 64 65 63 68 64,4 65 62 66 68 66 65,4 i=4=p 64 65 64 66 65 64,8 66,7 7 ANALISI DELLA VARIANZA Il modello lineare: y1 = y2 = y3 = 68 74 74 y4 = y5 = 72 73 ripetizioni y6 y7 y8 y9 y10 y11 = = = = = = 62 64 65 63 68 65 j=1 j=2 j=3 j=4 j=5=ni medie y12 y13 y14 y15 y16 y17 y18 y19 y20 = = = = = = = = = 62 66 68 66 64 65 64 66 65 media = 66,7 i=1 68 74 74 72 73 72,2 livelli i=2 i=3 62 64 65 63 68 64,4 i=4=p 65 62 66 68 66 65,4 y ij = m i + e ij 64 65 64 66 65 64,8 " 66,7 i m̂ i = y i yij = m + (mi - m) +eij = m + a i + e ij yk = m + e k 8 m̂ = y Il modello lineare Il modello può essere rappresentato in questa forma: Yij = m + αi + εij • con μ media di tutte le popolazioni rappresentate nell’esperimento • αi = μ − μi effetto dell’i-esimo trattamento/livello Generalmente si assume: • i = 1, . . . , p (p numero dei livelli) • j = 1, . . . , ni (ni numero di repliche all’interno di un livello) • nt= n.ro totale di osservazioni Se il disegno è bilanciato, n1 = n2 = . . . = np 9 IDEA DI FONDO: Scomposizione della variabilità totale Variabilità all’interno dei gruppi (SSE) errore sperimentale Variabilità tra i gruppi (SSA) effetti del trattamento/livello Si ha che: SST = SSA + SSE 10 Come fare inferenza Assumendo che i p gruppi (popolazioni) da cui vengono estratte casualmente le osservazioni siano distribuiti normalmente e abbiano uguali varianze, l’ipotesi sottoposta a verifica è: H0: m1 = m2 = … = mp oppure H0 : αi= 0 HA: non tutte le mi sono uguali 11 Come costruire il test? Il test è basato sulle seguenti considerazioni: • Se è vera l’ipotesi nulla, i dati differiscono tra loro per il solo effetto della variabilità casuale. • Se invece è vera l’ipotesi alternativa (quindi rifiuto l’H0), entrambe le fonti di variabilità contribuiscono a determinare la variabilità complessiva. • Il test è quindi basato sull’analisi della variabilità complessiva in funzione delle diverse cause (da cui il termine Analisi della Varianza). 12 Scomposizione della variabilità totale La VARIABILITA’ TOTALE è descritta dalla SST: Devianza totale: SST = yij - y p ni 2 i =1 j=1 13 Scomposizione della variabilità totale La VARIABILITA’ TRA I GRUPPI è descritta dalla SSA (devianza tra i gruppi) p Devianza tra i gruppi: SSA = n i yi - y 2 i =1 FORMULA CALCOLATORIA: SSA = n i y p i =1 2 i - n y 2 T 14 Scomposizione della variabilità totale La VARIABILITA’ NEI GRUPPI (o ENTRO I GRUPPI) è descritta dalla SSE: devianza entro i gruppi Devianza entro i gruppi: SSE = y ij - y i 2 p ni i =1 j=1 FORMULA CALCOLATORIA SSE = y - n i y p ni i =1 j=1 p 2 ij i =1 2 i Cosa ci aspettiamo? • Se l’ipotesi nulla è vera, ci possiamo attendere uno scarso contributo della devianza tra gruppi alla devianza totale. • Sell’ipotesi nulla è falsa, ci possiamo attendere che entrambe le devianze contribuiscano a determinare la devianza totale. • A questo livello non è però possibile fare confronti, perchè le devianze hanno un numero di addendi diverso. • Dobbiamo quindi rendere confrontabili le devianze.... 16 I gradi di libertà Ad ognuna delle devianze sono associati i gradi di libertà: • la devianza totale ha nt − 1 gradi di libertà • la devianza tra gruppi ha p − 1 gradi di libertà • la devianza entro i gruppi ha nt - p gradi di libertà Dividendo ciascuna devianza per i rispettivi gradi di libertà si ottengono le VARIANZE, cioè le medie dei quadrati: SSA MSA = p -1 Varianza tra i gruppi SSE MSE = nt - p Varianza entro i gruppi 17 Test F per la ANOVA a un fattore Per verificare l’ipotesi di uguaglianza delle medie utilizzo il test F che confronta MSA e MSE. MSA var ianza - tra - gruppi F= = MSE var ianza - entro - gruppi Il test F segue una distribuzione F di Fisher con (p-1, nt-p) gradi di libertà. La regola decisionale è: Rifiuto H0 se F>Fα 18 Test F per la ANOVA a un fattore Il valore critico della F viene determinato in funzione del livello di significatività a del test. I valori critici si individuano nelle tavole della distribuzione F in base ai gradi di libertà e al livello di significatività scelto Se H0 è falsa ci aspettiamo che F assuma valori maggiori rispetto ai valori tabulati nella tavola della F la variabilità totale è dovuta soprattutto all’effetto del trattamento/fattore. Se H0 è vera ci aspettiamo che il valore osservato di F sia minore al 19 valore tabulato. Test F per la ANOVA a un fattore I risultati del test F per la ANOVA a un fattore vengono sintetizzati in una tabella come quella seguente: Fonti di Variabilità FdV DEVIANZE GDL VARIANZE F Fra i gruppi Entro i gruppi SS(A) p-1 MS(A) MS(A)/ MS(E) Totale SSTOT SS(E) nt-p nt-1 MS(E) MSTOT 20 Esempio Esempio:Peso dei vitelli di 3 razze diverse: bovini 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 razza 1 63,33 68,32 86,66 52,82 75,01 57,99 69,48 32,68 60,88 58,24 45,54 44,92 67,04 62,99 66,63 65,53 59,58 85,65 64,55 83,74 razza 2 72,85 88,17 80,82 71,27 81,5 47,56 81,04 81,38 82,96 75,98 77,35 69,31 61,69 64,87 75,43 59,83 89,65 59,1 76,14 74,46 razza 3 82,33 89,69 81,01 85,09 74,14 75,93 74,74 81,13 76,36 81,77 83,32 81,66 71,77 81,04 78,67 74,86 77,45 79,37 73,89 81,38 Output di excel: Analisi varianza: ad un fattore RIEPILOGO Gruppi razza 1 razza 2 razza 3 Conteggio Somma 20 1271.58 20 1471.36 20 1585.6 Media Varianza 63.579 182.5172 73.568 112.556 79.28 19.42282 ANALISI VARIANZA Origine della variazione Tra gruppi In gruppi SQ 2526.19 5975.425 Totale 8501.614 Valore di gdl MQ F significatività F crit 2 1263.095 12.04875 0.000043 3.158843 57 104.832 59 21