Corso di biomatematica lezione 10:
test di Student e test F
Silvia Capelli
Sommario
•Distribuzione di Student
•Media osservata e attesa
•Medie di due campioni
•Test F
•Facciamo il punto sui test di
significatività
t di Student
• La distribuzione t di Student
Abbiamo già incontrato la distribuzione t di Student come
distribuzione campionaria diversa dalla distribuzione
normale Z ed espressa dalla formula
x 
t 
S
n
Quando la media della popolazione  non è nota, di solito
anche la sua varianza  è ignota. Si utilizza quindi la
varianza del campione S, che ne rapprensenta la stima più
attendibile. La distribuzione di probabilità non è più quindi
data da Z, ma dalla t di Student.
Essa può essere applicata a piccoli campioni anche con
meno di una decina di osserv. Per n40 Student
Z.
Silvia Capelli - Dottorato in Biologia
t di Student
• La distribuzione t di Student
La forma della distribuzione t di Student è a campana con
una dispersione maggiore rispetto alla gaussiana
standardizzata, ed esiste un’intera famiglia di distribuzioni
t in funzione dei gradi di libertà (la distribuzione normale
rappresenta una t quando i g.d.l. aumentano…).
I valori critici per l’area in una coda alla probabilità a
coincidono con quelli a probabilità 2a nella distribuzione a
due code e viceversa.
Con il t di student calcolerò un intervallo fiduciale ovvero
l’intervallo entro il quale è collocato il valore reale della
popolazione alla probabilità a, partendo dalla misura
campionaria!
Silvia Capelli - Dottorato in Biologia
t di Student
• La distribuzione t di Student
Condizioni di validità:
1. Distribuzione di dati normale
2. Osservazioni indipendenti
La t di Student è robusta, ovvero vale anche per una serie di
dati che devia dalla normalità..
Applicazioni per il confronto tra:
1. Media campione e media universo
2. Singolo dato e media di un campione
3. Media delle differenze di due campioni dipendenti e
differenza media attesa
4. Medie di due campioni indipendenti
Silvia Capelli - Dottorato in Biologia
t di Student
• Media osservata e media attesa
La t di Student con n-1 g.d.l. è data da
t
( n 1 )
x 

S
n
Con:
-  valore atteso
-S
n errore standard
- n numero di dati
- S la deviazione standard calcolata sui dati del campione.
Silvia Capelli - Dottorato in Biologia
t di Student
• Media osservata e media attesa
Per verificare l’ipotesi relativa alla media nel caso di un
test bilaterale avremo:
• Ipotesi nulla H0 : = 0
• Ipotesi alternativa H1 :  0
Mentre nel caso di un test unilaterale l’ipotesi relativa alla
media sarà:
• Ipotesi nulla H0 :  () 0
• Ipotesi alternativa H1 : < (>) 0
Per verificare se la media è significativamente inferiore (o
maggiore) di quella attesa
Silvia Capelli - Dottorato in Biologia
t di Student
• Media osservata e media attesa
Quindi dalla formula per la differenza tra media attesa e
campionaria avremo
x 
t
( n 1 )

0
S
n
E da questo posso stimare l’intervallo fiduciale
(o intervallo di confidenza) entro il quale è compresa la
media reale della popolazione da cui ho estratto
il campione alla probabilità a.
  x t
Silvia Capelli - Dottorato in Biologia
a
( ,n 1 )
2
S
n
t di Student
• Media osservata e media attesa - esempio
Abbiamo un vivaio con pianticelle di tipo A, che dopo due
mesi raggiungono un’altezza media di 25 cm (0), nel
terreno vengono versate sostanze tossiche e per verificare
l’incidenza negativa sulla crescita delle piante ne vengono
seminate 7 che dopo 2 mesi raggiungono le altezze di
22,25, 21,23,24,25,21 cm
Voglio sapere:
1. Le sostanze tossiche inibiscono la crescita?
2. Qual è la media reale dell’altezza delle piante nel nuovo
terreno?
Silvia Capelli - Dottorato in Biologia
t di Student
• Media osservava e media attesa - esempio
• Le sostanze tossiche inibiscono la crescita?
Questo è un test ad una coda con
1. Ipotesi alternativa H1 : < 0
2. Ipotesi nulla H0 :  0
Il test ovviamente assume significato solo se la media
campionaria assume valore minore della media attesa 0, e
serve per verificare se la differenza sia casuale o
significativa.
Scegliamo una probabilità a =0,05
Silvia Capelli - Dottorato in Biologia
t di Student
• Media osservata e media attesa - esempio
Avremo dunque la formula
t
( n 1 )
Con i nostri 7 dati abbiamo
X =23,0
S =1,732
t0,025;6 =2,447
n=7
0=25
Silvia Capelli - Dottorato in Biologia

x  0
S
n
t di Student
• Media osservata e media attesa - esempio
Ed il calcolo di t con 6 g.d.l. mi dà
23,0 25,0
t 
1,732 7
(6)
Cioè t(6) = - 3,053
Dove il segno meno indica solamente che la differenza è
negativa rispetto al valore atteso. Per la significatività
prendo il modulo.
Per il test ad una coda abbiamo con a =0,05
t0,05;6 =1,943
Accetto dunque H1 (cioè le sostanze tossiche inibiscono la
crescita) e rifiuto H0 con il 5% di prob. di sbagliare
Silvia Capelli - Dottorato in Biologia
t di Student
•
•
Media osservata e media attesa - esempio
Qual è la media reale dell’altezza delle piante nel nuovo
terreno?
L’altezza media reale può essere stimata tramite
l’intervallo di confidenza, ovvero
S
  x t a
( ,n 1 )
2
n
Prendendo i dati del nostro campione con la probabilità
associata ad a =0,05 per un test a due code t0,025;6 =2,447
  23 2,447 1,732 7  231,602
Cioè   (21,398 ; 24,602)
Silvia Capelli - Dottorato in Biologia
t di Student
• Confronto tra una misura e la media di un campione
Voglio ora stabilire se una misura (per ragioni non note) si
possa considerare errata. Questo può essere effettuato con
un test unilaterale o bilaterale a seconda delle ipotesi
mediante la formula:
t
( nA 1 )
x1  x A

2 1 n A
SA
nA
Con:
- nA numero di oservazioni del campione,
- x1 misura da verificare,
- xA,media del campione
- S2A varianza del campione A
Silvia Capelli - Dottorato in Biologia
t di Student
• Confronto una misura e media di un campione
Ad esempio voglio “rigettare” una misura (x1 =49,7) nel
campione A=(40,3 - 38,8 – 33,5 – 38,6 – 31,9 – 37,6)
Dove nA =6, xA= 36,873, S2A=12,206, ottenendo t (5)  3,42
Ora dalle tabelle per il test bilaterale abbiamo i valori
critici
2,571 per a =0,05
4,032 per a =0,01
Mentre il test unilaterale dà
3,365 per a =0,01
5,893 per a =0,001
Rifuto l’ipotesi nulla (quindi rigetto x1 ) con a tra 0,05 e
0,01 (0,01 e 0,001 uni)
Silvia Capelli - Dottorato in Biologia
t di Student
• Confronto le medie di due campioni
Posso derivare la distribuzione t di Student dal rapporto
tra la differenza delle due medie campionarie ed il suo
errore standard, ovvero
diff _ 2 _ medie
t
errore _ std _ diff _ 2 _ medie
Dove nell’ipotesi nulla H0 le due medie sono identiche,
Ovvero H0 :1 = 2 oppure H0 :1 - 2 =0
Silvia Capelli - Dottorato in Biologia
t di Student
• Confronto le medie di due campioni DIPENDENTI
Se ho due campioni dipendenti, posso accoppiare ogni
osservazione di un campione con UNA ed UNA SOLA
osservazione dell’altro (senza entrare nello specifico
dell’appaiamento).
L’analisi dunque è applicata ad una nuova serie di dati,
risultanti dalle differenze tra gli elementi di ciascuna
coppia.
Per il test di Student bilaterale, abbiamo
H0 : d =0 mentre H1 : d  0
Il test unilaterale invece è
H0 : d < (>) 0 mentre H1 : d  () 0
Silvia Capelli - Dottorato in Biologia
t di Student
• Confronto le medie di due campioni DIPENDENTI
La significatività della media delle differenze viene
verificata con:
d d
t
( n 1 )

m
Sd
n
Dove dm è la media delle differenze, d è la differenza
media attesa (spesso ma non sempre 0), n è il numero di
differenze e Sd è la deviazione standard delle differenze.
L’intervallo di confidenza entro cui è compresa la
differenza media reale d è
d dm  t
Silvia Capelli - Dottorato in Biologia
 Sd
a
( ,n 1 )
2
n
t di Student
• Confronto le medie di due campioni INDIPENDENTI
In questo caso aumenta la variabilità tra i due gruppi,
ovvero potrò
1. Utilizzare numero diverso di osservazioni tra i due gruppi
2. Avere dati che esprimono la variabilità casuale
3. Confrontare il mio campione con quello raccolto da altri
Nel caso di due campioni indipendenti i calcoli per il test di
significatività vengono effettuati sulle due serie di
osservazioni e non sulla serie delle differenze come era nel
caso di campioni dipendenti
Silvia Capelli - Dottorato in Biologia
t di Student
• Confronto le medie di due campioni INDIPENDENTI
Nel caso di un test bilaterale l’ipotesi nulla H0 è che i due
campioni A e B siano estratti dalla stessa popolazione o da
due popolazioni diverse ma con media  uguale ovvero:
Ipotesi nulla Ho
A = B oppure A - B =0
L’ipotesi alternativa H1 sarà
A  B oppure A - B  0
Mentre nel test unilaterale avremo
H0 A  () B oppure A - B  () 0
H1 A < (>) B oppure A - B <(>) 0
Silvia Capelli - Dottorato in Biologia
t di Student
• Confronto le medie di due campioni INDIPENDENTI
Per due campioni indipendenti i gradi di libertà di t sono
dati da (nA-1) + (nB-1) =(nA+ nB-2) =(N-2)
Il valore di t è ottenuto così:
t
( nA nB  2 )

x A  xB    A   B 

2 
SP 
1
 nA

1 

nB 
Con xAe xB medie dei due campioni, Ae b medie attese
nAe nB numero di osservazioni e S2p è la varianza associata
(pooled) dei due gruppi a confronto
Silvia Capelli - Dottorato in Biologia
t di Student
• Confronto le medie di due campioni INDIPENDENTI
S2p la varianza pooled è in pratica una varianza media
ponderata (sul numero di dati presi per ciascun gruppo)
calcolata a partire dalle due devianze e dai loro g.d.l. ed è
data dalla formula:

i1  x Ai

nA
S
2
p
2
 

 x A  i1  xBi
n A  1  nB  1
nB

 xB 
2
Questo test si può quindi applicare anche ai risultati di due
ricercatori diversi (che saranno ora A e B), al patto di
disporre dei dati, delle rispettive varianze, e delle medie
Silvia Capelli - Dottorato in Biologia
t di Student
• Validità del t-di Student
Le assunzioni per la validità del test di Student sono
essenzialmente tre:
1. Indipendenza dei dati entro i campioni
2. Omogeneità della varianza tra i due campioni
3. Dati (o scarti rispetto alla media) distribuiti normalmente
Con due campioni indipendenti è molto importante
che le varianze dei due campioni siano statisticamente
uguali.
Infatti la varianza pooled S2p che è una quantità
fondamentale ha significato solo se è rappresentativa delle
varianze di ogni gruppo.
Silvia Capelli - Dottorato in Biologia
t di Student
• Validità del t-di Student
Per applicare il test t , la cosiddetta omoschedasticità tra
due gruppi A e B è verificata con un test bilaterale, dove
l’ipotesi nulla e l’ipotesi alternativa sono:
H0  2 A =  2 B e
H1 2A  2B
Esistono vari test per verificare quella che si chiama
omoschedasticità bilaterale o unilaterale, in particolare
accenneremo solo al test F bilaterale
Silvia Capelli - Dottorato in Biologia
t di Student
•
Validità del t-di Student: test F
Il test F bilaterale è fondato sul rapporto tra la varianza
campionaria (S2) maggiore e quella minore:
2
F( n1 1 )( n2 1 )
S1

2
S2
Dove S21 è la varianza maggiore e S22 è quella minore
(F[1;)). Una volta calcolato il rapporto (che non sarà mai
1 perchè la stima delle due varianze campionarie non è mai
esatta) lo si confronta con una tabella di distribuzione F
relativa ai due g.d.l. (di solito entro a =0,05)
Silvia Capelli - Dottorato in Biologia
t di Student
•
Validità del t-di Student: test F
Solo se si dimostra che l’ipotesi nulla (2A = 2B) è vera,
ovvero i due gruppi hanno varianze statisticamente uguali,
posso usare il test t di Student per i due campioni
indipendenti.
NB: Sono costretto ad utilizzare un test di inferenza
statistica per verificare se 2A = 2B perchè non conosco
i valori reali delle varianze, ma solo i valori campionari.
Se avessi conosciuto i valori reali sarebbe bastato il
semplice confronto.
test F di Fisher e analisi della varianza
•
Confronto tra medie
Nel caso del confronto tra più medie non è corretto
ricorrere al test t di Student per ripetere l’analisi tante volte
quanti sono i possibili confronti a coppie tra i singoli
gruppi in quanto la probabilità a di commettere un errore
di I tipo (rifiutare Ho quando è vera) è valida SOLO per
ogni singolo confronto. Se i confronti sono numerosi
la probabilità complessiva di sbagliare rifiutando l’ipotesi
nulla diventa a’=1-(1-a)k con k numero dei confronti
effettuati ovvero aumenta col numero di confronti.
Silvia Capelli - Dottorato in Biologia
test F di Fisher e analisi della varianza
• Confronto tra medie
In questo caso si utilizza quindi un metodo detto di
analisi della varianza.
Abbiamo già introdotto un metodo di analisi della
varianza per il test di Student, ovvero il confronto tra le
varianze di due campioni a cui è applicato il test.
Per confrontare le due varianze abbiamo detto che si
effettua un test di Fisher, dato dal rapporto tra 21, la
varianza maggiore e 22 è quella minore. In seguito il
risultato viene confrontato con le tabelle del test di Fisher
tenendo conto dei gradi di libertà dei due campioni.
Silvia Capelli - Dottorato in Biologia
Facciamo il punto sui test...
-Test
del 2:
Si utilizza per:
• Confrontare distribuzione osservata e distribuzione attesa
• Confrontare 2 o più distribuzioni osservate
Condizioni di validità:
* è valido quando il numero totale di osservazioni > 100
* è meno attendibile, ed ha bisogno di una correzione (Yates)
per numero di osservazioni tra 30 e 100
* perde ogni attendibilità quando il numero totale di
osservazioni è < 30 e/o il numero di osservazioni attese entro
una o più classi < 5
Silvia Capelli - Dottorato in Biologia
Facciamo il punto sui test...
-Test t di Student:
Si utilizza per:
•Cfr la media di un campione e la media attesa
•Cfr un dato di un campione e la media del campione
•Cfr la media delle differenze di due campioni dipendenti con
una differenza media attesa
•Cfr le medie di due campioni indipendenti
Condizioni di validità:
* Si utilizza per piccoli campioni (decina o meno). Per n >40 diventa
equivalente allo Z test
* I dati entro e tra i campioni devono essere indipendenti
* Le varianze delle popolazioni da cui sono estratti i campioni a
confronto devono essere simili
* I dati (o gli scarti rispetto alla media) devono essere distribuiti in
modo normale (gaussiano)
Silvia Capelli - Dottorato in Biologia
Facciamo il punto sui test...
-Test F di Fisher:
Si utilizza per:
•Confrontare varianze campionarie
•Verificare la significatività di una regressione lineare
calcolata
•Confrontare più medie tra loro (analisi della varianza)
•
t
2
( n2)
 F (1,n2)
Condizioni di validità:
* I fattori non noti (non dovuti al trattamento effettuato sui
campioni) che determinano la differenza tra la media generale e la
media di ogni campione a confronto devono essere
indipendenti tra loro,
distribuiti normalemente,
* Le varianze dei vari gruppi devono essere omogenee
Silvia Capelli - Dottorato in Biologia
Scarica

Corso di biomatematica lezione 10: test di Student e test F