Corso di biomatematica lezione 9:
test di Student
Silvia Capelli
Sommario
•Distribuzione di Student
•Media osservata e attesa
•Medie di due campioni
•Test F
t di Student
• La distribuzione t di Student
Abbiamo già incontrato la distribuzione t di Student come
distribuzione campionaria diversa dalla distribuzione
normale Z ed espressa dalla formula
t

x m
 
Vedremo ora come questa distribuzione, che tiene conto oltre
che della variazione della media di un campionamento,
anche derlla variazione della deviazione standard, e possa
essere applicata a piccoli campioni anche con meno di una
decina di osservazioni
Silvia Capelli - Dottorato in Biologia
t di Student
• La distribuzione t di Student
La forma della distribuzione t di Student è a campana con
una dispersione maggiore rispetto alla gaussiana
standardizzata, ed esiste un’intera gfamiglia di distribuzioni t
in funzione dei gradi di libertà (la distribuzione normale
rapresenta una t quando i g.d.l. aumentano…).
Valori critici: per l’area in una coda alla probabilità a
coinicidono con quelli a probabilità 2a nella distribuzione a
due code e viceversa.
Con il t di student calcolerò un intervallo fiduciale!
Silvia Capelli - Dottorato in Biologia
t di Student
• La distribuzione t di Student
Condizioni di validità:
1. Distribuzione di dati normale
2. Osservazioni indipendenti
La t di Student è robusta, ovvero vale anche per una serie di
dati che devia dalla normalità..
Applicazioni per il confronto tra:
1. Media campione e media universo
2. Singolo dato e media di un campione
3. Media delle differenze di due campioni dipendenti con
differenza attesa
4. Media di due campioni indipendenti
Silvia Capelli - Dottorato in Biologia
t di Student
• Media osservava e media attesa
La t di Student con n-1 g.d.l. è data da
t
( n 1)
x

m

 n
Con m valore atteso e  n errore standard, n numero di
dati e  la deviazione standard calcolata sui dati del
ampione.
Silvia Capelli - Dottorato in Biologia
t di Student
• Media osservava e media attesa -ipotesi
Per verificare l’ipotesi relativa alla media nel caso di un test
bilaterale avremo:
• Ipotesi alternativa H1 :m  m0
• Ipotesi nulla H0 :m = m0
Mentre nel caso di un test unilaterale l’ipotesi relativa alla
media nel caso di un test bilaterale avremo:
• Ipotesi alternativa H1 :m < (>) m0
• Ipotesi nulla H0 :m  () m0
Per verificare se la media è significativamente inferiore a
quella attesa
Silvia Capelli - Dottorato in Biologia
t di Student
• Media osservava e media attesa -ipotesi
Quindi dalla formula per la differenza tra media attesa e
campionaria avremo
t
( n 1)
x  m0

 n
E da questo posso stimare l’intervallo fiduciale (o intervallo
di confidenza) entro il quale è compresa la media reale della
popolazione da cui ho estratto il campione (prob a/2).
m  x t
a
( , n 1)
2

n
Silvia Capelli - Dottorato in Biologia
t di Student
• Media osservava e media attesa - esempio
Abbiamo un vivaio con pianticelle di tipo A, che dopo due
mesi raggiungono un’altezza media di 25 cm (m0), nel
terreno vengono versate sostanze tossiche e per verificare
l’incidenza negativa sulla crescita delle piante ne vengono
seminate 7 che dopo 2 mesi raggiungono le altezze di
22,25, 21,23,24,25,21 cm
Voglio sapere:
1. Le sostanze tossiche inibiscono la crescita?
2. Qual è la media reale dell’altezza delle piante nel nuovo
terreno?
Silvia Capelli - Dottorato in Biologia
t di Student
• Media osservava e media attesa - esempio
• Le sostanze tossiche inibiscono la crescita?
Questo è un test ad una coda con
1. Ipotesi alternativa H1 :m < m0
2. Ipotesi nulla H0 :m  m0
Il test ovviamente assume significato solo se la media
campionaria assume valore minore della media attesa m0, e
serve per verificare se la differenza sia casuale o significativa
Scegliamo una probabilità a =0,05
Silvia Capelli - Dottorato in Biologia
t di Student
• Media osservava e media attesa - esempio
Avremo dunque la formula
t
( n 1)
x  m0

 n
Con i nostri 7 dati abbiamo
X =23,0
 =1,732
t0,025;6 =2,447
n=7
m0=25
Silvia Capelli - Dottorato in Biologia
t di Student
• Media osservava e media attesa - esempio
Ed il calcolo di t con 6 g.d.l. mi dà
23,0 25,0
t 
1,732 7
(6)
Cioè t(6) =-3,053
Dove il segno meno indica solamente che la differenza è
negativa rispetto al valore atteso. Per la significatività prendo
il modulo.
Per il test ad una coda abbiamo con a =0,05
t0,05;6 =1,943
Accetto dunque H1 e rifiuto H0 con il 5% di prob. di errore
Silvia Capelli - Dottorato in Biologia
t di Student
•
•
Media osservava e media attesa - esempio
Qual è la media reale dell’altezza delle piante nel nuovo
terreno?
L’altezza media reale può essere stimata tramite l’intervallo
di confidenza, ovvero
m  x t
a
( , n 1)
2

n
Prendendo i dati del nostro campione con la probabilità
associata ad a =0,05 per un test a due code t0,025;6 =2,447
m  23 2,447 1,732 7  231,602
Cioè l1= 21,398 e l2= 24,602
Silvia Capelli - Dottorato in Biologia
t di Student
• Media osservava e media attesa una o due code?
Resta da sottolineare che se voglio solamente evidenziare una
differenza tra due medie (di cui una attesa) dovrò effettuare
un test a due code (come nel caso precedente in cui ad
esempio voglio considerare che le piante subiscono una
mutazione ma non so se le piante saranno più alte o più
basse a priori..)
Invece una volta che si vada a stimare un intervallo fiduciale
posso effettuare un test a due code (ovvero andro’ a leggere I
corrisponenti valori nelle tabelle di test bilaterale), con
probabilità ad esempio a =0,01 oppure un test ad una coda
(tabelle unilaterali) con probabilità a =0,005 (a/2)
Silvia Capelli - Dottorato in Biologia
t di Student
• Confronto una misura e media di un campione
Voglio ora stabilire se una misura (per ragioni non note) si
possa considerare errata. Questo può essere effettuatro con
un test unilaterale o bilaterale a seconda delle ipotesi
mediante la formula:
t
( nA1)

x  xA
1

n
 n
1
2
A
A
A
Con nA numero di oservazioni del campione, x1 misura da
verificare, xA,media del campione 2A misura varianza del
campione A
Silvia Capelli - Dottorato in Biologia
t di Student
• Confronto una misura e media di un campione
Ad esempio voglio “rigettare” una misura (x1 =49,7) nel
campione A=(40,3 - 38,8 – 33,5 – 38,6 – 31,9 – 37,6)
Dove nA =6, xA= 36,873, 2A=12,206, ottenendo
t
( 5)
 3,42
Ora dalle tabelle per il test bilaterale abbiamo i valori critici
2,571 per a =0,05
4,032 per a =0,01
Mentre il test unilaterale dà
3,365 per a =0,01
5,893 per a =0,001
Rifuto l’ipotesi nulla con a tra 0,05 e 0,01 (0,01 e 0,001 uni)
Silvia Capelli - Dottorato in Biologia
t di Student
• Confronto le medie di due campioni
Posso derivare la distribuzione t di Student dal rapporto tra
la differenza delle due medie campionarie ed il suo errore
standard, ovvero
diff _ 2 _ medie
t
errore _ std _ diff _ 2 _ medie
Dove nell’ipotesi nulla H0 le due medie sono identiche,
Ovvero m1 = m2 oppure m1 - m2 =0
Silvia Capelli - Dottorato in Biologia
t di Student
• Confronto le medie di due campioni DIPENDENTI
Se ho due campioni dipendenti, posso accoppiare ogni
osservazione di un campione con UNA ed UNA SOLA
osservazione dell’altro (senza entrare nello specifico
dell’appaiamento).
L’analisi dunque è applicata ad una nuova serie di dati,
risultanti dalle differenze tra gli elementi di ciascuna coppia.
Per il test di Student bilaterale, abbiamo
H0 : d =0 mentre H1 : d  0
Il test unilaterale invece è
H0 : d < (>) 0 mentre H1 : d  () 0
Silvia Capelli - Dottorato in Biologia
t di Student
• Confronto le medie di due campioni DIPENDENTI
La significatività della media delle differenze viene verificata
con:
d d
t
( n 1)

m
d
n
Dove dm è la media delle differenze, è la media attesa (spesso
ma non sempre 0), n è il numero di differenze e d è la
deviazione standard delle differenze.
L’intervallo di confidenza entro cui è compresa la media
reale d è
d d m  t
a
( , n 1)
2

d
Silvia Capelli - Dottorato in Biologia
n
t di Student
• Confronto le medie di due campioni INDIPENDENTI
In questo caso aumenta la variabilità tra I due gruppi, ovvero
potrò
1. Utilizzare numero diverso di osservazioni
2. Avere dati che sono variabili casualmente
3. Confrontare il proprio campione con quello raccolto da
altri
Nel caso di due campioni indipendenti i calcoli per il test di
significatività vengono effettuati sulle due serie di
osservazioni
Silvia Capelli - Dottorato in Biologia
t di Student
• Confronto le medie di due campioni INDIPENDENTI
Nel caso di un test bilaterale l’ipotesi nulla H0 è che i due
campioni A e B siano estratti dalla stessa popolazione o da
due popolazioni diverse ma con media m uguale
le due medie sono identiche, ovvero
mA = mB oppure mA - mB =0
L’ipotesi alternativa H1 sarà
mA  mB oppure mA - mB  0
Mentre nel test unilaterale avremo
H0 mA  () mB oppure mA - mB  () 0
H1 mA < (>) mB oppure mA - mB <(>) 0
Silvia Capelli - Dottorato in Biologia
t di Student
• Confronto le medie di due campioni INDIPENDENTI
Per due campioni indipendenti i gradi di libertà di t sono dati
da (nA-1) + (nB-1) =(nA+ nB-2) =(N-2)
Il valore di t è ottenuto così:
t
( nA nB  2 )

 xA


 xB   m A 

2  1
1
 P   n  n 
B
 A
mB


Con xAe xB medie dei due campioni, mA+ mb medie attese
nAe nB numero di osservazioni e 2p è la varianza pooled
Silvia Capelli - Dottorato in Biologia
t di Student
• Confronto le medie di due campioni INDIPENDENTI
2p la varianza pooled è in pratica una varianza media
ponderata calcolata a partire dalle due devianze e dai loro
g.d.l. ed è data dalla formula:

i1  x Ai

nA
S
2
p
2
  nB 
 x A  i1  xBi
n A  1  nB  1

 xB 
2
Questo test si può quindi applicare anche ai risultati di due
ricercatori diversi (che saranno ora A e B), al patto di
disporre dei dati, delle rispettive varianze, e delle medie
Silvia Capelli - Dottorato in Biologia
t di Student
• Validità del t-di Student
Le assunzioni per la validità del test di Student sono
essenzialmente tre:
1. Indipendenza dei dati entro i campioni
2. Omogeneità della varianza
3. Dati (o scarti rispetto alla media) distribuiti normalmente
E’ importante soprattutto che le varianze dei due campioni
siano statisticamente uguali.
Infatti la varianza pooled 2p che è una quantità
fondamentale ha significato solo se è rappresentativa delle
varianze di ogni gruppo.
Silvia Capelli - Dottorato in Biologia
t di Student
• Validità del t-di Student
Per applicare il test t , la cosiddetta omoschedasticitrà tra due
gruppi A e B è verificata con un test bilaterale, dove làipotesi
nulla e l’ipotesi alternativa sono:
H0  2 A =  2 B e
H1 2A  2B
Esistono vari test per verificare quella che si chiama
omoschedasticità bilaterale o unilaterale, in particolare
accenneremo solo al test F bilaterale
Silvia Capelli - Dottorato in Biologia
t di Student
• Validità del t-di Student: test F
Il test F bilaterale è fondato sul rapporto tra la varianza
campionaria (2) maggiore e quella minore:
F( n1 1)( n2 1)

 1
2
2
2
Dove 21 è la varianza maggiore e 22 è quella minore
(e ovviamente i rispettivi numeri di dati). Una volta calcolato
il rapporto (che non sarà mai 1) lo si confronta con una
tabella di distribuzione F relativa ai due g.d.l. (di solito entro
a =0,05)
Silvia Capelli - Dottorato in Biologia
Scarica

document