INTERPRETAZIONE DEI FENOMENI IN AMBITO
SANITARIO: DAL CAMPIONE ALLA POPOLAZIONE
ESERCITAZIONI DI INFERENZA
STATISTICA
Boscaro Gianni & Brugnaro Luca
FOCUS
SULLA RELAZIONE: ESEMPI
PRATICI

2
LA
DISTRIBUZIONE
IPOTESI





NORMALE
E IL TEST
Z:
INIZIALI
indipendenza
dei
dati
e
identicamente
distribuiti (iid), dipende dal disegno di
studio ;
distribuzione normale dei dati (vedi test
sulla normalità)
presenza solo di errori campionari (con
distribuzione pari ad una normale con media 0
e deviazione std. pari
)
assenza di errori sistematici
deviazione standard della distribuzione nota
pari a sigma
3
DISTRIBUZIONE
NORMALE
:
ESEMPIO1

La differenza osservata tra le due medie è
statisticamente significativa (alfa=0.01) ?
4
ESEMPIO 1:
SISTEMA DI
IPOTESI

5
ESEMPIO 1:
RISOLUZIONE E CALCOLI
sotto H0
Si respinge l’ipotesi nulla
6
SINTESI
DELLA PROCEDURA DELINEATA
7
ESEMPIO 1 :
CONCLUSIONE

Poiché il valore empirico di z = 3.85 > zc, con una
probabilità dell'1% di commettere un errore di I
tipo, si decide di respingere l'ipotesi nulla e di
concludere che le donne del campione appartengono
ad una popolazione con valori medi di glicemia
diversi dalla popolazione presa in esame.

Per una stima intervallare della media della
popolazione delle gravide padovane, considerando i
dati del campione estratto, si procede:
8
ESEMPIO 1:STIMA
INTERVALLARE
n=100 #numerosità del campione
> alfa=0.01
> p=1-alfa/2
> media_camp= 83.5
> z=qnorm(p)
> sigma=13.5 #se la varianza è conosciuta (requisito per il test)
> lim_inf=media_camp - z*sigma/sqrt(n)
> lim_sup= media_camp + z*sigma/sqrt(n)
> list(lim_inf,lim_sup)
[1] 80.02263 [2] 86.97737
Per calcolare la probabilità che si verifichi H0:
> pvalue= 2*pnorm(3.85,lower.tail=F) #ipotesi bilaterale
> pvalue
[1] 0.0001181178
9
ESEMPIO 2 :
IL T.TEST E LA
DISTRIBUZIONE DI
T
DI
STUDENT
o È simmetrica
o Per campioni elevati si approssima ad una
normale standard
o Media centrata sullo zero
o La curva si modifica secondo i df
10
STUDENT
o
o
o
o
o
T TEST:
IPOTESI
INIZIALI
indipendenza dei dati(dipende dal disegno di
studio)
distribuzione normale dei dati(vedi test sulla
normalità)
presenza di errori campionari
assenza di errori sistematici
deviazione standard della distribuzione della
popolazione ignota . E’ nota la varianza
campionaria corretta (s)
11
STUDENT T
TEST
Calcolo del t osservato
Calcolo del t osservato utilizzando R
t.test(dati1, (dati2 = può non esserci),
alternative = c("two.sided", "less", "greater"),
mu = 0, paired = FALSE, var.equal = FALSE,
conf.level = 0.95)
12
ESEMPIO 2 :
MASCHI VS FEMMINE

Immaginiamo di aver rilevato i voti degli assaggiatori di sesso diverso,
delle birre ottenute con un particolare tipo di malto. Si vuole
verificare se il giudizio medio degli assaggiatori
è
pari a 6 ( la
sufficienza) si ponga il livello di significatività pari al 5%,
supponendo che la varianza della popolazione non sia nota.

Inoltre, il responsabile del marketing vuole verificare se il
gradimento della birra non dipende dal sesso dell’assaggiatore. A tale
scopo si rilevano i seguenti giudizi per indirizzare la campagna
pubblicitaria.
#
01
02
03
04
05
06
07
08
09
10
A
7
8
9
8
9
7
6
7
8
5
S
m
m
m
f
f
f
f
m
m
m
Domanda 1
Domanda 2
Indicare un sistema di verifica di ipotesi
nel quale la media del gradimento della birra
tra gli uomini e maggiore rispetto alle donne
13
USO
DELLE TAVOLE
il valore critico di t si trova all’incrocio tra
la riga 10 e la colonna .025 (considerando i
valori
sotto
l’etichetta
«Ipotesi
bidirezionale»), si ricorda che la distribuzione
della t di Student è simmetrica, quindi i valori
positivi e negativi per uno stesso livello di
alfa
coincidono
nel
modulo
e
sono
solo
differenti nel segno).
14
SVILUPPO
E
CALCOLI
Media campionaria =
= 7,4
Varianza campionaria corretta=
Statistica
= 1,6
= 3,5
Dalle tavole Y~ t(9,0,025) = 2,262 ; Y~t(9,0,05)= 1,83
Commentare i risultati
15
CALCOLI
E SINTASSI CON
CREARE UN DATASET
R
>
>
>
>
S=factor(c("m","m","m","f","f","f","f","m","m","m"))
A=c(7,8,9,8,9,7,6,7,8,5)
birra2=data.frame(S,A)
birra2
S A
1 m 7
2 m 8
3 m 9
4 f 8
5 f 9
6 f 7
7 f 6
8 m 7
9 m 8
10 m 5
> boxplot(S,A)
> boxplot(A~S)
> t.test(A~S)
16
CALCOLI
CON
R
DOMANDA 1:
TEST AD UN CAMPIONE
> t.test(A,mu=6,alternative="greater")
One Sample t-test
data:
A
t = 3.5, df = 9, p-value = 0.003362
alternative hypothesis: true mean is greater than 6
95 percent confidence interval:
6.666755
Inf
sample estimates:
mean of x
7.4
sd=(sqrt(var(A)))
> x=mean(A)
> n=10
> mu=6
> toss=(x-mu)/(sd/sqrt(n))
> toss
[1] 3.5
17
CALCOLI
CON R
DOMANDA 2:
Welch Two Sample t-test
9

TEST A DUE CAMPIONI
A by s
t = 0.1954, df = 6.858, p-value =
0.8508
8
data:
95 percent confidence interval:
-1.859068
7
alternative hypothesis: true difference
in means is not equal to 0
2.192401
mean in group f mean in group m
7.333333
5
7.500000
6
sample estimates:
shapiro.test(A)
Shapiro-Wilk normality test
W = 0.9297, p-value = 0.4453
f
m
18
IN
TERMINI PRATICI…
Le tavole forniscono i quantili
 Si trovano fissando i gradi di libertà
e l’errore voluto
 Si utilizza con un campione ridotto e
conoscendo solo la varianza
campionaria S²

19
ESEMPIO 3 : IL CHISQ.TEST E LA
DISTRIBUZIONE CHI-QUADRO DI PEARSON
chisq.test permette di verificare se vi è
indipendenza tra la variabile identificata sulle
righe e quella sulle colonne di una tabella di
contingenza (num_righe*num_colonne).
I gradi di libertà del test sono pari a
(num_righe –1)*(num_colonne -1).
Il test richiede l’indipendenza dei dati ma nessuna
particolarità sul tipo di distribuzione dei dati.
In R: chisq.test(x)
Dove x è una tabella di contingenza (le distribuzioni
congiunte delle due variabili)
20
Χ² DI
PEARSON

21
ESEMPIO 3:
LA SCOPERTA DEL SECOLO
Si ipotizza che l’assunzione regolare di vitamina C possa
ridurre il rischio di contrarre l’influenza. Per un anno,
regolarmente a un gruppo di individui di un campione
randomizzato a triplo cieco viene somministrata la Vitamina
C e alla parte restante un Placebo.
I soggetti vengono dunque seguiti per un anno e alla fine
si chiede a ciascuno se hanno contratto l’influenza
(modalità = si o no ).
Si riportano nella tabella "esperimento" i dati aggregati.
esperimento=matrix(c(116,24,115,24),nr=2,dimnames=list(i
nfluenza=c("si","no"),trattamento=c("si","no")))
> esperimento
influenza
trattamento
placebo
vit C
NO
116
115
231
SI
24
24
48
tot
140
tot
139
279
22
COME
PROCEDERE
Costruire il sistema di ipotesi concettuale
 Tabella frequenze attese
 Calcolo del χ² di Pearson
 Confronto con il valore critico
 conclusione

23
COSTRUIRE
IL
SISTEMA
DI IPOTESI
l’assunzione regolare di vitamina C può
ridurre
il
rischio
di
contrarre
l’influenza ?
l’ipotesi H0 :le variabili sono
indipendenti
 l’ipotesi H1 : vi è qualche forma di
relazione tra le variabili

24
gradi di libertà (n-1)(c-1)
il ricercatore ha fissato un valore di alfa pari a .05 formulando un’ipotesi
Abbiamo quindi un sistema di ipotesi dove:
H0 : indipendenza stocastica
H1: relazione tra le variabili
25
TABELLA

DELLE FREQUENZE
«ATTESE»
Le frequenze attese sono quei valori che ci
aspetteremo nella ipotesi della indipendenza
«Stocastica».
trattamento
trattamento
influenza
influenza
placebo
vit C
NO
116
115
231
SI
24
24
tot
140
placebo
vit C
NO
115,914
115,086
231
48
SI
24,08602
23,91398
48
279
tot
tot
139
140
tot
139
=
279
0,0007446
26
…….ANCORA
CALCOLI
chisq.test(esperimento)$expected
trattamento
influenza
si
no
si 115.91398 115.08602
no
24.08602
23.91398
> chisq.test(esperimento)
Pearson's Chi-squared test with Yates' continuity correction
data:
esperimento
X-squared = 0, df = 1, p-value = 1
> chisq.test(esperimento,correct=F)
Pearson's Chi-squared test
data:
esperimento
X-squared = 7e-04, df = 1, p-value = 0.9782
27
CONCLUSIONI




fissato un alfa (usualmente 0.05)
verifico il p-value rispetto a questo alfa
se p-value >= alfa: accetto l’ipotesi H0 (le
variabili sono indipendenti)
se p-value < alfa: accetto l’ipotesi H1 (vi è
qualche forma di relazione tra le variabili)
Quali conclusioni possiamo
trarre dai risultati ottenuti ?
28
Grazie per
l’attenzione
29
Scarica

Diapositiva 1 - Brugnaro Luca