Università degli Studi di Pisa
Facoltà di Scienze matematiche fisiche e naturali
Anno Accademico 2011-12
Biostatistica
(SECS-S/02 )
STATISTICA PER LA RICERCA
SPERIMENTALE E
TECNOLOGICA
Incontro 5
21 Ottobre 2011
Esempio(Contenuto di cloro nell’acqua)
• Qual è la probabilità che, da un pozzo con un contenuto medio di
cloro pari a 1 meq (milli-equivalente ) l-1, eseguendo l’analisi con
uno strumento caratterizzato da un coefficiente di variabilità pari
al 4%, si ottenga una misura pari o superiore a 1.1 meq l-1?
• E’ possibile che questa misura sia stata ottenuta casualmente,
oppure è successo qualcosa di strano (errore nell’analisi o
inquinamento del pozzo)?
• Questo problema può essere risolto immaginando che se è vero
che il pozzo ha un contenuto medio di 1 meq l-1 i contenuti di cloro
dei campioni estratti da questo pozzo dovrebbero essere distribuiti
normalmente, con media pari ad 1 e deviazione standard pari a
0.04 (si ricordi la definizione di coefficiente di variabilità). Qual
è la probabilità di estrarre da questa popolazione una misura
pari superiore a 1.1 meq l-1?
X  N (   1,   0.04)
P( X  1.1)  1  P( X  1.1)  0.006209
Esempio(Distribuzione Normale)
Pr( X  x)  0.90  x  1.051262   (0.90)
Pr( X  x)  0.70  x  0.979024   (0.30)
• Nello stesso strumento dell’esercizio precedente e considerando lo stesso
x1  X  x2 )  0.95 
tipo di analisi,Pr(
calcolare:
 1 - la probabilità
inferiore a 0.75
 x1di ottenere
 (0.025)una misura
0.9216014
 2 - la probabilità di ottenere una misura superiore a 1.5
 x 2   (0.975)  1.078399
 3 - la probabilità di ottenere una misura compresa tra 0.95 e 1.05
• Stabilire inoltre:
– 1 - la misura che è superiore al 90% di quelle possibili
– 2 - la misura che è inferiore al 70% di quelle possibili
– 3 - le misure entro le quali si trova il 95% delle misure possibili
Pr( X  0.75)  2.05 * e - 10
Pr( X  1.5)  3.73 * e - 36
Pr(0.95  X  1.05)  0.788
Esempio : Indagine su neonati(Distribuzione Normale)
•
•
•
Da un’indagine svolta su un campione di neonati ,il peso alla nascita è risultato avere media
pari a 3.2 kg con σ di 0.6 kg.
Ciò significa che nella popolazione il 68% circa dei neonati ha un peso tra 2.6 e 3.8 kg ,il
95% ha un peso tra 2 e 4.4 kg e meno dell’1% ha peso maggiore di 5 o minore di 1.4 kg.
Ci si chiede:
– In un campione di 1000 nati ,quanti sono attesi avere un peso compreso tra 3.5 e 3.7 kg?
– Considerando i pesi medi rilevati su 20 nati in 1000 ospedali ,in quanti casi è attesa una
media compresa tra 3.5 e 3.7?
P(3x.5 3.2 X  3.7) 
 0.6 X  
 x3.5 

 0.1342
3. 7   
 P n 20




 
P (3.5  X  3.7) 
x  
3.7  3x .7  3.2 
 33..55 3x .2 X X
 

P

 P  




x 
x
 0.6
  0x.6

3.7  3.2 
 3.5  3.2

P

Z

 P0 .05.1342
 Z  0.820.1342
 P(Z  0.82)  P( Z  0.5) 



0 .P3085
 0.1053
2.23610Z.2032
 3.7268
P( Z  3. .7268)  P ( Z  2.2361) 
 0.0128  0.0001  0.0127
1000
* 0.1053  105.3
 
Altre distribuzioni collegate alla normale
  2
• 2Le distribuzione dei quadrati di variabili casuali Normali Standard è detta
distribuzione χ2 (chi-quadrato) con 1 grado di libertà.
• z2~χ21
2
2 di n VC normali standard indipendenti è distribuita
• La somma dei quadrati
come2una χ2 con n 1gradi di libertà.
(x  )



1 ~  1

(
x


)
2
2
è continua2e può assumere
  valori
E ( distribuzione
 soltanto
 1 positivi: se il
Questa
1 )  E
2
 è piccolo la distribuzione

numero dei gradi 
di libertà
è molto asimmetrica
mentre tende alla simmetria in modo proporzionale all’aumento dei gradi
2 di χ sono rispettivamente
2
di libertà. La media e la varianza della VC
pari
(
x


)
(
x


)
2numero 2dei gradi 2di libertà 1ν e al doppio dello stesso
2 numero 2 ν.
al
 1  1   2 

2
2
2
2
z
2
n
2


2
2

( x1   ) ( x2   ) 
2
  1  1  2
E (  2 )  E 

2
2

 

Distribuzione χ2 con v gdl
• Per un campione di v osservazioni :

2
v
(x


i
 )
2
2

1
2
dove
xi ~ N( ,  )
2
 ( xi   ) 
2
zi  
 ~ 1 .
 

2
2
(
x


)
 i
Distribuzione χ2 con v gdl(2)
• Allora :
n
n
n





E  ( zi  z ) 2    E ( zi  z ) 2    E ( z i2  2 z z i  z 2 ) 
 i 1
  i 1
  i 1

dove
2


  zi 
2
n
1 
1  n 2


2
i 1


z 
 2   zi   2   zi   2 zi z j 
 n 
n  i 1 
n  i 1





n
• Essendo E(zizj)=0 per l’indipendenza degli xi,segue che :
E(z )  E(
2
2
z
i
n
2
n 1
) 2 
n
n
Distribuzione χ2 con v gdl(3)
• Per lo stesso motivo :
 z   1

E zz i  E z i

Quindi
 

i
n 
n

1 2
E  ( zi  z )   (1   )  n  1
n n
2
2
(
x

x
)
SS
(
x
)
(
n

1
)
s

i
2
2
(
z

z
)





 i
n 1
2
2
2
2



Distribuzione χ2
0.10
0.05
0.00
Frequenza
0.15
0.20
0.25
Distribuzione chi-quadrato gradi di libertà=c(3,10,20)
0
5
10
Variabile
15
20
Distribuzione di Fisher
• Rapporto di 2 funzioni determinate su campioni indipendenti
 v21 2
 v21 2
2

v1 
v1 v 2

 F (v1, v 2)
2
2
2
2
2
 v 2
v1  v 2
v1  v 2
v2
v2
• La funzione è asimmetrica ,al tendere di v2 all’infinito la
distribuzione converge a
 v21 2
v1
Inoltre

s
n2  1

 Fn1 1,n2 1
2
s
n1  1  n2 1
2
1
2
2
2
n1 1
Distribuzione Fisher
gdl=(3,4) red line
gdl=(10,20) blue line
0.6
0.4
0.2
0.0
Frequenza
0.8
1.0
Distribuzione Fisher
0.0
0.2
0.4
0.6
Variabile
0.8
1.0
Distribuzione t di student (Fisher con v1=1)
 v21 2
1
 
2
v2
2

12 2
1
12 v 2
2


F
(
1
,
v
2
)

t
v
 v22 2
1  v22
v2
2
v2
Indipenden za :
2
(
x

x
)
 i
2
  n21
e
n( x   ) 2
2
 12
allora
n( x   ) 2
1
n 1
n( x   ) 2
2


F

t
1, n 1
n 1
2
2
s
 ( xi  x )
t-student (gdl 2(red),10(blue),40(green))
0.3
0.2
0.1
0.0
Frequenza
0.4
0.5
Distribuzione t-student
-10
-5
0
Variabile
5
10
Distribuzione degli scarti standardizzati
z
(x  )

 N (0,1)
n
(x  )
 t n 1
s
n
Intervalli di confidenza
• Introduzione
• Intervalli di confidenza di una media nota la
varianza di popolazione
• Intervallo di confidenza di una media con
varianza di popolazione incognita
• Intervallo di confidenza di una proporzione
• Intervalli di confidenza della varianza ,nel caso
in cui si assume che la popolazione è distribuita
normalmente
• Intervalli di confidenza ed ampiezza campionaria
Introduzione
• La media campionaria è una stima puntuale di μ(la media
campionaria è inoltre uno stimatore corretto della media di
popolazione );essa è funzione dei dati campionari ed è quindi una
variabile casuale e può quindi variare a seconda del campione
estratto ,ovvero è affetta da errore
x e  
• La stima puntuale(es:media campionaria ) non dà
una valutazione probabilistica su quanto il valore
stimato sia più o meno vicino al vero valore del
parametro incognito (es:media di popolazione )
• La stima intervallare ci informa non solo sul valore
numerico del parametro incognito (media
campionaria) ,ma anche sulla sua attendibilità ,in
termini di probabilità.
Intervallo di confidenza della media nota la varianza(1)
• Si assume nota la varianza di popolazione σ2 .
• Si fissa il grado di fiducia (o di confidenza ) (1-α) con
0<α<1 da dare all’intervallo di comprendere il valore vero
μ.(Esempio : (1- α)=0.95 ; α=0.05 vuol dire che su un
gran numero di prove ci si attende che la stima risulti
corretta il 95% delle volte; dove per corretta si intende
che l’intervallo contenga davvero il parametro μ.
• Si considera un campione estratto da una popolazione
Normale di cui si conosce la varianza ma non la media
e si calcola la media campionaria .
• La media campionaria si distribuisce come una
Normale di media pari a μ e varianza σ2 /n.
Intervallo di confidenza della media nota la varianza(2)
0.15
Distr. media camp. e Int. Conf. 95%
0.10
0.05
(1-α)=0.95
α/2=0.025
α/2=0.025
0.00
f(media campionaria)
E(media camp)=μ
Limite Inferiore
80
85
90
l1    1.96 * x
95
Limite Superiore
100
x
105
110
115
l2    1.96 * x
Intervallo di confidenza della media nota la varianza(3)
2



X 
2


X  N ( , )  X  N   ,  
 N (0,1)
2
n 


n




X 


Pr zlow 
 zup   (1   )  0.95
2



n


zlow  1.96 zup  1.96

 

P x  z / 2
   x  z / 2
  0.95
n
n

z / 2  1.96
Intervalli di confidenza di una media con varianza incognita
• Se σ è incognita ,oltre a stimare μ tramite la media campionaria , è
necessario stimare σ2 tramite s2(la varianza campionaria corretta)
n
s2 
2
)
x

x
(
 i
i 1
(n  1)
x
t
sx
con
  x  t
sx
2
, n 1
sx 
s2
n
• In questo caso si adotta come distribuzione di riferimento la t-Student
con (n-1) gradi di libertà.
Esempio:Int. Conf. 95% per la media con varianza incognita
Altezze in centimetri di 5 piantine di mais:24,26,30,28,32.
x  26
s  40 / 4  10
2
s  3.16
s x  1.41
  x  t
2
, n 1
s x  26  2.776 *1.41
IC95% (  )  [22.07 29.92]
Esempio:IC per media di variabili di conteggio(Poisson)
• Una sospensione
batterica viene trattata
con un mutageno ;un
ugual volume di
sospensione viene poi
seminato su 10 piastre
contenenti un terreno
selettivo adatto ad
evidenziare la presenza
di mutanti;si procede al
conteggio del numero di
colonie mutanti presenti
su ogni piastra.
Numero
Piastre
Numero
Mutanti
1
2
3
4
5
6
7
8
9
10
5
3
7
8
3
2
2
0
1
1
Esempio:IC per media di variabili di conteggio(Poisson)(2)
• Il numero medio di mutanti è 32/10=3.2.
• I livelli di confidenza della media di un conteggio possono essere
calcolati tramite la distribuzione di Poisson.
• Si approssima la distribuzione di Poisson a quella Normale
ricordando che per la Poisson media = varianza :
X  N (  X ,  X )  N (3.2;3.2 / 10)
2
  x  z  X  3.2  1.96 *1.11
2
X 
x
n
llow  2.09 lup  4.31
Intervalli di confidenza di una proporzione
• Si estrae un campione per conoscere il vero valore della proporzione
di una popolazione dicotomica.
• Se si assume la normalità della distribuzione (anche se il processo è
di tipo binomiale e la distribuzione potrebbe essere asimmetrica ) si
può sostituire alla varianza la stima binomiale della varianza
~
  np(1  p)
• Se n è grande l’asimmetria e la discontinuità dovuta al
processo binomiale discreto di fondo sono trascurabili.
Caso 1 :Int. Conf. Proporzione
• La numerosità campionaria n è grande,con proporzione di
popolazione π=0.5.
• Si può assumere la normalità e ottenere gli intervalli di
confidenza per il numero di successi e la proporzione degli
stessi rispettivamente dalle formule seguenti:
n  np  z np(1  p)
2
  p  z
2
p(1  p)
n
Esempio(Caso 1)
• In un campione di 100 piantine,20 hanno il fiore bianco.
• n=100 ; p=0.2 ; (1-p)=0.8 ; α=0.05 .
• L’intervallo di confidenza per il numero di piantine con
fiore bianco e per la sua proporzione può essere così
ottenuto:
n  np  z np(1  p)  20  1.96 16  20  7.84
2
l1  12.16 l2  27.84
  p  z
2
p(1  p)
0.16
 0.2  1.96
 0.2  0.0764
n
100
l1  0.1216 l2  0.2784
Caso 2 :Int. Conf. Proporzione
• La numerosità campionaria n non è grande,con proporzione di
popolazione π≠0.5.Non si può assumere la normalità ,ma resta vero il
processo binomiale di fondo.
• Il problema si risolve considerando π come incognita dell’equazione da
risolvere:gli intervalli non sono simmetrici.
n  np  z  np (1  p )
2
( p  )
 (1   )
z  1.96 

z  ( p  ) 
n
 (1   )
n
  1, 2
1 
z2
z 2 

np   z np (1  p ) 
2 
n z 
2
4 
Esempio:Grandi Magazzini
•
Su 20 persone a caso in un grande magazzino ,4 dichiarano di preferire una
certa marca di prodotti rispetto alle altre.La precisione della stima puntuale
della proporzione 4/20=0.20 può essere valutata mediante l’intervallo di
confidenza( 95%) ;poiché n non è grande e p≠0.5 ,la procedura adatta è la
seguente:
( p  )
(0.2   )
z  1.96 


 (1   )
 (1   )
n
20
  1, 2
2
2

1
(
1
.
96
)
(
1
.
96
)
 0.2 

 (1.96) 20(0.16) 
2 
10  (1.96) 
2
4
 1  0.081  2  0.416




Caso 3: n piccolo e π≠0.5 (IC 95% proporzione )
• Esempi in biologia : incidenza di una malattia rara,la
frequenza di mutazione indotta ,la mortalità dopo un
certo tipo di intervento chirurgico.
• Bisogna adottare la distribuzione esatta ed applicare
direttamente il criterio di stima dell’intervallo di
confidenza :un valore di π è accettabile se la
proporzione osservata fa parte dei valori che possono
essere ottenuti con un scostamento casuale pari al livelli
di significatività scelto.
Procedura
1) si considera una proporzione teorica π
2) si calcola la distribuzione binomiale definita da n e π teorico
3) si isolano le code della stessa distribuzione che comprendono il livello di
significatività scelto(es. alfa=0.05)
4)si verifica se la combinazione osservata cade nelle code oppure nella regione
centrale
Intervallo di confidenza di una varianza(per popolazione
distribuita normalmente)
• Esempio:precisione di uno strumento di misura,la variabilità di una
caratteristica nella popolazione .
• Se la popolazione è distribuita normalmente il calcolo dell’intervallo
di confidenza per la varianza avviene tramite la distribuzione χ2.
s 2 (n  1)
2
  (2n 1)
 2

s 2 (n  1)
2
  (1   )  0.95
Pr  

 
2
,( n 1) 

2
 1 2 ,( n 1)

2
s 2 (n  1)
s
(n  1)
2



2
2

2
,( n 1)
s 2 (n  1)

2
2
,( n 1)

 

1 ,( n 1)
2
s 2 (n  1)
2 
1 ,( n 1)
2
Esempio(IC per la varianza )
• Si desidera conoscere l’IC della varianza relativo al livello di amilasi
serica,disponendo delle determinazioni effettuate su 15 pazienti.
s  1225
2
s  35

2
0.025,14
 26.119

2
0.925,14
 5.629
(1225)(14)
(1225)(14)
2
 
26.119
5.629
IC e dimensione campionaria
• In un campione di 10 individui sani è stata misurata la glicemia .La
media è risultata pari a 80 mg di glucosio/100 ml di sangue.
• Essendo s=15
15
  80  t9
 80  10.9
10
l1  69.1 l2  90.2
• Volendo ottenere un grdo di precisione maggiore,ad esempio la
metà di quello ottenuto in precedenza ,quante osservazioni si
rendono necessarie? (escursione=5 invece di 10.9; t=2)
2
15
 15 * 2 
t
e t 2 n
  36
n
 5 
Grazie per l’attenzione
Scarica

Intervalli di confidenza