Università degli Studi di Pisa
Facoltà di Scienze matematiche fisiche e naturali
Anno Accademico 2011-12
Biostatistica
(SECS-S/02 )
STATISTICA PER LA RICERCA
SPERIMENTALE E
TECNOLOGICA
Incontro 5
21 Ottobre 2011
Esempio(Distribuzione campionaria)
• Si considerano 2 popolazione costituite dalle v.c :
2
3
4
5
1
A: 
0.2 0.2 0.2 0.2 0.2
2
3
4
5
1
B:
0.4 0.2 0.2 0.1 0.1
 A  3  A  2  B  2.3  B  1.81
2
2
Distribuzione campionaria
Possibili campioni
per n=2
Prob.
Estrazione A
Prob.
Estrazione B
Medie
Varianze
(1,1)
(1,2)
(1,3)
(1,4)
(1,5)
(2,1)
(2,2)
(2,3)
(2,4)
(2,5)
…
…
(5,5)
0.20*0.20=0.04
0.4*0.4=0.16
(1+1)/2=1
[(1-1)2+(1-1)2]/2=0
0.04
0.04
0.04
0.04
0.04
0.04
0.04
0.04
0.04
….
….
0.04
0.4*0.2=0.08
(1+2)/2=1.5
0.08
0.04
0.04
0.08
0.04
0.04
0.02
0.04
….
….
0.01
2
2.5
3
1.5
2
2.5
3
3.5
…..
…..
5
0.25
1
2.25
4
0.25
0
0.25
1
2.25
….
….
0
Distribuzione campionaria
1. 5
2
2.5
3
3. 5
4
4.5
5
 1
xA  
0.04 0.08 0.12 0.16 0.20 0.16 0.12 0.08 0.04
1.5
2
2.5
3
3.5
4
4.5
5
 1
xB  
0.16 0.16 0.20 0.16 0.16 0.08 0.05 0.02 0.01
0.25
1
2.25
4
 0
VarA  
0.20 0.32 0.24 0.16 0.08
0.25
1
2.25
4
 0
VarB  
0.26 0.30 0.24 0.12 0.08
Medie e varianze delle distribuzioni campionarie
E( xA )  3   A
E ( xB )  2.3   B
E (VarA )  1   A  2
2
E (VarB )  0.905   B  1.81
2
Le varianze campionarie non coincidono con quelle di popolazione ,
ma sono ad esse funzionalmente legate:valgono esattamente la metà !
Media e varianza campionaria
 n 
  xi 
n
1

 1
i 1


E(x)  E
  E ( xi )   n X   X
 n  n 
i 1
 n




 n 
  xi 
1 n
n 2  2
i 1


Var ( x )  Var
 2  Var ( xi )  2 
 n  n i 1
n
n




 x  Var ( x ) 
x
n
La media campionaria è uno stimatore non distorto della media di una popolazione.
Si noti che tale risultato vale se le osservazioni sono tra loro indipendenti,come
nel caso del campione casuale semplice.
Varianza campionaria corretta s2
 n
2 
(
x

x
)
(
x

x
)




i
i
n
1

2
2
2
i 1
i 1


s 
; E (s )  E

E   ( xi  x )    2
 n  1  n  1  i 1
n 1





Infatti :
n
2
 n
 n
2
2
n  E   ( xi   )   E   ( xi  x  x   )  
 i 1

 i 1

n
n
 n

2
2
 E   ( xi  x )   ( x   )  2( x   ) ( xi  x )  
i 1
i 1
 i 1

2
2
 n
 n
2
2
2
2
2
 E   ( xi  x )   n  nE{( x   ) }  E   ( xi  x )   n  n   2 (n  1)
n
 i 1

 i 1

La varianza campionaria corretta è quindi uno stimatore corretto
della varianza di popolazione
Campionamento da una popolazione binomiale o di Bernoulli
• Estrazione casuale semplice da popolazione infinita con eventi
indipendenti(il verificarsi dell’evento non modifica quindi la
probabilità degli eventi successivi ,ovvero campionamento con
reimissione dell’elemento campionato).
• Esempio: Se in un’urna sono contenute 50 palline nere e 50 bianche
– P(nero)=0.5
– P(bianco)=0.5
Se alla prima estrazione si verifica l’evento bianco (e la pallina non viene
reinserita ),la probabilità di ottenere nero alla seconda estrazione è
50/99 ,quella del bianco 49/99.
Se ,al contrario, dopo essere stata estratta ,la pallina viene reinserita allora
alle successive estrazioni la probabilità di ottenere bianco o nero sarà
sempre pari a 50/100.
•
Sia π la proporzione di elementi con la caratteristica ‘Nero’ e (1- π)
quella di elementi con caratteristica ‘Bianco’ .
Campionamento da una popolazione
binomiale o di Bernoulli(2)
•
•
•
Se da una popolazione dicotomica si estraggono campioni di dimensione n ,l’evento
favorevole(Bianco per esempio) potrà presentarsi 0,1,2,3,4,….n volte.
Il numero delle volte con cui l’evento si verifica (il numero di successi) è una variabile
casuale discreta (a ciascun valore della variabile è associata una probabilità).
Esempio :2 estrazioni (con reimissione )dall’urna dell’esempio precedente
B=successo
Possibili
campioni
n=2
X
P(x)
(B,B)
(B,N)
(N,B)
(N,N)
2
1
1
0
π2
π(1- π)
(1- π) π
(1- π) 2
Campionamento da una popolazione
binomiale o di Bernoulli(3)
• Esempio :3 estrazioni (con reimissione )dall’urna
dell’esempio precedente B=successo
•
Possibili
campioni
n=3
X
P(x)
(B,B,B)
(B,B,N)
(B,N,B)
(N,B,B)
(N,N,B)
(N,B,N)
(B,N,N)
(N,N,N)
3
2
2
2
1
1
1
0
π3
π2(1- π)
π2(1-π)
π2(1-π)
π(1-π)2
π(1-π)2
π(1-π)2
π(1-π)2
(1-π)3
Le probabilità associate ai diversi tipi di estrazione sono espresse dai termini
dello sviluppo del polinomio [π+(1- π)]n dove π e (1- π) sono le
probabilità degli eventi semplici ‘Bianco’ e ‘Nero’ ed n e l’ampiezza
del campione .
Campionamento da una popolazione
binomiale o di Bernoulli(4)
• In generale per un campione di dimensione n la probabilità che x volte si
verifichi il successo è data dalla funzione:
n

n
  0 P( x)   n0 (1   )
n
x


P (0)    (1  )   (1   )
 0  con
x
n x
x  0,1,2....., n.
•
n

 1 ci informa nsu1quante sono le sequenzen tra1 loro
Il coefficiente
binomiale
P (1)   glix e(gli1 
 )  n (1   )
esclusive concui 
n-x elementi possono presentarsi, la parte
1funzione
 binomiale esprime la probabilità che si verifichi x
restante della
volte l’evento successo. La sequenza dei coefficienti binomiale può
essere ottenuta
..........
.. dal triangolo di Tartaglia
• Il valor medio della variabile binomiale è
n
nn
n
P (n)    (1   )  
n
– nπ ,
n
mentre la sua varianza è
– n π(1- π)
Esempio(Distribuzione Prob. Binomiale)
10 
P( x  2)   (0.5) 2 (1  0.5)102  0.0439
2 
10  10! 10 * 9
  

 45
2
 2  2!8!
Esempio(Binomiale)
•Costruire la densità di frequenza di una variabile aleatoria binomiale n=5 ; p=0.5 .
0.20
0.15
0.10
0.05
Probabilità
0.25
0.30
Distribuzione binomiale n=5 p=0.5
0
1
2
3
Successi
4
5
Esempio(Binomiale)
• Riportare su un grafico la funzione di ripartizione binomiale con p=0.5
ed n=5.
0.6
0.4
0.2
0.0
Probabilità
0.8
1.0
Distribuzione binomiale p=0.5 ; n=5
0
1
2
3
Successi
4
5
Campionamento da una popolazione di Poisson
•
•
•
La distribuzione di Poisson è adatta alla descrizione di eventi che si verificano con
una frequenza molto bassa in uno spazio o in un tempo molto grande (‘Eventi
Rari’).
ESEMPIO: il numero di piante di una data specie presente in un areale, il numero
di microrganismi in un certo volume di sospensione, il numero di mutanti
antibiotico-resistenti in una popolazione di cellule batteriche o anche il numero di
pezzi difettosi in una produzione di serie.
La distribuzione di Poisson è il limite della binomiale per n→∞ e π→0 tale che nπ
sia una costante finita:
x
n x

n x




(
1


)

e
lim
 x
x!
n   
Campionamento da una popolazione di Poisson(2)
• Infatti,poiché λ=nπ,allora π = λ/n e considerando che x è
molto piccolo rispetto a n:
n x
 n      
   1   
lim
n
n   x  n  
I valori della media
e della varianza di una distribuzione di
n
x
(nλ.
 1)...( n  k  1) x      
Poisson sono parina
 lim
1   1   
x 
x
!
n
n
 n,ma
 all’aumentare
n 
La distribuzione
è tipicamente asimmetrica
x
x
del numero di osservazioni
n (n  1) essa
(n  xtende
 1) xalla
  
 Normale
 lim
......
 1   1   
(distribuzione tipicamente
n simmetrica)
n
x!  n   n 
n  n
x



 lim 1    e 
x! n  n 
x!
poichè
(n  x  1)
1
lim
n
n 
e
n
 

1    e
lim
n
n  
n
x
n
Campionamento da una popolazione di Poisson(3)
P ( 0) 
P (1) 
P ( 2) 
P (3) 
0
e   e 
0!
1
1!
e    e  
2
2!
3
e  
e  
3!
2
2
3
6
..........
P( j ) 

j
P ( j  1)
........
P ( n) 
n
n!
e 
e 
e 
Si noti come sia possibile trovare le
probabilità in modo ricorrente,
ovvero moltiplicando il valore al
punto precedente P(j-1) per λ/j .
Distribuzione di Poisson λ1=3; λ2=10
Poisson Distribution lambda=10
0.08
0.04
0.06
Frequenza
0.10
0
5
10
Numero di eventi
15
20
0.00
0.02
0.05
0.00
Frequenza
0.15
0.10
0.20
0.12
Poisson Distribution lambda=3
0
5
10
Numero di eventi
15
20
Variabili Casuali Continue : la distribuzione Normale
(di Gauss)
 1 ( x   )2 
P( X  x) 
exp 

2
2
2
 2 

x  (,)
1
• I parametri media e varianza descrivono l’intera popolazione
Normale.
• La curva è asintotica all’asse delle ascisse per x che tende a + ∞ e ∞.
• La curva è simmetrica : media,moda e mediana coincidono.
• La probabilità si distribuisce quasi completamente in un intorno di 3
volte la deviazione standard .
Esempio(Distribuzione normale)
• Disegnare due curve normali con media pari a 10 e sd
pari a 2 e 4
0.10
0.05
0.00
Frequenza
0.15
0.20
Curve normali
5
10
Variabile
15
Esempio(Distribuzione normale)
0.08
0.06
0.04
0.02
0.00
Frequenza
0.10
0.12
• Disegnare due curve normali con media pari a 8 e 4 e sd
pari a 3
Curve normali
-5
0
5
10
Variabile
15
20
Standardizzazione di una variabile
• Sia X una variabile casuale di cui si conosce la media μ e lo
standard error σ .
Z
X  X
X
• Z è la trasformazione che standardizza X .
• Se X si distribuisce come una Normale di media μ e standard error σ, la
variabile Z si distribuisce ancora come una Normale con media 0 e standard
error pari a 1
 X  X
Z  E (Z )  E 
 X
Z2
 X  X
 V (Z )  V 
 X
 E( X )   X  X   X

0

X
X


X
 V 

 X

 X
 V 

 X
 V (X )
X2
0 
1

2
2
X
 X
Esempio(Contenuto di cloro nell’acqua)
• Qual è la probabilità che, da un pozzo con un contenuto medio di
cloro pari a 1 meq (milli-equivalente ) l-1, eseguendo l’analisi con
uno strumento caratterizzato da un coefficiente di variabilità pari
al 4%, si ottenga una misura pari o superiore a 1.1 meq l-1?
• E’ possibile che questa misura sia stata ottenuta casualmente,
oppure è successo qualcosa di strano (errore nell’analisi o
inquinamento del pozzo)?
• Questo problema può essere risolto immaginando che se è vero
che il pozzo ha un contenuto medio di 1 meq l-1 i contenuti di cloro
dei campioni estratti da questo pozzo dovrebbero essere distribuiti
normalmente, con media pari ad 1 e deviazione standard pari a
0.04 (si ricordi la definizione di coefficiente di variabilità). Qual
è la probabilità di estrarre da questa popolazione una misura
pari superiore a 1.1 meq l-1?
X  N (   1,   0.04)
P( X  1.1)  1  P( X  1.1)  0.006209
Esempio(Distribuzione Normale)
Pr( X  x)  0.90  x  1.051262   (0.90)
Pr( X  x)  0.70  x  0.979024   (0.30)
• Nello stesso strumento dell’esercizio precedente e considerando lo stesso
x1  X  x2 )  0.95 
tipo di analisi,Pr(
calcolare:
 1 - la probabilità
inferiore a 0.75
 x1di ottenere
 (0.025)una misura
0.9216014
 2 - la probabilità di ottenere una misura superiore a 1.5
 x 2   (0.975)  1.078399
 3 - la probabilità di ottenere una misura compresa tra 0.95 e 1.05
• Stabilire inoltre:
– 1 - la misura che è superiore al 90% di quelle possibili
– 2 - la misura che è inferiore al 70% di quelle possibili
– 3 - le misure entro le quali si trova il 95% delle misure possibili
Pr( X  0.75)  2.05 * e - 10
Pr( X  1.5)  3.73 * e - 36
Pr(0.95  X  1.05)  0.788
Esempio : Indagine su neonati(Distribuzione Normale)
•
•
•
Da un’indagine svolta su un campione di neonati ,il peso alla nascita è risultato avere media
pari a 3.2 kg con σ di 0.6 kg.
Ciò significa che nella popolazione il 68% circa dei neonati ha un peso tra 2.6 e 3.8 kg ,il
95% ha un peso tra 2 e 4.4 kg e meno dell’1% ha peso maggiore di 5 o minore di 1.4 kg.
Ci si chiede:
– In un campione di 1000 nati ,quanti sono attesi avere un peso compreso tra 3.5 e 3.7 kg?
– Considerando i pesi medi rilevati su 20 nati in 1000 ospedali ,in quanti casi è attesa una
media compresa tra 3.5 e 3.7?
P(3x.5 3.2 X  3.7) 
 0.6 X  
 x3.5 

 0.1342
3. 7   
 P n 20




 
P (3.5  X  3.7) 
x  
3.7  3x .7  3.2 
 33..55 3x .2 X X
 

P

 P  




x 
x
 0.6
  0x.6

3.7  3.2 
 3.5  3.2

P

Z

 P0 .05.1342
 Z  0.820.1342
 P(Z  0.82)  P( Z  0.5) 



0 .P3085
 0.1053
2.23610Z.2032
 3.7268
P( Z  3. .7268)  P ( Z  2.2361) 
 0.0128  0.0001  0.0127
1000
* 0.1053  105.3
 
Altre distribuzioni collegate alla normale
  2
• 2Le distribuzione dei quadrati di variabili casuali Normali Standard è detta
distribuzione χ2 (chi-quadrato) con 1 grado di libertà.
• z2~χ21
2
2 di n VC normali standard indipendenti è distribuita
• La somma dei quadrati
come2una χ2 con n 1gradi di libertà.
(x  )



1 ~  1

(
x


)
2
2
è continua2e può assumere
  valori
E ( distribuzione
 soltanto
 1 positivi: se il
Questa
1 )  E
2
 è piccolo la distribuzione

numero dei gradi 
di libertà
è molto asimmetrica
mentre tende alla simmetria in modo proporzionale all’aumento dei gradi
2 di χ sono rispettivamente
2
di libertà. La media e la varianza della VC
pari
(
x


)
(
x


)
2numero 2dei gradi 2di libertà 1ν e al doppio dello stesso
2 numero 2 ν.
al
 1  1   2 

2
2
2
2
z
2
n
2


2
2

( x1   ) ( x2   ) 
2
  1  1  2
E (  2 )  E 

2
2

 

Distribuzione χ2 con v gdl
• Per un campione di v osservazioni :

2
v
(x


i
 )
2
2

1
2
dove
xi ~ N( ,  )
2
 ( xi   ) 
2
zi  
 ~ 1 .
 

2
2
(
x


)
 i
Distribuzione χ2 con v gdl(2)
• Allora :
n
n
n





E  ( zi  z ) 2    E ( zi  z ) 2    E ( z i2  2 z z i  z 2 ) 
 i 1
  i 1
  i 1

dove
2


  zi 
2
n
1 
1  n 2


2
i 1


z 
 2   zi   2   zi   2 zi z j 
 n 
n  i 1 
n  i 1





n
• Essendo E(zizj)=0 per l’indipendenza degli xi,segue che :
E(z )  E(
2
2
z
i
n
2
n 1
) 2 
n
n
Distribuzione χ2 con v gdl(3)
• Per lo stesso motivo :
 z   1

E zz i  E z i

Quindi
 

i
n 
n

1 2
E  ( zi  z )   (1   )  n  1
n n
2
2
(
x

x
)
SS
(
x
)
(
n

1
)
s

i
2
2
(
z

z
)





 i
n 1
2
2
2
2



Distribuzione χ2
0.10
0.05
0.00
Frequenza
0.15
0.20
0.25
Distribuzione chi-quadrato gradi di libertà=c(3,10,20)
0
5
10
Variabile
15
20
Distribuzione di Fisher
• Rapporto di 2 funzioni determinate su campioni indipendenti
 v21 2
 v21 2
2

v1 
v1 v 2

 F (v1, v 2)
2
2
2
2
2
 v 2
v1  v 2
v1  v 2
v2
v2
• La funzione è asimmetrica ,al tendere di v2 all’infinito la
distribuzione converge a
 v21 2
v1
Inoltre

s
n2  1

 Fn1 1,n2 1
2
s
n1  1  n2 1
2
1
2
2
2
n1 1
Distribuzione Fisher
gdl=(3,4) red line
gdl=(10,20) blue line
0.6
0.4
0.2
0.0
Frequenza
0.8
1.0
Distribuzione Fisher
0.0
0.2
0.4
0.6
Variabile
0.8
1.0
Distribuzione t di student (Fisher con v1=1)
 v21 2
1
 
2
v2
2

12 2
1
12 v 2
2


F
(
1
,
v
2
)

t
v
 v22 2
1  v22
v2
2
v2
Indipenden za :
2
(
x

x
)
 i
2
  n21
e
n( x   ) 2
2
 12
allora
n( x   ) 2
1
n 1
n( x   ) 2
2


F

t
1, n 1
n 1
2
2
s
 ( xi  x )
t-student (gdl 2(red),10(blue),40(green))
0.3
0.2
0.1
0.0
Frequenza
0.4
0.5
Distribuzione t-student
-10
-5
0
Variabile
5
10
Distribuzione degli scarti standardizzati
z
(x  )

 N (0,1)
n
(x  )
 t n 1
s
n
Grazie per l’attenzione