Università degli Studi di Pisa
Facoltà di Scienze matematiche fisiche e naturali
Anno Accademico 2011-12
Biostatistica
(SECS-S/02 )
STATISTICA PER LA RICERCA
SPERIMENTALE E
TECNOLOGICA
Incontro 4
17 Ottobre 2011
Probabilità condizionata
• Siano A e B due eventi allora per il teorema delle probabilità
composte si definiscono le probabilità condizionale (vincolate)
P( A B)
P( A B) P( A / B) P( B)
P( B)
P( A B)
P( B / A)
P( A B) P( B / A) P( A)
P( A)
P( A B) P( B / A) P( A) P( A / B) P( B)
P( A / B)
Se due eventi sono tra loro indipendenti ,allora si verifica che :
P ( A / B ) P ( A)
P ( B / A) P ( B )
P ( A B ) P ( B / A) P ( A) P ( A) P ( B )
oppure
P ( A B ) P ( A / B ) P ( B ) P ( A) P ( B )
Esempio(Genotipi)
• Si considera la distribuzione dei genotipi AA,Aa,aa in una popolazione di
N=400 piante . Estraendo le piante a caso(processo di randomizzazione ),a
ciascuna di esse compete la stessa probabilità di estrazione. Se quindi ci sono
196 genotipi AA ,168 genotipi Aa e 36 aa,allora le probabilità di estrazione a
caso dei diversi genotipi è:
• P(AA)=196/400=0.49 , P(Aa)=168/400=0.42 e P(aa)=36/400=0.09
• P(AA)+P(Aa)+P(aa)=1
• Supponiamo che l’allele a sia un letale recessivo,si esprime soltanto nella
pianta allo stadio adulto. Allora la distribuzione è valida solo per le piantine
,mentre la probabilità che una pianta sia in vita dopo un certo periodo è data
dalla probabilità dell’evento unione
• P(AA) U P(Aa)=P(AA)+P(Aa) (gli eventi sono disgiunti) .
• Non si può quindi affermare che la probabilità di trovare piante adulte con
genotipo AA sia 0.49 ;per le piante adulte l’insieme degli eventi si è ridotto a
Ω’={AA , Aa} di 364(ovvero 168+196)piante
• P(AA/ Ω’)=196/364=0.53
Teorema di Bayes:Partizione finita ed esaustiva
• Riprendendo il risultato precedente:
P( A B) P( A / B) P( B) P( B / A) P( A)
P( B / A) P( A)
P( A / B)
P( B)
• Se dividiamo l’ntero spazio degli eventi in n eventi ‘disgiunti’ tra
loro stiamo creando una partizione finita ed esaustiva dello
spazio A1, A2, A3,……, An, in modo che Ai∩ Aj=Ø con i,j=1….n e i≠j
e A1U A2U…… U An=Ω
Teorema di Bayes(2)
P ( Ai B ) P ( Ai ) P ( B / Ai )
n
n
i 1
i 1
P ( Ai B ) P ( Ai ) P ( B / Ai ) P ( B )
P ( B / A) P ( A)
P( A / B)
P( B)
P ( A) P ( B / A)
n
P( A ) P( B / A )
i
i 1
P ( Ai / B )
i
P ( Ai ) P ( B / Ai )
n
P( A ) P( B / A )
i 1
i
i
P(Ai/B) è chiamata probabilità a posteriori ; P(Ai) è la
probabilità a priori dell’evento.
Esempio (Genotipi)(2)
• La probabilità di trovare piante in vita dopo un certo periodo per i vari
genotipi è P(A1)=P(AA)=196/364=0.53 ,
P(A2)=P(Aa)=168/364=0.47.(Partizione finita ed esaustiva)
• Supponiamo che dopo un ulteriore lasso di tempo l’80% delle piante di
genotipo AA(=A1)ed il 50% del genotipo Aa(=A2)sia ancora in vita ,qual è
la probabilità che una pianta in vita(evento B) scelta a caso sia del
genotipo AA(=A1)?
P( B / A1 ) 0.80
P( B / A2 ) 0.50
P( A1 / B)
P( B / A1 ) P( A1 )
2
P( B / A ) P( A )
i 1
i
P( B / A1 ) P( A1 )
P( B / A1 ) P( A1 ) P( B / A2 ) P( A2 )
i
0.80 * 0.53
0.65
0.80 * 0.53 0.50 * 0.47
Variabili casuali(aleatorie)
• Dato un insieme di eventi elementari Ω={ai},si definisce
variabile casuale una qualunque funzione numerica reale
X(ai)=x .Se X è una funzione reale e x un numero reale fissato
,possiamo definire l’evento A sottoinsieme di Ω, formato da
tutti gli eventi ‘a’ ai quali la funzione X assegna il valore x .
Ax {ai : X (ai ) x}
P( X x) P( x) P( Ax )
P(a )
ai A
è la probabilità dell’evento Ax ,ovvero la probabilità che la
funzione assuma il valore x.
i
Esempio(Variabile Casuale di Bernoulli)
• A n=100 pazienti viene somministrato un farmaco. Dopo un certo periodo
di trattamento si riscontrano 60 guarigioni : il campione di pazienti si
suddivide quindi in due sottogruppi (A1)i guariti’ e (A2) i ‘non guariti’.
• Se l’evento appartiene ad A1 ,x1 =1.
• Se invece l’evento appartiene ad A2,x2=0
60
P( A1 ) P( X x1 ) P( x1 )
0.6 p
100
60
P( A2 ) 1 P( A1 ) P( X x2 ) P( x2 ) 1
0.4 1 p
100
x2 0 P( x2 ) (1 p) 0.4
X :
P( x1 ) ( p) 0.6
x1 1
Esempio(VC Bernoulli e Binomiale)
• Se un’epidemia di influenza colpisce il 30% della popolazione la
probabilità di contagio per una singola persona è data da una V.C. di
Bernoulli X~Be(p=0.30):
x1 1 P( x1 ) 0.30
X
x2 0 P( x2 ) 0.70
Sommando n v.c. Bernoulliane i.i.d. (indipendenti ed identicamente
distribuite )ottengo una nuova variabile che conta il numero di
contagiati!
n
Y X i Bin (n, p 0.3)
i 1
Y assume valori compresi tra 0 ed n : fornisce quindila distribuzione di
probabilità che 0,1,2,……n individui siano contagiati
Esempio(v.c. somma)
0.14
0.16
• Lancio due dadi e definisco Y=somma dei punteggi dei dadi .
• Si analizzi la distribuzione di probabilità della V.C Y.
0.10
0.08
0.06
0.04
probabilità
0.12
Il numero dei casi possibile è dato dalle disposizioni con reimissione 62=36;
lo spazio degli eventi di Y è Ω= {2,3,4,…12}.
Y= 2 →(1,1)
P(Y=2)=1/36
Y= 3 →(1,2) (2,1)
P(Y=3)=2/36
Y= 4 →(1,3) (3,1) (2,2)
P(Y=4)=3/36
Y= 5→(1,4) (4,1) (3,2) (2,3)
P(Y=5)=4/36
Y= 6 →(1,5) (5,1) (2,4) (4,2) (3,3)
P(Y=6)=5/36
Y= 7 →(1,6) (6,1) (2,5) (5,2) (3,4) (4,3)
P(Y=7)=6/36
Y= 8 →(2,6) (6,2) (3,5) (5,3) (4,4)
P(Y=8)=5/36
Y= 9 →(3,6) (6,3) (4,5) (5,4)
P(Y=9)=4/36
Y= 10→(4,6) (6,4) (5,5)
P(Y=10)=3/36
Y= 11→(5,6) (6,5)
P(Y=11)=2/36
Y= 12→(6,6)
P(Y=12)=1/36
2
4
6
8
10
12
somma punteggio 2 dadi
Media e varianza di v.c discrete e continue
n
E ( X ) xi p( xi )
i 1
E ( X ) xf ( x)dx
Var ( X ) E{[ X E ( X )]2 } 2
Z X Y
E ( Z ) E ( X Y ) E ( X ) E (Y )
Var ( Z ) E{[ Z E ( Z )]2 } E{[( X Y ) E ( X Y )]2 }
E{[ X E ( X )]2 } E{[Y E (Y )]2 } 2 E{[ X E ( X )][Y E (Y )]}
Var ( X ) Var (Y ) 2Cov( X , Y )
Se X e Y sono indipendenti allora Cov(X,Y)=E[X-E(X)]*E[Y-E(Y)]=0,
dato che la somma degli scarti dalla media è nulla.
Esempio:trattamento farmacologico(1)
•
•
•
Si considerano 2 dei n=100 pazienti prima del trattamento
Siano X(prova 1 ) e Y (prova 2 )le v.c. Bernoulliane ‘guarito’e ‘non guarito’ per
ognuno dei pazienti.
Analizzare la distribuzione congiunta delle due prove dato che P(xi,yj) =P(xi)P(yj|xj)
Y→
X
↓
0
1
0
0.4*(39/99) 0.4*(60/99)
0.4
1
0.6(40/99)
0.6(59/99)
0.6
0.4
0.6
1
Esempio:trattamento farmacologico(2)
• E(X)=E(Y)=0.6=p
• Var(X)=Var(Y)=0.24=p(1-p)
• Dalla tabella a doppia entrata può essere ottenuta la variabile aleatoria Z=X+Y che
assume valori 0,1,2 ‘guariti’ :
P(Z=0)=0.4*(39/99)=0.1576
P(Z=1)=P[(X=1∩Y=0) U (X=0 ∩Y=1 )]= P(X=1∩Y=0)+P(X=0∩Y=1)
=0.6*(40/99)+0.4*(60/99)=0.4848
P(Z=2)=0.6*(59/99)
• E(Z)=0.6+0.6=1.2
• Var(Z)=Var(X)+Var(Y)+2Cov(X,Y)=0.24+0.24+2Cov(X,Y)
Z X Y
Var ( Z ) E{[ Z E ( Z )]2 } E[ Z 2 ] E ( Z ) 2
(0 1.2) 2 0.1576 (1 1.2) 2 0.4848 (2 1.2) 2 0.3576 0.4752
(Var(Z) - Var(X) - Var(Y)) 0.4752 - 0.48
Cov(X, Y)
-0.0024
2
2
Variabile prodotto W=XY
E (W ) E ( XY ) xi y j P( xi y j ) xi y j P( xi )P( y j | xi )
i
j
i
j
E ( X ) E (Y / X ) E (Y ) E ( X / Y )
Se X e Y sono indipendenti allora E(W)=E(X)E(Y) poiché
E(X/Y)=E(X) o E(Y/X)=E(Y).
Distribuzione campionaria
• Estrazione casuale semplice di un campione di n unità :ad
ogni individuo del campione è assegnata ,in virtù del principio
di randomizzazione , una probabilità pari ad 1/n.
• Estrazione in blocco o con remissione: ogni sequenza ha la
stessa probabilità di essere estratta per ogni altra n-upla di
elementi.
• Se si ipotizza di estrarre tutte le possibili n-uple per la
funzione prescelta(somma,prodotto,media,etc.) ,la
riclassificazione dei valori che assume la funzione dà luogo
alla ‘distribuzione campionaria’
Grazie per l’attenzione