Università degli Studi di Pisa Facoltà di Scienze matematiche fisiche e naturali Anno Accademico 2011-12 Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 4 17 Ottobre 2011 Probabilità condizionata • Siano A e B due eventi allora per il teorema delle probabilità composte si definiscono le probabilità condizionale (vincolate) P( A B) P( A B) P( A / B) P( B) P( B) P( A B) P( B / A) P( A B) P( B / A) P( A) P( A) P( A B) P( B / A) P( A) P( A / B) P( B) P( A / B) Se due eventi sono tra loro indipendenti ,allora si verifica che : P ( A / B ) P ( A) P ( B / A) P ( B ) P ( A B ) P ( B / A) P ( A) P ( A) P ( B ) oppure P ( A B ) P ( A / B ) P ( B ) P ( A) P ( B ) Esempio(Genotipi) • Si considera la distribuzione dei genotipi AA,Aa,aa in una popolazione di N=400 piante . Estraendo le piante a caso(processo di randomizzazione ),a ciascuna di esse compete la stessa probabilità di estrazione. Se quindi ci sono 196 genotipi AA ,168 genotipi Aa e 36 aa,allora le probabilità di estrazione a caso dei diversi genotipi è: • P(AA)=196/400=0.49 , P(Aa)=168/400=0.42 e P(aa)=36/400=0.09 • P(AA)+P(Aa)+P(aa)=1 • Supponiamo che l’allele a sia un letale recessivo,si esprime soltanto nella pianta allo stadio adulto. Allora la distribuzione è valida solo per le piantine ,mentre la probabilità che una pianta sia in vita dopo un certo periodo è data dalla probabilità dell’evento unione • P(AA) U P(Aa)=P(AA)+P(Aa) (gli eventi sono disgiunti) . • Non si può quindi affermare che la probabilità di trovare piante adulte con genotipo AA sia 0.49 ;per le piante adulte l’insieme degli eventi si è ridotto a Ω’={AA , Aa} di 364(ovvero 168+196)piante • P(AA/ Ω’)=196/364=0.53 Teorema di Bayes:Partizione finita ed esaustiva • Riprendendo il risultato precedente: P( A B) P( A / B) P( B) P( B / A) P( A) P( B / A) P( A) P( A / B) P( B) • Se dividiamo l’ntero spazio degli eventi in n eventi ‘disgiunti’ tra loro stiamo creando una partizione finita ed esaustiva dello spazio A1, A2, A3,……, An, in modo che Ai∩ Aj=Ø con i,j=1….n e i≠j e A1U A2U…… U An=Ω Teorema di Bayes(2) P ( Ai B ) P ( Ai ) P ( B / Ai ) n n i 1 i 1 P ( Ai B ) P ( Ai ) P ( B / Ai ) P ( B ) P ( B / A) P ( A) P( A / B) P( B) P ( A) P ( B / A) n P( A ) P( B / A ) i i 1 P ( Ai / B ) i P ( Ai ) P ( B / Ai ) n P( A ) P( B / A ) i 1 i i P(Ai/B) è chiamata probabilità a posteriori ; P(Ai) è la probabilità a priori dell’evento. Esempio (Genotipi)(2) • La probabilità di trovare piante in vita dopo un certo periodo per i vari genotipi è P(A1)=P(AA)=196/364=0.53 , P(A2)=P(Aa)=168/364=0.47.(Partizione finita ed esaustiva) • Supponiamo che dopo un ulteriore lasso di tempo l’80% delle piante di genotipo AA(=A1)ed il 50% del genotipo Aa(=A2)sia ancora in vita ,qual è la probabilità che una pianta in vita(evento B) scelta a caso sia del genotipo AA(=A1)? P( B / A1 ) 0.80 P( B / A2 ) 0.50 P( A1 / B) P( B / A1 ) P( A1 ) 2 P( B / A ) P( A ) i 1 i P( B / A1 ) P( A1 ) P( B / A1 ) P( A1 ) P( B / A2 ) P( A2 ) i 0.80 * 0.53 0.65 0.80 * 0.53 0.50 * 0.47 Variabili casuali(aleatorie) • Dato un insieme di eventi elementari Ω={ai},si definisce variabile casuale una qualunque funzione numerica reale X(ai)=x .Se X è una funzione reale e x un numero reale fissato ,possiamo definire l’evento A sottoinsieme di Ω, formato da tutti gli eventi ‘a’ ai quali la funzione X assegna il valore x . Ax {ai : X (ai ) x} P( X x) P( x) P( Ax ) P(a ) ai A è la probabilità dell’evento Ax ,ovvero la probabilità che la funzione assuma il valore x. i Esempio(Variabile Casuale di Bernoulli) • A n=100 pazienti viene somministrato un farmaco. Dopo un certo periodo di trattamento si riscontrano 60 guarigioni : il campione di pazienti si suddivide quindi in due sottogruppi (A1)i guariti’ e (A2) i ‘non guariti’. • Se l’evento appartiene ad A1 ,x1 =1. • Se invece l’evento appartiene ad A2,x2=0 60 P( A1 ) P( X x1 ) P( x1 ) 0.6 p 100 60 P( A2 ) 1 P( A1 ) P( X x2 ) P( x2 ) 1 0.4 1 p 100 x2 0 P( x2 ) (1 p) 0.4 X : P( x1 ) ( p) 0.6 x1 1 Esempio(VC Bernoulli e Binomiale) • Se un’epidemia di influenza colpisce il 30% della popolazione la probabilità di contagio per una singola persona è data da una V.C. di Bernoulli X~Be(p=0.30): x1 1 P( x1 ) 0.30 X x2 0 P( x2 ) 0.70 Sommando n v.c. Bernoulliane i.i.d. (indipendenti ed identicamente distribuite )ottengo una nuova variabile che conta il numero di contagiati! n Y X i Bin (n, p 0.3) i 1 Y assume valori compresi tra 0 ed n : fornisce quindila distribuzione di probabilità che 0,1,2,……n individui siano contagiati Esempio(v.c. somma) 0.14 0.16 • Lancio due dadi e definisco Y=somma dei punteggi dei dadi . • Si analizzi la distribuzione di probabilità della V.C Y. 0.10 0.08 0.06 0.04 probabilità 0.12 Il numero dei casi possibile è dato dalle disposizioni con reimissione 62=36; lo spazio degli eventi di Y è Ω= {2,3,4,…12}. Y= 2 →(1,1) P(Y=2)=1/36 Y= 3 →(1,2) (2,1) P(Y=3)=2/36 Y= 4 →(1,3) (3,1) (2,2) P(Y=4)=3/36 Y= 5→(1,4) (4,1) (3,2) (2,3) P(Y=5)=4/36 Y= 6 →(1,5) (5,1) (2,4) (4,2) (3,3) P(Y=6)=5/36 Y= 7 →(1,6) (6,1) (2,5) (5,2) (3,4) (4,3) P(Y=7)=6/36 Y= 8 →(2,6) (6,2) (3,5) (5,3) (4,4) P(Y=8)=5/36 Y= 9 →(3,6) (6,3) (4,5) (5,4) P(Y=9)=4/36 Y= 10→(4,6) (6,4) (5,5) P(Y=10)=3/36 Y= 11→(5,6) (6,5) P(Y=11)=2/36 Y= 12→(6,6) P(Y=12)=1/36 2 4 6 8 10 12 somma punteggio 2 dadi Media e varianza di v.c discrete e continue n E ( X ) xi p( xi ) i 1 E ( X ) xf ( x)dx Var ( X ) E{[ X E ( X )]2 } 2 Z X Y E ( Z ) E ( X Y ) E ( X ) E (Y ) Var ( Z ) E{[ Z E ( Z )]2 } E{[( X Y ) E ( X Y )]2 } E{[ X E ( X )]2 } E{[Y E (Y )]2 } 2 E{[ X E ( X )][Y E (Y )]} Var ( X ) Var (Y ) 2Cov( X , Y ) Se X e Y sono indipendenti allora Cov(X,Y)=E[X-E(X)]*E[Y-E(Y)]=0, dato che la somma degli scarti dalla media è nulla. Esempio:trattamento farmacologico(1) • • • Si considerano 2 dei n=100 pazienti prima del trattamento Siano X(prova 1 ) e Y (prova 2 )le v.c. Bernoulliane ‘guarito’e ‘non guarito’ per ognuno dei pazienti. Analizzare la distribuzione congiunta delle due prove dato che P(xi,yj) =P(xi)P(yj|xj) Y→ X ↓ 0 1 0 0.4*(39/99) 0.4*(60/99) 0.4 1 0.6(40/99) 0.6(59/99) 0.6 0.4 0.6 1 Esempio:trattamento farmacologico(2) • E(X)=E(Y)=0.6=p • Var(X)=Var(Y)=0.24=p(1-p) • Dalla tabella a doppia entrata può essere ottenuta la variabile aleatoria Z=X+Y che assume valori 0,1,2 ‘guariti’ : P(Z=0)=0.4*(39/99)=0.1576 P(Z=1)=P[(X=1∩Y=0) U (X=0 ∩Y=1 )]= P(X=1∩Y=0)+P(X=0∩Y=1) =0.6*(40/99)+0.4*(60/99)=0.4848 P(Z=2)=0.6*(59/99) • E(Z)=0.6+0.6=1.2 • Var(Z)=Var(X)+Var(Y)+2Cov(X,Y)=0.24+0.24+2Cov(X,Y) Z X Y Var ( Z ) E{[ Z E ( Z )]2 } E[ Z 2 ] E ( Z ) 2 (0 1.2) 2 0.1576 (1 1.2) 2 0.4848 (2 1.2) 2 0.3576 0.4752 (Var(Z) - Var(X) - Var(Y)) 0.4752 - 0.48 Cov(X, Y) -0.0024 2 2 Variabile prodotto W=XY E (W ) E ( XY ) xi y j P( xi y j ) xi y j P( xi )P( y j | xi ) i j i j E ( X ) E (Y / X ) E (Y ) E ( X / Y ) Se X e Y sono indipendenti allora E(W)=E(X)E(Y) poiché E(X/Y)=E(X) o E(Y/X)=E(Y). Distribuzione campionaria • Estrazione casuale semplice di un campione di n unità :ad ogni individuo del campione è assegnata ,in virtù del principio di randomizzazione , una probabilità pari ad 1/n. • Estrazione in blocco o con remissione: ogni sequenza ha la stessa probabilità di essere estratta per ogni altra n-upla di elementi. • Se si ipotizza di estrarre tutte le possibili n-uple per la funzione prescelta(somma,prodotto,media,etc.) ,la riclassificazione dei valori che assume la funzione dà luogo alla ‘distribuzione campionaria’ Grazie per l’attenzione