Distribuzioni di probabilità Sia X una variabile aleatoria discreta definita su uno spazio campionario S : f (x) = P (‘X=x’ ) f (x ) P(‘XA’)= x A Valore atteso di una variabile aleatoria discreta n E (X ) x i P (' X x i ') i 1 Esempio: Distribuzione di probabilità del numero di episodi di otite media nei primi 2 anni x 0 1 2 3 4 5 6 P(‘X=x’) .129 .264 .271 .185 .095 .039 .017 E(X)=0(.129)+1(.264)+2(.271)+3(.185)+4(.095) +5(.039)+6(.017)=2.038 Varianza (della popolazione) di una variabile aleatoria discreta 2 n Var (x ) (x i )2P (' X x i ') i 1 n x i2P (' X x i ') 2 i 1 Esempio: Var (x ) 02 (.129) 12 (.264) 22 (.271) ... (2.038)2 6.12 (2.038)2 1.967 1.967 Funzione di distribuzione cumulativa La funzione di distribuzione cumulativa (c.d.f.) di una variabile aleatoria è indicata con F(X ) ed è definita da F(x ) = P(‘X x’) Esempio F(x) = 0 se x < 0 F(x) = .129 se 0 x < 1 F(x) = .393 se 1 x < 2 F(x) = .664 se 2 x < 3 ………….. ……………. Rappresentazione grafica della c.d.f. cdf. per numero episodi otite media nei primi 2 probabilità anni 1,2 1 0,8 0,6 0,4 0,2 0 0 2 4 6 numero episodi Funzione a scalino = step function 8 Distribuzione di probabilità continua Si riferisce a una variabile aleatoria continua definita su un sottoinsieme S di R: f (x ) 0, x S P (' X A ') f (x )dx A = area sotto il grafico di f di base A f ( x )dx 1 S Distribuzione normale: formula 1 f (x ) e 2 ( x ) 2 2 indica la media della popolazione indica la deviazione standard della popolazione 2 Distribuzione normale: 3, 1 La probabilità che cada in un intervallo centrato sulla media di raggio z volte la deviazione standard dipende solo da z, da cui segue la regola empirica. z non è necessariamente un intero. Esempio: la media della altezza di un uomo adulto è 70 inches e =4.0 inches. In base alla regola, 0.95 è la probabilità che un uomo adulto scelto a caso abbia un altezza compresa fra 62 e 78 inches. Sia X una v. a. continua normale con media e deviazione standard : 1 P( -z < X < +z )= 2 z e z ( x )2 2 2 dt Funzione di distribuzione cumulativa (t )2 2 2 1 x F (x ) e 2 P (' X x ') 1. 0 F(x) 1; 2. Monotona crescente dt 0,997 0,954 0,6827 0 0 1 2 z 3 Quando trattiamo un campione di dati provenienti da una serie di misure e riteniamo che i dati siano distribuiti secondo una normale, se decidiamo di associare alla nostra stima una incertezza pari a una deviazione standard confidiamo che l’effettivo valore della grandezza misurata giaccia nell’intervallo da noi definito con una probabilità del 68%. Distribuzione binomiale Si applica a variabili aleatorie che possono assumere solo 2 valori: ad esempio, un certo evento si verifica oppure no. Possono quindi essere codificate con 0 e 1. La distribuzione binomiale descrive il possibile numero di volte che la variabile assume il valore 0 (rispettiv. 1) in una sequenza di osservazioni, sapendo che la probabilità di verificarsi di 0 in una osservazione è p. Distribuzione binomiale La probabilità di k successi in n prove indipendenti sapendo che la probabilità di successo in 1 prova è p: n k P (' X k ') p (1 p )n k k Lancio della moneta Ad esempio, lanciando 4 volte una moneta equa sappiamo che P(‘Zero T’)=1/16 P(‘esatt. 1 T’)=4/16 P(‘esatt. 2 T’)=6/16 P(‘esatt. 3 T’)=4/16 P(‘esatt. 4 T’)=1/16 Se la moneta non è equa ma T ha probabilità p: n k n k P(‘k T su n prove’)= p (1 p ) k Distribuzione binomiale: grafico Esempio Nell’emocromo si misura anche il numero di globuli bianchi. Questi si dividono in 5 categorie: neutrofili, linfociti, monociti e basofili. Interessa la distribuzione di neutrofili k su 100 globuli bianchi. Qual è la probabilità che su 5 cellule 2 siano neutrofili sapendo che la probabilità che 1 cellula sia un neutrofilo è 0.6? 5 2 3 .6 .4 .230 2 Ricordiamo che n n k n k In quanto ad ogni sottoinsieme di k oggetti è associato il suo complementare che ha n-k oggetti. Qui i sottoinsiemi di k oggetti sono tanti quanti quelli di n-k oggetti. 5 0 5 P (' X 0') .6 .4 .0102 0 5 1 4 P (' X 1') .6 .4 .0768 1 5 2 3 P (' X 2') .6 .4 .2304 2 5 3 2 P (' X 3') .6 .4 .3456 3 5 4 1 P (' X 4') .6 .4 .2592 4 5 5 0 P (' X 5') .6 .4 .0778 5 Quando una statistica eseguita su una campione stima un parametro della popolazione, la stima dipende dal campione e ci si pone la domanda quanto la stima è prossima al valore del parametro della popolazione. Così la media campionaria, una proporzione campionaria sono variabili aleatorie e possiedono una distribuzione: sampling distribution la proporzione di individui che votano per la lista A la percentuale di donne facenti parte di una giuria il numero medio di carcerati già condannati ad una pena detentiva su un campione di 100 detenuti del carcere XY Distribuzione campionaria di medie campionarie La media Y è una variabile che cambia da campione a campione. La media della distribuzione campionaria è uguale a , cioè, misurandola su campioni di dimensione n al tendere del numero dei campioni all’infinito la media delle medie campionarie tende alla media della popolazione . Errore standard La deviazione standard Y della distribuzione campionaria di Y si chiama errore standard. Vale la formula: Y n Errore di campionamento -Y Teorema centrale del limite La distribuzione campionaria di Y un campione random tende ad una distribuzione normale al tendere della dimensione del campione all’infinito. Osservazioni: La approssimata normalità della distribuzione campionaria delle medie si applica indipendente dal tipo della distribuzione della popolazione!!!