PIU’ DI UNA VARIABILE CASUALE Supponiamo di avere n variabili casuali, X1, X2, . . . , Xn. Le n variabili casuali si dicono indipendenti se e solo se P (X1 ≤ x1 ∩ X2 ≤ x2 ∩ . . . ∩ Xn ≤ xn) = = P (X1 ≤ x1) · P (X2 ≤ x2) . . . P (Xn ≤ xn) per qualunque x1, x2, . . . , xn. Se le n variabili sono riferite a n esperimenti o prove indipendenti, allora le n variabili saranno esse stesse indipendenti e vale la precedente fattorizzazione. Le n variabili casuali si dicono identicamente distribuite se hanno esattamente la stessa distribuzione di probabilità. Per variabili che sono sia indipendenti che identicamente distribuite si userà l’abbreviazione i.i.d.. Esempio Abbiamo visto che la variabile casuale X ∼ Bin(n, p) descrive il numero di “successi” in n prove indipendenti, in cui ad ogni prova si ha una probabilità pari a p di osservare un “successo”. Abbiamo anche visto che X può essere espressa come X = X1 + X2 + . . . + Xn dove Xi = ( 1 se alla i-esima prova si ha un “successo” 0 se alla i-esima prova si ha un “insuccesso” 78 è la variabile casuale che descrive l’esito della i-esima prova, i = 1, . . . , n. Ciascuna delle Xi è tale che Xi ∼ Be(p) e quindi le n variabiabili sono identicamente distribuite. Inoltre le n prove sono indipendenti, quindi le variabili Xi sono indipendenti. In sintesi, le n variabili X1, . . . , Xn sono i.i.d.. 79 VALORE ATTESO E VARIANZA DI COMBINAZIONI LINEARI DI VARIABILI CASUALI Siamo interessati a valutare alcune proprietà, ad esempio media e varianza, di combinazioni linerari di variabili casuali, come somme di variabili casuali. Esempio Gli incassi di un ristorante in una settimana (supponendo 6 giorni di apertura) derivano dalla somma degli incassi di ognuno dei 6 giorni della settimana in cui il ristorante è aperto. La variabile casuale che descrive gli incassi di una settimana è pertanto la somma di 6 variabili casuali che descrivono gli incassi giornalieri. Possiamo essere interessati all’incasso atteso di una settimana, ossia il valore atteso della somma degli incassi giornalieri, o alla variabilità dell’incasso di una settimana, ossia la varianza della somma degli incassi. Supponiamo di avere n variabili casuali X1, X2, . . . , Xn. Una combinazione lineare delle n variabili, è una nuova variabile Y cosı̀ definita: Y = a1X1 + a2X2 + . . . + anXn dove a1, a2, . . . , an sono costanti fissate. La media e la varianza della variabile casuale Y sono: E(Y ) = a1E(X1) + a2E(X2) + . . . anE(Xn) 80 e V (Y ) = a21V (X1) + a22V (X2) + . . . + a2nV (Xn) ATTENZIONE: L’ultima equazione vale se le n variabili sono indipendenti. Come caso particolare, si ha che, se X1, . . . , Xn sono i.i.d. con E(Xi) = m e V (Xi) = v 2 (se sono identicamente distribuite devono anche avere uguale media e uguale varianza) allora, posto Y = X1 + X2 + . . . + Xn E(Y ) = nm e V (Y ) = nv 2 Esempio 1 Si sa che gli incassi in migliaia di euro di un ristorante in un giorno lavorativo seguono una distribuzione uniforme sull’intervallo [0,5,3]. Si determinino la media e la varianza degli incassi di una settimana sapendo che i giorni di apertura del ristorante in una settimana sono 6 e che gli incassi dei vari giorni possono considerarsi indipendenti. Poniamo Xi=v.c. che descrive gli incassi nell’i-esimo giorno di apertura di una settimana∼ U [0, 5, 3]. Per le ipotesi del problema X1, . . . , X6 sono i.i.d.. Sappiamo che (3 − 0, 5)2 3, 5 = 1, 75 e V (Xi) = = 0, 52 E(Xi) = 2 12 81 Posto Y = X1 + . . . + X6 abbiamo E(Y ) = 6 · 1, 75 = 10, 5 migliaia di euro e V (Y ) = 6 · 0, 52 = 3, 12 Esempio 2 Abbiamo visto che X ∼ Bin(n, p) è esprimibile come X = X1 + . . . + Xn dove le Xi sono i.i.d. Be(p). In base ai precedenti risultati E(X) = n · E(Xi) = np e V (X) = n · V (Xi) = np(1 − p) Abbiamo ottenuto con un procedimento diverso rispetto a quello precedentemente visto la media e la varianza di una variabile casuale binomiale. 82 Se le Xi sono normali, non solo si riesce a determinare la media e la varianza di una loro combinazione lineare, ma anche l’esatta distribuzione. Siano X1, . . . , Xn n variabili casuali normali indipendenti tali che Xi ∼ N (µi, σi2), i = 1, . . . , n Posto Y = a1X1 + a2X2 + . . . anXn abbiamo che Y ∼ N (a1µ1 +a2µ2 +. . .+anµn, a1σ12 +a22σ22 +. . .+a2nσn2 ) In particolare, se le Xi sono i.i.d. N (µ, σ 2), posto Y = X1 + X2 + . . . + Xn si ha che Y ∼ N (nµ, nσ 2) Esempio Supponiamo che una ditta produttrice di birra utilizzi per riempire le bottiglie dal contenuto nominale di 330gr un macchinario che è imperfetto. In particolare, il contenuto di birra (in gr) che il macchinario versa in ciascuna bottiglia è una variabile casuale con distribuzione normale di media 330gr e varianza 9gr2. Sapendo che il peso di una bottiglia vuota è di 180gr, si calcoli la probabilità che il peso di una confezione di 10 bottiglie piene sia maggiore 83 a 5,13kg. Indichiamo con Xi e Wi, rispettivamente, il peso (in gr) e il contenuto di birra (in gr) della i-esima bottiglia della confezione, per i = 1, . . . , 10, Xi = Wi + 180 Sappiamo che Wi ∼ N (330, 9) e dalla proprietà di chiusura della variabile casuale normale a trasformazione lineari abbiamo che Xi ∼ N (330 + 180 = 510, 9) per tutti gli i. Sia T = X1 + . . . + X10 la variabile casuale che descrive il peso (in gr) complessivo delle 10 bottiglie della confezione. Si vuole determinare P (T > 5130) Se la quantità versata in ciascuna bottiglia non dipende dalle quantità versate nelle altre bottiglie, allora le Xi oltre ad essere identicamente distribuite sono anche indipendenti e T ∼ N (10 · 510, 10 · 9). Pertanto, 5130 − 5100 √ P (T > 5130) = 1−P (T ≤ 5130) = 1−Φ = 90 = 1 − Φ(3, 16) = 0, 0008 84 IL TEOREMA DEL LIMITE CENTRALE Prendiamo n variabili casuali X1, X2, . . . , Xn i.i.d. e tali che E(Xi) = m e V (Xi) = v 2. Posto Sn = X1 + X2 + . . . + Xn Sappiamo dai precedenti risultati che E(Sn) = nm e V (Sn) = nv 2 Si può dimostrare che, per n grande, . Sn ∼ N (nm, nv 2) dove ∼. indica “si distribuisce approssimativamente come”. In altre parole, la distribuzione normale approssima la distribuzione della somma di n variabili casuali i.i.d., per n sufficientemente grande, qualunque sia la loro distribuzione (anche se le Xi sono discrete). Da questo risultato deriva il ruolo fondamentale della distribuzione normale. Quanto grande deve essere n affiché questa approssimazione sia valida? Dipende dalla forma della funzione (di densità) di probabilità delle Xi. 85 Esempio: Somma di v.c. U(0,5) indipendenti 0.20 1 0.10 0.05 5 0.00 f(x) 0.15 2 0 5 10 15 x 86 20 25 0.7 Esempio: Somma di v.c. esponenziali indipendenti f(x) 0.4 0.5 0.6 1 0.3 2 0.2 3 5 8 0.0 0.1 10 0 5 10 x 87 15 20 Un esempio importante di applicazione del teorema del limite centrale è alla distribuzione binomiale. Sappiamo che se X ∼ Bin(n, p), allora X = X1 + . . . + Xn dove le Xi sono variabili casuali i.i.d. Be(p), con E(Xi) = p e V (Xi) = p(1 − p). Per il teorema del limite centrale, . X∼ N (np, np(1 − p)) Per n grande possiamo approssimare la distribuzione binomiale con la distribuzione normale. Agli effetti pratici, si verifica che l’approssimazione è adeguata se np e n(1 − p) sono entrambi maggiori di 5. Ad esempio, per p = 0, 5, n ≥ 10. 88 prob. 0.00 0.05 0.10 prob. 0.15 0.0 0.1 0.2 0.3 0.4 0 0 1 10 n=4,p=0.3 2 x n=20,p=0.3 5 x 3 4 15 89 prob. 0.00 0.02 0.04 prob. 0.06 0.08 0.00 0.05 0.10 0.15 0.20 0.25 0 0 10 2 6 40 n=10,p=0.3 4 x 30 n=100,p=0.3 20 x 50 8 60 Se possiamo approssimare la distribuzione binomiale con quella gaussiana, possiamo calcolare la funzione di ripartizione della binomiale tramite la funzione di ripartizione della gaussiana. Ad esempio, sia X ∼ Bin(100, 0, 3). Vogliamo calcolare P (X ≤ 40). Piuttosto che calcolare, P (X ≤ 40) = P (X = 0)+P (X = 1)+. . .+P (X = 40) = 100 100 = 0, 30(1−0, 3)100 + 0, 31(1−0, 3)99 +. . . + 0 1 100 + 0, 340(1 − 0, 3)60 40 essendo n grande, possiamo usare l’approssimazione 40 − 30 . √ P (X ≤ 40) = P (Y ≤ 40) = Φ 21 dove Y ∼ N (100 · 0, 3 = 30, 100 · 0, 3 · 0, 7 = 21) e = indica “è approssimativamente uguale a”. . 90 Esempio 1 Una banca decide di offrire azioni della propria società ad un gruppo di 1400 clienti selezionati. Il prezzo di ciascuna azione è di 5¿. Per ciascuno dei 1400 clienti il numero X di azioni richieste è una variabile casuale cosı̀ distribuita 0 con p = 1/2 1 con p = 1/3 X= 2 con p = 1/6 > 2 con p = 0 Le richieste dei clienti sono assunte indipendenti. 1. Si calcoli il ricavo atteso dalla vendita delle azioni e la varianza del ricavo. Sia Xi la variabile casuale che descrive il numero di azioni richieste dall’i–esimo cliente, i = 1, . . . , 1400. In base alle specificazioni del problema, le Xi sono i.i.d., con distribuzione di probabilità sopra specificata. La richiesta complessiva dei 1400 clienti è T = X1 + X2 + . . . + X1400 Il ricavo dalla vendita delle azioni è R=5·T Allora, E(R) = E(5 · T ) = 5 · E(T ) = 5 · 1400 · E(Xi) Dato che E(Xi) = 0 · 1 1 1 2 +1· +2· = 2 3 6 3 91 si ha 2 = 4666, 7¿ 3 V (R) = V (5 · T ) = 25 · V (T ) = 25 · 1400 · V (Xi) E(R) = 5 · 1400 · Dato che 1 1 1 4 5 V (Xi) = E(Xi2)−{E(Xi)}2 = 02· +12· +22· − = 2 3 6 9 9 si ha 5 V (R) = 25 · 1400 · = 19444, 4¿2 9 2. Si calcoli la probabilità che il numero di azioni richieste dai 1400 clienti sia compreso tra 900 e 950. Si richiede P (900 ≤ T ≤ 950). T è la somma di 1400 v.c. i.i.d. e per il teorema del limite centrale . T ∼ N (E(T ), V (T )). 2 = 933, 3 3 5 V (T ) = 1400 · V (Xi) = 1400 · = 777, 78 9 Allora, E(T ) = 1400 · E(Xi) = 1400 · P (900 ≤ T ≤ 950) = P (900 ≤ Y ≤ 950) = . = P (Y ≤ 950) − P (Y ≤ 900) = 900 − 933, 3 950 − 933, 3 √ √ −Φ = =Φ 777, 78 777, 78 = Φ(0, 6) − Φ(−1, 2) = Φ(0, 6) − 1 + Φ(1, 2) = = 0, 726 − 1 + 0, 885 dove Y ∼ N (933, 3, 777, 78). 92 Esempio 2 Si supponga che le telefonate che arrivano ad un centralino abbiano una distribuzione uniforme sull’intervallo (1,5) minuti. Si calcoli la probabilità che la durata complessiva di 60 telefonate sia superiore a 3 ore e un quarto. Sia Xi la variabile casuale che descrive la durata in minuti della i–esima telefonata. Allora, Xi ∼ U [1, 5] e le Xi sono i.i.d. (è ragionevole assumere indipendenti le durate delle chiamate). Sia T = X1 + X2 + . . . + X60 la variabile casuale che descrive la durata complessiva delle 60 telefonate. Vogliamo calcolare P (T > 195). Per il teorema del limite centrale, . T ∼ N (E(T ), V (T )) dove E(T ) = 60 · E(Xi) = 60 · 6 = 180 min 2 e (5 − 1)2 V (T ) = 60 · V (Xi) = 60 · = 80 min2 12 P (T > 195) = P (Y > 195) = 1 − P (Y ≤ 195) = 195 − 180 √ =1−Φ = 1 − 0, 9535 80 dove Y ∼ N (180, 80). . 93 Esempio 3 Sia p = 0, 02 la probabilità che una bottiglia di vino si rompa durante il trasporto dal produttore al rivenditore. Il danno per una bottiglia rotta, a carico del rivenditore, è pari a 4¿. Calcolare la probabilità che il danno subito dal rivenditore 1. per una partita di 10 bottiglie sia almeno 8¿ Dire che su 10 bottiglie il danno subito dal rivenditore è almeno di 8¿ equivale a dire che almeno due delle 10 bottiglie si rompono. Indichiamo con X la variabile casuale che descrive il numero di bottiglie rotte tra le 10 acquistate dal rivenditore. X ∼ Bin(10, 0, 02) (dobbiamo però assumere che ciò che accade a ciascuna bottiglia sia indipendente da ciò che accade alle altre bottiglie, il che potrebbe essere non realistico). La probabilità cercata è allora P (X ≥ 2) = 1−P (X < 2) = 1−[P (X = 0)+P (X = 1)] = 10 10 0, 020(1 − 0, 02)10 + 0, 02(1 − 0, 02)9 = 1− 0 1 Si noti che non possiamo applicare il teorema del limite centrale in quanto np = 10 · 0, 02 = 0, 2 < 5 e quindi l’approssimazione normale non è molto buona. 2. per una partita di 400 bottiglie si mantenga sotto 40¿ Il danno subito si mantiene sotto 40¿ se e solo se 94 si rompono meno di 10 bottiglie. Indichiamo con Y la variabile casuale che descrive il numero di bottiglie rotte nella partita di 400 bottiglie. Y ∼ Bin(400, 0, 02). Vogliamo P (Y < 10). Poiché np, n(1 − p) > 5 possiamo calcolare questa probabilità sfruttando il teorema del limite centrale. In particolare, . Y ∼ N (400 · 0, 02 = 8, 400 · 0, 02 · 0, 98 = 7, 84) Allora, 10 − 8 . P (Y < 10) = Φ √ 7, 84 95 = Φ(0, 71) = 0, 76 Il teorema del limite centrale ci dice che se X1, . . . , Xn sono i.i.d. con E(Xi) = m e V (Xi) = v 2, allora, per n sufficientemente grande, . Sn = X1 + . . . + Xn ∼ N (nm, nv 2) Per la proprietà di chiusura a trasformazioni lineari della variabile casuale normale 0 densita’ v2 Sn X1 + . . . + Xn . = ∼ N (m, ) X̄n = n n n ossia la media di variabili casuali i.i.d. si distribuisce, per n grande, approssimativamente come una variabile casuale normale. Si noti che, mentre la media della normale rimane costante e pari a m = E(Xi), al crescere di 2 n la varianza vn diminuisce e anzi tende a 0 per n → ∞. Ciò significa che la distribuzione della media X̄n diventa al crescere di n sempre più concentrata attorno a m sino a quando, al limite, X̄n = m con probabilità 1. Questa è la legge dei grandi numeri. m x 96 Supponiamo che le n variabili Xi si riferiscano a n ripetizioni indipendenti dello stesso esperimento. La legge dei grandi numeri ci permette di interpretare il valore atteso m di una variabile casuale come la media (in senso statistico) dei valori che si ottengono replicando un numero elevato di volte l’esperimento casuale a cui è associata la variabile. Un’importante applicazione del precedente risultato è alla variabile casuale binomiale. Abbiamo visto che, se X ∼ Bin(n, p), per n grande, . X∼ N (np, np(1 − p)) da cui p(1 − p) X . ∼ N (p, ) n n da cui si vede che per n → ∞, p̂ = p con probabilità 1. Ma se X è il numero di successi in n prove indipendenti, p̂ non è altro che la frazione di successi in n prove indipendenti. Concludiamo che all’aumentare del numero di prove la frazione di successi converge alla probabilità di successo (si confronti con la definizione frequentista di probabilità). Lanciamo una moneta bilanciata. La probabilità che esca testa è 1/2. Se lanciamo una moneta 10 volte la frequenza relativa del numero di teste può essere diversa da 1/2, ma la legge dei grandi numeri mi assicura che aumentando il numero di lanci, la frequenza relativa delle teste si avvicinerà sempre più a 1/2 e si stabilizzerà su questo valore. p̂ = 97 LA VARIABILE CASUALE CHI-QUADRATO Siano Z1, . . . , Zr r variabili casuali i.i.d. N (0, 1). Poniamo X = Z12 + Z22 + . . . + Zr2 Si dice che X ha distribuzione chi-quadrato con r gradi di libertà e si scrive X ∼ χ2r . Si ha E(X) = r V (X) = 2r e 0.25 La variabile casuale chi-quadrato assume valori positivi e la sua funzione di densità di probabilità ha una asimmetria positiva. 0.15 0.20 r=3 0.10 f(x) r=6 0.00 0.05 r=10 0 5 10 15 20 x Per r → ∞, in virtù del teorema del limite centrale, . N (r, 2r) χ2r ∼ Come per la variabile casuale normale, la funzione di ripartizione della variabile casuale chi-quadrato non è esplicitabile. Tuttavia, la variabile casuale chi-quadrato è usata soprattutto in Statistica Inferenziale, dove più che 98 essere interessati a calcolare le probabilità, si è interessati a calcolare i quantili di tale variabile. Nel seguito indicheremo con χ2α;r il quantile α della variabile chiquadrato con r gradi di libertà. Dalle tavole dei quantili del chi-quadrato si vede, ad esempio, che χ20,9;12 = 18, 5 e χ20,05;5 = 1, 15 Per valori grandi di r possiamo approssimare il quantile χ2α;r tramite il quantile α di N (r, 2r), ossia prendiamo il quantile zα di N (0, 1) e poniamo √ . 2 χα;r = zα 2r + r 99 LA VARIABILE CASUALE t DI STUDENT Prendiamo due variabili casuali X1 e X2 indipendenti e tali che X1 ∼ N (0, 1) e X2 ∼ χ2r . Poniamo X1 T =p X2/r 0.2 0.1 f(x) 0.3 0.4 Si dice che la variabile casuale T si distribuisce come una variabile casuale t di Student con r gradi di libertà e si scrive T ∼ tr . La funzione di densità della variabile casuale t con r gradi di libertà ha una forma simile a quella di una normale standardizzata (campanulare e simmetrica attorno allo 0), ma è caratterizzata da code più lunghe. r=2 0.0 r=10 r=100 −6 −4 −2 0 2 4 6 x Per r → ∞ la t di Student con r gradi di libertà converge ad una N (0, 1). Anche per la distribuzione t non è esplicitabile la funzione di ripartizione. Tuttavia, il suo uso principale si ha in Statistica Inferenziale, dove si è più interessati a calcolare quantili della variabile, piuttosto che probabilità. Indicheremo con tα;r il quantile α della variabile t con r 100 gradi di libertà. Dalle tavole dei quantili della t si vede, ad esempio, che t0,975;5 = 2, 5706 e t0,95;7 = 1, 8946 Per la simmetria attorno allo 0 della densità della t di Student, vale tα;r = −t1−α;r Pertanto, se vogliamo t0,05;7 (non riportato nelle tavole), possiamo usare t0,05;7 = −t0,95;7 = −1, 8946 Per r grande, possiamo approssimare tα;r con zα . 101