PIU’ DI UNA VARIABILE CASUALE
Supponiamo di avere n variabili casuali, X1, X2, . . . , Xn.
Le n variabili casuali si dicono indipendenti se e solo
se
P (X1 ≤ x1 ∩ X2 ≤ x2 ∩ . . . ∩ Xn ≤ xn) =
= P (X1 ≤ x1) · P (X2 ≤ x2) . . . P (Xn ≤ xn)
per qualunque x1, x2, . . . , xn.
Se le n variabili sono riferite a n esperimenti o prove
indipendenti, allora le n variabili saranno esse stesse indipendenti e vale la precedente fattorizzazione.
Le n variabili casuali si dicono identicamente distribuite se hanno esattamente la stessa distribuzione di
probabilità. Per variabili che sono sia indipendenti che
identicamente distribuite si userà l’abbreviazione i.i.d..
Esempio
Abbiamo visto che la variabile casuale X ∼ Bin(n, p)
descrive il numero di “successi” in n prove indipendenti,
in cui ad ogni prova si ha una probabilità pari a p di osservare un “successo”. Abbiamo anche visto che X può
essere espressa come
X = X1 + X2 + . . . + Xn
dove
Xi =
(
1 se alla i-esima prova si ha un “successo”
0 se alla i-esima prova si ha un “insuccesso”
78
è la variabile casuale che descrive l’esito della i-esima prova, i = 1, . . . , n.
Ciascuna delle Xi è tale che Xi ∼ Be(p) e quindi le n
variabiabili sono identicamente distribuite. Inoltre le n
prove sono indipendenti, quindi le variabili Xi sono indipendenti. In sintesi, le n variabili X1, . . . , Xn sono i.i.d..
79
VALORE ATTESO E VARIANZA DI
COMBINAZIONI LINEARI DI VARIABILI
CASUALI
Siamo interessati a valutare alcune proprietà, ad esempio
media e varianza, di combinazioni linerari di variabili casuali, come somme di variabili casuali.
Esempio
Gli incassi di un ristorante in una settimana (supponendo
6 giorni di apertura) derivano dalla somma degli incassi
di ognuno dei 6 giorni della settimana in cui il ristorante
è aperto. La variabile casuale che descrive gli incassi di
una settimana è pertanto la somma di 6 variabili casuali che descrivono gli incassi giornalieri. Possiamo essere
interessati all’incasso atteso di una settimana, ossia il valore atteso della somma degli incassi giornalieri, o alla
variabilità dell’incasso di una settimana, ossia la varianza della somma degli incassi.
Supponiamo di avere n variabili casuali X1, X2, . . . , Xn.
Una combinazione lineare delle n variabili, è una nuova
variabile Y cosı̀ definita:
Y = a1X1 + a2X2 + . . . + anXn
dove a1, a2, . . . , an sono costanti fissate.
La media e la varianza della variabile casuale Y sono:
E(Y ) = a1E(X1) + a2E(X2) + . . . anE(Xn)
80
e
V (Y ) = a21V (X1) + a22V (X2) + . . . + a2nV (Xn)
ATTENZIONE: L’ultima equazione vale se le n variabili sono indipendenti.
Come caso particolare, si ha che, se X1, . . . , Xn sono
i.i.d. con E(Xi) = m e V (Xi) = v 2 (se sono identicamente distribuite devono anche avere uguale media e
uguale varianza) allora, posto
Y = X1 + X2 + . . . + Xn
E(Y ) = nm
e
V (Y ) = nv 2
Esempio 1
Si sa che gli incassi in migliaia di euro di un ristorante in
un giorno lavorativo seguono una distribuzione uniforme
sull’intervallo [0,5,3]. Si determinino la media e la varianza degli incassi di una settimana sapendo che i giorni di
apertura del ristorante in una settimana sono 6 e che gli
incassi dei vari giorni possono considerarsi indipendenti.
Poniamo
Xi=v.c. che descrive gli incassi nell’i-esimo giorno di
apertura di una settimana∼ U [0, 5, 3].
Per le ipotesi del problema X1, . . . , X6 sono i.i.d..
Sappiamo che
(3 − 0, 5)2
3, 5
= 1, 75 e V (Xi) =
= 0, 52
E(Xi) =
2
12
81
Posto
Y = X1 + . . . + X6
abbiamo
E(Y ) = 6 · 1, 75 = 10, 5
migliaia di euro
e
V (Y ) = 6 · 0, 52 = 3, 12
Esempio 2
Abbiamo visto che X ∼ Bin(n, p) è esprimibile come
X = X1 + . . . + Xn
dove le Xi sono i.i.d. Be(p). In base ai precedenti
risultati
E(X) = n · E(Xi) = np
e
V (X) = n · V (Xi) = np(1 − p)
Abbiamo ottenuto con un procedimento diverso rispetto
a quello precedentemente visto la media e la varianza di
una variabile casuale binomiale.
82
Se le Xi sono normali, non solo si riesce a determinare la
media e la varianza di una loro combinazione lineare, ma
anche l’esatta distribuzione.
Siano X1, . . . , Xn n variabili casuali normali indipendenti tali che
Xi ∼ N (µi, σi2),
i = 1, . . . , n
Posto
Y = a1X1 + a2X2 + . . . anXn
abbiamo che
Y ∼ N (a1µ1 +a2µ2 +. . .+anµn, a1σ12 +a22σ22 +. . .+a2nσn2 )
In particolare, se le Xi sono i.i.d. N (µ, σ 2), posto
Y = X1 + X2 + . . . + Xn
si ha che
Y ∼ N (nµ, nσ 2)
Esempio
Supponiamo che una ditta produttrice di birra utilizzi per
riempire le bottiglie dal contenuto nominale di 330gr un
macchinario che è imperfetto. In particolare, il contenuto
di birra (in gr) che il macchinario versa in ciascuna bottiglia è una variabile casuale con distribuzione normale di
media 330gr e varianza 9gr2. Sapendo che il peso di una
bottiglia vuota è di 180gr, si calcoli la probabilità che il
peso di una confezione di 10 bottiglie piene sia maggiore
83
a 5,13kg.
Indichiamo con Xi e Wi, rispettivamente, il peso (in gr)
e il contenuto di birra (in gr) della i-esima bottiglia della
confezione, per i = 1, . . . , 10,
Xi = Wi + 180
Sappiamo che Wi ∼ N (330, 9) e dalla proprietà di chiusura della variabile casuale normale a trasformazione lineari abbiamo che Xi ∼ N (330 + 180 = 510, 9) per tutti
gli i. Sia T = X1 + . . . + X10 la variabile casuale che
descrive il peso (in gr) complessivo delle 10 bottiglie della
confezione. Si vuole determinare
P (T > 5130)
Se la quantità versata in ciascuna bottiglia non dipende dalle quantità versate nelle altre bottiglie, allora le
Xi oltre ad essere identicamente distribuite sono anche
indipendenti e T ∼ N (10 · 510, 10 · 9). Pertanto,
5130 − 5100
√
P (T > 5130) = 1−P (T ≤ 5130) = 1−Φ
=
90
= 1 − Φ(3, 16) = 0, 0008
84
IL TEOREMA DEL LIMITE CENTRALE
Prendiamo n variabili casuali X1, X2, . . . , Xn i.i.d. e tali
che E(Xi) = m e V (Xi) = v 2. Posto
Sn = X1 + X2 + . . . + Xn
Sappiamo dai precedenti risultati che
E(Sn) = nm
e
V (Sn) = nv 2
Si può dimostrare che, per n grande,
.
Sn ∼
N (nm, nv 2)
dove ∼. indica “si distribuisce approssimativamente come”.
In altre parole, la distribuzione normale approssima la
distribuzione della somma di n variabili casuali i.i.d., per
n sufficientemente grande, qualunque sia la loro distribuzione (anche se le Xi sono discrete). Da questo risultato
deriva il ruolo fondamentale della distribuzione normale.
Quanto grande deve essere n affiché questa approssimazione sia valida?
Dipende dalla forma della funzione (di densità) di probabilità delle Xi.
85
Esempio: Somma di v.c. U(0,5) indipendenti
0.20
1
0.10
0.05
5
0.00
f(x)
0.15
2
0
5
10
15
x
86
20
25
0.7
Esempio: Somma di v.c. esponenziali indipendenti
f(x)
0.4
0.5
0.6
1
0.3
2
0.2
3
5
8
0.0
0.1
10
0
5
10
x
87
15
20
Un esempio importante di applicazione del teorema del
limite centrale è alla distribuzione binomiale.
Sappiamo che se X ∼ Bin(n, p), allora
X = X1 + . . . + Xn
dove le Xi sono variabili casuali i.i.d. Be(p), con E(Xi) =
p e V (Xi) = p(1 − p). Per il teorema del limite centrale,
.
X∼
N (np, np(1 − p))
Per n grande possiamo approssimare la distribuzione binomiale con la distribuzione normale. Agli effetti pratici, si verifica che l’approssimazione è adeguata se np e
n(1 − p) sono entrambi maggiori di 5. Ad esempio, per
p = 0, 5, n ≥ 10.
88
prob.
0.00
0.05
0.10
prob.
0.15
0.0
0.1
0.2
0.3
0.4
0
0
1
10
n=4,p=0.3
2
x
n=20,p=0.3
5
x
3
4
15
89
prob.
0.00
0.02
0.04
prob.
0.06
0.08
0.00 0.05
0.10 0.15
0.20 0.25
0
0
10
2
6
40
n=10,p=0.3
4
x
30
n=100,p=0.3
20
x
50
8
60
Se possiamo approssimare la distribuzione binomiale con
quella gaussiana, possiamo calcolare la funzione di ripartizione della binomiale tramite la funzione di ripartizione
della gaussiana.
Ad esempio, sia X ∼ Bin(100, 0, 3). Vogliamo calcolare
P (X ≤ 40). Piuttosto che calcolare,
P (X ≤ 40) = P (X = 0)+P (X = 1)+. . .+P (X = 40) =
100
100
=
0, 30(1−0, 3)100 +
0, 31(1−0, 3)99 +. . . +
0
1
100
+
0, 340(1 − 0, 3)60
40
essendo n grande, possiamo usare l’approssimazione
40 − 30
.
√
P (X ≤ 40) = P (Y ≤ 40) = Φ
21
dove
Y ∼ N (100 · 0, 3 = 30, 100 · 0, 3 · 0, 7 = 21)
e = indica “è approssimativamente uguale a”.
.
90
Esempio 1
Una banca decide di offrire azioni della propria società ad
un gruppo di 1400 clienti selezionati. Il prezzo di ciascuna
azione è di 5¿. Per ciascuno dei 1400 clienti il numero X
di azioni richieste è una variabile casuale cosı̀ distribuita


0
con p = 1/2



1
con p = 1/3
X=

2
con p = 1/6



> 2 con p = 0
Le richieste dei clienti sono assunte indipendenti.
1. Si calcoli il ricavo atteso dalla vendita delle azioni e
la varianza del ricavo.
Sia Xi la variabile casuale che descrive il numero di
azioni richieste dall’i–esimo cliente, i = 1, . . . , 1400.
In base alle specificazioni del problema, le Xi sono i.i.d., con distribuzione di probabilità sopra specificata. La richiesta complessiva dei 1400 clienti
è
T = X1 + X2 + . . . + X1400
Il ricavo dalla vendita delle azioni è
R=5·T
Allora,
E(R) = E(5 · T ) = 5 · E(T ) = 5 · 1400 · E(Xi)
Dato che
E(Xi) = 0 ·
1
1
1 2
+1· +2· =
2
3
6 3
91
si ha
2
= 4666, 7¿
3
V (R) = V (5 · T ) = 25 · V (T ) = 25 · 1400 · V (Xi)
E(R) = 5 · 1400 ·
Dato che
1
1
1 4 5
V (Xi) = E(Xi2)−{E(Xi)}2 = 02· +12· +22· − =
2
3
6 9 9
si ha
5
V (R) = 25 · 1400 · = 19444, 4¿2
9
2. Si calcoli la probabilità che il numero di azioni richieste dai 1400 clienti sia compreso tra 900 e 950.
Si richiede P (900 ≤ T ≤ 950). T è la somma di
1400 v.c. i.i.d. e per il teorema del limite centrale
.
T ∼
N (E(T ), V (T )).
2
= 933, 3
3
5
V (T ) = 1400 · V (Xi) = 1400 · = 777, 78
9
Allora,
E(T ) = 1400 · E(Xi) = 1400 ·
P (900 ≤ T ≤ 950) = P (900 ≤ Y ≤ 950) =
.
= P (Y ≤ 950) − P (Y ≤ 900) =
900 − 933, 3
950 − 933, 3
√
√
−Φ
=
=Φ
777, 78
777, 78
= Φ(0, 6) − Φ(−1, 2) = Φ(0, 6) − 1 + Φ(1, 2) =
= 0, 726 − 1 + 0, 885
dove Y ∼ N (933, 3, 777, 78).
92
Esempio 2
Si supponga che le telefonate che arrivano ad un centralino abbiano una distribuzione uniforme sull’intervallo
(1,5) minuti. Si calcoli la probabilità che la durata complessiva di 60 telefonate sia superiore a 3 ore e un quarto.
Sia Xi la variabile casuale che descrive la durata in minuti della i–esima telefonata. Allora, Xi ∼ U [1, 5] e le Xi
sono i.i.d. (è ragionevole assumere indipendenti le durate
delle chiamate). Sia
T = X1 + X2 + . . . + X60
la variabile casuale che descrive la durata complessiva
delle 60 telefonate. Vogliamo calcolare P (T > 195). Per
il teorema del limite centrale,
.
T ∼
N (E(T ), V (T ))
dove
E(T ) = 60 · E(Xi) = 60 ·
6
= 180 min
2
e
(5 − 1)2
V (T ) = 60 · V (Xi) = 60 ·
= 80 min2
12
P (T > 195) = P (Y > 195) = 1 − P (Y ≤ 195) =
195 − 180
√
=1−Φ
= 1 − 0, 9535
80
dove Y ∼ N (180, 80).
.
93
Esempio 3
Sia p = 0, 02 la probabilità che una bottiglia di vino si
rompa durante il trasporto dal produttore al rivenditore.
Il danno per una bottiglia rotta, a carico del rivenditore,
è pari a 4¿. Calcolare la probabilità che il danno subito
dal rivenditore
1. per una partita di 10 bottiglie sia almeno 8¿
Dire che su 10 bottiglie il danno subito dal rivenditore è almeno di 8¿ equivale a dire che almeno
due delle 10 bottiglie si rompono.
Indichiamo con X la variabile casuale che descrive
il numero di bottiglie rotte tra le 10 acquistate dal
rivenditore. X ∼ Bin(10, 0, 02) (dobbiamo però assumere che ciò che accade a ciascuna bottiglia sia
indipendente da ciò che accade alle altre bottiglie, il
che potrebbe essere non realistico). La probabilità
cercata è allora
P (X ≥ 2) = 1−P (X < 2) = 1−[P (X = 0)+P (X = 1)] =
10
10
0, 020(1 − 0, 02)10 +
0, 02(1 − 0, 02)9
= 1−
0
1
Si noti che non possiamo applicare il teorema del
limite centrale in quanto np = 10 · 0, 02 = 0, 2 < 5 e
quindi l’approssimazione normale non è molto buona.
2. per una partita di 400 bottiglie si mantenga sotto
40¿
Il danno subito si mantiene sotto 40¿ se e solo se
94
si rompono meno di 10 bottiglie.
Indichiamo con Y la variabile casuale che descrive il
numero di bottiglie rotte nella partita di 400 bottiglie. Y ∼ Bin(400, 0, 02). Vogliamo P (Y < 10).
Poiché np, n(1 − p) > 5 possiamo calcolare questa
probabilità sfruttando il teorema del limite centrale.
In particolare,
.
Y ∼
N (400 · 0, 02 = 8, 400 · 0, 02 · 0, 98 = 7, 84)
Allora,
10 − 8
.
P (Y < 10) = Φ √
7, 84
95
= Φ(0, 71) = 0, 76
Il teorema del limite centrale ci dice che se X1, . . . , Xn
sono i.i.d. con E(Xi) = m e V (Xi) = v 2, allora, per n
sufficientemente grande,
.
Sn = X1 + . . . + Xn ∼
N (nm, nv 2)
Per la proprietà di chiusura a trasformazioni lineari della
variabile casuale normale
0
densita’
v2
Sn X1 + . . . + Xn .
=
∼ N (m, )
X̄n =
n
n
n
ossia la media di variabili casuali i.i.d. si distribuisce,
per n grande, approssimativamente come una variabile
casuale normale. Si noti che, mentre la media della normale rimane costante e pari a m = E(Xi), al crescere di
2
n la varianza vn diminuisce e anzi tende a 0 per n → ∞.
Ciò significa che la distribuzione della media X̄n diventa
al crescere di n sempre più concentrata attorno a m sino
a quando, al limite, X̄n = m con probabilità 1. Questa è
la legge dei grandi numeri.
m
x
96
Supponiamo che le n variabili Xi si riferiscano a n ripetizioni indipendenti dello stesso esperimento. La legge dei
grandi numeri ci permette di interpretare il valore atteso
m di una variabile casuale come la media (in senso statistico) dei valori che si ottengono replicando un numero
elevato di volte l’esperimento casuale a cui è associata la
variabile.
Un’importante applicazione del precedente risultato è alla variabile casuale binomiale. Abbiamo visto che, se
X ∼ Bin(n, p), per n grande,
.
X∼
N (np, np(1 − p))
da cui
p(1 − p)
X .
∼ N (p,
)
n
n
da cui si vede che per n → ∞, p̂ = p con probabilità 1.
Ma se X è il numero di successi in n prove indipendenti,
p̂ non è altro che la frazione di successi in n prove indipendenti. Concludiamo che all’aumentare del numero
di prove la frazione di successi converge alla probabilità
di successo (si confronti con la definizione frequentista di
probabilità).
Lanciamo una moneta bilanciata. La probabilità che esca
testa è 1/2. Se lanciamo una moneta 10 volte la frequenza relativa del numero di teste può essere diversa da 1/2,
ma la legge dei grandi numeri mi assicura che aumentando il numero di lanci, la frequenza relativa delle teste si
avvicinerà sempre più a 1/2 e si stabilizzerà su questo
valore.
p̂ =
97
LA VARIABILE CASUALE
CHI-QUADRATO
Siano Z1, . . . , Zr r variabili casuali i.i.d. N (0, 1). Poniamo
X = Z12 + Z22 + . . . + Zr2
Si dice che X ha distribuzione chi-quadrato con r gradi
di libertà e si scrive X ∼ χ2r . Si ha
E(X) = r
V (X) = 2r
e
0.25
La variabile casuale chi-quadrato assume valori positivi e la sua funzione di densità di probabilità ha una
asimmetria positiva.
0.15
0.20
r=3
0.10
f(x)
r=6
0.00
0.05
r=10
0
5
10
15
20
x
Per r → ∞, in virtù del teorema del limite centrale,
.
N (r, 2r)
χ2r ∼
Come per la variabile casuale normale, la funzione di ripartizione della variabile casuale chi-quadrato non è esplicitabile. Tuttavia, la variabile casuale chi-quadrato è
usata soprattutto in Statistica Inferenziale, dove più che
98
essere interessati a calcolare le probabilità, si è interessati a calcolare i quantili di tale variabile. Nel seguito
indicheremo con χ2α;r il quantile α della variabile chiquadrato con r gradi di libertà. Dalle tavole dei quantili
del chi-quadrato si vede, ad esempio, che
χ20,9;12 = 18, 5
e
χ20,05;5 = 1, 15
Per valori grandi di r possiamo approssimare il quantile
χ2α;r tramite il quantile α di N (r, 2r), ossia prendiamo il
quantile zα di N (0, 1) e poniamo
√
.
2
χα;r = zα 2r + r
99
LA VARIABILE CASUALE t DI STUDENT
Prendiamo due variabili casuali X1 e X2 indipendenti e
tali che X1 ∼ N (0, 1) e X2 ∼ χ2r . Poniamo
X1
T =p
X2/r
0.2
0.1
f(x)
0.3
0.4
Si dice che la variabile casuale T si distribuisce come una
variabile casuale t di Student con r gradi di libertà e si
scrive T ∼ tr .
La funzione di densità della variabile casuale t con r gradi
di libertà ha una forma simile a quella di una normale
standardizzata (campanulare e simmetrica attorno allo
0), ma è caratterizzata da code più lunghe.
r=2
0.0
r=10
r=100
−6
−4
−2
0
2
4
6
x
Per r → ∞ la t di Student con r gradi di libertà converge
ad una N (0, 1).
Anche per la distribuzione t non è esplicitabile la funzione di ripartizione. Tuttavia, il suo uso principale si ha
in Statistica Inferenziale, dove si è più interessati a calcolare quantili della variabile, piuttosto che probabilità.
Indicheremo con tα;r il quantile α della variabile t con r
100
gradi di libertà. Dalle tavole dei quantili della t si vede,
ad esempio, che
t0,975;5 = 2, 5706
e
t0,95;7 = 1, 8946
Per la simmetria attorno allo 0 della densità della t di
Student, vale
tα;r = −t1−α;r
Pertanto, se vogliamo t0,05;7 (non riportato nelle tavole),
possiamo usare
t0,05;7 = −t0,95;7 = −1, 8946
Per r grande, possiamo approssimare tα;r con zα .
101