Matematica e statistica
Versione didascalica: parte 6
•
•
•
Sito web del corso
http://www.labmat.it
Docente: Prof. Sergio Invernizzi, Università di Trieste
e-mail: [email protected]
1.6. Variabili aleatorie finite
• Esperimento E
• Spazio campionario 
• In ogni prova, osservata (misurata) una “variabile” X
• Il valore osservato di X dipende da quale degli eventi elementari 
si verifica nella prova in questione: X è una “variabile aleatoria”.
• Nel caso più semplice X assume un numero finito di valori :
x1 , x2 , x3 , ..., xN
con corrispondenti probabilità
p1 , p2 , p3 , ..., pN
1.6. Variabili aleatorie finite: esempio
Nel caso dei due dadi X assume un
numero finito di valori :
2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12
con corrispondenti probabilità
1 , 2 , 3 , 4 , 5 , 6 , 5 , 4 , 3 , 2 , 1
36 36 36 36 36 36 36 36 36 36 36
1.6. Variabili aleatorie finite: esempio
• Esperimento E = lancio di due dadi
• Spazio campionario
• La v.a. X in questione
è null’altro che una
applicazione reale
X:
R
definita sulle coppie
 = (r, v) dalla formula X() = r + v.
Si noti che è possibile interpretare
# X 1 ({8}) 5
P( X = 8) =
= 36
#
come “massa” della controimagine
X -1({8}) = { in  tali che C()=8}
se si attribuisce la massa 1 = 100% a tutto lo spazio .
1.6.1. Valore atteso e varianza
• 80 lanci di un dado truccato:
x <- floor(1+6*runif(80)^2)
x = {1,
1, 1, 2, 4, 1, 5, 3, 1, 2, 5, 1, 1, 2, 1, 5, 1, 2, 3, 4,
4, 2, 1, 1, 4, 1, 1, 6, 1, 6, 1, 1, 3, 2, 2, 6, 2, 1, 1, 1,
1, 2, 3, 1, 2, 1, 1, 6, 3, 6, 1, 1, 3, 6, 5, 4, 1, 2, 2, 4,
2, 2, 1, 3, 1, 5, 2, 1, 4, 4, 1, 2, 1, 5, 1, 2, 2, 5, 1, 3}
• calcolo la media aritmetica:
m = (1
+ 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1
+ 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1
+ 1 + 1 + 1 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2
+ 2 + 2 + 2 + 2 + 2 + 2 + 3 + 3 + 3 + 3 + 3 + 3 + 3 + 3 + 4
+ 4 + 4 + 4 + 4 + 4 + 4 + 4 + 5 + 5 + 5 + 5 + 5 + 5 + 5 + 6
+ 6 + 6 + 6 + 6 + 6)/80
= 196/80 = 2.45
(continua)
m = (1 +
1 + 1 +
1 + 1 +
2 + 2 +
4 + 4 +
6) / 80
1
1
2
2
4
+
+
+
+
+
1
1
2
2
4
+
+
+
+
+
1
1
2
3
5
+
+
+
+
+
1
1
2
3
5
+
+
+
+
+
1
1
2
3
5
+
+
+
+
+
1
1
2
3
5
+
+
+
+
+
1
1
2
3
5
+
+
+
+
+
1
1
2
3
5
+
+
+
+
+
1
1
2
3
5
+
+
+
+
+
1
1
2
3
6
+
+
+
+
+
1
1
2
4
6
+
+
+
+
+
1
1
2
4
6
+
+
+
+
+
1
1
2
4
6
= (33  1 + 18  2 + 8  3 + 8  4 + 7  5 + 6  6) / 80
=
33
80
8
8
7
6
1  18
2

3

4

5

80
80
80
80
80 6 =
circa
f11  f 2 2  f3 3  f 4 4  f5 5  f 6 6
6
p1 x1  p2 x2  p3 x3  p4 x4  p5 x5  p6 x6 =  pk xk
k =1
+
+
+
+
+
1
1
2
4
6
+
+
+
+
+
(continua)
• In generale il valore atteso  = E[ X ] =
N
x
k =1
k
pk
(baricentro)
N
2
Var
[
X
]
=
(
x


)
pk
• Varianza (momento di inerzia)
 k
k =1
• Deviazione standard  = Var[ X ] =
N
2
(
x


)
pk
 k
k =1
4.1. Stime dei parametri
• Popolazione: X
• Numero di prove: n
• Campione aleatorio:
• Valori osservati:
•
X1 , X 2 , X 3 , ..., X n
x1 , x2 , x3 , ..., xn
Non confondere con i valori possibili
• Media campionaria:  n = 1
n

k =1, n
Xk
• Il valore osservato della media campionaria
mn = 1n

k =1, n
xk = ˆ
 = E[ X ]
N
viene usato come stimatore della media vera  = E[ X ] =  xk pk
k =1
(continua)
• Stimatore Tn di un parametro 
 corretto (unbiased) : E[Tn] = 
 coerente (consistent): lim Var[Tn] = 0
• La media campionaria è uno stimatore corretto e coerente
della media vera: vedremo che
E[ M n ] = 
Var[ M n ] =  2 / n
(è un teorema: cf. diapositiva 26)
• Stimatore o consuntivo: statistic
• Statistica come scienza: statistics
Stima della media di 2 dadi
 = 7. Facciamo 8 osservazioni m della media campionaria, con
diverse dimensioni del campione: n = 5, 10, 50, 200
n=5
m osservati: 7.60, 6.00, 8.00, 4.60, 7.80, 6.40, 6.80, 8.20
n = 10
m osservati: 6.60, 7.70, 8.70, 5.60, 6.40, 6.80, 7.40, 7.00
n = 50
m osservati: 6.68, 6.42, 7.28, 7.40, 6.96, 6.86, 6.96, 7.48
n = 200
m osservati: 7.15, 6.80, 7.23, 6.98, 7.08, 7.08, 7.07, 6.88
n = 1000
m osservati: 6.94, 6.86, 7.12, 7.01, 6.91, 6.93, 7.02, 7.06
Qui invece rappresentiamo 250 osservazioni m della media
campionaria Mn, con dimensioni del campione:
n = 25
n = 50
n = 100
n = 200
I valori osservati m della media campionaria Mn sono centrati
su  e tanto meno dispersi quanto più n è grande, …
I valori osservati m della media campionaria Mn sono centrati su 
e tanto meno dispersi quanto più n è grande, …
Quindi se n è “grande”, abbiamo una “buona probabilità” che un
singolo valore osservato m della media campionaria Mn (ossia la
media aritmetica dei valori osservati del campione) sia una
“buona” stima per .
La stima è migliore tanto più grande è n (la dimensione
del campione).
4.2.1 La varianza campionaria
• Consuntivo varianza campionaria:
S n2 = n11 k =1,n ( X k  M n ) 2

La varianza campionaria è uno stimatore corretto e coerente
della varianza vera (è un teorema: cf. diapositive 27, 28, 29):
ˆ 2 = n11  k =1,n ( xk  mn )2
2
• Se si dividesse per n si otterrebbe uno stimatore
(biased = non corretto) in quanto
n 1 2
E[ S ] =
 2
n
2
n
S
2
n
distorto
Sulla calcolatrice
• Stime sulla TI-82
• Popolazione X = -ln(rand)
• n (max 99) valori osservati in L1
• Comando 1-Var Stats L1
• x = mn = stima della media
• Sx = stima della deviazione standard non distorta
• x = stima della deviazione standard distorta
• minX, Q1 , Med, Q3 , maxX = “riassunto a 5 numeri” [ box plot ]
 minimo

primo quartile

mediana (almeno il 50% ... e almeno il 50% ....)

terzo quartile

massimo
[ NB animazione delle schermate ]
> x <- -log(runif(99))
> x
[1]
[7]
[13]
[19]
[25]
[31]
[37]
[43]
[49]
[55]
[61]
[67]
[73]
[79]
[85]
[91]
[97]
0.442406779
0.948137321
0.439984155
0.468903451
0.237981589
3.709382632
1.010956427
1.046182539
1.356679765
1.220112306
0.586604401
1.432247566
2.223455853
0.115486534
0.718340727
0.089948549
0.756498358
1.520114323
4.632340154
0.087883367
2.481204484
0.432601672
1.710685905
1.277979394
0.991990006
0.251157440
1.397272292
0.419796978
0.241009211
0.269832732
0.255647427
0.597733568
0.452019811
1.250687755
0.359739819
0.122841389
0.327555402
0.346950869
2.591373233
0.186195443
0.047300276
0.314767995
0.137009917
1.359575045
0.586009376
0.218992103
0.060091875
0.556714480
0.603395773
0.226443560
1.910004276
Stesso esempio con R
1.196004366
0.725634687
1.131393955
0.073592979
0.273996105
0.915975775
1.085035943
2.068547432
0.417083051
3.397626651
1.145115010
0.876719352
0.398964894
4.165507832
0.795164795
2.096750485
1.142232603
1.002278314
0.412639758
0.549544999
0.268526137
0.065707763
0.069276794
0.120096882
0.307458761
0.270470772
0.472123723
0.281467705
1.157393991
1.140225430
0.839431267
2.878146447
0.066834102
0.731509306
1.432809035
0.796314267
0.031064219
0.097969750
1.654436531
0.478522417
0.390503350
0.303111629
0.531094403
0.492258877
2.870695956
1.054656225
0.009448098
1.253159978
> summary(x)
Min. 1st Qu.
Median
Mean 3rd Qu.
Max.
0.009448 0.272200 0.586000 0.898600 1.177000 4.632000
BoxPlot (riassunto a 5 numeri)
Min
1Quart.
Mediana 3Quart. “Max” dati “anomali”
Media vs Mediana
• Centralità & Dispersione
• Scale a rapporti: usare preferibilmente
• Media & Deviazione standard
• Scale qualitative: usare preferibilmente
• Mediana & Quartili (riassunto a 5 numeri)
(nel Curriculum Vitae inserire boxplot dei voti)
1.6.2. Formule per E[X] e Var[X]
• Valore atteso di aX+b
E[ f ( X )] =  k =1, N f ( xk ) pk
f ( x) = ax  b
E[aX  b] =  k =1, N (axk  b) pk =
= a  k =1, N xk pk  b ( k =1, N pk ) =
aE[ X ]  b
1.6.2. Formule per E[X] e Var[X]
• Varianza come valore atteso
E[ f ( X )] =  k =1, N f ( xk ) pk
f ( x) = ( x  E[ X ]) 2
E[( X  E[ X ]) 2 ] =  k =1, N ( xk  E[ X ]) 2 pk =
= Var[ X ]
1.6.2. Formule per E[X] e Var[X]
• Varianza di aX+b
• Poniamo aX+b al posto di X nella formula precedente
Var[ X ] = E[( X  E[ X ]) ]
2
Var[aX  b] = E[(aX  b  E[ aX  b]) ] =
2
= E[(aX b  aE[ X ] b ]) 2 ] =
= E[a ( X  E[ X ]) ] =
2
2
= a E[( X  E[ X ]) ] = a Var[ X ]
2
2
2
1.6.2. Formule per E[X] e Var[X]
• Valore atteso di X+Y
• P{ {X = xk}  {Y = yj } } = pkj
•
E[ X  Y ] =  k =1, N ( xk  y j ) pkj =
j =1, M
=  k =1, N xk ( j =1, M pkj )   j =1,M y j ( k =1, N pkj )
=  k =1, N xk pk   j =1, M y j q j = E[ X ]  E[Y ]
1.6.2. Formule per E[X] e Var[X]
• Valore atteso di XY per variabili indipendenti
• P{ {X = xk}  {Y = yj } } = pkj
= P{X = xk} P{Y = yj } = pk qj
•
E[ XY ] =  k =1, N ( xk y j ) pkj =
j =1, M
=  k =1, N  j =1, M xk y j pk q j =
=  k =1, N xk pk   j =1, M y j q j = E[ X ]  E[Y ]
1.6.2. Formule per E[X] e Var[X]
• Varianza di X+Y
Var[ X  Y ] = Var[ X ]  2Cov[ X , Y ]  Var[Y ]
Cov[ X , Y ] = E[( X  E[ X ])  (Y  E[Y ])]
• Per variabili indipendenti: Cov[X,Y] = 0
• Varianza di X+Y per variabili indipendenti
Var[ X  Y ] = Var[ X ]  Var[Y ]
Cov[ X , Y ] = 0
1.6.2. Formule per E[X] e Var[X]
• Covarianza zero non implica indipendenza!
• Lanciamo i due dadi R e V per 100 volte. Valutiamo :
• La variabile doppia (R, V)
• La variabile doppia (X,Y) = (R + V, R – V ):
1.6.2. Formule per E[X] e Var[X]
• X = R + V e Y = R – V sono evidentemente v.a. dipendenti
(ad esempio se X=12 non puo' che essere Y=0, e se X=11 non
puo' che essere Y=1 oppure Y=-1), ma la covarianza è nulla.
In generale applicare funzioni
X = f(R,V) e Y = g(R,V) a due
variabili R e V indipendenti
fornisce due variabili dipendenti
X e Y con dipendenza di tipo
talvolta inaspettato (cf. CD).
1.6.2. Formule per E[X] e Var[X]
• ... la covarianza è nulla:
Cov[ X , Y ] = E[( X  E[ X ])  (Y  E[Y ])] 
Cov[ R  V , R  V ] = E[( R  V  E[ R  V ])  ( R  V  E[ R  V ] )] =
= E[( R  V  2 E[ R ])  ( R  V )]
E[ R] = E[V ]
= E[ R 2  V 2  2 R E[R]  2 V E[V ]]
= E[ R 2 ]  E[V 2 ] 2 E[R ]2 2 E[V ]2 = 0
E[ R 2 ] = E[V 2 ]
Standardizzazione
 = E[ X ]
 = Var[ X ]
X 
Z=
= (1/  ) X  (  /  )

E[ Z ] = (1/  ) E[ X ]   /  = ( E[ X ]   ) /  = 0
Var[ Z ] = (1/  ) 2 Var[ X ] = (1/  2 ) 2 = 1
Standardizzazione della media
M n = n1  k =1,n X k
E[ M n ] = E[ n1  k =1,n X k ] = n1  k =1,n E[ X k ] = n1  n  = 
Var[ M n ] = Var[ n1  k =1,n X k ] = ( n1 ) 2Var[ k =1,n X k ] =
2
1
=( )
n

k =1, n
Var[ X k
2
1
]=( )
= ( n1 ) 2  n  2 =  2 / n
Zn =
Mn  
2 /n
=
Mn  

n
n

 =
2
k =1, n
La media campionaria
è uno stimatore corretto
e coerente
S n2 = n11  k =1, n ( X k  M n ) 2
X k  M n = ( X k   )  (M n   )
La varianza campionaria
è uno stimatore corretto
( n  1) S n2 =  k =1, n [( X k   )  ( M n   )]2 =
=  k =1, n [( X k   ) 2  2( X k   )( M n   )  ( M n   ) 2 ]
=  k =1, n ( X k   ) 2  2( M n   ) k =1, n ( X k   )   k =1, n ( M n   ) 2
=  k =1, n ( X k   ) 2  2( M n   )( k =1, n X k  n ) n( M n   ) 2
=  k =1, n ( X k   ) 2  2( M n   )(nM n  n )  n( M n   ) 2
=  k =1, n ( X k   ) 2  2n( M n   ) 2  n( M n   ) 2
=  k =1, n ( X k   ) 2  n( M n   ) 2
La varianza campionaria
è uno stimatore corretto
 E[(n  1) S n2 ] = E[ k =1, n ( X k   ) 2 n]  nE[( M n   ) 2 ]
= nE[( X k   ) 2 ]  nVar[ M n ] = n 2  n
 E[ Sn2 ] =  2
2
n
= (n  1) 2
La varianza campionaria
è uno stimatore coerente
Var[ Sn2 ] = E[( Sn2   2 ) 2 ]
4
E
[
S
Per lo sviluppo del binomio questo richiede il calcolo di
n]
Il risultato :
4

 4 n  3 
2
Var[ Sn ] =

0
4


n 
n 1 
Dove
4 = E[( X   ) 4 ] si assume finito.
Scarica

Calcolo numerico della derivata