Distribuzioni troncate: esempio
Un vecchio amico: il dado
P(x)=1/6
Se supponiamo che 3 facce (1,2,3) siano “ cancellate”
P(x/x>3)= p(x)/p(x>3)= (1/6)/(3/6)= 1/3
E(X) = (1+2+3+4+5+6)*1/6 = 21/6 = 3.5
E(x/x>3)= (4+5+6)*1/3= 15/3 = 5
V(x) = 2.92
V(x/x>3)= 0.67
Sono stai “eliminati” i valori più “piccoli”
TRONCAMENTO A SINISTRA
Se invece immaginiamo che siano cancellate le
facce 4,5,6:
P(x/x<4)= p(x)/p(x<4)= (1/6)/(3/6)= 1/3
E(X) = (1+2+3+4+5+6)*1/6 = 21/6 = 3.5
E(x/x<4)= (1+2+3)*1/3= 6/3 = 2
V(x) = 2.92
V(x/x>3)= 0.67
Sono stai “eliminati” i valori più “grandi”
TRONCAMENTO A DESTRA
Effetti del Troncamento:
Rispetto alla distribuzione “non troncata”
1. La funzione di densità si modifica (“aumenta”)
2. La media si modifica (aumenta se tronc.sx, diminuisce se
tronc. A dx)
3. La varianza diminuisce in ogni caso
Ovviamente “ignorare” il troncamento porta a stime distorte
Funzione di densità di probabilità: quale relazione con la densità “non
troncata”?
In generale avremo (dalla definizione di probabilità condizionata)
f ( x)
f ( x / a  x  b) 
ma
Prob(a  x  b)
Prob(a  x  b)  Prob(x  b)  Prob(x  a)  F (b)  F (a)
f ( x)
 f ( x / a  x  b) 
F (b)  F (a)
F(a)
F(b)
Per un troncamento a sinistra:
f ( x)
f ( x)
densità
f ( x / x  a) 


Prob(x  a) 1  F (a) ripartizio ne
Per un troncamento a destra:
f ( x)
f ( x)
densità
f ( x / x  b) 


Prob(x  a) F (a) ripartizio ne
Questo rapporto è noto come “Inverse Mill’s Ratio” o
anche “Hazard function”
Equivale a “scalare” la troncata in modo che l’integrale
assommi a 1
Esempio: Distribuzione normale Troncamento a sx

(a   )

 (a   ) 
 Prob ( x  a )  1  
  1   ( )
  
1
f ( x)
f ( x / x  a) 

1   ( )
e
( x   ) 2
2 2
2 2
1   ( )
1
 x 


  
2
1
e
 2

1   ( )
2

 x 
1
f

 ( x)
    

1   ( )
1   ( )
1
Dove
 x2 
1
 x  
exp  
2
 2
densità della N(0,1) NON troncata (è una funzione)

       z dz

ripartizione della N(0,1) nel punto di troncamento
(è un numero)
Esempio: Distribuzione normale Troncamento a dx
Cambia solo il denominatore

(a   )

 (a   ) 
 Prob( x  a)  
  ( )
  
1
 ( x)
f ( x / x  a)  
( )
Esempio: Funzione di ripartizione dei logaritmi dei redditi - BdI 2014
1.2
1
0.8
F(x)
Tronchiamo a sx nel punto 10 cioè circa 22.000 euro
0.6
Osservata
Gaussiana
0.4
0.2
0
4
5
6
7
8
ln(Reddito)
9
10
11
12
Dati sulle distribuzioni (troncata nel punto ln(reddito)=10)
NON troncata
4609
100%
9,767
0,373
0,611
6%
Troncata
1592
35%
10,364
0,109
0,330
3%
DATIORIGINALI
Media
20800
Varianza
201203411
Sdev
14185
cv
68%
33915
274804136
16577
49%
Numerosità
%
media LN
Varianza LN
Sdev LN
cv
En passant notiamo che exp(medie dei logaritmi) ammontano rispettivamente a 17448 e 31707
Calcoliamo la funzione di densità per x=40.000 ln(x)=10,6
Nella distribuzione originale il valore standardizzato
(10,6-9,77)/0.61= 1,36 e p(1,36)= 0,1578
Nella troncata:
(a   )
 (a   ) 

 Prob ( x  a )  1  
  1   ( )

  
(10  9,767)

 0,3813  Prob ( x  10)  1   0,3813  1  0,6485  0,3515
0,611
1
 ( x)
f ( x / x  a)  
1   ( )
1
0,1578
0,611
f (10,6 / x  10) 
 0,7347
0,3515
Vista la relazione sulla densità è agevole ricavare quella sui parametri:
Basta calcolare l’integrale che definisce media e varianza per la troncata
Definiamo:
= E(x)
²=V(x)
(a)=p(x)/p(x>a)=(x)/(1-()) (Inverse Mill’s ratio)
(a)= (a)*((a)-a)
Allora:
E(x/x>a) =  +  (a)
V(x) = ²[1- (a)]
Valori di  e  al variare del punto di troncamento
1,6
1,4
Lambda
1,2
1-F(x)
1
delta
0,8
0,6
0,4
f(x)
0,2
0
-4
-2
0
2
4
Valori medi al variare del punto di troncamento (normale standardizzata)
4
3
2
1
E(x/x>a)
0
-3
-2
-1
0
-1
-2
-3
-4
1
2
3
E(x/x<a)
SQM al variare del punto di troncamento (normale standardizzata)
1
0,9
0,8
0,7
0,6
sqm(x/x>a)
0,5
sqm(x/x<a)
0,4
0,3
0,2
0,1
0
-3
-2
-1
0
1
2
3
Un esempio (artificiale):
Il 2% più ricco (coloro che hanno un reddito superiore a
100.000 €) della popolazione italiana ha un reddito medio
di 142.000 €.
Supponendo che la distribuzione dei redditi sia lognormale, qual è una stima del reddito medio dell’intera
popolazione?
Si ha:
ln(100)=4,605
ln(142)=4,956
I dati indicano che:
1. E( y/y > 4,605) = 4,956
2. Prob(y > 4,605) = 0,02
Ricordando che:
 ( )
1 E ( y / y  4,605)   
 4,956 con
1  ( )
4,605  
2  

1
ma ( )  0,98     (0,98)  2,054
  (  )   (2,054)  0.0484
Quindi le equazioni diventano:
1
2
che
0,0484

 4,956
0,02
4,605  
 2,054

implicano
  2,635
ricordando
  0,959
che
se
  e
z  N  ,    E e
si
con
z
  2 / 2
ottiene
reddito
medio  22.087
Scarica

Troncamento