Distribuzioni troncate: esempio Un vecchio amico: il dado P(x)=1/6 Se supponiamo che 3 facce (1,2,3) siano “ cancellate” P(x/x>3)= p(x)/p(x>3)= (1/6)/(3/6)= 1/3 E(X) = (1+2+3+4+5+6)*1/6 = 21/6 = 3.5 E(x/x>3)= (4+5+6)*1/3= 15/3 = 5 V(x) = 2.92 V(x/x>3)= 0.67 Sono stai “eliminati” i valori più “piccoli” TRONCAMENTO A SINISTRA Se invece immaginiamo che siano cancellate le facce 4,5,6: P(x/x<4)= p(x)/p(x<4)= (1/6)/(3/6)= 1/3 E(X) = (1+2+3+4+5+6)*1/6 = 21/6 = 3.5 E(x/x<4)= (1+2+3)*1/3= 6/3 = 2 V(x) = 2.92 V(x/x>3)= 0.67 Sono stai “eliminati” i valori più “grandi” TRONCAMENTO A DESTRA Effetti del Troncamento: Rispetto alla distribuzione “non troncata” 1. La funzione di densità si modifica (“aumenta”) 2. La media si modifica (aumenta se tronc.sx, diminuisce se tronc. A dx) 3. La varianza diminuisce in ogni caso Ovviamente “ignorare” il troncamento porta a stime distorte Funzione di densità di probabilità: quale relazione con la densità “non troncata”? In generale avremo (dalla definizione di probabilità condizionata) f ( x) f ( x / a x b) ma Prob(a x b) Prob(a x b) Prob(x b) Prob(x a) F (b) F (a) f ( x) f ( x / a x b) F (b) F (a) F(a) F(b) Per un troncamento a sinistra: f ( x) f ( x) densità f ( x / x a) Prob(x a) 1 F (a) ripartizio ne Per un troncamento a destra: f ( x) f ( x) densità f ( x / x b) Prob(x a) F (a) ripartizio ne Questo rapporto è noto come “Inverse Mill’s Ratio” o anche “Hazard function” Equivale a “scalare” la troncata in modo che l’integrale assommi a 1 Esempio: Distribuzione normale Troncamento a sx (a ) (a ) Prob ( x a ) 1 1 ( ) 1 f ( x) f ( x / x a) 1 ( ) e ( x ) 2 2 2 2 2 1 ( ) 1 x 2 1 e 2 1 ( ) 2 x 1 f ( x) 1 ( ) 1 ( ) 1 Dove x2 1 x exp 2 2 densità della N(0,1) NON troncata (è una funzione) z dz ripartizione della N(0,1) nel punto di troncamento (è un numero) Esempio: Distribuzione normale Troncamento a dx Cambia solo il denominatore (a ) (a ) Prob( x a) ( ) 1 ( x) f ( x / x a) ( ) Esempio: Funzione di ripartizione dei logaritmi dei redditi - BdI 2014 1.2 1 0.8 F(x) Tronchiamo a sx nel punto 10 cioè circa 22.000 euro 0.6 Osservata Gaussiana 0.4 0.2 0 4 5 6 7 8 ln(Reddito) 9 10 11 12 Dati sulle distribuzioni (troncata nel punto ln(reddito)=10) NON troncata 4609 100% 9,767 0,373 0,611 6% Troncata 1592 35% 10,364 0,109 0,330 3% DATIORIGINALI Media 20800 Varianza 201203411 Sdev 14185 cv 68% 33915 274804136 16577 49% Numerosità % media LN Varianza LN Sdev LN cv En passant notiamo che exp(medie dei logaritmi) ammontano rispettivamente a 17448 e 31707 Calcoliamo la funzione di densità per x=40.000 ln(x)=10,6 Nella distribuzione originale il valore standardizzato (10,6-9,77)/0.61= 1,36 e p(1,36)= 0,1578 Nella troncata: (a ) (a ) Prob ( x a ) 1 1 ( ) (10 9,767) 0,3813 Prob ( x 10) 1 0,3813 1 0,6485 0,3515 0,611 1 ( x) f ( x / x a) 1 ( ) 1 0,1578 0,611 f (10,6 / x 10) 0,7347 0,3515 Vista la relazione sulla densità è agevole ricavare quella sui parametri: Basta calcolare l’integrale che definisce media e varianza per la troncata Definiamo: = E(x) ²=V(x) (a)=p(x)/p(x>a)=(x)/(1-()) (Inverse Mill’s ratio) (a)= (a)*((a)-a) Allora: E(x/x>a) = + (a) V(x) = ²[1- (a)] Valori di e al variare del punto di troncamento 1,6 1,4 Lambda 1,2 1-F(x) 1 delta 0,8 0,6 0,4 f(x) 0,2 0 -4 -2 0 2 4 Valori medi al variare del punto di troncamento (normale standardizzata) 4 3 2 1 E(x/x>a) 0 -3 -2 -1 0 -1 -2 -3 -4 1 2 3 E(x/x<a) SQM al variare del punto di troncamento (normale standardizzata) 1 0,9 0,8 0,7 0,6 sqm(x/x>a) 0,5 sqm(x/x<a) 0,4 0,3 0,2 0,1 0 -3 -2 -1 0 1 2 3 Un esempio (artificiale): Il 2% più ricco (coloro che hanno un reddito superiore a 100.000 €) della popolazione italiana ha un reddito medio di 142.000 €. Supponendo che la distribuzione dei redditi sia lognormale, qual è una stima del reddito medio dell’intera popolazione? Si ha: ln(100)=4,605 ln(142)=4,956 I dati indicano che: 1. E( y/y > 4,605) = 4,956 2. Prob(y > 4,605) = 0,02 Ricordando che: ( ) 1 E ( y / y 4,605) 4,956 con 1 ( ) 4,605 2 1 ma ( ) 0,98 (0,98) 2,054 ( ) (2,054) 0.0484 Quindi le equazioni diventano: 1 2 che 0,0484 4,956 0,02 4,605 2,054 implicano 2,635 ricordando 0,959 che se e z N , E e si con z 2 / 2 ottiene reddito medio 22.087