Università degli Studi di Roma “La Sapienza” Anno Accademico 2009-2010 Facoltà di Scienze Matematiche Fisiche e Naturali Corso di Laurea Specialistica in Matematica per le Applicazioni Alcuni appunti per il corso di CALCOLO DELLE PROBABILITÀ 3 Giovanna Nappo A.A. 2009/2010 versione del 1.11.2009 Indice Introduzione ii Programma provvisorio del corso iii 1 Richiami su spazi di probabilità 1.1 Esempi di spazi di probabilità . . . . . . . . 1.2 Variabili aleatorie . . . . . . . . . . . . . . . 1.3 Distribuzioni di variabili aleatorie . . . . . . 1.4 Valori attesi . . . . . . . . . . . . . . . . . . 1.4.1 Variabili aleatorie in spazi misurabili 1.5 Misura indotta e Cambio di variabile . . . . 1.6 Variabili gaussiane . . . . . . . . . . . . . . . . . . . . . 1 1 4 6 10 12 12 16 2 Costruzione di variabili aleatori in (0, 1) 2.1 Teorema di rappresentazione di Skorohod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Costruzione di una succesione di variabili aleatorie indipendenti . . . . . . . . . . . . . . . . . . . . . . 2.3 Convergenza per variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 20 23 25 Bibliografia 28 3 ESERCIZI PROPOSTI 3.1 Esercizi di tipo analitico . . . . . . . . . . 3.2 Esercizi sulla convergenza in distribuzione 3.3 Esercizi con le funzioni caratteristiche . . 3.4 Esercizi sulla condizione di Lindeberg . . 3.5 Esercizi sulla legge dei grandi numeri . . . 3.6 Esercizio riassuntivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 29 30 30 32 33 33 ii CP3–1-nov-2009 Introduzione Lo scopo di questo corso è quello di riesaminare con gli strumenti più sofisticati (come ad esempio la teoria della misura) alcuni dei concetti principali del Calcolo delle Probabilità, già affrontati nei corsi di Calcolo delle Probabilità 1 e 2. Argomento principale saranno i vari tipi di convergenza per variabili aletaorie e le generalizzazioni della Legge dei Grandi Numeri e del Teorema Centrale del Limite. Come è noto, la Legge (debole) dei Grandi Numeri ed il Teorema Centrale del Limite hanno come soggetto principale una successione {Xn }n≥1 di variabili aleatorie indipendenti, con funzione di distribuzione data1 . Nei corsi elementari abbiamo dato per scontato che una tale successione di variabili aleatorie esistesse: in questo corso vedremo come questo fatto sia vero. Il problema va diviso in due parti: • primo problema: data una funzione di ripartizione F (ossia una funzione a valori in [0, 1], non decrescente, continua da destra e normalizzata) esiste sempre uno spazio di probabilità (Ω, F, P) e una variabile aleatoria X, tale che FX (x) = F (x), dove FX (x) := P(X ≤ x)? • secondo problema: data una successione di funzioni di distribuzione {Fn }n≥1 esiste uno spazio di probabilità (Ω, F, P) e una successione di variabili aleatorie {X}n≥1 , indipendenti e tali che FXn (x) = Fn (x)? Ci sono due risposte possibili a questa domanda, una dovuta a Kolmogorov e una dovuta a Skorohod: noi accenneremo alla¡ risposta di Kolmogorov, mentre vedremo la risposta di Skorohod in cui lo spazio di probabilità ¢ è semplicemente (0, 1), B(0, 1), λ|(0,1) , dove B(0, 1) è la sigma-algebra dei boreliani e λ|(0,1) è la misura di Lebesgue ristretta all’intervallo (0, 1). Questi appunti (parzialmente basati su appunti scritti per altri corsi) non sono in nessun modo completi. Le lezioni sono basate principalmente sui testi di Billingsley [1] e di Koch [2]. ATTENZIONE: le notazioni potrebbero differire da quelle usate a lezione. GLI APPUNTI NON SONO ANCORA COMPLETATI(ad esempio, nella sezione sui vari tipi di convergenza, mancano le definizioni), E NON SONO STATI ANCORA CORRETTI. 1 Nel caso più semplice la funzione di distribuzione F Xn è addirittura sempre la stessa, ma, come vedremo questa condizione non è necessaria. CP3–1-nov-2009 iii PROGRAMMA PROVVISORIO DEL CORSO CALCOLO DELLE PROBABILITÀ 3 I Semestre , A. A. 2009/10 docente: Giovanna Nappo, (ufficio n.108, tel. 49913262, e-mail: [email protected]) Prerequisiti: Nozioni di base di Probabilità, acquisibili attraverso i corsi di Calcolo delle Probabilità 1 e 2. In particolare si presuppone che lo studente conosca le nozioni di distribuzione congiunta e le distribuzioni classiche. È inoltre consigliato avere familiarità con i concetti di base di teoria della misura (tali nozioni sono acquisibili nel corso di Analisi Reale). Obiettivi: Studio delle relazioni tra teoria della misura (misure finite) e modelli probabilistici. Studio delle possibili descrizioni e costruzioni per variabili aleatorie. Studio di alcuni tipi di convergenza per variabili aleatorie (quasi certa, in probabilità e in distribuzione). Acquisizione delle tecniche fondamentali di convergenza e dei risultati fondamentali del Calcolo delle Probabilità (Legge dei Grandi Numeri e Teorema Centrale del Limite) TESTI CONSIGLIATI: - P. Billingsley, Probability and Measure, Wiley 1984. - G. Koch, La matematica del probabile, Aracne, 1997. ALTRI TESTI CONSIGLIATI: - D. Williams, Probability with martingales, Cambridge University Press, 1991; - L. Breiman, Probability, Addison Wesley, 1968; - Y.S. Chow, H. Teicher, Probability Theory, Springer Verlag, 1988; - B. De Finetti, Teoria delle Probabilità, Einaudi, 1970; - W. Feller, An introduction to probability theory and its applications (Vol 1 e 2), Wiley & Sons, 1970 Programma: A. MISURE DI PROBABILITÀ: σ-algebre di eventi, σ-additività e continuità delle misure di probabilità. sigma-algebre generate, λ-sistemi e π-sistemi di eventi, lemma π − λ di Dynkin, limiti superiore ed inferiore per successioni di eventi. Indipendenza stocastica fra sigma-algebre, lemmi di Borel-Cantelli, sigma-algebra coda di una successione di eventi, Legge 0-1 di Kolmogoroff. Misure di probabilità sulla retta, funzioni di distribuzione associate. B. VARIABILI ALEATORIE (COME FUNZIONI MISURABILI): σ-algebra generata da una funzione misurabile (e da un vettore aleatorio), misura indotta da una funzione misurabile (e da un vettore aleatorio). Misura di probabilità indotta da una variabile aleatoria reale X (legge di una variabile aleatoria). Funzioni di distribuzione reali e spazi canonici: (a) i reali R e i boreliani di R con la misura indotta da X; (b) lo spazio (0, 1) con i boreliani di (0, 1) e la misura di Lebesgue ristretta a (0, 1) e costruzione di Skorohod su (0, 1). Integrazione di funzioni misurabili (cenni). Valori attesi e proprietà fondamentali. Indipendenza stocastica per variabili aleatorie e misure prodotto, costruzione di una successione di variabili aleatorie indipendenti sullo spazio canonico (0, 1). ???Applicazioni probabilistiche del Teorema di Fubini. Legge 0-1 di Kolmogoroff per variabili aleatorie. Enunciati dei teoremi di convergenza monotona e dominata. Disuguaglianza di Markov. C. CONVERGENZA PER SUCCESSIONI DI VARIABILI ALEATORIE: Definizioni di convergenza quasi certa, in probabilità ed in legge (o in distribuzione) per successioni di variabili aleatorie. Relative proprietà e relazioni. Convergenza debole per successioni di misure di probabilità, caratterizzazioni (Teoremi di Helly) e relazioni con la convergenza in legge. Teorema di Scheffé (convergenza delle densità di probabilità)[solo enunciato]. Successioni tight (trattenute o strette) di misure di probabilità e Teorema di Prohorov. Uniforme integrabilità e convergenza debole. iv CP3–1-nov-2009 D. FUNZIONI CARATTERISTICHE E TEOREMA CENTRALE DEL LIMITE: Definizione di funzione caratteristica di una distribuzione di probabilità sulla retta e relative proprietà. Teorema di Bochner [solo enunciato]. Calcolo della funzione caratteristica in casi notevoli; distribuzioni simmetriche. Relazione tra funzione caratteristica e momenti della distribuzione. Cenno al problema dei momenti: controesempio della legge lognormale. Teorema di inversione e caso in cui la funzione caratteristica appartiene a L1 (R) (è integrabile sui reali rispetto alla misura di Lebesgue). Teorema di continuità. Teorema Centrale del Limite per successioni di variabili aleatorie indipendenti: Teorema di Lindeberg-Levy, Teorema di Lindeberg con discussione della condizione di Lindeberg (la generalizzazione al caso di insiemi triangolari è facoltativa) Teorema di Lyapunov, Teorema di Berry-Esseen (solo enunciato). Applicazioni del Teorema Centrale del Limite (approssimazione della legge della somma di variabili aleatorie indipendenti identicamente distribuite, relazione con la formula di Stirling) E. LEGGI FORTI DEI GRANDI NUMERI: Legge forte con esistenza e limitatezza del momento quarto (di Cantelli). Disuguaglianza di Kolmogoroff. Criterio sufficiente di Kolmogoroff per la legge forte. Legge forte per variabili aleatorie indipendenti identicamente distribuite (i.i.d.) con momento primo (Teorema di Kinchin). Estensione al caso di variabili aleatorie i.i.d., ma con momento primo della parte positiva non finito. Riferimenti dettagliati per gli argomenti in A e B: [Billinsgley]: 1: The Unit Interval, 2: Spaces, Classes of Sets, Probability Measures, 3: Uniqueness and the λ − π Theorem (si consiglia la lettura di tutto) 4: tutto, 5: se ne consiglia la lettura, 10:, 11: e 12: i contenuti si considerano noti, e se ne consiglia la lettura, 20: Random variables and Vectors, Subfields, Distributions, Independence, Sequences of Random Variables, Convolution, 21: Expected Values and Distributions, Moments, Inequalities, Independence and Expected Values, 22: Kolmogorov’s 0-1 law. [Koch]: Cap. 4, appendice II, Cap. 5: 5.1, 5.2 e 5.3 (si consiglia la lettura anche dei rimanenti paragrafi), Cap. 6: Teorema 6.87, Cap. 8: 8.1 e 8.2 (si consiglia la lettura di 8.3), Cap. 9: 9.1 e 9.2, Cap.13: 13.2. Riferimenti dettagliati per gli argomenti in C, D ed E: [Billinsgsley]: 20: Convergence in Probability, 22: Kolmogorov’s Inequality, The strong Law of Large Numbers, 25: tutto, 26: tutto, 27: Identically Distributed Summands, The Lindeberg and Lyapunov Theorems. [Koch]: Cap.11, Cap.12: 12.1, 12.2., Cap.13: 13.1 (fino a pag. 503), Prop. 13.34, 13.3 (in particolare i Teoremi 13.49, 13.50, 13.51, 13.52, 13.59, 13.60) Capitolo 1 Richiami su spazi di probabilità 1.1 Esempi di spazi di probabilità Come dovrebbe essere noto uno spazio di probabilità è una terna (Ω, F, P), dove F è una σ-algebra, ovvero F è una famiglia di sottoinsiemi di Ω, cioè F è un sottoinsieme di P(Ω), tale che Ω ∈ F; se A ∈ F, allora Ac ∈ F ; se An ∈ F, n ∈ N, allora ∪n∈N An ∈ F; (1.1) (1.2) (1.3) P è una misura di probabilità, ovvero P :F 7→ [0, 1]; A 7→ P(A) con le proprietà che P(Ω) = 1; se An ∈ F , n ∈ N, con An ∩ Am = ∅ per n 6= m, ¡[ ¢ X ¡ ¢ allora P An = P An . n∈N (1.4) (1.5) n∈N La σ-algebra F rappresenta l’informazione disponibile, ovvero gli eventi appartenenti a F sono gli unici eventi di cui abbiamo la possibilità di sapere se si sono verificati oppure no. Oltre alla misura di probabilità P, per tutti gli eventi A ∈ F con P(A) > 0, si possono definire le probabilità condizionate 1 all’evento A, che rappresentano la valutazione della probabilità nel caso in cui si verificasse l’evento A: P(·|A) F : → [0, 1] P(E ∩ A) E→ 7 P(E|A) := P(A) (1.6) (1.7) Vediamo ora alcuni esempi elementari di spazi di probabilità: 1 È facile verificare che la funzione P(·|A) definita in (1.6) è una probabilità, cioè soddisfa gli assiomi delle probabilità. Per mettere in evidenza tale fatto va detto che Kolmogorov aveva adottato la notazione PA (·), ovvero PA (E) invece di P(E|A), anche per mettere meglio in evidenza questa proprietà. 1 2 CP3–1-nov-2009 Esempio 1.1. Qualunque sia Ω, la σ-algebra banale F = {∅, Ω} è una σ-algebra, e necessariamente P(Ω) = 1 e P(∅) = 0. Esempio 1.2. Qualunque sia Ω, preso un sottoinsieme proprio A di Ω la σ-algebra F = {∅, A, Ac , Ω} è una σ-algebra, e necessariamente P(Ω) = 1, P(∅) = 0, P(A) = p, P(Ac ) = 1 − p, per un p ∈ [0, 1]. Esempio 1.3. Qualunque sia Ω, sia {Hm , m = 1, 2, . . . , N } una partizione finita di Ω, cioè se gli eventi sono incompatibili: Hn ∩ Hm = ∅ per n 6= m, n, m ∈ {1, 2, . . . , N } ed esaustivi: N [ Hm = Ω, m=1 allora la famiglia M = {A = S m∈I Hm , al variare di I ⊆ {1, 2, . . . , N }}, (con la convenzione che σ-algebra. Inoltre se p1 , p2 , . . . , pN sono numeri non negativi, a somma 1, ovvero N X pm ≥ 0, m = 1, 2, . . . , N, [ Hm = ∅) è una m∈∅ pm = 1, m=1 allora P : M 7→ [0, 1]; A 7→ P(A), con P(A) = X pm , per A = m∈I [ Hm , (1.8) m∈I definisce una probabilità su (Ω, M). Esempio 1.4. Le proprietà dell’esempio precedente valgono anche nel caso di una partizione numerabile {Hm , m ∈ N} con i dovuti cambiamenti: cioè, se Hn ∩ Hm = ∅ per n 6= m, n, m ∈ N, [ Hm = Ω, m∈N allora la famiglia F = {A = (con la convenzione che [ [ Hm , al variare di I ⊆ N}, m∈I Hm = ∅), è una σ-algebra2 . m∈∅ Inoltre se p1 , p2 , . . . , pm , . . . sono numeri non negativi, somma 1, ovvero X pm = 1, pm ≥ 0, m ∈ N, m∈N 2 La verifica è banale: Ω= [ Hm , ovvero I = N m∈N [ se A = Hm , allora Ac = m∈I se An = [ m∈In [ Hm m∈I c Hm , n ≥ 1, allora ∞ [ n=1 An = [ m∈I Hm , per I = ∪∞ n=1 In . CP3–1-nov-2009 3 allora P : F 7→ [0, 1]; A 7→ P(A), con X P(A) = pm , per A = m∈I [ Hm , (1.9) m∈I definisce una probabilità su (Ω, F). La verifica di quest’ultima proprietà è banale3 . Elenchiamo adesso alcune proprietà e notazioni relative alle σ-algebre: 1 l’intersezione di σ-algebre è una σ-algebra \ Gα è una σ-algebra4 . Sia {Gα , α ∈ Λ} una famiglia di σ-algebre, allora F := α∈Λ 2 l’unione di σ-algebre non è (in generale) una σ-algebra Basta mostrare con un controesempio che l’unione di due σ-algebre non è una σ-algebra: ad esempio se Gi = {∅, Ai , Aci , Ω}, con A1 ∩ A2 6= ∅, A1 , A2 , allora G1 ∪ G2 = {∅, A1 , A2 , Ac1 , Ac2 , Ω} non è una σ-algebra. 3 la σ-algebra generata da una collezione di eventi Sia K un sottoinsieme di P(Ω), l’insieme delle parti di Ω, allora \ σ(K) := G:K⊆G è la σ-algebra5 generata da K. In particolare quindi la σ-algebra M, generata dalla partizione {Hm ; m ∈ N} come nell’Esempio 1.4, coincide con σ({Hm ; m ∈ N}), in quanto, come già visto M è una σ-algebra, e inoltre ogni σ-algebra che contenga {Hm ; m ∈ N}, deve necessariamente contenere tutte le unioni del tipo ∪m∈I Hm . 4 la σ-algebra generata S da una collezione di σ-algebre Nel caso in cui K = α∈Λ Gα , dove Gα sono σ-algebre, allora si pone _ ¡ [ ¢ Gα := σ Gα . α∈Λ α∈Λ ¡ ¢ In particolare se M = σ({Hm ; m ∈ N}) e N = σ {K` ; ` ∈ N} , allora [ © ª M ∨ N = σ({Hm ∩ K` ; m ∈ N, ` ∈ N}) = E = Hm ∩ K` ; con J ⊆ N × N . (m,`)∈J 3 La funzione P : M 7→ [0, 1] definita in (1.9) è una probabilità, infatti X P(Ω) = pm = 1, m∈N se An = [ Hm ∈ M, n ∈ N, con An ∩ An0 = ∅ per n 6= n0 , m∈In allora [ An = n∈N [ e quindi P n∈N 4 La [ [ Hm con I = m∈I In , e con In ∩ In0 = ∅ per n 6= n0 , n∈N X X X X P An , p` = pm = An = P A = `∈I n∈N m∈In n∈N verifica è banale: Ω ∈ F , in quanto Ω ∈ Gα , per ogni α ∈ Λ; se A ∈ F , cioè se A ∈ Gα , per ogni α ∈ Λ, allora Ac ∈ Gα , per ogni α ∈ Λ, e quindi Ac ∈ F ; [ [ An ∈ F ; An ∈ Gα , per ogni α ∈ Λ, e quindi se An ∈ F , n ∈ N cioè se An ∈ Gα , per ogni α ∈ Λ, n ∈ N allora n∈N 5 Il fatto che T G:K⊆G sia una σ-algebra, deriva dalla proprietà che l’intersezione di σ-algebre è una σ-algebra. n∈N 4 CP3–1-nov-2009 5 la σ-algebra dei Boreliani Nel caso in cui K = A, la famiglia degli aperti di Rk , allora B(Rk ) := σ(A) è detta σ-algebra dei boreliani, o σ-algebra di Borel, ed ogni elemento di I di B(Rk ) è detto boreliano. 1.2 Variabili aleatorie Definizione 1.1. Dato uno spazio di probabilità (Ω, F, P)6 , una variabile aleatoria reale X è una funzione F-misurabile, ovvero una funzione X : Ω 7→ R; ω 7→ X(ω), tale che la controimmagine di ogni aperto O ∈ A sia un elemento di F 7 , cioè tale che X −1 (O) := {ω tali che X(ω) ∈ O} ∈ F , per ogni aperto O ∈ A. Si dice anche che X è una variabile aleatoria F-misurabile. Una definizione analoga vale nel caso di variabili aleatorie multidimensionali ¡ ¢ X : Ω 7→ Rk ; ω 7→ X(ω) = X1 (ω), . . . , Xk (ω) , basta infatti sostituire R con Rk . Vediamo alcuni esempi di variabili aleatorie F-misurabili, al variare della σ-algebra F. Esempio 1.5. Se F = {∅, Ω}, allora le uniche variabili aleatorie reali X F-misurabili sono le costanti: Se X : Ω 7→ R; ω 7→ X(ω) = c, allora X −1 (O) è l’evento impossibile(=insieme vuoto ∅), se c ∈ / O, oppure è l’insieme certo(=Ω), se c ∈ O. Viceversa se X : Ω 7→ R; ω 7→ X(ω) non è costante allora X assume almeno due valori c1 e c2 distinti (cioè esistono ωi tale che X(ωi ) = ci , per i = 1, 2, con c1 6= c2 ). Quindi se c1 ∈ O, ma c2 ∈ / O, allora ω1 ∈ X −1 (O), mentre −1 −1 ω2 ∈ / X (O), ovvero ∅ ⊂ X (O) ⊂ Ω (dove le inclusioni sono in senso stretto), e quindi X non è F-misurabile. Si noti che l’esempio precedente mostra anche che tutte le variabili aleatorie costanti sono misurabili rispetto a qualunque σ-algebra ({∅, Ω} ⊆ F, per ogni σ-algebra F). Esempio 1.6. Sia {Hm , m ∈ N} una partizione numerabile, e sia M come nell’esempio 1.4. Allora X : Ω 7→ R; ω 7→ X(ω) è M-misurabile, se e solo se esiste una successione di costanti {cm , m ∈ N}8 , tale che X X(ω) = cm IHm (ω). (1.10) m∈N Se X è definita come in (1.10) allora X è M-misurabile, infatti per ogni aperto O, [ X −1 (O) = Hm , m:cm ∈O S ovvero X −1 (O) = m∈I Hm ∈ M, per I = {m : cm ∈ O}. Viceversa se X è M-misurabile, cioè, per ogni aperto O, esiste un I ⊆ N tale che [ X −1 (O) = Hm , m∈I 6 In realtà basta che ci sia uno spazio probabilizzabile, ovvero basta solo la coppia (Ω, F), mentre non è necessario specificare la misura di probabilità P. 7 Si noti l’analogia con la definizione di funzione continua f : Rk 7→ Rd , come una funzione tale che le controimmagini di aperti sono aperti. 8 Si noti che non si assume che i valori di {c } siano tutti distinti, ad esempio nel caso della successione costante, cioè c m m = c per ogni m ∈ N, si trova una variabile aleatoria costante. CP3–1-nov-2009 5 allora qualunque sia c ∈ R, preso On l’intervallo aperto (c − 1/n, c + 1/n) si ha che \ [ [ ¡ \ n ¢ \ −1 n X −1 ({c}) = X −1 O = X (O ) = Hm = n n n m∈I n T m∈ Hm ∈ M, n nI Esempio 1.7. Sia X : Ω 7→ R; ω 7→ X(ω), una funzione discreta, ovvero tale che l’immagine X(Ω) = {x ∈ R, tali che esiste un ω con X(ω) = x} di X sia un insieme numerabile (finito o infinito), cioè X(Ω) = {xm , m ∈ N}, con xn 6= xm per n 6= m. Allora X X(ω) = xm IHm (ω), (1.11) m∈N dove Hm = X −1 ({xm }) = {ω tali che X(ω) = xm }. Si noti che {Hm , m ∈ N} forma una partizione numerabile. Inoltre la funzione X è una variabile aleatoria F -misurabile, se e solo se Hm = X −1 ({xm }) ∈ F , per ogni m ∈ N, come è immediato da (1.11), osservando che, come nel caso precedente, [ X −1 (O) = Hm . m:xm ∈O Infine la variabile aleatoria X si dice semplice o elementare, se l’insieme X(Ω) è un insieme finito. Si può dimostrare che 1 se X è una variabile aleatoria F-misurabile, allora la controimmagine X −1 (I) ∈ F, per ogni boreliano I ∈ B(R), 2 la variabile aleatoria X è F-misurabile, se e solo se ciascuna componente Xi è F-misurabile9 , per ogni i = 1, . . . , k. T −1 In particolare X ({x}) ∈ F, per ogni x ∈ R, in quanto {x} = n (x − 1/n, x + 1/n). Connessa con la precedente Definizione 1.1 è la seguente definizione: ¡ ¢ Definizione 1.2. Sia data una funzione X : Ω → 7 Rk ; ω 7→ X(ω) = X1 (ω), . . . , Xk (ω) . Si dice σ-algebra generata da X, la σ-algebra \ G σ(X) = G∈RX dove RX è la famiglia delle σ-algebre, per le quali X è G-misurabile10 . Si dimostra che 3 La σ-algebra generata da X, si può caratterizzare come: σ(X) = {A = X −1 (I), per I ∈ B(Rk )}, 4 la funzione X è F-misurabile, se e solo se σ(X) ⊆ F, 5 le variabili aleatorie σ(X)-misurabili a valori in Rd sono tutte e sole le variabili aleatorie Z per le quali esiste una funzione g boreliana11 tale che Z = g(X). 9 Dimostriamo 10 La solo la necessità, che è immediata: basta prendere O = R × · · · × R ×Oi × R × · · · × R. | {z } | {z } i−1 volte k−i volte famiglia RX non è vuota, in quanto contiene almeno G = P(Ω), l’insieme delle parti di Ω. 11 Una funzione g : Rk 7→ Rd , si dice boreliana se è una funzione tale che le controimmagini di aperti sono boreliani. Ovviamente le funzioni continue sono boreliane. Sono boreliane anche le funzioni continue a tratti, o meglio ancora costanti a tratti. Per chi non avesse familiarità con i concetti di misurabilità può pensare a queste funzioni, o a funzioni che siano limite puntuale di funzioni di uno dei due tipi precedenti. 6 CP3–1-nov-2009 Esempio 1.8. Sia X una funzione semplice, come in Esempio 1.7, allora [ σ(X) = σ({Hm , m ∈ N}) = {A = Hm ; I ⊆ N}, m∈I dove Hm = X −1 ({xm }). Inoltre tutte e sole le variabili aleatorie σ(X)-misurabili sono le funzioni X Z : Ω 7→ R; ω 7→ Z(ω) := cm IHm , m come discende immediatamente dall’Esempio 1.6. Di conseguenza se g : R 7→ R tale che g(xm ) = cm , per ogni m ∈ N, allora X X X ¡ ¢ Z(ω) := cm IHm = Z(ω) = g(xm )IX −1 ({xm }) (ω) = g(xm )I{xm } X(ω) = g(X(ω)). m m m Terminiamo questa sezione, ricordando che le operazioni di massimo, minimo, somma, prodotto, di due funzioni misurabili, danno luogo a funzioni misurabili: quindi se X ed Y sono variabili aleatorie F-misurabili, lo sono anche X ∨ Y = max(X, Y ), X ∧ Y = min(X, Y ), X + Y , XY . In particolare sono variabili aleatorie X + := X ∨ 0 e X − := (−X) ∨ 0. 1.3 Distribuzioni di variabili aleatorie Sia (Ω, F, P) uno spazio di probabilità e sia X : Ω 7→ Rk ; ω 7→ X(ω) una variabile aleatoria a valori in Rk . Tramite X è possibile definire una misura di probabilità PX sullo spazio misurabile (Rk , B(Rk )) nel seguente modo: ¡ ¢ PX : B(Rk ) 7→ [0, 1] I 7→ PX (I) := P X ∈ I . È facile verificare che effettivamente PX definisce una probabilità sui boreliani B(Rk ). La misura di probabilità cosı̀ definita è detta misura di probabilità indotta da X, o distribuzione di X. A volte,¡ per indicare misura di probabilità indotta, si usa il simbolo PX −1 , che nasce dall fatto che ¢ ¡ la ¢ −1 PX (I) := P X ∈ I = P X (I) . Nel seguito, a volte useremo anche il simbolo µX per indicare la distribuzione di probabilità di X. Come è noto, associata alla variabile aleatoria X c’è anche la funzione di distribuzione12 ¡ ¢ FX (x) := P(ω ∈ Ω : X(ω) ≤ x) = PX (−∞, x] , x ∈ Rk . (1.12) La funzione di distribuzione gode di alcune proprietà caratterizzanti13 : Proprietà delle funzioni di distribuzione 0 FX (x) ∈ [0, 1] 1 La funzione FX è continua dall’alto14 , nel senso che, per ogni x ∈ Rk si ha lim FX (y1 , · · · , yi , · · · , yk ) = F (x1 , · · · , xi , · · · , xk ), y&x dove y & x significa yi → x+ i , per ogni i = 1, · · · , k. 12 Si ricordi che, per k ≥ 1, l’evento e l’insieme nella (1.12) sono rispettivamente {ω ∈ Ω : X(ω) ≤ x} = {ω ∈ Ω : X1 (ω) ≤ x1 , · · · , Xk (ω) ≤ xk } 13 Si veda la sezione 2.1 caso k = 1 la proprietà 1 corrisponde alla continuità da destra. 14 Nel e (−∞, x] = (−∞, x1 ] × · · · × (−∞, xk ]. CP3–1-nov-2009 7 2 La funzione FX (x) è monotona non decrescente. 3 Siano a = (a1 , · · · , ak ) e b = (b1 , · · · , bk ), si definisca ∆(a, b) = {x ∈ Rk : ∀i = 1, · · · , k, si ha xi = ai oppure xi = bi }, e si definisca na (x) il numero di i tali che xi = ai , per x ∈ ∆(a, b). Se ai ≤ bi , per ogni i = 1, · · · , k, allora15 X (−1)na (x) FX (x) ≥ 0. x∈∆(a,b) 4 Per ogni x ∈ Rk e per ogni i = 1, · · · , k si ha che lim FX (x1 , · · · , xi−1 , yi , xi+1 , · · · , xk ) = 0. yi →−∞ Inoltre lim |x|→+∞ FX (x1 , · · · , xi−1 , xi , xi+1 , · · · , xk ) = 1. È importante sottolineare che la funzione di distribuzione FX individua la misura di probabilità indotta PX sulla famiglia (di boreliani) (−∞, b] := {x ∈ Rk : xi ≤ bi } con b = (b1 , · · · , bk ) ∈ Rk . Questa famiglia ha la proprietà di essere chiusa rispetto all’intersezione finita: (−∞, b] ∩ (−∞, b0 ] = (−∞, b ∧ b0 ], dove b ∧ b0 := (b1 ∧ b01 , · · · , bk ∧ b0k ). Ciò è sufficiente a individuare la misura di probabilità indotta, grazie a un risultato molto utile di teoria della misura: Lemma 1.1 (Lemma di Dynkin, Billingsley 1984 [1]). Sia A una famiglia di eventi che genera la σ-algebra G e che è chiusa rispetto alla intersezione finita (cioè: A, B ∈ A implica A ∩ B ∈ A). Se due misure di probabilità ν e µ coincidono su A, allora le due misure coincidono su G = σ(A). Definizione 1.3 (variabili aleatorie con densità discreta). Si dice che una variabile aleatoria elementare X ha densità discreta µ ¶ x1 x2 · · · · · · xm p1 p2 · · · · · · pm dove x1 , x2 , · · · xm sono elementi di Rk e p1 , p2 , · · · pm sono numeri reali tali che pj ≥ 0 per ogni j = 1, 2, · · · , m, m X pj = 1, j=1 15 Nel caso k = 1, la proprietà 3 corrisponde alla proprietà di monotonia 2: se a ≤ b allora FX (a) ≤ FX (b). Nel caso k = 2, invece la proprietà 3 diviene: se a1 ≤ b1 e a2 ≤ b2 allora FX (b1 , b2 ) − FX (a1 , b2 ) − FX (b1 , a2 ) + FX (a1 , a2 ) ≥ 0. Per k ≥ 2 la proprietà 3 non si riduce alla proprietà di monotonia 2, come mostra il seguente controesempio: ( 0 se x < 0, oppure se x + y < 1, oppure se y < 0. F (x1 , x2 ) =] 1 se x ≥ 0, y ≥ 0, e x + y ≥ 1 Si vede facilmente che F è una funzione monotona. Tuttavia F non soddisfa la proprietà 3, infatti F (1, 1) − F (1, 0) − F (0, 1) + F (0, 0) = 1 − 1 − 1 + 0 = −1. 8 CP3–1-nov-2009 se, per ogni boreliano I, vale m X PX (I) := P(X ∈ I) = pj . j=1 xj ∈I In particolare quindi il significato di pj è chiaro, essendo P(X = xj ) = pj . La definizione è analoga nel caso di variabili aleatorie discrete, la cui distribuzione viene caratterizzata attraverso una densità discreta su un insieme numerabile {xk , k ≥ 1} µ ¶ x1 x2 · · · · · · xm xm+1 · · · p1 p2 · · · · · · pm pm+1 · · · Esempio 1.9 (variabili aleatorie con distribuzione binomiale). Ogni variabile aleatoria X per la quale n µ ¶ X n h PX (I) := p (1 − p)n−h h h=0 h∈I viene detta una variabile aleatoria binomiale di parametri n e p e si scrive in breve X ∼ Bin(n, p). Definizione 1.4 (variabili con densità). Sisupponga di avere una funzione f : Rk 7→ R con le proprietà: Z f (x) ≥ 0 per ogni x ∈ Rk , f (x) dx = 1, Rk si dice che X ha distribuzione con densità (di probabilità) f se accade che, per ogni boreliano I ∈ B(Rk ), Z PX (I) := f (x) dx. I Esempio 1.10 (distribuzione gaussiana). Come caso particolare si consideri il caso della variabile aleatoria unidimensionale con densità (x−µ)2 1 e− 2σ2 f (x) = √ 2πσ dove µ è un numero reale e σ è un numero (strettamente) positivo. Una variabile aleatoria con questa distribuzione è detta gaussiana o normale di valore atteso (o valore medio) µ e varianza σ 2 . Brevemente si indica X ∼ N (µ, σ 2 ). Se µ = 0 e σ 2 = 1 si dice che X è una variabile gaussiana (o normale) standard. Vediamo ora dei semplici esempi di calcolo della distribuzione indotta. Esempio 1.11 (una variabile aleatoria binomiale). Sia Ω = {0, 1}N = {ω = (ω1 , ω2 , . . . , ωN ), con ωi ∈ {0, 1}, per i = 1, 2, . . . , N }, sia F = P(Ω), l’insieme delle parti di Ω, sia la probabilità definita attraverso la relazione PN P({ω}) := p i=1 ωi PN (1 − p)N − i=1 ωi , dove p è un numero fissato con la condizione che p ∈ (0, 1). Sia infine X la variabile aleatoria definita da X(ω) := N X i=1 Si vede facilmente che ωi . CP3–1-nov-2009 9 • 1 la variabile aleatoria X assume solo i valori {0, 1, . . . N }, • 2 per h ∈ {0, 1, . . . N } si ha16 • 3 per ogni boreliano I µ ¶ N h PX (h) := P(X = h) = p (1 − p)N −h , h N µ ¶ X N h p (1 − p)N −h PX (I) := P(X ∈ I) = h h=0 h∈I Esempio 1.12 (Variabili esponenziali). Sia Ω = (0, 1) F = B(0, 1) e P la misura di Lebesgue su (0, 1). Sia λ > 0 e X(ω) := − log(1 − ω)/λ. Allora FX (x) = P(X ≤ x) = mis{ω ∈ (0, 1) : − log(1 − ω) ≤ λ x} = mis{ω ∈ (0, 1) : ω ≤ 1 − e−λ x }, e quindi ( FX (x) = 0 1 − e−λ x per x ≤ 0, per x > 0. Per il Lemma di Dynkin (Lemma 1.1) sappiamo che la funzione di distribuzione individua univocamente la distribuzione di X. È quindi facile convincersi che, tale distribuzione coincide con la distribuzione νλ (dx) = 1(0,∞) (x) λ e−λ x dx, che è nota come la distribuzione esponenziale di parametro λ. Sempre nello stesso spazio si può definire la variabile aleatoria Y (ω) = − log(ω) , µ dove µ è una costante strettamente positiva. È facile vedere che Y ha distribuzione esponenziale, di parametro µ. Esempio 1.13. Sempre nello stesso ambito dell’esempio precedente, ci si può chiedere quale sia la distribuzione congiunta di X e Y , ossia la distribuzione del vettore aleatorio (X, Y ). Chiaramente, si ha X(ω), Y (ω) > 0 e inoltre ¡ ¢ log 1 − e−λ X(ω) Y (ω) = − , µ come si ottiene subito da ω = 1 − e−λ X(ω) . ¡ ¢ log 1−e−λ x Di conseguenza, se G := {(x, y) : x > 0, y > 0, ey = − }, è facile convincersi che µ ¡ ¢³ ¡ ¢´ PX,Y (I) = νλ πx (G ∩ I) = νµ πy (G ∩ I) dove πx e πy sono le proiezione sull’asse x e sull’asse y, rispettivamente. 16 L’evento Ah := {X = h} è rappresentato dall’insieme, di cardinalità ω = h. La probabilità di ciascuno di questi ω vale quindi i=1 i PN PN P(ω) = p i=1 ωi PN (1 − p)N − N , h i=1 ωi i cui elementi ω = (ω1 , ω2 , . . . , ωN ) hanno la proprietà che = ph (1 − p)N −h e la probabilità dell’insieme vale P(X = h) = P(Ah ) = X ω∈Ah P(ω) = X ω∈Ah ph (1 − p)N −h = |Ah |ph (1 − p)N −h = N h ph (1 − p)N −h 10 CP3–1-nov-2009 Esempio 1.14 (trasformazione di Box-Müller). Sia Ω = (0, 1) × (0, 1), con la misura di Lebesgue sui boreliani. Siano p X(ω1 , ω2 ) := −2 log ω1 cos(2 π ω2 ); p Y (ω1 , ω2 ) := −2 log ω1 sin(2 π ω2 ); Si può dimostrare che la distribuzione congiunta di (X, Y ) ammette densità si probabilità pX,Y (x, y) = x2 x2 1 − x2 +y2 1 1 2 =√ e e− 2 √ e− 2 2π 2π 2π Tale densità caratterizza le variabili aleatorie gaussiane com media nulla e matrice di covarianza l’identità (si veda l’Appendice 1.6). A volte, invece di definire lo spazio di probabilità e la variabile aleatoria X ed infine trovare la distribuzione di X, si può dare direttamente la distribuzione di X. Questo è il caso delle variabili aleatorie che vengono caratterizzate solo attraverso la densità discreta o con densità (di probabilità). Più in generale, le distribuzioni si possono specificare solo attraverso la funzione di distribuzione. Quando si specifica una variabile aleatoria attraverso la sua distribuzione, e ancor di più se invece si specifica solo una funzione che goda delle proprietà delle funzioni di distribuzione (si veda pag. 6), rimane il dubbio che una tale variabile aleatoria esista, ovvero che esista uno spazio di probabilità (Ω, F, P) e una variabile aleatoria X. A questo problema risponde il teorema di Skorohod (vedere Appendice 2.1). 1.4 Valori attesi In questa sezione ricordiamo come si può definire il valore atteso per variabili aleatorie generali, a partire dalla sua definizione per variabili aleatorie semplici. Per maggiori approfondimenti si rimanda, ad esempio, al libro di Billingsley [1] o a quello di Williams [3]. Definizione 1.5 (Valore atteso per variabili semplici). Sia X una variabile aleatoria in (Ω, F, P), non negativa e semplice, cioè come in Esempio 1.7, X X(ω) = xm IHm (ω), con Hm ∈ F per ogni m ∈ N, m∈N allora si definisce E[X] = X xm P(Hm ). m∈N Osservazione 1.1. Ogni variabile aleatoria X in (Ω, F, P), non negativa, ammette una successione di variabili aleatorie Xn , semplici e non negative, tali che 0 ≤ Xn (ω) ≤ Xn+1 (ω), 17 Infatti e tali che lim Xn (ω) = X(ω). n→∞ basta prendere Xn (ω) = n n2 −1 X m=0 n n2 −1 X m m I 1 m m+1 (X(ω)) + n1[n,∞) (X(ω)), (n) (ω) + nI (n) (ω) = n H H m n n2 2 2n [ 2n , 2n ) m=0 (1.13) 17 La monotonia della successione delle variabili aleatorie X è evidente: n • se Xn (ω) = m/2n , con m < n2n , allora i soli casi possibili sono Xn+1 (ω) = (2m)/2n+1 = m/2n = Xn (ω), oppure Xn+1 (ω) = (2m + 1)/2n+1 = m/2n + 1/2n+1 > Xn (ω); • se Xn (ω) = n allora Xn+1 (ω) può assumere un valore compreso tra n ed n + 1. Per la convergenza basta osservare che, qualunque sia ω, pur di prendere n sufficientemente grande e in modo che X(ω) < n, si ha che 0 ≤ X(ω) − Xn (ω) ≤ 1/2n . CP3–1-nov-2009 11 dove si è posto (n) Hm = X −1 ¡£ m 2n , m+1 2n ¢¢ ∈ F per 0 ≤ m ≤ n2n − 1, ¡ ¢ (n) Hn2n = X −1 [n, ∞) , e, per A ∈ F, IA (ω) = 1 se ω∈A e IA (ω) = 0 se x ∈ [a, b) e 1[a,b) (x) = 0 ω∈ / A, ed infine, per a < b numeri reali, 1[a,b) (x) = 1 se se x∈ / [a, b). È infine interessante notare che, posto bxc la parte intera inferiore18 di x, si può riscrivere nel seguente modo Xn (ω) = b2n X(ω)c ∧ n. 2n Definizione 1.6 (Valore atteso per variabili nonnegative). Sia X una variabile aleatoria in (Ω, F, P), non negativa, si definisce E[X] = sup n nX i=1 o inf X(ω) P(Ai ) al variare tra le partizioni dell’evento certo A1 , · · · , An . ω∈Ai Si dimostra che E[X] = lim E[Xn ], n→∞ dove {Xn ; n ∈ N} è la successione monotona definita come in (1.13) dell’Osservazione precedente. Il limite esiste ed è monotono, per la proprietà di monotonia del valore atteso, sulle variabili aleatorie semplici. Si noti bene che tale limite può valere anche +∞, nel qual caso si dice che la variabile X ha valore atteso infinito. bn ; n ∈ N} è un’altra successione di variabili aleatorie semplici che converge Osservazione 1.2. **Ovviamente se {X bn ] è una successione che converge monotonamente. Si monotonamente ad X, anche la successione dei valori attesi E[X può dimostrare che il limite non dipende dalla successione scelta19 ed in particolare coincide con il limite considerato nella precedente Definizione 1.6. Arriviamo ora alla definizione generale del valore atteso: Definizione 1.7 (Valore atteso per variabili generali). Sia X una variabile aleatoria in (Ω, F, P), Siano X + := X ∨0 e X − := (−X)∨0, le variabili aleatorie non negative, definite alla fine della sezione precedente. Si noti che X = X + −X − e che invece |X| = X + + X − . Si definisce allora, se ha senso20 E[X] = E[X + ] − E[X − ]. 18 La parte intera inferiore bxc di x è quel numero intero k tale che k ≤ x < k + 1. ottenere l’unicità del limite basta dimostrare che se {Yn ; n ∈ N} e {Zn ; n ∈ N} sono due successioni di variabili aleatorie semplici che convergono monotonamente ad X, allora per ogni k si ha 19 **Per E[Yk ] ≤ lim E[Zn ], n→∞ da cui si deduce immediatamente che limk→∞ E[Yk ] ≤ limn→∞ E[Zn ]e quindi l’uguaglianza, scambiando il ruolo delle due successioni. P Si fissi quindi k e si consideri che, per ipotesi Yk è semplice e che quindi si può scrivere Yk = `i=1 yi IAi , dove Ai = {Yk = yi } (ovviamente ` (n) ed yi dipendono da k, ma tralasciamo l’indice k per comodità di notazione e perché è inessenziale). Sia ora ε > 0 e Bi Essendo {Zn ; n ∈ N} una successione monotona si ottiene che (n) Bi = Ai ∩{Zn > yi −ε}. Inoltre Yk (ω) ≤ X(ω) e Zn (ω) % X(ω) e quindi se ω ∈ Ai , S (n) ossia se Yk (ω) = yi , allora per un n sufficientemente grande deve valere Zn (ω) > yi − ε e quindi n Bi = Ai . Per la continuità della (n) probabilità deve valere allora che P(Bi E[Zn ] ≥ ⊂ (n+1) Bi . ) % P(Ai ). Ovviamente si ha X̀ (n) (yi − ε)P(Bi ) e quindi i=1 lim E[Zn ] ≥ n→∞ X̀ (yi − ε)P(Ai ). i=1 P` Per l’arbitrarietà di ε si ha allora limn→∞ E[Zn ] ≥ i=1 yi P(Ai ) = E[Yk ]. 20 Si considera che la somma E[X + ] − E[X − ] ha senso 1 se E[X + ] < ∞, E[X − ] < ∞, nel qual caso E[X] ∈ R e inoltre si ha anche E[|X|] = E[X + ] + E[X − ] < ∞; 2 se E[X + ] < ∞, E[X − ] = ∞, nel qual caso E[X] = −∞; 3 se E[X + ] = ∞, E[X − ] < ∞, nel qual caso E[X] = +∞; Il caso che rimane escluso è quindi il caso in cui E[X + ] = ∞, E[X − ] = ∞, del resto si avrebbe la forma indeterminata ∞ − ∞. 12 CP3–1-nov-2009 Se invece di usare la probabilità P si usa la probabilità condizionata ad un evento A, ovvero P(·|A), allora si parla di valore atteso di X condizionato all’evento A e si usa la notazione E[X|A]. Ciò significa che, nel caso di una variabile aleatoria semplice X X(ω) = xm IHm (ω), con Hm ∈ F per ogni m ∈ N, m∈N si ha E[X|A] = X xm P(Hm |A). m∈N **Terminiamo questa sezione ricordando che la definizione di valore atteso di una variabile aleatoria X corrisponde alla definizione dell’integrale della funzione misurabile X rispetto alla misura P e che per il valore atteso valgono i due famosi risultati di passaggio al limite sotto il segno di integrale: Teorema della convergenza monotona: se Xn sono variabili aletaorie limitate dal basso e che convergono monotonamente ad X (P − q.c.) allora la successione dei valori attesi E[Xn ] converge monotonamente a E[X]. Teorema della convergenza dominata: se Xn sono variabili aletaorie che convergono ad X P − q.c. e se Y è una variabile aleatoria tale che |Xn | ≤ Y , con E[Y ] < ∞, allora la successione dei valori attesi E[Xn ] converge a E[X]. 1.4.1 Variabili aleatorie in spazi misurabili QUESTA SEZIONE SI PUO’ SALTARE Oltre a definire le variabili aleatorie reali o vettoriali si possono definire in modo naturale anche variabili aleatorie a valori in spazi misurabili. Definizione 1.8 (variabile aleatoria (o ente alealorio) a valori in (S, S)). Siano (Ω, F) e (S, S) due spazi misurabili. Una variabile aleatoria a valori in S è una funzione misurabile X : (Ω, F) → (S, S); ω 7→ X(ω). In altre parole una funzione da Ω in S e tale che per ogni B ∈ S, la sua controimmagine tramite X appartiene a F, ossia l’insieme X −1 (B) ∈ F. Se S è uno spazio metrico (o più in generale uno spazio topologico, allora la sigma-algebra S coincide con la sigma-algebra dei boreliani, ossia la sigma-algebra generata dagli aperti. Esempi tipici nascono quando si vogliono trattare i processi aleatori come funzioni aleatorie, ed in particolare a funzioni aleatorie continue. In tale caso si può prendere, ad esempio, lo spazio delle funzioni continue su [0, T ] a valori reali. Prendendo poi come sigma-algebra la sigma-algebra dei boreliani, allora si può affermare che funzioni come il massimo o il minimo, sono variabili aleatorie. Come si vede, nella definizione di variabile aleatoria non abbiamo neanche nominato la misura di probabilità su (Ω, F). 1.5 Misura indotta e Cambio di variabile QUESTO ARGOMENTO E’ SVOLTO QUI IN MODO PIU’ APPROFONDITO CHE A LEZIONE. Negli Esempi 1.12, 1.13, 1.14 abbiamo trovato le distribuzioni di alcune variabili aleatorie a valori reali o vettoriali. In termini astratti quello che abbiamo fatto è caratterizzare la misura indotta. Definizione 1.9 (Misura indotta). Siano (A1 , A1 ) e (A2 , A2 ) due spazi con le rispettive sigma-algebre, e sia ψ : A1 → A2 , a1 7→ ψ(a1 ) una funzione misurabile (cioè per ogni B2 ∈ A2 si ha che la controimmagine ψ −1 (B2 ) ∈ A1 ). Supponiamo che su (A1 , A1 ) sia definita una misura µ1 . Allora si definisce misura indotta (da ψ) la misura ¡ ¢ µ2 (B2 ) := µ1 ψ −1 (B2 ) , B2 ∈ A2 . CP3–1-nov-2009 13 Ovviamente perché la precedente definizione sia ben posta bisogna verificare che effettivamente definisca una misura (questo è un semplice esercizio ed è lasciato al lettore). ¡ Tornando ¢agli Esempi precedentemente citati ed in particolare agli Esempi 1.12, 1.13, in entrambi (A1 , A∞ ) = (0, 1), B(0, 1) e µ1 = P, la misura di Lebesgue ristretta a (0, 1), mentre A2 = R nel primo esempio e invece A2 = R2 , nel secondo esempio. Inoltre nel primo esempio sono state considerate due funzioni ψ1 (ω) = X(ω) = − log(1−ω) e λ log(ω) ψ2 (ω) = Y (ω) = − ¡ λ , mentre nel secondo esempio la funzione ψ := (ψ1 , ψ2 ). Nell’Esempio 1.14, ¢ è stata considerata 2 invece (A1 , A∞ ) = (0, 1) × (0, 1), B((0, 1) × (0, 1) e A = R e µ è la misura di Lebesgue ristretta a (0, 1) × (0, 1). 2 1 ¡√ ¢ √ Infine la funzione ψ è definita da ψ(ω1 , ω2 ) = −2 log ω1 cos(2 π ω2 ), −2 log ω1 sin(2 π ω2 ) . Più in generale, nel caso di variabili aleatorie X a valori in (S; S), se nello spazio misurabile (Ω, F) è definita una misura di probabilità P, si definisce legge di X o distribuzione di X, la probabilità PX : S → [0, 1] definita come la misura indotta da (Ω, F, P) tramite X: PX (B) := P(X ∈ B), B ∈ S. Quello che più ci interessa qui è la formula del cambio di variabile negli integrali, che, nell’ambito del calcolo delle probabilità, corrisponde alla possibilità di calcolare i valori attesi di funzioni di variabili aleatorie X a valori21 in (S, S) sia come integrali sullo spazio (Ω, F, P) che come integrali sullo spazio (S, S, PX ). In tale caso si ottiene che i valori attesi di f (X), per f funzioni misurabili e limitate, si possono calcolare sia come integrali sulo spazio degli eventi Ω Z E[f (X)] = f (X(ω)) P(dω), Ω sia come integrale sullo spazio degli stati S Z E[f (X)] = f (x) PX (dx). S Riportiamo qui la dimostrazione nell’ambito astratto della Definizione 1.9 di misura indotta. ¡ ¢ ¢ Lemma 1.2 (Cambio di variabile). Sia f ∈ Mb (A2 ), ossia una funzione misurabile da A2 , A2 in (R, B(R) e limitata. Allora Z Z f (a2 )µ2 (da2 ) = f (ψ(a1 ))µ1 (da1 ) (1.14) A2 A1 Dimostrazione. Iniziamo con il mostrare che, per definizione di µ2 , (1.14) è valida per f = IB2 , per ogni B2 ∈ A2 : da una parte Z ¡ ¢ IB2 (a2 )µ2 (da2 ) = µ2 (B2 ) := µ1 ψ −1 (B2 ) , A2 dall’altra, tenuto conto che IB2 (ψ(a1 )) = Iψ−1 (B2 ) (a1 ), in quanto ψ(a1 ) ∈ B2 se e solo se a1 ∈ ψ −1 (B2 ), Z Z ¡ ¢ IB2 (ψ(a1 ))µ1 (da1 ) = Iψ−1 (B2 ) (a1 )µ1 (da1 ) = µ1 ψ −1 (B2 ) . A1 A1 La dimostrazione segue poi con una tecnica che è standard nell’ambito della teoria della misura. Sia H l’insieme delle funzioni f per cui è valida l’uguaglianza (1.14). L’insieme H verifica le seguenti proprietà: (i) linearità, ovvero se f , g ∈ H, allora, per ogni a,b ∈ R la funzione a f + b g ∈ H caso di variabili aleatorie vettoriali lo spazio (S, S) coincide con Rd , B(Rd ) . Ma la formula vale anche per variabil aleatorie a valori in spazi più generali, come ad esempio gli spazi metrici, prendendo come sigma-algebra la sigma-algebra dei boreliani, ossia la sigma-algebra generata dagli aperti (in altre parole la più piccola sigma algebra contente gli aperti). Come già detto esempi di tale genere si incontrano quando ci si interessa di processi aleatori, pensati come variabili aletorie a valori in uno spazio di funzioni, ad esempio lo spazio delle funzioni continue su un intervallo [0, T ], con la metrica della norma uniforme. 21 Nel 14 CP3–1-nov-2009 (come segue dalla proprietà di linearità per gli integrali rispetto a µ1 ) (ii) la funzione 1, cioè la funzione costante uguale ad 1, appartiene a H (come segue dall’osservazione iniziale e notando che 1 = IA2 , ) (iii) monotonia, ovvero se fn ∈ H e fn % f , f ∈ M2 (A2 ) allora f ∈ H (come segue dalla proprietà della convergenza monotona degli integrali rispetto a µ1 ) (iv) per ogni B2 ∈ A2 , la funzione IB2 ∈ H (come segue immediatamente dalla osservazione iniziale; si noti inoltre che in realtà la (ii) segue da questa proprietà) Le precedenti proprietà assicurano che H è una classe monotona. Basta allora applicare il teorema delle classi monotone, che per comodità del lettore riportiamo di seguito. Teorema 1.3 (Teorema delle classi monotone). Sia (Ω, F) uno spazio misurabile e sia H un insieme di funzioni reali misurabili e limitate, con le seguenti proprietà: (i) H è uno spazio vettoriale, (ii) H contiene la funzione costante 1, (iii) fn ∈ H, fn % f , f limitata implicano f ∈ H cioè H è una classe monotona. Se inoltre H soddisfa anche la seguente proprietà (iv) H contiene le funzioni del tipo IA per ogni A ∈ A, dove A ⊂ F è un π-sistema, cioè è chiuso per intersezione finita, allora H contiene tutte le funzioni limitate e σ(A)-misurabili. Il precedente Teorema 1.2 si applica anche quando vogliamo calcolare la distribuzione di una trasformazione di una variabile ad esempio, se Z è una variabile aleatoria con distribuzione PY ed Z = ϕ(Y ), allora ¡ aleatoria: ¢ PZ (B) = PY ϕ−1 (B) , come è immediato verificare. Nel caso di variabili aleatorie multivariate, e per funzioni ϕ sufficientemente regolari, si possono ottenere formule esplicite, utilizzando noti risultati di analisi: ad esempio, se Y ammette densità fY e ϕ è invertibile22 e con derivate continue, allora anche Z ammette densità e si ha ¯ µ −1 ¶¯ ¯ ∂ϕ (z) ¯¯ 1 ³ ´¯ fZ (z) = fY (ϕ−1 (z)) ¯¯det = fY (ϕ−1 (z)) ¯¯ . ¯ ∂ϕ(y) ¯ ∂z ¯det ∂y ¯ −1 y=ϕ (z) Particolarmente semplice è il caso di trasformazioni lineari (o affini) in cui lo Jacobiano è il determinante della matrice. Ad esempio se Z = AY , con A invertibile, allora ϕ−1 (z) = A−1 z e la formula precedente diviene fZ (z) = fY (A−1 (z)) 1 . |det(A)| Esempio 1.15. Un esempio di trasformazione che incontreremo spesso nel seguito è il caso in cui Y = (Y1 , Y2 , · · · , Ym ) e Z1 = Y1 , Z2 = Y1 + Y2 , ··· Zm = Y1 + Y2 + · · · + Ym , ossia z = ϕ(y) = A y, con 1 1 Allora la matrice A è la matrice triangolare A = 1 · · · 1 22 In z1 = y1 , z2 = y1 + y2 , 0 1 1 ··· 1 0 0 1 ··· 1 ··· ··· ··· ··· ··· ··· zm = y1 + y2 + · · · + ym . 0 0 0 con determinante uguale ad 1. · · · 1 realtà basta che esista un aperto O, tale che la densità fY (y) = 0 per y ∈ / A e tale che ϕ sia invertibile da O a ϕ(O, CP3–1-nov-2009 15 La trasformazione inversa è y1 = z1 , y2 = z2 − z1 , ossia y = ϕ−1 (z) = A−1 y dove A−1 ··· ym = zm − zm−1 , 1 0 0 −1 1 0 = 0 −1 1 · · · · · · · · · 0 0 0 ··· 0 ··· 0 ··· 0 · · · · · · −1 1 per cui, se Y ammette densità di probabilità, fZ (z1 , z2 , · · · , zm ) = fY (z1 , z2 − z1 , · · · , zm − zm−1 ). Il caso m = 2 è particolarmente interessante in quanto permette di ricavare la densità della somma di due variabili aleatorie, semplicemente calcolando la densità marginale di Z2 = Y1 + Y2 : per z ∈ R Z ³ ´ Z 0 0 fY1 +Y2 (x) = fZ2 (x) = fZ1 ,Z2 (x, x ) dx = fY1 ,Y2 (x, x0 − x) dx0 . R R 16 CP3–1-nov-2009 1.6 Variabili gaussiane QUESTO ARGOMENTO DOVREBBE ESSERE GIA’ STATO SVOLTO IN ALTRO CORSO, ALMENO IN PARTE... Cominciamo con il definire una variabile aleatoria gaussiana standard unidimensionale: Definizione 1.10. Si dice che una variabile aleatoria reale Z è gaussiana di valore atteso µ e varianza σ 2 , se ammette densità ( µ ¶2 ) 1 1 x−µ . fZ (z) = √ exp − 2 σ 2π In questo caso si usa la notazione Z ∼ N (µ, σ 2 ). Se µ = 0 e σ 2 = 1 allora si dice che Z segue una legge normale o gaussiana standard. Caso n−dimensionale: iniziamo con il caso di un vettore (colonna) aleatorio Y1 Y2 · · · Y = Yk · · · Yn a componenti indipendenti e tutte gaussiane standard, ovvero il caso in cui ½ ¾ 1 1 √ exp − yi2 2 2π i=1 i=1 ( ) ½ ¾ n 1 1X 2 1 1 0 = √ exp − = y exp − y y . 2 i=1 i 2 (2π)n/2 ( 2π)n fY (y) = n Y fYi (yi ) = n Y dove l’apice indica l’operazione di trasposizione, ovvero y 0 è il vettore riga (y1 , y2 , · · · , yn ). È immediato verificare che E(Yi ) = 0, V ar(Yi ) = 1 e che Cov(Yi , Yj ) = 0, per i 6= j. Sia ora A una matrice non singolare e sia m un vettore (colonna). Definiamo ora Z = AY + m e cerchiamo la sua densità. Sappiamo dai risultati generali che se Y ammette densità e Z = ϕ(Y ) con ϕ invertibile e con derivate continue, allora anche Z ammette densità: ¯ µ −1 ¶¯ ¯ ∂ϕ (z) ¯¯ 1 −1 ¯ ³ ´¯ fZ (z) = fY (ϕ (z)) ¯det = fY (ϕ−1 (z)) ¯¯ ¯ ¯ ∂ϕ(y) ∂z ¯det ∂y ¯ −1 y=ϕ di conseguenza, poiché nel nostro caso ϕ(y) = Ay + m e ϕ−1 (z) = A−1 (z − m) ¾ ½ ¢0 1 1 1¡ fZ (z) = √ n exp − A−1 (z − m) A−1 (z − m) . 2 |det(A)| 2π Essendo (A−1 (z − m))0 A−1 (z − m) = (z − m)0 (A−1 )0 A−1 (z − m) = (z − m)0 (A0 )−1 A−1 (z − m) = (z − m)0 (AA0 )−1 (z − m) si ottiene fZ (z) = ½ ¾ 1 1 1 0 0 −1 exp − (z − m) (AA ) (z − m) . 2 (2π)n/2 |det(A)| La precedente espressione si basa sulle seguenti proprietà: (z) CP3–1-nov-2009 17 (A0 )−1 = (A−1 )0 (i) in quanto A0 z = w ⇔ z = (A0 )−1 w e inoltre 0 A0 z = w ⇔ (z 0 A) = w ⇔ z 0 A = w0 ⇔ z 0 = w0 A−1 ¡ ¢0 ¡ ¢0 ⇔ z = w0 A−1 ⇔ z = A−1 w. (AA0 ) (ii) −1 −1 = (A0 ) A−1 in quanto (AA0 ) −1 −1 z = w ⇔ z = AA0 w ⇔ A−1 z = A0 w ⇔ (A0 ) A−1 z = w. È interessante notare che sia il vettore m che la matrice AA0 = A0 A hanno una interpretazione probabilistica: E(Zi ) = E( n X ai,k Yk ) + mi = k=1 n X ai,k E(Yk ) + mi = mi k=1 Cov(Zi , Zj ) = E[(Zi − mi )(Zj − mj )] = E[ n X ai,k Yk k=1 n X aj,h Yh ] = h=1 n X n X ai,k aj,h E[Yk Yh ] k=1 h=1 e quindi Cov(Zi , Zj ) = n X k=1 ai,k aj,k E[Yk Yk ] + 1,n n X X ai,k aj,h E[Yk Yh ] = k=1 h6=k n X ai,k aj,k = (AA0 )i,j k=1 Si osservi che se Z = (Z1 , ..., Zn ) è un vettore gaussiano allora (Z1 ...Zk ) e (Zk+1 , ..., Zn ) sono indipendenti, se e solo se Cov(Zi , Zh ) = 0 per ogni i = 1, · · · , k e h = k + 1, · · · , n. In tale caso allora è ovvio che il vettore (Z1 ...Zk ) è un vettore gaussiano23 Terminiamo questo paragrafo con il ricordare quanto valgono i momenti di una variabile aleatoria gaussiana. Sia Z una variabile aleatoria N (0, σ 2 ). Per quanto visto prima possiamo considerare Z = σY con Y una variabile aleatoria N (0, 1). Da questa osservazione segue subito che E[Z k ] = σ k E[Y k ] e E[|Z|k ] = |σ|k E[|Y |k ]. 23 Per ottenere lo stesso risultato nel caso generale, ovvero che se Z = (Z , ..., Z ) è un vettore gaussiano allora (Z ...Z ) è un vettore n 1 1 k gaussiano, si può procedere nel seguente modo. Innanzitutto basta considerare il caso in cui i valori attesi sono nulli senza ledere in 0 0 0 generalità. Inoltre si può pensare che Z = AY . Se la matrice A = (aij ) è definita in modo che aij = aij qualunque siano i = 1, ...k e j = 1, ...., n, e il vettore aleatorio Z 0 è definito da Z 0 = A0 Y , allora, chiaramente, Se inoltre 0 (Zk+1 ,··· a0hj per h = k + 1, ...n e j 0 ), ovvero in modo che , Zn Zi0 = (A0 Y )i = Zi = (AY )i , per i = 1, ...k. = 1, ...., n sono presi in modo che il vettore (Z10 , · · · , Zk0 ) = (Z1 , ·, Zk ) sia indipendente dal vettore 0 = E[Zi Zh0 ] = Cov(Zi , Zh0 ) = n X ai,` a0h,` `=1 per i = 1, ...k e h = k + 1, ...n, allora si ottiene il risultato voluto. Nel caso in cui la matrice A sia non singolare ciò è sempre possibile perché i vettori a(i) = (ai1 , ai2 , · · · , ain ) sono linearmente indipendenti e quindi basta trovare n − k vettori a0(h) = (a0i1 , a0h2 , · · · , a0hn ) ortogonali allo spazio vettoriale k-dimensionale span(a(i) , i = 1, ·, k). 18 CP3–1-nov-2009 Vale poi la pena di ricordare che E[Y 2k+1 ] = 0, E[Y 2k ] = (2k − 1)!! = (2k − 1)(2k − 3) · · · 5 · 3 · 1, mentre24 infine r E[|Y | 2k+1 ]= 2 (2k)!! = π r 2 (2k)(2k − 2) · · · 4 · 2 = π r 2 k 2 k!. π Prima di dimostrare queste tre uguaglianze si osservi che le ultime due si possono scrivere in modo sintetico come r 2 E[|Y |n ] = C((−1)n ) (n − 1)!! . C(+1) = 1 C(−1) = π La prima relazione è banale, per ragioni di simmetria, e permette di ricavare la seconda osservando che E[euY ] = e u2 2 = ∞ ∞ h X X 1 u2 1 u2h = . h! 2 h! 2h h=0 h=0 e d’altra parte, essendo appunto ovviamente E[Y 2k+1 ] = 0, E[euY ] = E[ ∞ ∞ X X 1 k k 1 u Y ]= u2h E[Y 2h ] k! (2h)! k=0 h=0 si deve necessariamente avere che i coefficienti delle due serie devono coincidere: 1 1 1 = E[Y 2h ], h h! 2 (2h)! ovvero (2h)! 2h(2h − 1)(2h − 2)(2h − 3) · · · 3 · 2 · 1 = h h!2 h(h − 1) · · · 3 · 2 · 1 · 2h (2h)!!(2h − 1)!! 2h h! · (2h − 1)!! = = = (2h − 1)!!. h h!2 2h h! E[Y 2h ] = q Infine la terza si ricava per integrazione per parti e calcolando a mano che E[|Y |] = 2 π. Concludiamo questo paragrafo con un lemma che riguarda il comportamento asintotico della funzione di sopravvivenza di una gaussiana standard e del modulo di una gaussiana standard. Lemma 1.4. Sia Y una gaussiana standard, allora, posto fY (y) = 2 y √1 e− 2 2π , si ha, per x > 0, µ ¶−1 1 1 x+ fY (x) ≤ P(Y > x) ≤ fY (x), x x µ ¶−1 1 1 x+ f|Y | (x) ≤ P(|Y | > x) ≤ f|Y | (x), x x P(|Y | > x) ≤ e− 24 Si x2 2 , noti che dalle ultime due relazioni sui momenti si ottiene che E[|Y |m ] = (m − 1)!!C(−1)m , r con C+1 = 1, C−1 = x > 0, (1.15) x > 0, (1.16) x > 0. (1.17) 2 . π CP3–1-nov-2009 19 Dimostrazione. La disuguaglianza (1.16) discende immediatamente dalla prima disuguaglianza (1.15), la quale equivale a µ ¶−1 x2 x2 1 1 1 1 √ e− 2 ≤ P(Y > x) ≤ √ e− 2 , x+ x x 2π 2π e discende dalla seguente relazione µ ¶−1 Z +∞ w2 z2 1 1 − w2 w+ e− 2 ≤ e− 2 dz ≤ e 2 , w w w w > 0. (1.18) La disuguaglianza destra della (1.18) discende da Z +∞ e− z2 2 w Inoltre dz ≤ 1 w Z +∞ z e− z2 2 dz = w 1 − w2 e 2 , w µ ¶ w2 d 1 − w2 1 2 e = − 1 + 2 e− 2 dw w w e quindi 1 − w2 e 2 = w Z +∞ w µ µ ¶ ¶ Z +∞ z2 z2 1 1 1 + 2 e− 2 dz ≤ 1 + 2 e− 2 dz , z w w che prova l’altra disuguaglianza nella (1.18). Infine, per provare la disuguaglianza (1.17), basta osservare che, Z x = 2e Z +∞ y2 y 2 −x2 x2 1 1 √ e− 2 dy = 2 e− 2 √ e− 2 dy 2π 2π x Z +∞ Z +∞ 2 (y+x)(y−x) (z+2x)z 1 1 − x2 2 √ e− √ e− 2 dz dy = 2 e 2π 2π x 0 Z +∞ x2 1 − z2 √ e 2 dz = e− 2 . 2π 0 +∞ P(|Y | > x) = 2 2 − x2 ≤ 2 e− x2 2 (essendo x > 0,) Capitolo 2 Costruzione di variabili aleatori in (0, 1) 2.1 Teorema di rappresentazione di Skorohod In questa sezione affrontiamo il problema seguente: Data una funzione F , esiste uno spazio di probabilità (Ω, F, P) e una variabile aleatoria X, definita su questo spazio, per la quale F è la funzione di distribuzione, cioè F = FX ? Chiaramente F deve soddisfare le proprietà delle funzioni di distribuzione, (ossia le proprietà 0 − 4 di pagina 6). Si può dimostrare che tali proprietà sono sufficienti a individuare una misura di probabilità µ = µF sui boreliani di Rk , per la quale F (x) = µ(−∞, x]. Di conseguenza si può prendere come spazio di probabilità (Rk , B(Rk ), µF ) e come variabile aleatoria l’identità, ossia X(x1 , · · · , xk ) = (x1 , · · · , xk ). Tuttavia c’è un altro spazio in cui costruire tale variabile aleatoria, lo spazio (0, 1) con la misura di Lebesgue sui boreliani di (0, 1). In questa sezione ci limitiamo al caso unidimensionale, il caso a più dimensioni (e addirittura per successioni di variabili aleatorie viene brevemente considerato nella sottosezione ??). Teorema 2.1 (di rappresentazione di Skorohod). Sia data una funzione F , che verifica le seguenti proprietà: P0 F è a valori in [0, 1]; P1 F è non decrescente; P2 F è continua a destra, cioè, per ogni t ∈ R, P3 F è normalizzata, cioè lim F (t + ε) = F (t); ε→0+ lim F (t) = 0; lim F (t) = 1. t→−∞ t→+∞ Sia ϕ : (0, 1) → R definita da ϕ(u) := inf{y : F (y) ≥ u}. Allora ϕ è boreliana, inoltre la variabile aleatoria X : (0, 1) → ω 7→ R X(ω) = ϕ(ω) definita nello spazio di probabilità (Ω, F, P) ≡ ((0, 1), B(0, 1), λ) con λ la misura di Lebesgue, ha funzione di distribuzione F , ovvero FX (x) = F (x). Dimostrazione. La dimostrazione è basata sul fatto che {u ∈ (0, 1) : ϕ(u) ≤ x} = {u ∈ (0, 1) : u ≤ F (x)} per ogni x ∈ R. Dalla precedente affermazione segue infatti che: 20 (2.1) CP3–1-nov-2009 21 (i) ϕ è misurabile rispetto a B(0, 1); (ii) Per ogni x ∈ R risulta FX (x) = P(ω ∈ Ω : X(ω) ∈ (−∞, x]) = λ({u ∈ (0, 1) : ϕ(u) ≤ x}) = λ({u ∈ (0, 1) : u ≤ F (x)}) λ ((0, F (x)]) , se F (x) < 1, = λ ((0, 1) ∩ (−∞, F (x)]) = λ(0, 1), se F (x) = 1, (per definizione di X e di (Ω, F, P )) (per l’affermazione (2.1)) ovvero FX (x) = F (x). Si tratta dunque di provare l’affermazione (2.1). Dimostriamo innanzitutto che ϕ(u) = min{y : F (y) ≥ u}, cioè F (ϕ(u)) ≥ u. (2.2) Infatti, essendo ϕ(u) = inf{y : F (y) ≥ u}, esiste una successione {yn }∞ n=0 tale che: (a) F (yn ) ≥ u per ogni n, e quindi yn ≥ ϕ(u), (b) {yn } tende a ϕ(u) per n → ∞. Allora, poiché F è continua a destra, F (ϕ(u)) = lim F (yn ) ≥ u. n→∞ Possiamo ora mostrare l’uguaglianza in (2.1) • Prima facciamo vedere che {u ∈ (0, 1) : ϕ(u) ≤ x} ⊆ {u ∈ (0, 1) : u ≤ F (x)}, mostrando che, per ogni u in (0, 1) se ϕ(u) ≤ x allora u ≤ F (x). E infatti, poiché F è non decrescente, se ϕ(u) ≤ x, allora F (ϕ(u)) ≤ F (x) e quindi per la (2.2) u ≤ F (ϕ(u)) ≤ F (x). • Proviamo ora l’inclusione opposta {u ∈ (0, 1) : ϕ(u) ≤ x} ⊇ {u ∈ (0, 1) : u ≤ F (x)}, mostrando che, per ogni u in (0, 1), se u ≤ F (x), allora ϕ(u) ≤ x. Infatti, se u ≤ F (x), allora x ∈ {y : F (y) ≥ u} e quindi inf{y : F (y) ≥ u} ≤ x, cioè ϕ(u) ≤ x. Prima di terminare la dimostrazione lasciamo al lettore il compito di osservare che fino ad ora non abbiamo (esplicitamente) usato la proprietà P3 di normalizzazione. Tuttavia tale proprietà serve per garantire che la funzione ϕ sia a valori reali. Dall’affermazione (2.1) segue anche il seguente Corollario. Corollario 2.2. Sia U una v.a. uniformemente distribuita1 in (0, 1). Allora X := ϕ(U ) ha distribuzione F 1 Ricordiamo che U ∼Unif(0, 1) è una v.a. che ha densità f (t) := che è la derivata della funzione 1, 0, 0<t<1 altrove 8 < 0, t, F (t) ≡ FU (t) = : 1, Per una funzione con questa densità vale Z t<0 0≤t≤1 t>1 b P(U ∈ [a, b]) = dt = b − a a quantità che dipende solo dall’ampiezza dell’intervallo, il che spiega la dizione uniforme 22 CP3–1-nov-2009 Dimostrazione. Infatti P(X ≤ x) = P(ϕ(U ) ≤ x) = P(U ∈ {u ∈ (0, 1) : ϕ(u) ≤ x}) = P(U ∈ {u ∈ (0, 1) : u ≤ F (x)}) = F (x). (per l’affermazione (2.1)) poiché U ∼Unif(0, 1) e è crescente: Sempre la stessa proprietà (2.1) ci garantisce che la funzione X e Sia ω ≤ ω 0 , vogliamo mostrare che X(ω) e e 0 ). Osservazione 2.1 (Crescenza di X). = min{x : F (x) ≥ ω} ≤ X(ω e 0 ) = min{x : F (x) ≥ ω 0 } e quindi si ha che La relazione (2.1) garantisce che X(ω ¡ ¢ e 0 ) ≥ ω0 . F X(ω Quindi (in quanto ω ≤ ω 0 ) ¡ ¢ e 0 ) ≥ ω 0 ≥ ω, F X(ω e 0 ) ∈ {x : F (x) ≥ ω} da cui e cioè X(ω e e 0 ). X(ω) = min{x : F (x) ≥ ω} ≤ X(ω Osservazione 2.2 (spazi completi). Terminiamo questa sezione con una osservazione importante, che riguarda la possibilità di considerare spazi di probabilità completi, cioè di spazi che contengono anche gli insiemi trascurabili N = {A ⊂ Ω : ∀²∃B² ∈ F, tale che A ⊆ B² , e P(B² ) ≤ ²}, ossia i sottoinsiemi degli insiemi di misura nulla: infatti, se A è trascurabile allora esiste una successione di eventi B1/n tali che, per ogni n, B1/n contiene A e con probabilità minore uguale a 1/n. Non si lede in generalità a supporre che B1/n sia una successione monotona. Di conseguenza A ⊆ B := ∩∞ n=1 B1/n e P(B) = 0. È noto che la misura di Lebesgue si può costruire (estendendo la misura definita sull’algebra delle unioni finite di intervalli) su spazi completi, e sulla σ-algebra L(0, 1) degli insiemi Lebesgue misurabili, che è appunto il completamento della σ-algebra B(0, 1) dei boreliani. Tutte le funzioni boreliane sono ovviamente L-misurabili (cioè misurabili secondo Lebesgue). Quindi la variabile aleatoria definita nel teorema di Skorohod è ancora misurabile se consideriamo ¡ ¢ ¡ ¢ (0, 1), L(0, 1), λ , invece di (0, 1), B(0, 1), λ , e quindi possiamo affermare che il teorema di Skorohod assicura che, data F che soddisfa le proprietà P0 - P3 esiste uno spazio completo, dove è possibile definire una variabile aleatoria X con FX = F . CP3–1-nov-2009 2.2 23 Costruzione di una succesione di variabili aleatorie indipendenti L’affermazione che una successione di variabili aleatorie {Xn , n ∈ N} è una successione di v.a. indipendenti con µXn = µn , è un’affermazione che riguarda le distribuzioni finito dimensionali del processo {Xn , n ∈ N}. L’esistenza di una tale successione si potrebbe quindi dedurre dal teorema di rappresentazione di Kolmogorov, o magari da un risultato ad hoc la cui prova fosse la semplificazione del procedimento usato nel dimostrare tale teorema. Tuttavia l’esistenza di una tale successione tuttavia si può dedurre direttamente, pur di dare per scontato che esiste la misura di Lebesgue su (0, 1). Infatti su (0, 1) si possono definire delle variabili aleatorie indipendenti ed identicamente distribuite, a valori nell’insieme {0, 1}, e che assumono il valore 0 con probabilità 1/2 (lo stesso vale per il valore 1). A partire da questa successione di variabili aleatorie si può costruire una successione di variabili aleatorie {Uj , j ∈ N} indipendenti ¡ ¢ ed uniformi in (0, 1), come descritto qui di seguito. Infine, posto Fn (x) = µn (−∞, x] , la successione cercata è data dalla successione delle v.a. Fn−1 (Un ). Lemma 2.3 (Successioni di v.a. indipendenti uniformi in (0, 1): esistenza). Nello spazio Ω = (0, 1) con la misura di Lebesgue sui boreliani, è possibile avere una successione di v.a. uniformi in (0, 1) ed indipendenti. Per costruire tale successione si ricordi che scrivendo ω ∈ (0, 1) in forma diadica ω= ∞ X Wi (ω) 1 1 , 2i le v.a. Wi risultano indipendenti e P(Wi = 0) = P(Wi = 1) = 21 . La successione Un di v.a. uniformi ed indipendenti si fi,n } cosı̀ può costruire, a partire dalle v.a. {Wi }, riordinandole in modo che formino una sequenza a doppio indice {W da poter definire ∞ X fi,n (ω) 1 . Un (ω) = W 2i i=0 fi,n = W2i−1 (2n+1) , che corrisponde a riordinare la successione {Wi } in questo modo: Ad esempio si può prendere W W1 W2 W4 W8 .. . W3 W6 W12 W24 .. . W5 W10 W20 W40 .. . W7 W14 W28 ··· W9 ··· ··· ··· ottenendo da {Wi } infinite sottosuccessioni (corrispondenti alle colonne di questa matrice) in modo tale che nessuna Wi venga tralasciata né ripetuta. **** fi,n , i ≥ 1), e che Rimane da osservare che, per ogni n, la variabile aleatoria Un è misurabile secondo Fen := σ(W tali sigma algebre sono indipendenti2 . Quindi le variabili aleatorie Un formano una succesione di variabili aleatorie indipendenti. fk,n , k ≥ 1, esattamente come la variabile Inoltre poiché le variabili aleatorie Un (ω) sono definite attraverso le W fk,n , aleatoria U (ω) = ω è costruita attraverso le Wk (ω), k ≥ 1, e, per ogni n, la successioni di variabili aleatorie W k ≥ 1 è una successione di variabili aleatorie indipendenti identicamente distribute (esattamente come Wk (ω), k ≥ 1) anche la legge di Un è la stessa di U e cioè uniforme su (0, 1). Osservazione 2.3. **Ribadiamo che la precedente costruzione è riportata affinché sia chiaro che l’affermazione che esiste una successione di v.a. indipendenti ed uniformi in (0, 1), è vera. A questo punto, data una successione di funzioni di distribuzione Fn , per costruire ¡ una successione di¢ variabili aleatorie indipendenti Yn e con funzione di distribuzione Fn , basta mettersi nello spazio (0, 1), B(0, 1), λ|(0,1) , definire ¡ ¢ Yn (ω) = ϕFn Un (ω) , 2 Si confronti il Corollario 2 pag. 50 di [1] oppure, meglio il Teorema 20.2 pag. 268. 24 CP3–1-nov-2009 dove le Un sono le variabili aleatorie definite sopra, e infine usare il Corollario 2.2, per ottenere che Yn ha funzione di distribuzione FYn = Fn , e infine, grazie all’osservazione che Yn è misurabile rispetto alla sigma algebra generata da Un , dedurre che le Yn formano una successione di variabili aleatorie indipendenti. CP3–1-nov-2009 2.3 25 Convergenza per variabili aleatorie Esistono vari tipi di convergenza per variabili aleatorie. Noi ci occuperemo principalmente di tre tipi di convergenza: 1 CONVERGENZA QUASI CERTA mettere definizione 2 CONVERGENZA IN PROBABILITÀ mettere definzione 3 CONVERGENZA IN LEGGE O IN DISTRIBUZIONE (DETTA ANCHE DEBOLE) mettere definizione Valgono le seguenti implicazioni Xn −→ X n→∞ ⇓ in P r Xn −→ X n→∞ ⇓ L Xn −→ X P − q.c. n→∞ Nel caso in cui X è una variabile aleatoria degenere (ossia se esiste un a ∈ R tale che P(X = a) = 1) allora la convergenza in probabilità equivale alla convergenza in legge: in P r Xn −→ a n→∞ Xn m L −→ a n→∞ Infine vale anche una specie di implicazione inversa, nel senso specificato dal teorema di immersione di Skorohod (vedi il successivo Teorema 2.4) L Xn −→ X n→∞ ⇓ L L e e en = e= Xn , X, with X Xn , X X e e F, e P), ∃ (Ω, e tali che en −→ X e X n→∞ e − q.c. P Teorema 2.4 (Teorema di rappresentazione di Skorohod per successioni). Se la successione di variabili aleatorie Xn e e una successione di variabili aleatorie X e F, e P), en e converge in legge ad X, allora esiste uno spazio di probabilità (Ω, e una variabile aleatoria X su tale spazio, con la stessa legge di Xn e di X, rispettivamente, e tali che en −→ X e X n→∞ e − q.c. P e = (0, 1) Dimostrazione. Come nel teorema di rappresentazione di Skorohod (Teorema 2.1) lo spazio di probabilità è Ω e e con F = B(0, 1), i boreliani di (0, 1) e P è la misura di Lebesgue ristretta ai boreliani di (0, 1). Inoltre, posto Fn ed F le funzioni di distribuzione di Xn ed X, rispettivamente, le variabili aleatorie sono en (ω) = ϕF (ω) = inf{y : Fn (y) ≥ ω}, X n e X(ω) = ϕF (ω) = inf{y : F (y) ≥ ω}. e e dalla (2.1) sappiamo che Dalla definizione di X e X(ω) ≤ x ⇔ F (x) ≥ ω e (e quindi X(ω) > x ⇔ F (x) > ω). 26 CP3–1-nov-2009 Analogamente possiamo affermare che en (ω) ≤ x ⇔ Fn (x) ≥ ω X en (ω) > x ⇔ Fn (x) > ω). (e quindi X Questa osservazione sarà fondamentale per dimostrare le seguenti due relazioni (I) en (ω) ≥ X(ω), e limn→∞ X en (ω) ≤ X(ω e 0) limn→∞ X ∀ω ∈ (0, 1), 0 (II) ∀ω, ω ∈ (0, 1), ω < ω 0 (2.3) (2.4) e è una funzione non descrescente (ossia crescente A loro volta le precedenti affermazioni, insieme al fatto che X in senso lato) e quindi ammette al più un’infinità numerabile di punti di discontinuità, permettono di arrivare alla dimostrazione: Dalle (2.3) e (2.4) sappiamo che, per ogni ω < ω 0 ∈ (0, 1) vale en (ω) ≤ limn→∞ X e en (ω) ≤ X(ω e 0) X(ω) ≤ limn→∞ X e quindi e 0 ). e en (ω) ≤ limn→∞ X en (ω) ≤ lim X(ω X(ω) ≤ limn→∞ X 0 + ω →ω e La tesi segue allora in quanto le disuguaglianze sono tutte uguaglianze se ω è un punto di continuità per X: e en (ω) ≤ limn→∞ X en (ω) ≤ lim X(ω e 0 ) = X(ω) e X(ω) ≤ limn→∞ X 0 + ω →ω e − q.c. esiste il limite di X en (ω) e coincide con X(ω). e Quindi P Per finire la dimostrazione non rimane che verificare le relazioni (2.3) e (2.4). (I) Cominciamo con il fissare ω ∈ (0, 1) e scegliere un ε > 0 e prendere3 un x di continutità per F e tale che e e e X(ω) − ε < x < X(ω). Come abbiamo visto, la disuguaglianza X(ω) > x implica che F (x) > ω. Di conseguenza, poiché sappiamo che Fn (x) converge a F (x), per n sufficientemente grande possiamo affermare che Fn (x) > ω. La precedente relazione ci assicura che Xn (ω) > x, e quindi e limn→∞ Xn (ω) ≥ x > X(ω) − ε. Per l’arbitarietà di ε (mandando ε a zero) otteniamo quindi che e limn→∞ Xn (ω) ≥ X(ω), ossia proprio la (2.3). (II) Per ottenere la (2.4), dobbiamo sempre fissare ω ∈ (0, 1), ma inoltre dobbiamo considerare4 anche un ω 0 ∈ (0, 1) con ω < ω 0 . Comunque scelto ε > 0 possiamo prendere un y tale che F (y) = F (y − ) e e e 0 ) < y < X(ω e 0 ) + ε, X(ω) ≤ X(ω 3 Un tale x esiste di sicuro, perché il numero dei punti di discontinuità di F , che è una funzione monotona, sono al massimo un’infinità numerabile. 4 Lo scopo è ottenere che esista un y di continuità per F e tale che F (y) > ω, per poter garantire poi che, per n sufficientemente grande en (ω) ≤ y. Purtroppo il fatto di sapere che X(ω) e ω ≤ Fn (y) ossia che X < y implica solo che F (y) ≥ y e ciò a sua volta non ci garantisce che Fn (y) ≥ y, per n sufficientemente grande... CP3–1-nov-2009 27 e (dove la prima disuguaglianza deriva semplicemente dal fatto che X(ω) è una funzione non descrescente5 . e 0 ) < y implica che La disuguaglianza X(ω ¡ ¢ e 0 ) ≤ F (y). F X(ω ¡ ¢ e 0 ) ≥ ω 0 , e quindi Inoltre sappiamo che F X(ω ¡ ¢ e 0 ) ≤ F (y). ω < ω 0 ≤ F X(ω Il fatto che ω < F (y), garantisce che definitivamente (ossia per n sufficientemente grande) ω < Fn (y), da cui ω ≤ Fn (y), e ↔ X(ω) ≤ y. e 0 ) + ε otteniamo quindi Poiché sappiamo che y < X(ω e e 0 ) + ε. X(ω) ≤ y < X(ω A questo punto possiamo affermare che e 0 ) + ε, limn→∞ ≤ X(ω e per ottenere la (2.4), basta mandare ε a zero e ω 0 a ω per ottenere che e + ). limn→∞ ≤ X(ω e è non decrescente (ossia crescente in senso lato) e quindi ammette al più un’infinità numerabile La funzione X di punti in cui è discontinua. Da cui si otteniene e limn→∞ ≤ X(ω), per ogni ω ∈ (0, 1), esclusi al più un’inifinità numerabile e quindi quasi ovunque rispetto alla misura di Lebesgue, e che appunto è la nostra P. 5 Si ricordi l’Osservazione 2.1. Bibliografia [1] Billingsley, P. Probability and measure, third ed. Wiley Series in Probability and Mathematical Statistics. John Wiley & Sons Inc., New York, 1995. A Wiley-Interscience Publication. [2] Koch, G. La matematica del probabile, prima ed. Aracne, Roma, 1997. [3] Williams, D. Probability with martingales. Cambridge Mathematical Textbooks. Cambridge University Press, Cambridge, 1991. 28 Capitolo 3 ESERCIZI PROPOSTI In questo capitolo sono raccolti alcuni esercizi da scolgere: alcuni sono di tipo analitico e sono parte integrante di alcune dimostrazioni fndamentali, alcuni sono stati parzialmente o totalmente svolti a lezione. Lo studente dovrà consegnare gli esercizi e discuterne durante l’esame orale, un paio a scelta del docente. Sarà possibile, limitatamente alla sessione della prova in itinere (novembre 2009) portare gli esercizi scritti anche dopo l’esame orale. In tal caso la discussione degli esercizi avverrà alla consegna degli esercizi. 3.1 Esercizi di tipo analitico Esercizio 3.1. Dimostrare che se lim an = α, n→∞ allora n 1 X ak = α. n→∞ n lim k=1 Esercizio 3.2. Dimostrare che, per α > 1 P∞ lim n→∞ −α i=n i n1−α α−1 = 1, e che, per β > −1, Pn lim n→∞ β i=1 i 1+β n 1+β =1 Esercizio 3.3. Mostrare che ¯ ¯ ¶ µ n ¯ ix X |x|n |x|n+1 (ix)k ¯¯ ¯e − , 2 ≤ min ¯ k! ¯ (n + 1)! n! k=0 29 30 CP3–1-nov-2009 Suggerimento: utilizzare la formula1 eix = m X (ix)k k=0 con m = n per ottenere k! + im+1 m! Z x (x − s)m eis ds, (∗) 0 ¯ ¯ n ¯ ix X (ix)k ¯¯ |x|n+1 ¯e − ≤ , ¯ ¯ k! (n + 1)! k=0 e per m = n − 1, insieme all’osservazione che Z x Z x Z x Z x xm+1 m is m m is (x − s) e ds = (x − s) ds + (x − s) (e − 1) ds = + (x − s)m (eis − 1) ds m+1 0 0 0 0 e che |eis − 1| ≤ 2, per ottenere ¯ ¯ n ¯ ix X |x|n (ix)k ¯¯ ¯e − ≤2 . ¯ ¯ k! n! k=0 Esercizio 3.4. Mostrare che, per x > 0 |e−x − (1 − x)| ≤ 3.2 x2 . 2 Esercizi sulla convergenza in distribuzione Esercizio 3.5. Siano Z x Fn (x) = pn (t) dt, per n ≥ 1, −∞ dove ¡ ¢ pn (x) = 1(0,1) (x) 1 + cos(2πnx) Dimostrare che Fn sono funzioni di distribuzioni e che Z x lim Fn (x) = F (x) = n→∞ p(t) dt, −∞ dove p(x) = 1(0,1) (x), e che invece pn (x) 9 p(x). Discutere la relazione di questo esempio con il Teorema di Scheffé. Esercizio 3.6. Sia X uniforme in (0, 1) e siano Xn := X n . Indivuduare le funzioni di distribuzione Fn delle variabili aleatorie Xn . Dimostrare che la successione di variabili aleatorie Xn converge in distribuzione e individuare la variabile aleatoria limite. La successione Xn converge anche in qualche altro senso? 1 La formula (∗) è sostanzialmente la formula del resto nello sviluppo di Taylor, e si può facilmente ottenere per induzione dalla formula Z x eix = 1 + i eiy1 dy1 . 0 Come esempio si consideri Z x Z y1 Z x Z y1 eiy1 dy1 = 1 + i 1+i eiy2 dy2 dy1 = 1 + ix + i2 eiy2 dy2 dy1 0 0 0 0 0 Z x Z x Z x iy 2 iy2 2 2 = 1 + ix + i e dy1 dy2 = 1 + ix + i x − y2 e dy2 . eix = 1 + i Z x 0 y2 0 CP3–1-nov-2009 31 Esercizio 3.7. Sia X uniforme in ( 21 , 32 ) e siano Xn := X n . Individuare le funzioni di distribuzione Fn delle variabili aleatorie Xn . La successione di variabili aleatorie Xn converge in distribuzione? e se sı̀, a quale variabile aleatoria? e se no, la successione Xn è una successione tight (ovvero trattenuta)? 3.3 Esercizi con le funzioni caratteristiche Esercizio 3.8. (a) Per n ≥ 1, sia Xn una variabile aleatoria esponenziale di parametro n. La successione di variabili aleatorie Xn converge in distribuzione? e se sı̀, a quale variabile aleatoria? (b) Per n ≥ 1, sia Yn una variabile aleatoria Gamma di parametri (n, n). La successione di variabili aleatorie Xn converge in distribuzione? e se sı̀, a quale variabile aleatoria? Suggerimento: usare le funzioni caratteristiche. Esercizio 3.9 (esercizio svolto a lezione). Siano X ed Y due variabili aleatorie indipendenti, entrambe esponenziali di parametro 1. (a) Dimostrare che la variabile aleatoria Z = X − Y ammette densità pZ (z) = 1 −|z| e . 2 Suggerimento: utilizzare il fatto che, se le variabili aleatorie sono indipendenti e ammettono densità, allora la densità della somma è la convoluzione. (b) Dimostrare che la funzione caratteristica di Z = X − Y è ϕZ (t) = 1 . 1 + t2 (c) Utilizzare la formula di inversione per le funzioni caratteristiche integrabili e dedurre che l’espressione della funzione 1 caratteristica di una variabile aleatoria V con distribuzione di Cauchy (cioè con densità π1 1+x 2 ) è ϕV (t) = e−|t| . (d) Dedurre, dalla£forma ¤ della funzione caratteristica di una variabile aleatoria V con distribuzione di Cauchy, che non esiste finito E |V | . Esercizio 3.10 (parzialmente svolto). Sia X una variabile aleatoria con densità ( 0 per |x| ≤ 2, pX (x) = 1 c x2 log per |x| > 2, |x| dove c > 0 è la costante di normalizzazione (N.B. la costante c non deve essere calcolata) (i) Dimostrare che X non è integrabile (ossia che E[|X|] = ∞). Suggerimento: utilizzare il fatto che la densità è una funzione pari. (ii) Dimostrare che ϕX (t) ammette derivata prima in t = 0 e che ϕ0X (0) = 0. Soluzione: (ATTENZIONE leggermente diverso da come fatto a lezione) utilizzando il fatto che la densità è una funzione pari il rapporto incrementale ϕX (h)−1 si può scrivere come un integrale h su (2, ∞) rispetto a pX (x) dx, in cui i termini: ϕX (h) − 1 =c h Z {x:|x|>2} cos hx − 1 1 1 dx h log |x| x2 32 CP3–1-nov-2009 Quindi, per mostrare che ϕX (h) − 1 −→ 0 h→0 h ¯ ¯ ¯ ϕX (h) − 1 ¯ ¯ ¯ −→ 0 ¯ ¯ h→0 h ⇔ e tenendo conto che ¯ ¯ Z ¯ ¯ Z Z ∞ ¯ ¯ ¯ cos hx − 1 ¯ 1 cos hx − 1 1 1 1 1 − cos |hx| 1 1 ¯ ¯c ¯ ¯ dx¯ ≤ c dx, ¯ ¯ ¯ log |x| x2 dx = 2c 2 2 h log |x| x h |h| log |x| x {x:|x|>2} {x:|x|>2} 2 basta mostrare che Z ∞ 2 1 − cos |h|x 1 1 dx −→ 0. h→0 |h| log |x| x2 Effettuando il cambio di variabile di integrazione y = |h|x si ottiene che Z ∞ Z ∞ Z ∞ 1 1 − cos y 1 1 1 1 1 1 − cos |h|x 1 dx = dy = (1 − cos y) dy. 2 2 y 2 |h| |h| log |x| x |h| log(y/|h|) log(y/|h|) y 2|h| 2|h| 2 2 |h| Senza ledere in generalità possiamo assumere |h| < 1 e che quindi, per |y| ≥ 2|h|, si ha per h che tende a zero. Di conseguenza, posto g|h| la funzione g|h| (y) = 1{|y|≥2|h|} (1 − cos y) 1 1 , log(y/|h|) y 2 1 log |y/h| = 1 log |y|+| log |h|| → 0, y > 0, si ha che g|h| (y) −→ 0. h→0 Inoltre, considerato che 1 1 ≤ , log |y/h| log 2 ¡ ¢2 0 ≤ 1 − cos y = 2 sin(y/2) ≤ 2 per y ≥ 2|h|, µ ¶2 1 y = y2 , 2 2 per ogni y e 0 ≤ 1 − cos y ≤ 2, possiamo affermare che µ g|h| (y) ≤ g(y) = min Per ottenere la tesi basta infine osservare che Z per ogni y, ¶ 1 2 1 , , 2 log 2 log 2 y 2 y>0 ∞ g(y)dy < ∞ 0 e utilizzare il teorema della convergenza dominata su (0, ∞). Osservazione: questo esempio mostra che, se la funzione caratteristica di una variabile aleatoria X ammette una derivata di ordine k dispari, non è detto che esista finito il momento di ordine k, cioè che può accadere che E[|X|k ] = ∞. 3.4 Esercizi sulla condizione di Lindeberg Esercizio 3.11. Siano Xn variabili aleatorie indipendenti, discrete e tali che P(Xn = ±cn ) = 1 , 2 per una succesione cn di numeri positivi. Dimostrare che la condizione di Lindeberg ∀ε > 0, n X 1 E[|Xk |2 1{|Xk |>ε sn } ] = 0, n→∞ s2n lim k=1 CP3–1-nov-2009 33 dove s2n = V ar(X1 + · · · + Xn ), equivale a maxk=1,...,n c2k Pn = 0. 2 n→∞ h=1 ch lim Considerare il caso cn = nα , per α > 0. Esercizio 3.12. Dimostrare che la condizione di Lindeberg non è necessaria affinché per una successione di variabili aletaorie indipendenti valga il Teorema Centrale del Limite (ossia che la somma delle prime n variabili aleatoria, opportunamente standardizzata, converga in distribuzione ad una variabile gaussiana standard) Suggerimento: considerare Xn una successione di variabili aleatorie indipendenti, gaussiane di media zero e varianza σn2 , e scegliere σn2 in modo che, posto n X s2n = σk2 k=1 non valga la condizione maxk=1,...,n σk2 6= 0. n→∞ s2n lim 3.5 Esercizi sulla legge dei grandi numeri Esercizio 3.13 (esercizio parzialmente svolto a lezione). Siano Xn variabili aleatorie con P(Xn = ±nα ) = 21 . (a) Mostrare che per α < 0 vale la legge dei grandi numeri (N.B. senza assumere l’indipendenza delle variabili aleatorie Xn ) Si assuma l’ulteriore ipotesi che le variabili aleatorie Xn siano indipendenti. (b) Mostrare che per α ∈ [0, 1/2) vale la condizione del Teorema di Kolmogorov, e quindi vale la legge dei grandi numeri. (c) (da svolgere dopo aver studiato il teorema centrale del limite, ed in particolare dopo aver svolto l’esercizio 3.11) Mostrare che, per α > 0, posto Sn = X1 + X2 + ...Xn ed s2n = V ar(Sn ) si ha s2n ∼ n2α+1 2α + 1 cioè s2n n2α+1 2α+1 e che vale la condizione di Lindeberg. (d) Come conseguenza del punto (c), mostrare che, per α = 1/2, la successione Sn S n sn = n sn n converge ad una variabile aleatoria con distribuzione gaussiana e determinarne la media e la varianza. (e) Invece, per α > 1/2, mostrare che la successione Sn S n sn = n sn n non converge neanche in distribuzione. Suggerimento: si dimostri ad esempio che, posto Yn := x > 0, si ha x/βn → 0. Dedurre quindi che Sn sn e βn = 1 , 2 e che quindi la successione non può convergere in distribuzione. limn→∞ P(βn Yn ≤ x) ≤ sn n (> 0) si ha ovviamente βn → ∞ e, per ogni ∀ x > 0, Esercizio 3.14. Siano Xn variabili aleatorie indipendenti identicamente distribuite, tutte con distribuzione di Cauchy. (a) Dimostrare che (|X1 | + |X2 | + ... + |Xn |)/n converge quasi certamente ad infinito, quindi per le variabili aleatorie |Xn | vale la legge dei grandi numeri. (b) Dimostrare che (X1 + X2 + ... + Xn )/n converge in distribuzione ed individuare la distribuzione limite. Suggerimento: Utilizzare le funzioni caratteristiche. 34 3.6 CP3–1-nov-2009 Esercizio riassuntivo Esercizio 3.15. Utilizzare la rappresentazione della variabile aleatoria U (ω) = ω in Ω = (0, 1) [come al solito si assume anche F uguale ai boreliani di (0, 1) e la probabilità P uguale alla misura di Lebesgue ristretta a (0, 1)] ω= ∞ X Wi (ω) 1 1 , 2i dove Wi sono variabili aleatorie indipendenti identicamente distribuite, con P(Wi = 1) = P(Wi = 0) = 12 , per ottenere una dimostrazione probabilistica della relazione ∞ sin t Y t = cos i . t 2 i=1 Suggerimento: utilizzare il fatto che U ha distribuzione uniforme su (0, 1), e che la variabile aleatoria V (ω) := 2U (ω) − 1 = 2 ∞ X ∞ Wi (ω) 1 X 1 1 −1= (2 Wi (ω) − 1) i i 2 2 1 e che quindi V è il limite quasi certo di Vn (ω) := n X (2 Wi (ω) − 1) 1 e che le variabili aleatorie W i = 2 Wi − 1 sono indipendenti. 1 , 2i