1. Previsione per modelli ARM A Questo capitolo è dedicato alla teoria della previsione lineare per processi stocastici puramente non deterministici, cioè per processi che ammettono una rappresentazione della classe ARM A causale e invertibile e per i quali, come si vedrà, la teoria della previsione risulta particolarmente semplice. Si consideri un processo stocastico (a tempi discreti) Xt , di media nulla e di cui sia nota la distribuzione. Si supponga di volerne predire il valore al tempo t + k, noti i valori assunti dal processo ai tempi t, t − 1, t − 2 . . . L’individuazione del previsore ottimale, cioè del miglior stimatore del futuro, dipende, ovviamente, dal criterio di ottimalità scelto. Usualmente, si utilizza il criterio della minimizzazione dell’errore quadratico medio di previsione e si chiede che il previsore di Xt+k sia tale da rendere minima la quantità (1.1) E(Xt+k − X̂t+k )2 , essendo X̂t+k il previsore prescelto, funzione delle osservazioni passate. Questa scelta corrisponde all’assunzione di una funzione di perdita di tipo quadratico (lo scarto quadratico medio). È importante, però, tenere presente che si tratta comunque di una scelta e che, in base alla natura del problema che si affronta, potrebbe essere molto più adeguato e coerente ricorrere a funzioni di perdita differenti e quindi ad altri criteri di ottimalità nell’individuazione del previsore. In molte situazioni concrete si è condotti a scegliere funzioni di perdita non simmetriche (per esempio, eccedere nella previsione dell’intensità di un terremoto è certamente meno grave che sottostimarne gli effetti) e con andamenti più articolati che non nel caso quadratico (per esempio, con l’esistenza di soglie oltre le quali la perdita diventa infinita, come nel caso in cui vi sia il rischio di perdere vite umane). Nel seguito della discussione, comunque, utilizzeremo il criterio della perdita quadratica e svilupperemo la teoria classica dei previsori ottimali. 2. Previsori 2.1. Previsore ottimale. Si voglia prevedere la variabile Xt+k conoscendo i valori assunti dalle variabili Xt , Xt−1 , Xt−2 . . . Si tratta di individuare una funzione (misurabile) f (Xt , Xt−1 , . . .) che renda minima, nell’insieme di tutte le funzioni (misurabili) del passato del processo, la perdita quadratica, cioè il seguente scarto quadratico medio: 2 (2.1) E Xt+k − f (Xt , Xt−1 , . . .) . Il problema è risolto dal teorema che segue: Teorema 2.1. La funzione f (Xt , Xt−1 , . . .) che rende minima la (2.1) è data dal valore atteso condizionato E(Xt+k |Xt , Xt−1 , . . .). 1 2 Dimostrazione*. Poniamo X̃t+k|t = E(Xt+k |Xt , Xt−1 , . . .) e osserviamo, preliminarmente, che vale la seguente condizione: (2.2) E (Xt+k − X̃t+k|t )|Xt , Xt−1 , . . . = 0, essendo: E (Xt+k − X̃t+k|t )|Xt , Xt−1 , . . . = E(Xt+k |Xt , Xt−1 , . . .) − X̃t+k|t = 0. Posto Xt = {Xt , Xt−1 , . . .}, scriviamo la condizione di minimizzazione dello scarto quadratico medio nel modo seguente: 2 2 E Xt+k − f (Xt ) = E Xt+k − X̃t+k|t + X̃t+k|t − f (Xt ) e sviluppiamo il secondo membro, ottenendo: 2 E Xt+k − f (Xt ) = E(Xt+k − X̃t+k|t )2 + 2E Xt+k − X̃t+k|t X̃t+k|t − f (Xt ) + E X̂t+k|t − f (Xt ) . Il doppio prodotto che appare nello sviluppo precedente è nullo, in virtù della (2.2). Infatti, utilizzando le proprietà del valore atteso condizionato, possiamo sempre scrivere: E Xt+k − X̃t+k|t X̃t+k|t − f (Xt ) h i = EXt E Xt+k − X̃t+k|t X̃t+k|t − f (Xt ) Xt i h = EXt X̃t+k|t − f (Xt ) E Xt+k − X̃t+k|t Xt = EXt X̃t+k|t − f (Xt ) · 0 = 0. In definitiva, otteniamo: 2 2 E (Xt+k − f (Xt ))2 = E Xt+k − X̃t+k|t + E X̃t+k|t − f (Xt ) . Essendo somma di due quantità non negative, quest’espressione è minima se e solo se la funzione f (Xt ) annulla il secondo addendo, cioè se e solo se f (Xt ) = X̃t+k|t (quasi certamente). 3 Osservazione Abbiamo impostato la discussione nei termini della previsione di Xt+k dato il suo passato. È chiaro che quanto mostrato ha una validità più generale: data una variabile casuale Y e un insieme qualunque di variabili casuali {Xt }, il miglior previsore di Y date le Xt è il valore atteso condizionato E(Y |{Xt }). In questo modo, per esempio, potremmo anche stimare un valore mancante nel passato, sulla base dei valori osservati, precedenti e seguenti il dato assente. 2.2. Previsore lineare. Nella maggior parte delle applicazioni, il calcolo esplicito di X̃t+k|t non è possibile, perché esso richiede la conoscenza completa delle distribuzioni congiunte del processo, mentre nello studio delle serie storiche spesso non si può andare oltre una stima della matrice di varianze e covarianze. Inoltre, anche se fosse nota la distribuzione congiunta, la manipolazione matematica delle grandezze coinvolte potrebbe risultare assai complicata. È preferibile, allora, sviluppare una metodo di previsione che sia più agevole, anche se meno preciso. La semplificazione avviene mantenendo il criterio della minimizzazione dell’errore quadratico medio, ma restringendo l’insieme di funzioni delle osservazioni passate al cui interno cercare il previsore ottimale (che pertanto sarà ottimale non in assoluto, ma solo rispetto all’insieme considerato). In particolare, ci restringiamo a funzioni lineari del passato del processo. Il generico previsore lineare di Xt+k , costruito sul passato del processo Xt , Xt−1 . . ., ha la seguente forma: (2.3) X̂t+k|t = ∞ X λi Xt−i i=0 per un’opportuna successione {λi } di numeri reali. Si tratta quindi di individuare i coefficienti {λi } per i quali sia soddisfatta la seguente condizione di ottimo: 2 (2.4) E Xt+k − X̂t+k|t = min . Tali coefficienti si ottengono semplicemente regredendo Xt+k sul proprio passato, esattamente coma avviene per l’usuale regressione multipla, benché in questo caso si sia in presenza di un’infinità numerabile di regressori. Naturalmente, la regressione sul passato del processo può essere fatta anche scegliendo, come variabili di regressione, le innovazioni εt , εt−1 , εt−2 , . . . che, come già discusso in precedenza, costituiscono un sistema di regressori equivalente a quello costituito dalle variabili Xt , Xt−1 , Xt−2 , . . . In tal caso, il generico previsore lineare ha la seguente 4 forma: (2.5) X̂t+k|t = ∞ X νi εt−i i=0 e l’obiettivo è quello di individuare i coefficienti {νi } per i quali esso soddisfi la (2.4). Vedremo che la costruzione del previsore in questa forma è particolarmente semplice e naturale quando il processo sia espresso in forma media mobile. Anzi, cominceremo la trattazione precisamente da questo caso e da qui, con facilità, otterremo i previsori nel caso di processi puramente non deterministici in forma AR o in forma ARM A. Prima di passare alla costruzione esplicita dei previsori, vogliamo però sottolineare un fatto importante. La scelta di limitarsi a previsori costruiti come funzioni lineari del passato deriva dalla difficoltà operativa di calcolare i previsori ottimali assoluti, cioè le medie condizionate. Ciò non significa che costruire i previsori lineari sia sempre e comunque una scelta adeguata, come mostra il seguente esempio. Esempio. Siano X e Z due variabili casuali gaussiane, standardizzate, fra loro indipendenti. Sia k ≥ 1 un numero naturale e definiamo una nuova variabile Y : Y = X 2k + Z. Costruiamo il previsore ottimale assoluto ed il previsore ottimale fra i lineari e confrontiamone gli errori quadratici medi. Il previsore ottimale di Y condizionatamente a X è semplicemente: E(Y |X) = E(X 2k + Z|X) = E(X 2k |X) + E(Z|X) = X 2k giacché Z è una variabile a media nulla indipendente da X. L’errore di previsione coincide, evidentemente, con la variabile Y − X 2k = Z e la sua varianza è quindi pari a 1. Costruiamo, adesso, il previsore lineare. A questo scopo, dobbiamo regredire Y su X. Poiché X ha varianza unitaria e tutte le variabili hanno media nulla, la regressione Ŷ di Y su X si riduce alla seguente espressione: Ŷ = Cov(Y, X)X + E(Y ) = Cov(Y, X)X + E(X 2k ). 5 La covarianza è immediatamente calcolata, notando che X ha tutti i momenti di ordine dispari nulli, essendo una variabile simmetrica a media nulla1: Cov(Y, X) = Cov(X 2k , X) + Cov(Z, X) = Cov(X 2k , X) = E(X 2k+1 ) = 0. Quindi il previsore lineare ottimale è semplicemente: Ŷ = E(X 2k ) e l’errore di previsione è dato da Y − Ŷ = X 2k + Z − E(X 2k ). La sua varianza, grazie all’indipendenza tra le variabili, è semplicemente: V ar(Y − Ŷ ) = V ar(X 2k ) + 1 = (2k)! +1 2k k! e diverge all’infinito al crescere di k. L’esempio mostra come il previsore lineare, paragonato a quello ottimale, possa dare risultati insoddisfacenti, se utilizzato in circostanze non adeguate. Si noti, in particolare, che al crescere di k la variabile Y si discosta progressivamente dalla normalità. 2.3. Previsione lineare per i processi MA. Consideriamo un processo stazionario {Xt } posto nella forma di una media mobile infinita: Xt = (2.6) ∞ X θi εt−i i=0 con P∞ 2 i=1 θi < ∞. La forma del previsore lineare ottimale basato sul passato fino al tempo t è fornita dalla seguente proposizione (si noti che, in questo caso, è conveniente esprimere il previsore come combinazione lineare delle innovazioni): 1Poiché X è distribuita come −X, X 2k+1 è distribuita come (−X)2k+1 = −X 2k+1 e dunque, dovendo essere E(X 2k+1 ) = E(−X 2k+1 ) = −E(X 2k+1 ) è necessariamente E(X 2k+1 ) = 0. 6 Proposizione 2.2. Il miglior previsore lineare X̂t+k|t per il processo (2.6), basato sul passato sino al tempo t, è dato dalla seguente espressione: (2.7) X̂t+k|t = θk εt + θk+1 εt−1 + . . . = ∞ X θi+k εt−i . i=0 Dimostrazione. Scelto un generico previsore lineare previsione nel seguente modo: ηt+k = = ∞ X θi εt+k−i − i=0 j=0 k−1 X ∞ X θi εt+k−i + i=0 = ∞ X k−1 X θi εt+k−i + i=0 i=k ∞ X P∞ i=0 νi εt−1 , scriviamo l’errore di νi εt−i = θi εt+k−i − ∞ X νi εt−i = i=0 (θi+k − νi )εt−i . i=0 In virtù dell’incorrelazione fra le innovazioni, l’errore quadratico medio del previsore lineare è immediatamente calcolato: (2.8) 2 ) = σε2 E(ηt+k k−1 X θi2 + σε2 i=0 ∞ X (θi+k − νi )2 . i=0 Essendo somma di due addendi non negativi, l’espressione precedente è minima se e solo se i coefficienti νi rendono nulli entrambi gli addendi, cioè se: (2.9) νi = θi+k i = 0, 1, 2 . . . Il previsore lineare è corretto, cioè il valore atteso del suo errore è nullo: ! k−1 X E(ηt+k ) = E θi εt+k−i = 0. i=0 La varianza dell’errore di previsione è immediatamente ricavata come: (2.10) V ar(ηt+k ) = σε2 k−1 X θi2 . i=0 Naturalmente, la previsione peggiora man mano che l’orizzonte previsivo viene spostato in avanti. Se k tende all’infinito, il previsore tende, in media quadratica, alla media 7 del processo. Infatti: lim E X̂t+k|t k→∞ 2 = lim k→∞ σε2 ∞ X 2 θi+k = lim i=0 k→∞ σε2 ∞ X θj2 = 0, j=k P∞ 2 j=k θj giacché è il resto di una serie convergente. Contemporaneamente, l’errore quadratico medio di previsione cresce e tende alla varianza del processo: lim V ar(ηt+k ) = lim k→∞ k→∞ σε2 k−1 X θi2 i=0 = σε2 ∞ X θi2 = V ar(Xt ). i=0 È possibile dare una forma mnemonica molto comoda al previsore lineare ottimale appena ricavato. Sia Θ(B) il polinomio che definisce la rappresentazione M A(∞) del processo: Xt = Θ(B)εt . Poniamo simbolicamente: ∞ Θ(B) X = θi B i−k Bk i=0 e introduciamo il seguente operatore di annichilazione [ · ]+ : ∞ X Θ(B) θi B i−k . = Bk + i=k L’operatore di annichilazione agisce ponendo uguali a zero i coefficienti dei termini con esponenti negativi. A questo punto, è chiaro che il previsore può essere scritto come segue: Θ(B) X̂t+k|t = εt . Bk + La teoria appena sviluppata permette di costruire facilmente anche i previsori per processi media mobile di ordine finito. Un processo media mobile di ordine q, infatti, non è altro che un caso particolare di processo M A(∞), nel quale tutti i coefficienti θq+1 , θq+2 , . . . sono nulli. Pertanto, per la costruzione del previsore possiamo utilizzare le formule appena discusse, che in questo caso assumeranno una forma ancora più semplice. Se k ≤ q: X̂t+k|t = θk εt + θk+1 εt−1 + . . . + θq εt+k−q = q X i=k θi εt+k−i ; 8 Xt+k − X̂t+k|t = k−1 X θi εt+k−i ; i=0 V ar Xt+k − X̂t+k|t = σε2 k−1 X θi2 . i=0 Viceversa, se k > q, il previsore coincide con la media del processo e la varianza dell’errore di previsione coincide con la varianza del processo. Quindi, per un processo M A(q), la previsione su un orizzonte temporale più lungo di q istanti si banalizza. La previsione per i processi M A è dunque molto semplice, essenzialmente grazie al fatto che la formulazione mediante medie mobili rappresenta il processo su un sistema di regressori incorrelati e di varianza identica. In generale, però, noi non osserviamo direttamente gli shock casuali εt , ma i valori assunti dalle variabili Xt , Xt−1 , Xt−2 . . . e quindi è necessario individuare il modo di costruire il previsore lineare ottimale non come funzione degli εt , ma come funzione esplicita del passato del processo effettivamente osservato. Se, come abbiamo supposto sin dall’inizio, il processo stazionario è anche invertibile, allora possiamo passare dalla rappresentazione media mobile alla corrispondente rappresentazione autoregressiva, in generale di ordine infinito: ∞ X Xt = ϕi Xt−i + εt i=0 dove εt = Φ(B)Xt = Θ(B)−1 Xt . Ora possiamo riesprimere il previsore X̂t+k|t in funzione delle osservazioni passate: Θ(B) Θ(B) Θ(B) εt = Φ(B)Xt = Θ(B)−1 Xt . (2.11) X̂t+k|t = Bk + Bk + Bk + Questa formula è nota come formula di Wiener-Kolmogorov. Applicando il previsore di Wiener-Kolmogorov al modello M A(q), otteniamo per k ≤ q: X̂t+k|t = µ + 1 + θ1 B + . . . + θq B q Bk + (1 + θ1 B + . . . + θq B q )−1 Xt . 9 Esempio: processo M A(1). Nel caso di un processo media mobile di ordine 1, la previsione per k > 1 coincide con la media del processo, mentre per k = 1 si ottiene, con un’applicazione diretta della formula di Wiener-Kolmogorov: X̂t+1|t 1 + θ1 B = B (1 + θ1 B)−1 Xt = θ1 (1 + θ1 B)−1 Xt . + Esempio: processo M A(2). Consideriamo un generico processo M A(2) invertibile e di media nulla: Xt = εt + θ1 εt−1 + θ2 εt−2 e calcoliamo i previsori X̂t+1|t , X̂t+2|t e X̂t+3|t , applicando la formula di WienerKolmogorov. Otteniamo facilmente: X̂t+1|t = 1 + θ1 B + θ2 B 2 B (1 + θ1 B + θ2 B 2 )−1 Xt + = (θ1 + θ2 B)(1 + θ1 B + θ2 B 2 )−1 Xt ; X̂t+2|t = 1 + θ1 B + θ2 B 2 B2 = θ2 (1 + θ1 B + θ2 B ) X̂t+3|t = 1 + θ1 B + θ2 B 2 B3 (1 + θ1 B + θ2 B 2 )−1 Xt + 2 −1 Xt ; (1 + θ1 B + θ2 B 2 )−1 Xt + 2 −1 = 0 · (1 + θ1 B + θ2 B ) = 0. Xt = I previsori a lag superiori a 3, ovviamente, coincidono con la media del processo. 10 2.4. Previsione lineare per i processi AR. Consideriamo ora un processo stazionario causale autoregressivo di ordine infinito: (2.12) Φ(B)Xt = Xt − ∞ X ϕi Xt−1 = εt . i=1 Il previsore lineare ottimale per tale modello si ottiene facilmente dal previsore di Wiener-Kolmogorov, costruito nel caso di rappresentazioni media mobile. Infatti, in virtù dell’invertibilità dell’operatore Φ(B), la rappresentazione (2.12) può essere riscritta in forma di media mobile Xt = Φ(B)−1 εt (2.13) e il previsore lineare ottimale è subito ottenuto dalla (2.11): Φ(B)−1 (2.14) X̂t+k|t = Φ(B)Xt . Bk + Il caso della previsione per un processo AR(p) è, naturalmente, un caso particolare della (2.14), come si vede subito ponendo uguali a zero i coefficienti ϕi per i > p. Si noti che, a differenza del caso M A, il previsore di un processo autoregressivo di ordine finito non si banalizza mai, giacché la corrispondente rappresentazione media mobile è di ordine infinito. Esempio: processo AR(1). In questo caso, è Φ(B) = 1 − ϕ1 B, con |ϕ1 | < 1. Inserendo questa espressione nel previsore e utilizzando lo sviluppo per l’inverso di (I − ϕ1 B), otteniamo: 1 + ϕ1 B + ϕ21 B 2 + . . . Φ(B)Xt = X̂t+k|t = Bk + = (ϕk1 + ϕk+1 1 B + . . .)Φ(B)Xt = = ϕk1 (1 + ϕ1 B + ϕ21 B 2 + . . .)Φ(B)Xt = = ϕk1 Φ(B)−1 Φ(B)Xt = = ϕk1 Xt . All’allontanarsi dell’orizzonte previsivo, il previsore tende in media quadratica alla media del processo: lim V arX̂t+k|t = Var(Xt ) · lim ϕ2k 1 =0 k→∞ k→∞ 11 e l’errore di previsione è dato da: Xt+k − X̂t+k|t = εt+k + ϕ1 Xt+k−1 − ϕk1 Xt = = εt+k + ϕ1 εt+k−1 + ϕ21 Xt+k−2 − ϕk1 Xt = = ··· = = εt+k + ϕ1 εt+k−1 + ϕ21 εt+k−2 + . . . + ϕ1k−1 εt+1 . Pk−1 2i ϕ1 e, al crescere dell’orizzonte La varianza dell’errore di previsione è pari a σε2 i=0 previsivo, tende alla varianza del processo: lim k→∞ σε2 k−1 X i=0 ϕ2i 1 = σε2 = Var(Xt ). 1 − ϕ21 2.5. Previsione lineare per i processi ARM A. Consideriamo un generico processo stazionario e invertibile, che soddisfi la seguente rappresentazione ARM A(p, q): (2.15) Φ(B)Xt = Θ(B)εt . In virtù dell’invertibilità degli operatori Φ(B) e Θ(B), possiamo scrivere le seguenti due forme alternative per Xt : Θ(B)−1 Φ(B)Xt = εt Φ(B)−1 Θ(B)εt = Xt e quindi utilizzare le formule per il previsore di Wiener-Kolmogorov già presentate per i processi autoregressivi: Φ(B)−1 Θ(B) X̂t+1|t = Θ(B)−1 Φ(B)Xt . Bk + Esempio: processo ARM A(1, 1). Consideriamo un processo stazionario, causale e invertibile espresso nella rappresentazione ARM A(1, 1): (1 − ϕB)Xt = (1 + θB)εt . Il calcolo del previsore lineare ottimale è immediatamente ricondotto alle formule precedenti grazie all’ipotesi d’invertibilità, per la quale possiamo porre (1+θB)−1 (1−ϕB) = ω(B), ottenendo: ω(B)−1 (2.16) X̂t+k|t = ω(B)Xt . Bk + 12 Sviluppiamo il primo fattore, contenente l’operatore di annichilazione: ω(B)−1 (1 + θB)(1 + ϕB + ϕ2 B 2 + . . .) = = Bk Bk + + 1 + ϕB + ϕ2 B 2 + . . . (B + ϕB 2 + ϕ2 B 3 + . . .) = +θ = Bk Bk + + ∞ ∞ X X ϕi−1 B i−k = ϕi B i−k + θ = i=k i=k = ϕ k ∞ X ϕ i−k B i−k + θϕ k−1 ∞ X ϕi−k B i−k = i=k i=k = (ϕk + θϕk−1 ) ∞ X ϕi−k B i−k = i=k k = (ϕ + θϕ k−1 )(1 − ϕB)−1 . Sostituendo questa relazione nella formula del previsore, otteniamo: (2.17) X̂t+k|t = (ϕk + θϕk−1 )(1 + θB)−1 Xt . È evidente che al tendere di k all’infinito, il previsore tende, in media quadratica, a zero, cioè, in generale, al valor medio del processo. Parallelamente, la varianza dell’errore di previsione tende alla varianza del processo. 3. Previsione finita La questione della previsione così come è stata impostata e risolta nei paragrafi precedenti soffre di un problema operativo: sono necessarie infinite osservazioni per poter applicare i previsori lineari ottimali. Naturalmente, si tratta di una condizione che non è possibile soddisfare nella realtà ed è quindi necessario ottenere formule alternative per i previsori, basate su un passato finito. 3.1. Previsori approssimati*. Una prima possibilità è quella di utilizzare i previsori ottimali appena descritti e troncarne l’espressione all’ultimo istante temporale osservato. Questa soluzione equivale ad immaginare di osservare tutto il passato, supponendo che le osservazioni precedenti quelle realmente effettuate siano nulle. 13 Il problema, in questo caso, è che la bontà dell’approssimazione deve essere valutata di caso in caso, giacché dipende dal numero di osservazioni fatte e dal valore dei parametri dei modelli in esame. Consideriamo, per esempio, il previsore lineare ottimale per il modello M A(1): X̂t+1|t = θ1 (1 + θ1 B)−1 Xt = θ1 (1 − θ1 B + θ12 B 2 − . . .)Xt . Se sono disponibili le osservazioni da t − h sino a t, l’espressione del previsore avrà la seguente forma: (h) X̂t+1|t = θ1 (1 − θ1 B + θ12 B 2 − . . . + (−1)h θ1h B h )Xt . Per valutare la bontà dell’approssimazione, dobbiamo confrontare gli errori di previsione del previsore esatto e di quello troncato. Nel primo caso, sappiamo dalla (2.10) che la varianza è pari a σε2 . Per calcolare l’errore di previsione nel caso troncato, osserviamo che vale la seguente relazione, che si dimostra per verifica diretta: (1 − θ1 B + θ12 B 2 − . . . + (−1)h θ1h B h )Xt = = (1 − θ1 B + . . . + (−1)h θ1h B h )(1 + θ1 B)εt = = (1 + (−1)h θ1h+1 B h+1 )εt . L’errore di previsione risulta, in tal modo: (h) Xt+1 − X̂t+1|t = εt+1 + θ1 εt − θ1 εt + θ1 (−1)h+1 θh+1 εt−h−1 = = εt+1 + (−1)h+1 θ1h+2 εt−h−1 la cui varianza, pari a 2(h+2) σε2 1 + θ1 , è superiore a quella del previsore non troncato. Al crescere di h, il previsore troncato tende, in media quadratica, al previsore infinito e la varianza dell’errore di previsione tende a σε2 dato che, per la condizione di invertibilità, θ1 < 1. Per k finito, l’approssimazione troncata è tanto migliore quanto più θ1 è piccolo, in modo che il termine θ1h+2 εt−h−1 converga rapidamente a zero, al crescere di h. 14 3.2. Previsori esatti. Conoscendo solo una parte finita del passato del processo, cerchiamo di costruire il previsore lineare esatto, basato su un numero finito di osservazioni. Questo è un semplice problema di regressione multipla, dove l’insieme dei regressori è costituito dal passato finito {Xt , . . . , Xt−s }. Fissato l’orizzonte previsivo (k) (k) k, dobbiamo pertanto cercare i coefficienti ω1 , . . . , ωs per i quali sia soddisfatta la seguente uguaglianza: s X (k) (k) Xt+k = ωi Xt−i + ηt+k i=0 (k) con ηt+k ⊥ (k) i=0 ωi Xt−i . Ps I coefficienti si ricavano impostando il seguente sistema di equazioni, detto sistema di Yule-Walker, ottenuto uguagliando le covarianze tra le variabili Xt−j , 0 ≤ j ≤ s e i due membri della precedente relazione: ! s X (k) Cov(Xt+k , Xt−j ) = Cov ωi Xt−i , Xt−j = i=0 = s X (k) ωi Cov(Xt−i , Xt−j ) = i=0 = s X (k) 0 ≤ j ≤ s. ωi γi−j i=0 Il membro di sinistra non è altro che γk+j , pertanto possiamo scrivere: γk+j = s X (k) ωi γi−j 0≤j≤s i=0 che in forma matriciale diventa, ricordando che la matrice di varianze-covarianze è simmetrica: γ (k) = Γω (k) (3.1) dove: γ (k) γk γk+1 = .. ; . γk+s γ0 γ1 Γ = .. . γ1 γ0 .. . . . . γs . . . γs−1 .. ; ... . γs γs−1 . . . γ0 ω (k) (k) ω0 (k) ω 1 = .. . . (k) ωs 15 Dalla (3.1) ricaviamo il vettore ω per inversione della matrice Γ (che per processi stazionari non deterministici è sempre invertibile): ω (k) = Γ−1 γ (k) . (3.2) La forma esplicita del previsore è quindi: X̂t+k|t = (3.3) ∞ X (k) ωi εt−i = i=0 ∞ X (k) gij γj εt−i , i,j=0 con gij generico elemento della matrice Γ−1 . Osservazione. Notiamo che al variare dell’orizzonte previsivo varia il vettore γ (k) , ma non la matrice Γ che rimane fissa. Quindi, se dobbiamo calcolare il previsore per diversi orizzonti temporali, date le variabili osservate nel passato, è sufficiente calcolare una volta per tutte Γ e poi applicarla a differenti vettori γ (k) . Osservazione. Sia il previsore troncato che il previsore esatto basati sulla medesima parte finita di storia del processo sono una combinazione lineare delle variabili osservate (più una costante). La differenza tra i due è che i coefficienti del previsore troncato non sono ottimali, nel senso che non definiscono la regressione della variabile da prevedere sulla porzione di passato osservata e quindi non minimizzano la varianza dell’errore di previsione. Se indichiamo con: s X (k) θi Xt−i i=0 il previsore troncato, allora l’informazione (lineare) presente nel passato osservato che il previsore troncato non è in grado di catturare è sintetizzata dalla seguente variabile δ: δt+k|t = s X (k) θi Xt−i − i=0 s X (k) ωi Xt−i = i=0 s X (k) (θi (k) − ωi )Xt−i . i=0 La sua varianza è data da: V ar(δt+k|t ) = s X (k) (gi (k) (k) − ωi )γij (gj (k) − ωj ). i,j=0 Osservazione. In tutta la discussione che abbiamo svolto, abbiamo supposto che il passato osservato fosse composto da s osservazioni consecutive. È chiaro che tutto quanto detto rimarrebbe inalterato se le osservazioni riguardassero un numero finito di istanti temporali “sparsi” nel passato del processo. Se avessimo osservato le variabili Xt1 , . . . , Xts , per costruire il previsore esatto basterebbe regredire sulle s variabili conosciute e tutto rimarrebbe identico alla discussione precedente. 16 Esempio: previsione di un processo AR(1). Consideriamo il seguente processo stazionario di media nulla, in forma autoregressiva: Xt = φXt−1 + εt (3.4) con |φ| < 1. Supponiamo di aver osservato solo la variabile X0 e diamo le previsioni per tutti i tempi successivi. La funzione di covarianza per questo processo ha la seguente forma: γk = φ|k| γ0 e a sua volta γ0 è rapidamente ricavato dalla definizione del processo: γ0 = φ2 γ0 + σε2 da cui si ottiene: σε2 . 1 − φ2 Avendo a disposizione una sola osservazione, il parametro s è pari a 0, pertanto la matrice Γ si riduce allo scalare Γ = γ0 Analogamente, il vettore γ (k) è semplicemente γ0 = γ (k) = γk . Il sistema di Yule-Walker si banalizza e si ottiene (si noti che, volendo prevedere il futuro k è positivo e quindi uguale a |k|) γk = ρk = φk ω0 = γ0 e la previsione di Xk è semplicemente: X̂k|0 = φk X0 . La varianza dell’errore di previsione è fornita dalla seguente espressione: V ar(Xk − X̂k|0 ) = V ar(φXk−1 + εk − φk X0 ) = φ2 γ0 + σε2 + φ2k γ0 − 2φk+1 γk−1 = φ2 γ0 + σε2 + φ2k γ0 − 2φk+1 φk−1 γ0 φ2 φ2k 2 2φ2k 2 2 2 σ + σ + σ − σ ε 1 − φ2 ε 1 − φ2 ε 1 − φ2 ε 2k 2 1−φ = σε . 1 − φ2 = 17 Dalle espressioni appena fornite si vede che: • se k = 1, la varianza dell’errore di previsione coincide con la varianze di σε2 , come ovvio attendersi, data la forma AR(1) del processo; • se k → ∞, il previsore tende a zero in media quadratica (cioè alla media del processo) e la varianza del previsore tende al valore σε2 /(1 − φ2 ), cioè alla varianza del processo. Esempio. La costruzione del previsore dipende esclusivamente dalla funzione di covarianza, non dallo specifico processo che la realizza. Pertanto, per costruire il previsore esatto basta che sia assegnata γk . Supponiamo che sia: γk = 2E −|k| (3.5) e calcoliamo la matrice Γ nel caso in cui siano disponibili le osservazioni ai tempi t = t1 e t = t2 . Evidentemente, è γ0 = 2 e γ|t1 −t2 | = 2E −|t1 −t2 | , pertanto: (3.6) Γ= 2 2E −|t1 −t2 | 2E −|t1 −t2 | 2 =2 1 e−|t1 −t2 | e−|t1 −t2 | 1 da cui si ricava immediatamente Γ−1 : (3.7) Γ−1 = 1 2(1 − e−2|t1 −t2 | ) 1 −e−|t1 −t2 | −e−|t1 −t2 | . 1 Per prevedere il processo al generico tempo t3 , è sufficiente applicare Γ−1 al vettore: (3.8) γ= γ|t3 −t1 | γ|t3 −t2 | e−|t3 −t1 | = 2 −|t3 −t2 | , e ricavando (3.9) ω= e−|t3 −t1 | − e−|t1 −t2 |−|t3 −t2 | . −e−|t1 −t2 |−|t3 −t1 | + e−|t1 −t2 | 18 Vale la pena notare che se, per esempio, poniamo t3 = t1 , il vettore ω si riduce a: ω= e−|t1 −t1 | − e−|t1 −t2 |−|t1 −t2 | −e−|t1 −t2 |−|t1 −t1 | + e−|t1 −t2 | = 1 − e−2|t1 −t2 | −e−|t1 −t2 | + e−|t1 −t2 | 1 = 0 cioè il previsore per il tempo t1 coincide con la variabile Xt1 che è stata osservata e, come lecito attendersi, in questo caso la varianza dell’errore di previsione si annulla.