1. Previsione per modelli ARM A
Questo capitolo è dedicato alla teoria della previsione lineare per processi stocastici
puramente non deterministici, cioè per processi che ammettono una rappresentazione
della classe ARM A causale e invertibile e per i quali, come si vedrà, la teoria della
previsione risulta particolarmente semplice.
Si consideri un processo stocastico (a tempi discreti) Xt , di media nulla e di cui sia
nota la distribuzione. Si supponga di volerne predire il valore al tempo t + k, noti i
valori assunti dal processo ai tempi t, t − 1, t − 2 . . .
L’individuazione del previsore ottimale, cioè del miglior stimatore del futuro, dipende,
ovviamente, dal criterio di ottimalità scelto. Usualmente, si utilizza il criterio della
minimizzazione dell’errore quadratico medio di previsione e si chiede che il previsore
di Xt+k sia tale da rendere minima la quantità
(1.1)
E(Xt+k − X̂t+k )2 ,
essendo X̂t+k il previsore prescelto, funzione delle osservazioni passate. Questa scelta
corrisponde all’assunzione di una funzione di perdita di tipo quadratico (lo scarto
quadratico medio). È importante, però, tenere presente che si tratta comunque di una
scelta e che, in base alla natura del problema che si affronta, potrebbe essere molto più
adeguato e coerente ricorrere a funzioni di perdita differenti e quindi ad altri criteri di
ottimalità nell’individuazione del previsore. In molte situazioni concrete si è condotti
a scegliere funzioni di perdita non simmetriche (per esempio, eccedere nella previsione
dell’intensità di un terremoto è certamente meno grave che sottostimarne gli effetti) e
con andamenti più articolati che non nel caso quadratico (per esempio, con l’esistenza
di soglie oltre le quali la perdita diventa infinita, come nel caso in cui vi sia il rischio di
perdere vite umane). Nel seguito della discussione, comunque, utilizzeremo il criterio
della perdita quadratica e svilupperemo la teoria classica dei previsori ottimali.
2. Previsori
2.1. Previsore ottimale. Si voglia prevedere la variabile Xt+k conoscendo i valori
assunti dalle variabili Xt , Xt−1 , Xt−2 . . . Si tratta di individuare una funzione (misurabile) f (Xt , Xt−1 , . . .) che renda minima, nell’insieme di tutte le funzioni (misurabili) del
passato del processo, la perdita quadratica, cioè il seguente scarto quadratico medio:
2
(2.1)
E Xt+k − f (Xt , Xt−1 , . . .) .
Il problema è risolto dal teorema che segue:
Teorema 2.1. La funzione f (Xt , Xt−1 , . . .) che rende minima la (2.1) è data dal valore
atteso condizionato E(Xt+k |Xt , Xt−1 , . . .). 1
2
Dimostrazione*. Poniamo X̃t+k|t = E(Xt+k |Xt , Xt−1 , . . .) e osserviamo, preliminarmente, che vale la seguente condizione:
(2.2)
E (Xt+k − X̃t+k|t )|Xt , Xt−1 , . . . = 0,
essendo:
E (Xt+k − X̃t+k|t )|Xt , Xt−1 , . . . = E(Xt+k |Xt , Xt−1 , . . .) − X̃t+k|t = 0.
Posto Xt = {Xt , Xt−1 , . . .}, scriviamo la condizione di minimizzazione dello scarto
quadratico medio nel modo seguente:
2
2
E Xt+k − f (Xt ) = E Xt+k − X̃t+k|t + X̃t+k|t − f (Xt )
e sviluppiamo il secondo membro, ottenendo:
2
E Xt+k − f (Xt )
= E(Xt+k − X̃t+k|t )2
+ 2E Xt+k − X̃t+k|t X̃t+k|t − f (Xt )
+ E X̂t+k|t − f (Xt ) .
Il doppio prodotto che appare nello sviluppo precedente è nullo, in virtù della (2.2).
Infatti, utilizzando le proprietà del valore atteso condizionato, possiamo sempre scrivere:
E Xt+k − X̃t+k|t X̃t+k|t − f (Xt )
h
i
= EXt E Xt+k − X̃t+k|t X̃t+k|t − f (Xt ) Xt
i
h
= EXt X̃t+k|t − f (Xt ) E Xt+k − X̃t+k|t Xt
= EXt X̃t+k|t − f (Xt ) · 0 = 0.
In definitiva, otteniamo:
2
2
E (Xt+k − f (Xt ))2 = E Xt+k − X̃t+k|t + E X̃t+k|t − f (Xt ) .
Essendo somma di due quantità non negative, quest’espressione è minima se e solo se
la funzione f (Xt ) annulla il secondo addendo, cioè se e solo se f (Xt ) = X̃t+k|t (quasi
certamente).
3
Osservazione Abbiamo impostato la discussione nei termini della previsione di Xt+k dato il
suo passato. È chiaro che quanto mostrato ha una validità più generale: data una variabile
casuale Y e un insieme qualunque di variabili casuali {Xt }, il miglior previsore di Y date le
Xt è il valore atteso condizionato E(Y |{Xt }). In questo modo, per esempio, potremmo anche
stimare un valore mancante nel passato, sulla base dei valori osservati, precedenti e seguenti
il dato assente.
2.2. Previsore lineare. Nella maggior parte delle applicazioni, il calcolo esplicito di
X̃t+k|t non è possibile, perché esso richiede la conoscenza completa delle distribuzioni
congiunte del processo, mentre nello studio delle serie storiche spesso non si può andare oltre una stima della matrice di varianze e covarianze. Inoltre, anche se fosse nota la distribuzione congiunta, la manipolazione matematica delle grandezze coinvolte
potrebbe risultare assai complicata.
È preferibile, allora, sviluppare una metodo di previsione che sia più agevole, anche se
meno preciso. La semplificazione avviene mantenendo il criterio della minimizzazione
dell’errore quadratico medio, ma restringendo l’insieme di funzioni delle osservazioni
passate al cui interno cercare il previsore ottimale (che pertanto sarà ottimale non in
assoluto, ma solo rispetto all’insieme considerato). In particolare, ci restringiamo a
funzioni lineari del passato del processo.
Il generico previsore lineare di Xt+k , costruito sul passato del processo Xt , Xt−1 . . .,
ha la seguente forma:
(2.3)
X̂t+k|t =
∞
X
λi Xt−i
i=0
per un’opportuna successione {λi } di numeri reali. Si tratta quindi di individuare i
coefficienti {λi } per i quali sia soddisfatta la seguente condizione di ottimo:
2
(2.4)
E Xt+k − X̂t+k|t = min .
Tali coefficienti si ottengono semplicemente regredendo Xt+k sul proprio passato, esattamente coma avviene per l’usuale regressione multipla, benché in questo caso si sia
in presenza di un’infinità numerabile di regressori.
Naturalmente, la regressione sul passato del processo può essere fatta anche scegliendo,
come variabili di regressione, le innovazioni εt , εt−1 , εt−2 , . . . che, come già discusso in
precedenza, costituiscono un sistema di regressori equivalente a quello costituito dalle
variabili Xt , Xt−1 , Xt−2 , . . . In tal caso, il generico previsore lineare ha la seguente
4
forma:
(2.5)
X̂t+k|t =
∞
X
νi εt−i
i=0
e l’obiettivo è quello di individuare i coefficienti {νi } per i quali esso soddisfi la (2.4).
Vedremo che la costruzione del previsore in questa forma è particolarmente semplice
e naturale quando il processo sia espresso in forma media mobile. Anzi, cominceremo
la trattazione precisamente da questo caso e da qui, con facilità, otterremo i previsori
nel caso di processi puramente non deterministici in forma AR o in forma ARM A.
Prima di passare alla costruzione esplicita dei previsori, vogliamo però sottolineare un
fatto importante. La scelta di limitarsi a previsori costruiti come funzioni lineari del
passato deriva dalla difficoltà operativa di calcolare i previsori ottimali assoluti, cioè
le medie condizionate. Ciò non significa che costruire i previsori lineari sia sempre e
comunque una scelta adeguata, come mostra il seguente esempio.
Esempio. Siano X e Z due variabili casuali gaussiane, standardizzate, fra loro indipendenti. Sia k ≥ 1 un numero naturale e definiamo una nuova variabile Y :
Y = X 2k + Z.
Costruiamo il previsore ottimale assoluto ed il previsore ottimale fra i lineari e confrontiamone gli errori quadratici medi.
Il previsore ottimale di Y condizionatamente a X è semplicemente:
E(Y |X) = E(X 2k + Z|X) = E(X 2k |X) + E(Z|X) = X 2k
giacché Z è una variabile a media nulla indipendente da X. L’errore di previsione
coincide, evidentemente, con la variabile Y − X 2k = Z e la sua varianza è quindi pari
a 1.
Costruiamo, adesso, il previsore lineare. A questo scopo, dobbiamo regredire Y su X.
Poiché X ha varianza unitaria e tutte le variabili hanno media nulla, la regressione Ŷ
di Y su X si riduce alla seguente espressione:
Ŷ = Cov(Y, X)X + E(Y ) = Cov(Y, X)X + E(X 2k ).
5
La covarianza è immediatamente calcolata, notando che X ha tutti i momenti di ordine
dispari nulli, essendo una variabile simmetrica a media nulla1:
Cov(Y, X) = Cov(X 2k , X) + Cov(Z, X)
= Cov(X 2k , X)
= E(X 2k+1 )
= 0.
Quindi il previsore lineare ottimale è semplicemente:
Ŷ = E(X 2k )
e l’errore di previsione è dato da
Y − Ŷ = X 2k + Z − E(X 2k ).
La sua varianza, grazie all’indipendenza tra le variabili, è semplicemente:
V ar(Y − Ŷ ) = V ar(X 2k ) + 1 =
(2k)!
+1
2k k!
e diverge all’infinito al crescere di k.
L’esempio mostra come il previsore lineare, paragonato a quello ottimale, possa dare
risultati insoddisfacenti, se utilizzato in circostanze non adeguate. Si noti, in particolare, che al crescere di k la variabile Y si discosta progressivamente dalla normalità.
2.3. Previsione lineare per i processi MA. Consideriamo un processo stazionario
{Xt } posto nella forma di una media mobile infinita:
Xt =
(2.6)
∞
X
θi εt−i
i=0
con
P∞
2
i=1 θi
< ∞.
La forma del previsore lineare ottimale basato sul passato fino al tempo t è fornita dalla
seguente proposizione (si noti che, in questo caso, è conveniente esprimere il previsore
come combinazione lineare delle innovazioni):
1Poiché X è distribuita come −X, X 2k+1 è distribuita come (−X)2k+1 = −X 2k+1 e dunque,
dovendo essere E(X 2k+1 ) = E(−X 2k+1 ) = −E(X 2k+1 ) è necessariamente E(X 2k+1 ) = 0.
6
Proposizione 2.2. Il miglior previsore lineare X̂t+k|t per il processo (2.6), basato sul
passato sino al tempo t, è dato dalla seguente espressione:
(2.7)
X̂t+k|t = θk εt + θk+1 εt−1 + . . . =
∞
X
θi+k εt−i .
i=0
Dimostrazione. Scelto un generico previsore lineare
previsione nel seguente modo:
ηt+k =
=
∞
X
θi εt+k−i −
i=0
j=0
k−1
X
∞
X
θi εt+k−i +
i=0
=
∞
X
k−1
X
θi εt+k−i +
i=0
i=k
∞
X
P∞
i=0 νi εt−1 ,
scriviamo l’errore di
νi εt−i =
θi εt+k−i −
∞
X
νi εt−i =
i=0
(θi+k − νi )εt−i .
i=0
In virtù dell’incorrelazione fra le innovazioni, l’errore quadratico medio del previsore
lineare è immediatamente calcolato:
(2.8)
2
) = σε2
E(ηt+k
k−1
X
θi2 + σε2
i=0
∞
X
(θi+k − νi )2 .
i=0
Essendo somma di due addendi non negativi, l’espressione precedente è minima se e
solo se i coefficienti νi rendono nulli entrambi gli addendi, cioè se:
(2.9)
νi = θi+k
i = 0, 1, 2 . . .
Il previsore lineare è corretto, cioè il valore atteso del suo errore è nullo:
!
k−1
X
E(ηt+k ) = E
θi εt+k−i = 0.
i=0
La varianza dell’errore di previsione è immediatamente ricavata come:
(2.10)
V ar(ηt+k ) =
σε2
k−1
X
θi2 .
i=0
Naturalmente, la previsione peggiora man mano che l’orizzonte previsivo viene spostato
in avanti. Se k tende all’infinito, il previsore tende, in media quadratica, alla media
7
del processo. Infatti:
lim E X̂t+k|t
k→∞
2
= lim
k→∞
σε2
∞
X
2
θi+k
= lim
i=0
k→∞
σε2
∞
X
θj2 = 0,
j=k
P∞
2
j=k θj
giacché
è il resto di una serie convergente. Contemporaneamente, l’errore
quadratico medio di previsione cresce e tende alla varianza del processo:
lim V ar(ηt+k ) = lim
k→∞
k→∞
σε2
k−1
X
θi2
i=0
=
σε2
∞
X
θi2 = V ar(Xt ).
i=0
È possibile dare una forma mnemonica molto comoda al previsore lineare ottimale
appena ricavato. Sia Θ(B) il polinomio che definisce la rappresentazione M A(∞) del
processo:
Xt = Θ(B)εt .
Poniamo simbolicamente:
∞
Θ(B) X
=
θi B i−k
Bk
i=0
e introduciamo il seguente operatore di annichilazione [ · ]+ :
∞
X
Θ(B)
θi B i−k .
=
Bk +
i=k
L’operatore di annichilazione agisce ponendo uguali a zero i coefficienti dei termini con
esponenti negativi. A questo punto, è chiaro che il previsore può essere scritto come
segue:
Θ(B)
X̂t+k|t =
εt .
Bk +
La teoria appena sviluppata permette di costruire facilmente anche i previsori per processi media mobile di ordine finito. Un processo media mobile di ordine q, infatti,
non è altro che un caso particolare di processo M A(∞), nel quale tutti i coefficienti
θq+1 , θq+2 , . . . sono nulli. Pertanto, per la costruzione del previsore possiamo utilizzare
le formule appena discusse, che in questo caso assumeranno una forma ancora più
semplice. Se k ≤ q:
X̂t+k|t = θk εt + θk+1 εt−1 + . . . + θq εt+k−q =
q
X
i=k
θi εt+k−i ;
8
Xt+k − X̂t+k|t =
k−1
X
θi εt+k−i ;
i=0
V ar Xt+k − X̂t+k|t =
σε2
k−1
X
θi2 .
i=0
Viceversa, se k > q, il previsore coincide con la media del processo e la varianza
dell’errore di previsione coincide con la varianza del processo. Quindi, per un processo
M A(q), la previsione su un orizzonte temporale più lungo di q istanti si banalizza.
La previsione per i processi M A è dunque molto semplice, essenzialmente grazie al fatto che la formulazione mediante medie mobili rappresenta il processo su un sistema di
regressori incorrelati e di varianza identica. In generale, però, noi non osserviamo direttamente gli shock casuali εt , ma i valori assunti dalle variabili Xt , Xt−1 , Xt−2 . . . e quindi è necessario individuare il modo di costruire il previsore lineare ottimale non come
funzione degli εt , ma come funzione esplicita del passato del processo effettivamente
osservato.
Se, come abbiamo supposto sin dall’inizio, il processo stazionario è anche invertibile, allora possiamo passare dalla rappresentazione media mobile alla corrispondente
rappresentazione autoregressiva, in generale di ordine infinito:
∞
X
Xt =
ϕi Xt−i + εt
i=0
dove
εt = Φ(B)Xt = Θ(B)−1 Xt .
Ora possiamo riesprimere il previsore X̂t+k|t in funzione delle osservazioni passate:
Θ(B)
Θ(B)
Θ(B)
εt =
Φ(B)Xt =
Θ(B)−1 Xt .
(2.11)
X̂t+k|t =
Bk +
Bk +
Bk +
Questa formula è nota come formula di Wiener-Kolmogorov.
Applicando il previsore di Wiener-Kolmogorov al modello M A(q), otteniamo per k ≤ q:
X̂t+k|t = µ +
1 + θ1 B + . . . + θq B q
Bk
+
(1 + θ1 B + . . . + θq B q )−1 Xt .
9
Esempio: processo M A(1). Nel caso di un processo media mobile di ordine 1, la
previsione per k > 1 coincide con la media del processo, mentre per k = 1 si ottiene,
con un’applicazione diretta della formula di Wiener-Kolmogorov:
X̂t+1|t
1 + θ1 B
=
B
(1 + θ1 B)−1 Xt = θ1 (1 + θ1 B)−1 Xt .
+
Esempio: processo M A(2). Consideriamo un generico processo M A(2) invertibile
e di media nulla:
Xt = εt + θ1 εt−1 + θ2 εt−2
e calcoliamo i previsori X̂t+1|t , X̂t+2|t e X̂t+3|t , applicando la formula di WienerKolmogorov. Otteniamo facilmente:
X̂t+1|t =
1 + θ1 B + θ2 B 2
B
(1 + θ1 B + θ2 B 2 )−1 Xt
+
= (θ1 + θ2 B)(1 + θ1 B + θ2 B 2 )−1 Xt ;
X̂t+2|t =
1 + θ1 B + θ2 B 2
B2
= θ2 (1 + θ1 B + θ2 B )
X̂t+3|t =
1 + θ1 B + θ2 B 2
B3
(1 + θ1 B + θ2 B 2 )−1 Xt
+
2 −1
Xt ;
(1 + θ1 B + θ2 B 2 )−1 Xt
+
2 −1
= 0 · (1 + θ1 B + θ2 B )
= 0.
Xt =
I previsori a lag superiori a 3, ovviamente, coincidono con la media del processo.
10
2.4. Previsione lineare per i processi AR. Consideriamo ora un processo stazionario
causale autoregressivo di ordine infinito:
(2.12)
Φ(B)Xt = Xt −
∞
X
ϕi Xt−1 = εt .
i=1
Il previsore lineare ottimale per tale modello si ottiene facilmente dal previsore di
Wiener-Kolmogorov, costruito nel caso di rappresentazioni media mobile. Infatti,
in virtù dell’invertibilità dell’operatore Φ(B), la rappresentazione (2.12) può essere
riscritta in forma di media mobile
Xt = Φ(B)−1 εt
(2.13)
e il previsore lineare ottimale è subito ottenuto dalla (2.11):
Φ(B)−1
(2.14)
X̂t+k|t =
Φ(B)Xt .
Bk
+
Il caso della previsione per un processo AR(p) è, naturalmente, un caso particolare
della (2.14), come si vede subito ponendo uguali a zero i coefficienti ϕi per i > p. Si
noti che, a differenza del caso M A, il previsore di un processo autoregressivo di ordine
finito non si banalizza mai, giacché la corrispondente rappresentazione media mobile
è di ordine infinito.
Esempio: processo AR(1). In questo caso, è Φ(B) = 1 − ϕ1 B, con |ϕ1 | < 1.
Inserendo questa espressione nel previsore e utilizzando lo sviluppo per l’inverso di
(I − ϕ1 B), otteniamo:
1 + ϕ1 B + ϕ21 B 2 + . . .
Φ(B)Xt =
X̂t+k|t =
Bk
+
= (ϕk1 + ϕk+1
1 B + . . .)Φ(B)Xt =
= ϕk1 (1 + ϕ1 B + ϕ21 B 2 + . . .)Φ(B)Xt =
= ϕk1 Φ(B)−1 Φ(B)Xt =
= ϕk1 Xt .
All’allontanarsi dell’orizzonte previsivo, il previsore tende in media quadratica alla
media del processo:
lim V arX̂t+k|t = Var(Xt ) · lim ϕ2k
1 =0
k→∞
k→∞
11
e l’errore di previsione è dato da:
Xt+k − X̂t+k|t = εt+k + ϕ1 Xt+k−1 − ϕk1 Xt =
= εt+k + ϕ1 εt+k−1 + ϕ21 Xt+k−2 − ϕk1 Xt =
= ··· =
= εt+k + ϕ1 εt+k−1 + ϕ21 εt+k−2 + . . . + ϕ1k−1 εt+1 .
Pk−1 2i
ϕ1 e, al crescere dell’orizzonte
La varianza dell’errore di previsione è pari a σε2 i=0
previsivo, tende alla varianza del processo:
lim
k→∞
σε2
k−1
X
i=0
ϕ2i
1 =
σε2
= Var(Xt ).
1 − ϕ21
2.5. Previsione lineare per i processi ARM A. Consideriamo un generico processo
stazionario e invertibile, che soddisfi la seguente rappresentazione ARM A(p, q):
(2.15)
Φ(B)Xt = Θ(B)εt .
In virtù dell’invertibilità degli operatori Φ(B) e Θ(B), possiamo scrivere le seguenti
due forme alternative per Xt :
Θ(B)−1 Φ(B)Xt = εt
Φ(B)−1 Θ(B)εt = Xt
e quindi utilizzare le formule per il previsore di Wiener-Kolmogorov già presentate per
i processi autoregressivi:
Φ(B)−1 Θ(B)
X̂t+1|t =
Θ(B)−1 Φ(B)Xt .
Bk
+
Esempio: processo ARM A(1, 1). Consideriamo un processo stazionario, causale e
invertibile espresso nella rappresentazione ARM A(1, 1):
(1 − ϕB)Xt = (1 + θB)εt .
Il calcolo del previsore lineare ottimale è immediatamente ricondotto alle formule precedenti grazie all’ipotesi d’invertibilità, per la quale possiamo porre (1+θB)−1 (1−ϕB) =
ω(B), ottenendo:
ω(B)−1
(2.16)
X̂t+k|t =
ω(B)Xt .
Bk
+
12
Sviluppiamo il primo fattore, contenente l’operatore di annichilazione:
ω(B)−1
(1 + θB)(1 + ϕB + ϕ2 B 2 + . . .)
=
=
Bk
Bk
+
+
1 + ϕB + ϕ2 B 2 + . . .
(B + ϕB 2 + ϕ2 B 3 + . . .)
=
+θ
=
Bk
Bk
+
+
∞
∞
X
X
ϕi−1 B i−k =
ϕi B i−k + θ
=
i=k
i=k
= ϕ
k
∞
X
ϕ
i−k
B
i−k
+ θϕ
k−1
∞
X
ϕi−k B i−k =
i=k
i=k
= (ϕk + θϕk−1 )
∞
X
ϕi−k B i−k =
i=k
k
= (ϕ + θϕ
k−1
)(1 − ϕB)−1 .
Sostituendo questa relazione nella formula del previsore, otteniamo:
(2.17)
X̂t+k|t = (ϕk + θϕk−1 )(1 + θB)−1 Xt .
È evidente che al tendere di k all’infinito, il previsore tende, in media quadratica,
a zero, cioè, in generale, al valor medio del processo. Parallelamente, la varianza
dell’errore di previsione tende alla varianza del processo.
3. Previsione finita
La questione della previsione così come è stata impostata e risolta nei paragrafi precedenti soffre di un problema operativo: sono necessarie infinite osservazioni per poter
applicare i previsori lineari ottimali. Naturalmente, si tratta di una condizione che non
è possibile soddisfare nella realtà ed è quindi necessario ottenere formule alternative
per i previsori, basate su un passato finito.
3.1. Previsori approssimati*. Una prima possibilità è quella di utilizzare i previsori
ottimali appena descritti e troncarne l’espressione all’ultimo istante temporale osservato. Questa soluzione equivale ad immaginare di osservare tutto il passato, supponendo
che le osservazioni precedenti quelle realmente effettuate siano nulle.
13
Il problema, in questo caso, è che la bontà dell’approssimazione deve essere valutata di
caso in caso, giacché dipende dal numero di osservazioni fatte e dal valore dei parametri
dei modelli in esame.
Consideriamo, per esempio, il previsore lineare ottimale per il modello M A(1):
X̂t+1|t = θ1 (1 + θ1 B)−1 Xt = θ1 (1 − θ1 B + θ12 B 2 − . . .)Xt .
Se sono disponibili le osservazioni da t − h sino a t, l’espressione del previsore avrà la
seguente forma:
(h)
X̂t+1|t = θ1 (1 − θ1 B + θ12 B 2 − . . . + (−1)h θ1h B h )Xt .
Per valutare la bontà dell’approssimazione, dobbiamo confrontare gli errori di previsione del previsore esatto e di quello troncato. Nel primo caso, sappiamo dalla (2.10)
che la varianza è pari a σε2 . Per calcolare l’errore di previsione nel caso troncato,
osserviamo che vale la seguente relazione, che si dimostra per verifica diretta:
(1 − θ1 B + θ12 B 2 − . . . + (−1)h θ1h B h )Xt =
= (1 − θ1 B + . . . + (−1)h θ1h B h )(1 + θ1 B)εt =
= (1 + (−1)h θ1h+1 B h+1 )εt .
L’errore di previsione risulta, in tal modo:
(h)
Xt+1 − X̂t+1|t = εt+1 + θ1 εt − θ1 εt + θ1 (−1)h+1 θh+1 εt−h−1 =
= εt+1 + (−1)h+1 θ1h+2 εt−h−1
la cui varianza, pari a
2(h+2)
σε2 1 + θ1
,
è superiore a quella del previsore non troncato. Al crescere di h, il previsore troncato
tende, in media quadratica, al previsore infinito e la varianza dell’errore di previsione
tende a σε2 dato che, per la condizione di invertibilità, θ1 < 1. Per k finito, l’approssimazione troncata è tanto migliore quanto più θ1 è piccolo, in modo che il termine
θ1h+2 εt−h−1 converga rapidamente a zero, al crescere di h.
14
3.2. Previsori esatti. Conoscendo solo una parte finita del passato del processo,
cerchiamo di costruire il previsore lineare esatto, basato su un numero finito di osservazioni. Questo è un semplice problema di regressione multipla, dove l’insieme dei
regressori è costituito dal passato finito {Xt , . . . , Xt−s }. Fissato l’orizzonte previsivo
(k)
(k)
k, dobbiamo pertanto cercare i coefficienti ω1 , . . . , ωs per i quali sia soddisfatta la
seguente uguaglianza:
s
X
(k)
(k)
Xt+k =
ωi Xt−i + ηt+k
i=0
(k)
con ηt+k ⊥
(k)
i=0 ωi Xt−i .
Ps
I coefficienti si ricavano impostando il seguente sistema di equazioni, detto sistema di
Yule-Walker, ottenuto uguagliando le covarianze tra le variabili Xt−j , 0 ≤ j ≤ s e i
due membri della precedente relazione:
!
s
X
(k)
Cov(Xt+k , Xt−j ) = Cov
ωi Xt−i , Xt−j =
i=0
=
s
X
(k)
ωi Cov(Xt−i , Xt−j ) =
i=0
=
s
X
(k)
0 ≤ j ≤ s.
ωi γi−j
i=0
Il membro di sinistra non è altro che γk+j , pertanto possiamo scrivere:
γk+j =
s
X
(k)
ωi γi−j
0≤j≤s
i=0
che in forma matriciale diventa, ricordando che la matrice di varianze-covarianze è
simmetrica:
γ (k) = Γω (k)
(3.1)
dove:

γ (k)

γk
γk+1 


=  ..  ;
 . 
γk+s

γ0
γ1

Γ =  ..
.
γ1
γ0
..
.

. . . γs
. . . γs−1 

..  ;
...
. 
γs γs−1 . . .
γ0

ω (k)

(k)
ω0
 (k) 
ω 1 

=
 ..  .
 . 
(k)
ωs
15
Dalla (3.1) ricaviamo il vettore ω per inversione della matrice Γ (che per processi
stazionari non deterministici è sempre invertibile):
ω (k) = Γ−1 γ (k) .
(3.2)
La forma esplicita del previsore è quindi:
X̂t+k|t =
(3.3)
∞
X
(k)
ωi εt−i =
i=0
∞
X
(k)
gij γj εt−i ,
i,j=0
con gij generico elemento della matrice
Γ−1 .
Osservazione. Notiamo che al variare dell’orizzonte previsivo varia il vettore γ (k) , ma non
la matrice Γ che rimane fissa. Quindi, se dobbiamo calcolare il previsore per diversi orizzonti
temporali, date le variabili osservate nel passato, è sufficiente calcolare una volta per tutte Γ
e poi applicarla a differenti vettori γ (k) .
Osservazione. Sia il previsore troncato che il previsore esatto basati sulla medesima parte
finita di storia del processo sono una combinazione lineare delle variabili osservate (più una
costante). La differenza tra i due è che i coefficienti del previsore troncato non sono ottimali, nel
senso che non definiscono la regressione della variabile da prevedere sulla porzione di passato
osservata e quindi non minimizzano la varianza dell’errore di previsione. Se indichiamo con:
s
X
(k)
θi Xt−i
i=0
il previsore troncato, allora l’informazione (lineare) presente nel passato osservato che il
previsore troncato non è in grado di catturare è sintetizzata dalla seguente variabile δ:
δt+k|t =
s
X
(k)
θi Xt−i −
i=0
s
X
(k)
ωi Xt−i =
i=0
s
X
(k)
(θi
(k)
− ωi )Xt−i .
i=0
La sua varianza è data da:
V ar(δt+k|t ) =
s
X
(k)
(gi
(k)
(k)
− ωi )γij (gj
(k)
− ωj ).
i,j=0
Osservazione. In tutta la discussione che abbiamo svolto, abbiamo supposto che il passato
osservato fosse composto da s osservazioni consecutive. È chiaro che tutto quanto detto
rimarrebbe inalterato se le osservazioni riguardassero un numero finito di istanti temporali
“sparsi” nel passato del processo. Se avessimo osservato le variabili Xt1 , . . . , Xts , per costruire
il previsore esatto basterebbe regredire sulle s variabili conosciute e tutto rimarrebbe identico
alla discussione precedente.
16
Esempio: previsione di un processo AR(1). Consideriamo il seguente processo
stazionario di media nulla, in forma autoregressiva:
Xt = φXt−1 + εt
(3.4)
con
|φ| < 1.
Supponiamo di aver osservato solo la variabile X0 e diamo le previsioni per tutti i
tempi successivi.
La funzione di covarianza per questo processo ha la seguente forma:
γk = φ|k| γ0
e a sua volta γ0 è rapidamente ricavato dalla definizione del processo:
γ0 = φ2 γ0 + σε2
da cui si ottiene:
σε2
.
1 − φ2
Avendo a disposizione una sola osservazione, il parametro s è pari a 0, pertanto la
matrice Γ si riduce allo scalare
Γ = γ0
Analogamente, il vettore γ (k) è semplicemente
γ0 =
γ (k) = γk .
Il sistema di Yule-Walker si banalizza e si ottiene (si noti che, volendo prevedere il
futuro k è positivo e quindi uguale a |k|)
γk
= ρk = φk
ω0 =
γ0
e la previsione di Xk è semplicemente:
X̂k|0 = φk X0 .
La varianza dell’errore di previsione è fornita dalla seguente espressione:
V ar(Xk − X̂k|0 ) = V ar(φXk−1 + εk − φk X0 )
= φ2 γ0 + σε2 + φ2k γ0 − 2φk+1 γk−1
= φ2 γ0 + σε2 + φ2k γ0 − 2φk+1 φk−1 γ0
φ2
φ2k 2
2φ2k 2
2
2
σ
+
σ
+
σ
−
σ
ε
1 − φ2 ε
1 − φ2 ε 1 − φ2 ε
2k
2 1−φ
= σε
.
1 − φ2
=
17
Dalle espressioni appena fornite si vede che:
• se k = 1, la varianza dell’errore di previsione coincide con la varianze di σε2 ,
come ovvio attendersi, data la forma AR(1) del processo;
• se k → ∞, il previsore tende a zero in media quadratica (cioè alla media
del processo) e la varianza del previsore tende al valore σε2 /(1 − φ2 ), cioè alla
varianza del processo.
Esempio. La costruzione del previsore dipende esclusivamente dalla funzione di covarianza, non dallo specifico processo che la realizza. Pertanto, per costruire il previsore
esatto basta che sia assegnata γk .
Supponiamo che sia:
γk = 2E −|k|
(3.5)
e calcoliamo la matrice Γ nel caso in cui siano disponibili le osservazioni ai tempi t = t1
e t = t2 . Evidentemente, è γ0 = 2 e γ|t1 −t2 | = 2E −|t1 −t2 | , pertanto:
(3.6)
Γ=
2
2E −|t1 −t2 |
2E −|t1 −t2 |
2
=2
1
e−|t1 −t2 |
e−|t1 −t2 |
1
da cui si ricava immediatamente Γ−1 :
(3.7)
Γ−1 =
1
2(1 − e−2|t1 −t2 | )
1
−e−|t1 −t2 |
−e−|t1 −t2 |
.
1
Per prevedere il processo al generico tempo t3 , è sufficiente applicare Γ−1 al vettore:
(3.8)
γ=
γ|t3 −t1 |
γ|t3 −t2 |
e−|t3 −t1 |
= 2 −|t3 −t2 | ,
e
ricavando
(3.9)
ω=
e−|t3 −t1 | − e−|t1 −t2 |−|t3 −t2 |
.
−e−|t1 −t2 |−|t3 −t1 | + e−|t1 −t2 |
18
Vale la pena notare che se, per esempio, poniamo t3 = t1 , il vettore ω si riduce a:
ω=
e−|t1 −t1 | − e−|t1 −t2 |−|t1 −t2 |
−e−|t1 −t2 |−|t1 −t1 | + e−|t1 −t2 |
=
1 − e−2|t1 −t2 |
−e−|t1 −t2 | + e−|t1 −t2 |
1
=
0
cioè il previsore per il tempo t1 coincide con la variabile Xt1 che è stata osservata e,
come lecito attendersi, in questo caso la varianza dell’errore di previsione si annulla.
Scarica

1. Previsione per modelli ARMA Questo capitolo è dedicato alla