Analisi di:
“I JUST RAN FOUR MILLION REGRESSIONS”
Xavier X. Sala-i-Martin
A cura di Carmelina Pranteda
1
Obiettivo: dimostrare che abbandonando extreme bounds test
non si ottiene il pessimistico risultato “niente è robusto” bensì si
trova un numero sostanziale di variabili fortemente correlate con la
crescita.
Strumenti:
Osservare la distribuzione intera anziché i due
limiti estremi della distribuzione dello stimatore del coefficiente
di una particolare variabile nella regressione di crescita.
2
Seguendo il lavoro di Barro (1991) la recente letteratura sulla
crescita economica ha identificato un insieme di variabili
correlate con il tasso di crescita economica. La metodologia di
base consiste in regressioni cross sectional:
dove
γ è il vettore dei tassi di crescita economica
x1, x2,.. xn sono i vettori delle variabili esplicative le quali
variano nei diversi paper.
3
Problemi:
1.
2.
La teoria della crescita economica non dice chiaramente quali
variabili sono importanti per la crescita. Ad esempio pressoché tutte
le teorie di crescita dicono che il livello della tecnologia è un fattore
importante della crescita. Teorie neoclassiche dicono che il livello A
colpisce il tasso di crescita lungo una transizione verso steady state.
Anche se la teoria fosse stata chiara riguardo i fattori determinanti
della crescita la stima di questi ultimi non sarebbe stata immediata.
Ad esempio di fronte ad una teoria che vede il “governo efficiente”
come importante fattore della crescita, non sarebbe chiaro come
misurarlo.
4
Quali variabili sono realmente correlate con la
crescita?
Una risposta iniziale fu data da Levine e Renelt (1992) mediante
l’applicazione del test extreme bounds di Leamer (1983, 1985)
al fine d’identificare relazioni robuste nella letteratura della
crescita.
5
Leamer’s extreme bounds test
Si ha un pool di N variabili identificate precedentemente come correlate
alla crescita. Si stima la regressione:
Dove
Y è vettore delle variabili fisse (nel paper di Levine e Renelt queste
variabili sono il livello iniziale del reddito, tasso di investimento,
tariffa d’iscrizione alla scuola secondaria e tasso di crescita della
popolazione)
Z è variabile d’interesse
Xj è vettore di trii di variabili presi dal pool di N variabili disponibili.
Si stima questa regressione per M possibili combinazioni di Xj, trovando
per ogni modello j la stima ßzj e la deviazione standard σzj.
Il limite estremo inferiore è definito come il più basso valore di βzj-2 σzj e
quello estremo superiore è definito essere il più alto valore di βzj+2 σzj .
6
Questo test, per la variabile z , sostiene che al verificarsi di:
1.
il limite estremo inferiore è negativo;
2.
il limite estremo superiore è positivo;
è possibile identificare tale variabile come non robusta.
Conclusione di Levine e Renelt:
Poche (o nessuna) variabili sono robuste in realtà. Una
possibile ragione di tale affermazione risiede nel fatto che
poche variabili possono essere considerate come correlate
sistematicamente alla crescita.
7
Xavier X. Sala-i-Martin
preferisce non utilizzare il test e guardare all’intera distribuzione
dello stimatore βz. Poiché non si conosce la forma esatta della
distribuzione, egli opera sotto due assunzioni diverse.
CASO 1: La distribuzione delle stime è una normale.
Si calcola la stima della media di βz come media ponderata delle
stime puntuali βzj :
Dove i pesi sono proporzionali alle probabilità
8
Il motivo per il quale si usa questo schema di pesi è che si vuole
dare più importanza alle regressioni che costituiscono con
maggior probabilità il vero modello.
Si calcola la varianza media come media ponderata delle
variazioni stimate
Dove i pesi sono dati dall’equazione (5)
Una volta note la media e la varianza della distribuzione di una
normale si calcola CDF (funzione di distribuzione cumulativa)
usando le tavole statistiche.
9
CASO II: La distribuzione delle stime non è una normale
In questo caso l’autore calcola CDF aggregata di βz come la
media ponderata di tutte
dove i pesi sono le probabilità, cioè
10
Potenziale problema con questo metodo:
È possibile che la bontà di adattamento del modello j non
costituisca un buon indicatore della probabilità che il modello
sia vero. Questo può succedere quando alcune variabili
esplicative sono endogene. In presenza di questo problema la
media non ponderata di tutti i modelli è superiore alla media
ponderata vista precedentemente. Perciò si utilizza come
termine di paragone la media semplice di CDF dei modelli M :
11
Specificazione
Xavier X. Sala-i-Martin utilizza un modello in cui sono presenti
variabili fisse y, variabile d’interesse z ed il trio xj preso dal
pool X di variabili rimanenti proposte in letteratura. Egli trova
nella letteratura 63 variabili più il tasso di crescita del PIL.
Nell’articolo fa notare che se avesse esaminato una variabile
permettendo alle rimanenti di essere combinate in gruppi da sei
(o gruppi da sette) allora avrebbe impiegato circa quattro anni (o
ventinove anni) per valutare tutti i modelli. Perciò decise di
seguire Levine e Renelt permettendo a tutti i modelli
d’includere tre variabili fisse.
12
Dati



L’autore prende in considerazione sessantatre variabili più il
tasso di crescita del PIL pro-capite tra il 1960 e 1992. Inoltre
sceglie tre variabili fisse le quali devono possedere delle
proprietà:
Essere ampiamente utilizzate in letteratura;
Essere valutate all’inizio del periodo 1960;
Essere significative in tutte le regressioni effettuate in
letteratura.
Variabili fisse :



Livello del reddito nel 1960;
Vita attesa nel 1960;
Tariffa d’iscrizione alla scuola elementare nel 1960
13
Tasso d’investimento medio?

L’interpretazione della correlazione tra la crescita ed una variabile x
differisce in funzione del fatto se il tasso d’investimento è incluso o
meno nella regressione. Nel primo caso se la variabile x è correlata con
la crescita allora si pensa che la variabile colpisce il livello di
efficienza nel senso che ha effetti sulla crescita oltre i suoi effetti sugli
incentivi ad investire. Nel secondo caso se vi è correlazione allora non
si sa se la variabile colpisce direttamente la crescita o attraverso gli
incentivi per investire.
L’autore effettua prima la regressione senza includere il tasso
d’investimento medio e dopo la ripete includendo il tasso come
variabile fissa. Nella prima parte, trascurando il tasso d’investimento si
avranno 62 variabili di cui tre fisse. Per ciascuna variabile, si
combinano le rimanenti 58 in set da 3 effettuando quindi per ogni
variabile M=58!/(3!55!)=30,856
14
15
Risultati
Le colonne (1) e (2) riportano i due limiti estremi in corrispondenza di ogni
variabile d’interesse. Osservando le colonne si nota subito che per tutte le
variabile (eccetto per una) il limite estremo inferiore è negativo e quello
superiore è positivo quindi secondo il test, possono essere identificate come
“non robuste”. L’eccezione è la frazione della popolazione che segue la
religione di Confucio.
La colonna (3) riporta la frazione delle 30.856 regressioni nella quale la variabile
esaminata era significativamente diversa da zero ( definita come t-statistic con
valore assoluto più grande di due). Nonostante la presenza di alcune variabili
significative, il test diede a tutte le variabili la stessa etichetta , ossia “non
robuste”.
La colonna (4) riporta la stima della media ponderata di βz per ogni variabile z.
Questa può essere utilizzata per controllare il segno della correlazione tra la
variabile e la crescita.
La colonna (6) riporta il livello di significatività sotto l’assunzione di normalità
mentre la colonna (7) non assume normalità. La correlazione tra le due colonne
è 0,98 la quale può essere interpretata come un’indicazione che la funzione di
densità delle stime di βz è abbastanza vicina ad una normale.
16
Variabili che sono fortemente correlate con la
crescita:
1.
2.
3.
4.
Variabili regionali: Latin American Dummy, Sub-Sahara African
Dummy (correlati negativamente alla crescita) latitudine assoluta (la
lontananza dall’equatore è buona per la crescita).
Variabili politiche: Legge,libertà civili e diritti politici (buoni per la
crescita) numero di rivoluzioni e colpi di Stato, guerra (cattive per la
crescita).
Variabili religiose: Buddista ,musulmano,(positiva) protestante e
cattolico( negativo). Alcune variabili religiose tendono ad essere
dummy regionali in quanto assumono valore zero per la maggiore
parte dei paesi
Distorsioni e performance del mercato: distorsioni del tasso di
cambio e la deviazione standard del Black Market Premium
(entrambi negativi)
17
5.
6.
7.
8.
Tipo d’investimento: La distinzione tra investimenti in attrezzature
e non è stata enfatizzata recentemente. Entrambi sono positivi (il
coefficiente dell’investimento in non attrezzature è pari ad ¼ di
quello dell’investimento in attrezzature).
Settore della produzione primaria: è la frazione dei prodotti
primari sul totale delle esportazioni ( correlazione negativa con la
crescita)
Apertura: Numero di anni in cui un’economia è stata aperta tra il
1950 e 1990 (positiva)
Tipo di organizzazione economica: La variabile grado di
capitalizzazione dà ai paesi uno dei sei valori a seconda di quanto sia
importante l’impresa privata nell’organizzazione economica.(Per
esempio all’Italia dà valore 3). La colonna (4) suggerisce che più
un’economia è vicina alla forma di capitalismo più cresce.
18
Variabili che non sono fortemente correlate con la
crescita
Nessuna misura della spesa del governo sembra colpire la
crescita in modo significativo. La percentuale d’inflazione e la
sua variazione non appaiono molto significative (secondo alcuni
autori queste variabili colpiscono la crescita in modo non
lineare). Altre variabili sono misure dell’ apertura e misure degli
effetti di scala.
19
Analisi di variabili fisse



Log GDP:
Secondo il test di Leamer questa variabile è non robusta. Le
colonne (6) (7) e (8) suggeriscono invece che è fortemente
correlata con la crescita (nei tre casi il livello di significatività è
più di 0,9999).
Iscrizione nel 1960
Anche questa variabile è non robusta secondo il test mentre
guardando le colonne (6) e (7) si comprende che è
positivamente correlata con la crescita.
Vita attesa
Risultata anch’essa non significativa secondo il test, in realtà è
significativa nel 96% delle regressioni.
20
21
Introduzione del tasso d’investimento medio come
variabile fissa

1.
2.

1.
2.

1.
Le differenze, rispetto al caso precedente, imputabili all’introduzione
del tasso d’investimento medio sono:
Alcune variabili che erano significative quando l’investimento era
escluso ora diventano maggiormente significative:
Dummy guerra ;
Rivoluzioni e colpi di stato.
Altre variabili diventano significative al contrario di prima:
età;
Investimenti in azione pubblica. Questa variabile è correlata
negativamente con la crescita. L’investimento pubblico è meno
efficiente dell’investimento privato cosi tenendo costante il globale
una frazione più grande d’investimento pubblico è cattiva.
Altre non sono più significative dopo l’inclusione del tasso:
Investimento in non attrezzature.
22
Confronto tra i due articoli di Xavier X. Sala-iMartin
L’ articolo “I JUST RAN FOUR MILLION REGRESSIONS”
è più informativo rispetto all’altro articolo, ossia “I JUST RAN
TWO MILLION REGRESSIONS” in quanto prende in
considerazione l’introduzione del tasso d’investimento medio
come variabile fissa nella regressione ed inoltre fornisce i
risultati ottenuti per intero.
23
L’ANALISI DI:
We Ran One Regression
David F. Hendry and Hans-Martin Krolzig
24
Obiettivo:
dimostrare che la valutazione di milioni di regressioni comporta
uno spreco di risorse e di tempo sia per i lettori che per i
ricercatori. In realtà è necessaria soltanto una regressione, cioè
un modello senza restrizioni e generale.
Il numero di regressioni della crescita è cresciuto più
velocemente delle economie che loro analizzano. Letteralmente
milioni di regressioni sono state valutate, ad esempio da Barro e
Sala-i-Martin (1995), Levine e Renelt (1992), Sala-i-Martin
(1997a, 1997b), Tempio (2000), Al di et di Fern´andez. (2001)
e Hoover e Perez (2004).
25
I principi della selezione di un modello.
Si considera un insieme di dati contenente n+1 variabili il quale
definisce l’universo delle osservazioni disponibili. Un
ricercatore interessato a modellare una variabile yt decide
d’includere tutte le rimanenti n variabili zt come regressori.
Con
Le stime di β e σ2 sono:
26
I quali sono stimatori non distorti dei loro rispettivi parametri ed
hanno distribuzioni indipendenti:
E
L’inferenza nella (1) sulla base della (3) e (4) è valida ma può
essere inefficiente se molti dei coefficienti β sono zero nella
popolazione. Si prende in considerazione uno stimatore di σ2
non corretto per gradi di libertà:
27
Gli autori considerano tre approcci di selezione del modello:
1.
criterio d’ informazione come quello proposto da Akaike (1973)
(denotato AIC), Hannan-Quinn (denotato HQ) e Schwarz (denotato
BIC);
2.
setacciando attraverso tutti i possibili modelli;
3.
applicando la procedura PcGets.
Selezione del modello basato sul criterio d’informazione
Prima si considera la selezione di un modello basata su un criterio
d’ informazionie, ( il quale penalizza modelli con parametri
aggiuntivi) come il più piccolo valore di AIC BIC, o HQ. Poi
viene fatta una selezione asintoticamente efficiente (AIC) o
consistente (BIC, HQ). Ognuno di questi tre criteri penalizza
la log-verosimiglianza entro 2nf (T) / T per n parametri ed
una dimensione del campione di T, dove:
28
La funzione di penalità riflette il costo di utilizzare un numero
elevato di parametri.
Si considera BIC: ci sono 2n = M possibili modelli. Se n = 41 ( come in
Hoover e Perez 1999) allora M = 241 ≈ 2.2 × 1012 il quale è rudemente
due bilioni di possibili modelli. Hoover e Perez (2004) prendono n =
62 per T = 138, così M = 4.6 × 1018 (un miliardo di possibili modelli).
Gli autori si pongono la seguente domanda:”E’ l’inferenza
statistica in grado di contestare la valutazione degli M
modelli?”
La funzione di penalità, operando secondo l’equazione (7) indirizza
questo problema e lascia cadere da 1.15 a 0.03 per AIC; 2.4 a
0.06 per BIC; e 1.7 a 0.04 per HQ. Comunque, la dimensione
del campione sembra troppo piccola per giustificare la selezione
di un modello basata su tale criterio. Tuttavia, è possibile
affermare che la valutazione di enormi numeri di regressioni
non preclude una selezione consistente.
29
Setacciatura attraverso tutti i possibili modelli
Si considera un ricercatore che cerca attraverso tutti M modelli
quello che conferma punti di vista teorici o pregiudizi politici.
Ci sono circa n/2 coefficienti in media in questi modelli,
effettuando approssimativamente N = n2n/2 test in totale.
Poichè non c'è un legame perfetto fra la regione di confidenza e
test allora per un dato livello di significatività α, usando una ttest basata sulla strategia di tenere/eliminare la variabile, αn
regressori saranno trattenuti per caso nel modello finale. Ad
esempio se α=0.025 allora per n=41 si è nel caso di un
regressore mentre se α=0.05 per n=62 si tratta di tre regressori.
30
Gets-based selection
Questo approccio consiste nel modellare automaticamente un dato
econometrico quando l'equazione che si sta analizzando non è
conosciuta a priori.
The Properties of Automatic Gets Modelling
David F. Hendry and Hans-Martin Krolzig October 2004
La teoria di selezione dei modelli pone elevate difficoltà: tutte le
statistiche, utilizzate per la selezione dei modelli e la valutazione delle
loro specificazioni, hanno distribuzioni, di solito, interdipendenti
alterate da ogni decisione di modellazione. Fortunatamente, i recenti
sviluppi nell'automazione del computer di algoritmi di selezione ha
permesso di superare questo vecchio problema, permettendo studi
operativi di alternative strategie: Hoover e Perez (1999) e Krolzig e
Hendry (2001). Loro descrivono le strategie di selezione ed
enfatizzano la distinzione tra i costi di inferenza i quali sono una
conseguenza inevitabile del livello di significatività non nullo ed i
costi di ricerca che sono aggiuntivi a quelli affrontati quando si inizia
da un processo di generazione dei dati (DGP).
31
L'algoritmo di selezione
PcGets ha quattro tappe di base:
 L’ esame della GUM:
Formulazione del modello basandosi sulla teoria, l'evidenza precedente, e
conoscenza istituzionale,
Verifica del modello se cattura o meno le caratteristiche essenziali dei dati
(la congruenza).

il secondo è il processo di pre-ricerca:
eliminazione delle variabili insignificanti per ridurre la complessità di
ricerca.
32

il terzo è la procedura di ricerca di multi-percorso:
controllo della validità di ogni riduzione, assicurando la congruenza del
finale modello in particolare se ogni riduzione è accettabile e tutte le
variabili rimanenti sono significative allora quel modello diviene una
selezione finale, e la prossima ricerca di percorso comincia. Quando
tutti i percorsi sono stati esplorati e tutti i modelli finali sono stati
trovati, vengono esaminati ripetutamente fino ad arrivare ad una scelta
unica ossia General unrestrected model

la quarta è la valutazione di post-ricerca:
Controllo dell'affidabilità della selezione.
Molti cambiamenti di questo algoritmo di base sono stati effettuati da
Hendry e Krolzig (2001), ad esempio alterarono leggermente il
funzionamento del programma.
33
Se ci sono n regressori in (1), per un valore critico cα, per t-test
allora αn regressori saranno trattenuti per caso in media. Se tutti
i regressori fossero mutuamente ortogonali, allora le t-statistiche
quadrate ed ordinate dalla GUM:
basterebbero per la decisione di selezione
dove
34
I modelli di crescita empirica:
Caso: Hoover-Perez
Una complicazione di questo contesto è l’imputazione multipla dei dati
mancanti discussa in Hoover-Perez (2004) la quale richiede una
strategia di selezione mista. Per ognuna delle cinque versioni del data
set gli autori applicano PcGets per selezionare un lineare GUM. Questo
consegna cinque distinte selezioni dalle quali loro formeranno
l’insieme di 24 variabili candidate. Successivamente considerano i
cinque insiemi di dati come uno, valutando il modello ed applicando
PcGets al fine di adottare la scelta finale. Loro effettuarono una
selezione identica ad Hoover -Perez
35
La costanza del parametro e la normalità sono state accettate, ma c'era una
considerevole eteroschedasticità a causa dell'accatastamento. Il
risultato in (10) è identico a quello della procedura in Hoover e Perez
(2004) nonostante si è utilizzato un livello di significatività del 2,5%
piuttosto che il 5% da loro utilizzato ( il quale potrebbe aver trattenuto
qualche altro effetto dell’approccio di accatastamento). Tuttavia, le
incertezze calcolate in (10) differiscono leggermente da quelle
riportate da Hoover-Perez, probabilmente a causa dell’utilizzo di
metodi diversi per occuparsi dei cinque insiemi di dati. In questo caso
gli autori ripetono la selezione che usa i dati aggregati, applicando
prima l’approccio PcGets e poi quello PcGive per correggere i valori
critici ed ottenere precisamente la stessa specificazione come (10). La
probabilità che nessun coefficiente sia per caso significativo date le 62
variabili candidate, per il criterio | t |> 2.267 è:
Così, non può essere precluso che tutte le variabili in (10) siano
“sinceramente ‘' significative. In generale si ha:
36
Se α=0.01 cosi c α=2,165 allora REVCOUP e PROT vengono eliminate
ma la prima riga in (10) rimane quindi è piuttosto probabile che sia
reale. Il processo di imputazione certamente incita comunque, errori di
misurazione delle variabili. Questo influenzerebbe in maniera
discendente i coefficienti, e così probabilmente si avrebbe deviazione
discendente dei t-rapporti, conducendo a sotto-selezione.
Al contrario., endogeneità delle variabili agirebbe nella direzione opposta.
Caso: Fern´andez et al
I test diagnostici non hanno rifiutato né la costanza né la normalità. C'è
sovrapposizione considerevole con le scoperte in al di et di
Fern´andez. (2001), ma gli autori non confermano alcuna delle variabili
da loro richiesta. Forse la differenza più saliente è il grande numero di
variabili selezionato per il sottoinsieme di paesi dove tutte le
osservazioni sono disponibili per i 41 regressori. Questo potrebbe
riflettere una differente fonte di distorsione della selezione ( ad
esempio scelta delle osservazioni), grande endogeneità nel sub
campione o limitazioni dell’imputazione multipla.
37
Conclusioni:



L'efficienza ottenibile dalle procedure automatiche, per ricercatori che
desiderano intraprendere la selezione di un modello è potenzialmente
enorme. Questi autori effettuarono una regressione di base per ogni
insieme di dati. Questo si contrappone col milione di regressioni
valutato da Sala-i-Martin (1997a, 1997b).
Il punto principale è che quando il processo di generazione di dati è un
caso speciale del modello generale postulato all'inizio ed approccio
Gets è adottato, nonostante sia possibile effettuare un gran numero di
specificazioni del modello, trovare che molte variabili significative
siano dovute al caso,è improbabile. Si richiede la ripetizione di un
algoritmo di selezione.
I due punti principali del commento sono: il collaudo ripetuto è non
molto dannoso; ed i metodi automatici possono eliminare quello che
sarebbe altrimenti calcolo intollerabile.
38
Scarica

Pranteda - Dipartimento di Economia, Statistica e Finanza