Barbara Befani & Alessandra Decataldo
presentano
Counterfactuals and
Causal Inference
by Stephen Morgan & Christopher Winship
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Introduzione
Logica della valutazione o metodo di attribuzione
causale utile quando si devono gestire grandi
numeri?
Concentrazione del valore dell’intervento su
un’unica variabile risultato quantitativa
Logica di base dell’attribuzione causale
LOPC (Lista di cause possibili)
GEM (Metodo generale di eliminazione)
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Introduzione (2)
Per attribuire la causalità ci sono almeno otto metodi tutti altrettanto validi
che si applicano a seconda delle diverse situazioni:
(i) osservazione diretta (visiva, tattile)
(ii) osservazione riportata (studi di caso)
(iii) inferenza eliminativa (autopsia, guasto meccanico)
(iv) inferenza teorica, basata sull'uso di una teoria o di un'analogia, es.
fisica, geologia, astronomia
(v) manipolazione diretta (es. in cucina o in laboratorio)
(vi) esperimenti naturali (metereologia, epidemiologia)
(vii) quasi-esperimenti (medicina, pedagogia)
(viii) RCTs randomizzazione, assegnazione casuale (farmacologia)
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Introduzione (3)
•
•
•
Domande in merito ai rapporti di causa-effetto sono
frequentemente all’origine di molti lavori empirici
nelle scienze sociali.
Altrettanto frequentemente, però, non è possibile
fornire una risposta a tali domande a causa delle
difficoltà che gli scienziati sociali incontrano nel
raccogliere dati.
Negli ultimi tre decenni è stato sviluppato un modello
controfattuale della causalità che ha permesso di
diffondere una cornice unificata per gli studi sui
rapporti causa-effetto.
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Il modello controfattuale
per l’analisi dei dati
osservativi
•
•
Il modello controfattuale suppone che in una
popolazione ogni individuo possa essere esposto
a due stati alternativi di una causa (detti
trattamenti alternativi; se si considerano solo
due stati, essi vengono definiti “trattamento” e
“controllo”).
Ogni stato è caratterizzato da un distinto
gruppo di condizioni; essere esposto a tali
condizioni potenzialmente produce un risultato
di interesse.
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Il modello controfattuale
per l’analisi dei dati
osservativi (2)
•
•
Ogni individuo nella popolazione di interesse ha
un risultato potenziale sotto ogni stato di
trattamento, ma ogni individuo può essere
osservato solo in uno specifico stato in un
determinato momento.
I potenziali risultati di ogni individuo sono
definiti come i veri valori del risultato di
interesse che risulterebbe dall’esposizione agli
stati causali alternativi.
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Il modello controfattuale
per l’analisi dei dati
osservativi (3)
•
I potenziali risultati di un individuo i sono:
•
yi1 nel caso di stato di trattamento
•
yi0 nel caso di stato di controllo
•
•
•
Poiché in teoria sia yi1 sia yi0 esistono per ogni
individuo, l’effetto causale a livello individuale può
essere definito come la semplice differenza
yi1 - yi0
Ma gli effetti causali non possono essere calcolati a
livello individuale poiché non è possibile osservare yi1
e yi0 per ogni individuo della popolazione di interesse.
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Il modello controfattuale
per l’analisi dei dati
osservativi (4)
•
Necessariamente, un ricercatore deve analizzare una
variabile Y (risultato osservato), che ha valori yi per
ogni individuo i uguali a:
•
yi1 per tutti gli individui del gruppo di trattamento
•
yi0 per tutti gli individui del gruppo di controllo
•
Concordemente:
•
•
yi0 è un risultato controfattuale non osservato per
ogni individuo i del gruppo di trattamento
yi1 è un risultato controfattuale non osservato per
ogni individuo i del gruppo di controllo
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Il modello controfattuale
per l’analisi dei dati
osservativi (5)
•
•
•
Nella tradizione della modellizzazione controfattuale,
l’attenzione è focalizzata sullo stimare gli effetti
causali medi, analizzando i valori yi di gruppi di individui
definiti da specifiche caratteristiche.
Per fare ciò, il processo attraverso il quale individui di
differenti tipi sono esposti alla causa di interesse deve
essere modellizzato.
Questo implica l’introduzione di assunzioni per la stima
di valori controfattuali non osservabili medi per
specifici gruppi di individui.
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Tipi di esempio usati nel
libro
•
•
•
Gli autori riportano, successivamente, tre esempi (gli
effetti
causali
dell’esperienza
familiare
e
dell’intelligenza sul risultato scolastico; gli effetti
causali del risultato scolastico e dell’abilità mentale
sui guadagni; gli effetti causali dell’esperienza
familiare, del risultato scolastico e dei guadagni sulla
partecipazione politica), che pongono alcune
fondamentali sfide per l’analisi causale:
1) le complicazioni della misurazione, ossia le variabili
causali sono molto astratte e internamente
eterogenee;
2) le variabili individuali non sono facilmente
manipolabili attraverso l’intervento esterno.
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Tipi di esempio usati nel
libro (2)
•
Gli autori riportano, inoltre, quattro esempi (gli
effetti causali della scolarizzazione cattolica
sull’apprendimento; gli effetti causali dei buoni
scolastici sull’apprendimento; gli effetti causali
della formazione alla manodopera sui guadagni;
gli effetti causali della tecnologia alternativa di
voto sul votare validamente), che mostrano una
diretta relazione causale.
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Dati osservativi e
ricerche campionarie
•
Gli autori specificano che, nel corso del testo, si
assume soventemente che il campione sia infinito
(al fine di considerare come pari a 0 l’errore di
campionamento e che la media campionaria di una
variabile osservata sia uguale a quella della
popolazione) e che le variabili siano state
misurate senza errori.
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
L’effetto netto medio
1
0
E(δ) = E(Y - Y )
1^ problema: un’unica variabile quantitativa
2^ problema: valore atteso di una variabile aleatoria, stimato
per tutta la popolazione a partire da un campione
Metodi di inferenza statistica -> calcolo delle probabilità ->
funzioni generalmente continue -> unità su cui ragioniamo sono
infinitesimali, numeri reali
l’effetto individuale NON è osservabile e non solo perché è
controfattuale
l’effetto non è osservabile non solo per un individuo della
popolazione, ma neanche per qualsiasi insieme finito di
individui; l’effetto può essere stimato solo per un insieme
infinito di individui, quello della popolazione teorica
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Due ordini di
inosservabilità
ricostruzione del dato controfattuale per il quale non c’è un chiaro
referente empirico, ci sono elevati margini di discrezionalità
Per i dati cosiddetti “osservabili” – per i quali il campione è un
chiaro referente empirico – dobbiamo però fare le ipotesi di
rappresentatività del campione
Randomizzazione, lo estraiamo in maniera casuale e ci
assicuriamo che sia di numerosità sufficientemente elevata
Lo stratifichiamo, introducendo ipotesi teoriche
Senza queste cautele, le unità su cui ragioniamo sono astratte:
ovvero talmente piccole da essere infinitesimali, su ognuna di loro
l’effetto è talmente piccolo da essere prossimo allo zero, e
nessuna somma di un numero finito di infinitesimi è diversa da un
infinitesimo… per fortuna è l’unico metodo EVIDENCE-BASED!
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Confronto tra metodi
qualitativi e quantitativi
Metodi qualitativi sono imprecisi,
inaffidabili, distorti, etc
Metodi quantitativi (continui, che usano
numeri reali) ragionano su entità che non
esistono nella realtà
Quando sono applicati male, se i metodi
qualitativi sono un difetto della vista, i
metodi quantitativi sono una forma di cecità
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
E(δ) =
1
E(Y )
-
0
E(Y )
Y1 = valore della variabile sull’intera popolazione
(umana, mondiale, infinita – v.a.) nel caso in cui sia
sottoposta a trattamento.
Y0 = valore della variabile sull’intera popolazione
(umana, mondiale, infinita – v.a.) nel caso in cui NON sia
sottoposta a trattamento
Notazione: Y1 = Y se D = 1; Y0 = Y se D = 0
D variabile discreta (0,1) indica la presenza / assenza
del trattamento
δ = (Y1 - Y0); E(δ) = E(Y1 - Y0) = E(Y1) - E(Y0)
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Lo stimatore ingenuo
dell’effetto netto medio
δNAIVE = media (y | d = 1) - media (y | d = 0)
SE IL CAMPIONE E’ RAPPRESENTATIVO O CASUALE:
n -> inf., δNAIVE -> E(Y1|D=1) - E(Y0|D=0) diverso dall’effetto netto medio nell’intera
popolazione E(δ) = E(Y1) - E(Y0) quindi δNAIVE È DISTORTO (dist. non campionaria)
L’effetto netto medio totale =
l’effetto netto medio sulla popolazione rappresentata dai trattati
+ l’effetto netto medio sulla popolazione rappresentata dai NON trattati
E(δ) = π * E(δ|D=1) + (1-π) * E(δ|D=0)
π = proporzione di popolazione che tipicamente viene selezionata o si autoseleziona
al trattamento
Se queste due quantità sono uguali no problem, coincidono con l’effetto medio netto;
ma l’idea è che in realtà la popolazione sottoposta al trattamento sia
sostanzialmente diversa da quella non sottoposta, in particolare rispetto a
caratteristiche che influenzano autonomamente il valore di y
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Non esiste IL
controfattuale: esistono
DUE tipi di controfattuale
Per stimare l’effetto medio netto devo stimare
DUE diversi effetti medi netti (almeno quando
sono interessata a tutta la popolazione e non solo
quella rappresentata da uno dei due sottogruppi)
E(δ|D=1) = E[(Y1-Y0)|D=1] = E(Y1|D=1) - E(Y0|D=1)
E(δ|D=0) = E[(Y1-Y0)|D=0] = E(Y1|D=0) E(Y0|D=0)
E(δ) = π*E(Y1|D=1) - π*E(Y0|D=1) + E(Y1|D=0) π*E(Y1|D=0) - E(Y0|D=0) +π*E(Y0|D=0)
E(δ) = (π-1)*E(Y0|D=0) + π*E(Y1|D=1) + (1π)*E(Y1|D=0) - π*E(Y0|D=1)
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Lo stimatore ingenuo (2)
•
Media campionaria di y1 -> E(Y1|D=1)
•
Media campionaria di y0 -> E(Y1|D=0)
•
•
Se il campione è casuale (randomizzazione) o
rappresentativo (introdurre stratificazioni
cioè ipotesi causali)
le quantità in giallo non sono osservabili
NEANCHE a livello campionario; cioè non hanno un
corrispondente campionario “diretto”; per
stimarle non mi basta fare ipotesi statisticoprobabilistiche; devo fare ipotesi di altro tipo (di
social science theory)
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Esempio: effetto dell’istruzione
universitaria sul successo nel
mercato del lavoro
Mi interessa conoscere la differenza tra il successo sul MdL dell’umanità nel
caso in cui tutti frequentassero l’università e il successo sul MdL
dell’umanità nel caso in cui nessuno frequenti l’università
Nella realtà io ho 2 gruppi, coloro che frequentano l’università e coloro che
non la frequentano e osservo determinati risultati
E(Y1|D=1) = 10; E(Y0|D=0) = 5
E(Y0|D=1) = 6; E(Y1|D=0) = 8
δNAIVE = (10-5) = 5; diff. baseline = (6-5) = 1; effetto medio sui tendenti al
tratt. = (10-6) = 4; effetto medio sui non tendenti al tratt. = (8-5) = 3; diff
effetti medi tra i due gruppi = diff tra i tassi di acquisizione di capacità
lavorative in seguito all’università = (4-3) = 1; supponiamo che π = 0,3
E(δ) = 5 - 1 - (1-0,3)*1 = 5-1-0,7 = 3,3
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Come eliminare la
distorsione dello stimatore
ingenuo
lo stimatore ingenuo è distorto e quindi va corretto
δNAIVE -> E(Y1|D=1) - E(Y0|D=0)
E(δ) - δNAIVE = distorsione dello stimatore ingenuo
Distorsione dello stimatore ingenuo =
E(Y0|D=1) - E(Y0|D=0) +
(π-1)*[E(δ|D=1) - E(δ|D=0)]
differenza baseline, differenza di partenza, prima o in assenza del
trattamento, tra coloro che si selezionano per il trattamento e coloro che non si
selezionano
differenza tra gli effetti medi dell’intervento sulle due popolazioni,
indipendente dalle (differenze nelle) condizioni di partenza
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Come eliminare la distorsione dello stimatore
ingenuo (2)
Devo riuscire a stimare la distorsione; una strategia tipica è cercare di
azzerarla
Azzerare le differenze di partenza / baseline
Azzerare le differenze di effetto netto del trattamento, di acquisizione
dei benefici del trattamento (se le diff di baseline sono nulle ciò equivale
ad azzerare le diff di arrivo)
Ipotesi 1: E(Y0|D=1) = E(Y0|D=0) (diff di partenza / baseline NULLE)
il valore della variabile in ASSENZA di trattamento deve essere uguale tra
coloro che tendono a essere trattati e coloro che tendono a non essere trattati
E(δ|D=1) = E(δ|D=0);
E[(Y1- Y0)|D=1] = E[(Y1- Y0)|D=0];
E(Y1|D=1) - E(Y0|D=1) = E(Y1|D=0) - E(Y0|D=0);
E(Y1|D=1) = E(Y1|D=0)
Ipotesi 2: E(Y1|D=1) = E(Y1|D=0) (differenza tra effetti lordi a parità di
baseline = differenza tra effetti netti)
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Randomizzazione (RCTs)
Y e D sono indipendenti per costruzione, non c’è autoselezione / selezione
spontanea dei trattati
Anche se, si fa presto a dire costruzione: campioni di numerosità elevata
e cmq devo sempre fare test di casualità
Conseguenza auspicata 1: E(Y0|D=1) = E(Y0|D=0)
Conseguenza auspicata 2: E(Y1|D=1) = E(Y1|D=0)
Dinamica durante l’esperimento
Il campione può non essere più casuale per:
Possono cambiare le caratteristiche dei gruppi durante
l’esperimento
Uscita dal gruppo (diversa tra i due gruppi - differential
attrition) (anche per il matching)
Cross-contamination (i non trattati imitano i trattati)
Hawthorne effect (la consapevolezza di appartenere a un
certo gruppo modifica il comportamento)
Doppio cieco (ignoranza del partecipante e di chi
somministra) (certo questo è molto più facile in
farmacologia…)
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Regressione
Stimare l’effetto di D per esclusione, calcolando l’effetto di
TUTTE le altre variabili causali e sottraendolo all’effetto
complessivo
In particolare stimo il valore della diff di partenza / baseline
E(Y0|D=1) - E(Y0|D=0)
e la diff tra gli effetti medi [E(δ|D=1) - E(δ|D=0)]
in questo modo, insieme a δNAIVE, riesco a stimare E(δ)
Il problema è che mi servono informazioni TEORICHE su cosa
causa il fenomeno rappresentato dalla variabile di interesse; in
particolare su TUTTE LE sue CAUSE: in altre parole, mi serve
tutta la teoria del mondo
(vedi esempio di REGRESSIONE semplice di Trivellato: non si
capisce bene la differenza tra gli effetti: quali sono le due
popolazioni? Dove sono i due controfattuali?)
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Serie storiche
Interventi in cui tutta la popolazione è esposta al trattamento (dati PRE/POST)
Dinamica spontanea dei fenomeni (rilevanti: tonnellate di ipotesi teoriche…)
fa sì la che popolazione di arrivo non sia la stessa rispetto a quella di
partenza;
conosco E(Y1|D=1) e E(Y0|D=0)
ma non conosco E(Y1|D=0) né E(Y0|D=1)
effetto della politica al tempo t0 sulla popolazione / contesto di
partenza
ciò che si sarebbe avuto nel contesto / popolazione di arrivo al tempo t1
in assenza di intervento
le serie storiche stimano la seconda quantità ma non la prima; solo la prima
parte della distorsione dallo stimatore ingenuo; in altre parole l’effetto
relativo al contesto di arrivo E(δ|D=1) = E[(Y1-Y0)|D=1] = E(Y1|D=1) E(Y0|D=1)
Limite perché quello che mi interessa è l’effetto netto di quella politica
rispetto a qualsiasi contesto, non solo a quelli che somigliano a quello di
arrivo
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Costruire un gruppo di
controllo tramite
matching
Per rendere comparabili i due gruppi si costruisce un gruppo di controllo in cui ogni
componente ha un corrispondente nel gruppo sperimentale
Matching rispetto a cosa? Come faccio a sapere quali sono le variabili
causalmente rilevanti?
Mi serve tanta teoria
Il gruppo di controllo somiglia ai trattati!
Mi serve per stimare E(Y0|D=1), quindi E(δ|D=1), ovvero l’effetto netto medio sulla
popolazione di cui sono rappresentativi i trattati, non su tutta
Per stimare E(δ|D=0) (e quindi l’effetto complessivo) ma mi manca ancora “il secondo
controfattuale”: E(Y1|D=0)
come per le serie storiche: è un limite importante nel caso in cui l’obiettivo sia
indurre un effetto su una pluralità di gruppi e contesti spazio-temporali, non
solo su (quelli che somigliano a) i trattati o su un contesto storico preciso
A volte non riesco a fare il matching neanche dei trattati perché non esistono
individui comparabili con tutti i trattati…
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Il modello controfattuale
per l’analisi dei dati
osservativi
(6)
Se le assunzioni sono sostenibili e il metodo
•
•
•
adatto per costruire una differenza media dai
dati è chiuso, allora può essere data
un’interpretazione causale alla differenza media
nel valori di yi.
Successivamente gli autori presentano una
storia selezionata dell’uso del linguaggio
sperimentale nelle scienze sociali.
In particolare, ricostruiscono l’uso dei termini:
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Analisi causale e scienze
sociali osservative
•
•
1) esperimento (Fisher, Cox e Reid, Stouffer, Chapin,
Campbell) poiché il modello controfattuale della
causalità aiuta il ricercatore a stipulare le assunzioni,
valutare tecniche alternative di analisi dei dati e
riflettere sul processo di esposizione causale. Il suo
successo è dovuto al suo linguaggio di risultati
potenziali,
che
permette
all’analista
di
concettualizzare gli studi osservativi come se fossero
disegni sperimentali.
2) Regressione (Balock, Duncan) poiché essa può
lavorare in modo abbastanza sensibile nel cercare
risposte a domande causali.
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
La rappresentazione
grafica della relazione
causale
•
•
•
•
Pearl (2000) ha sviluppato una serie di regole
per rappresentare le relazioni causali con la
teoria dei grafici.
Si consideri le relazioni causali rappresentate a
p. 25 e si supponga che queste relazioni siano
derivate da un gruppo di proposizioni teoriche.
In questo grafico:
1) ogni nodo rappresenta una variabile casuale
osservabile;
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
La rappresentazione
grafica della relazione
causale (2)
•
•
•
•
2) ogni freccia unidirezionale significa che la
variabile all’origine della freccia causa quella alla fine
della freccia;
3) ogni freccia curva e bidirezionale significa
l’esistenza di un nodo comune non osservato che
causa entrambe le variabili poste all’estremità.
Supponiamo che la variabile di primario interesse sia
D e che l’effetto causale che desideriamo stimare sia
l’effetto di D su Y.
Secondo Pearl, la variabile causale D ha
distribuzione di probabilità.
una
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
La rappresentazione
grafica della relazione
causale (3)
•
•
Sulla variabile D agiscono causalmente le
variabili A, B e C, anche se dal grafico non si
evince la forza della relazione.
La variabile risultato Y è causata direttamente
da F, G e D, ma anche da altre cause indirette
(A, B e C) ed altre ancora implicite
(rappresentate dalle frecce curvilinee) che
determinano la distribuzione di probabilità di Y.
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Le strategie per stimare
gli effetti causali
•
•
•
•
Tre strategie per stimare gli effetti causali:
1) si può condizionare (con procedure come la stratificazione,
il confronto, la ponderazione o la regressione) le variabili che
blocchino tutte le traiettorie back-door dalla variabile
causale alla variabile risultato;
2) si possono utilizzare variazioni esogene in una appropriata
variabile strumento per isolare la covariazione fra le variabili
causale e risultato;
3) si può stabilire un meccanismo isolato ed esaustivo che
relaziona la variabile causale alla variabile risultato e
calcolare come l’effetto causale si sia propagato attraverso il
meccanismo.
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Scarica

Counterfactuals and causal inference" di Morgan e Winship