Due gruppi : “trattati” e “non trattati”
Una variabile dicotomica che rappresenta il “trattamento
Una variabile di “risposta” y
Vogliamo “isolare” l’effetto del trattamento sulla variabile di risposta
Naturalmente i soggetti appartenenti ai gruppi sono caratterizzati da una
serie di caratteristiche X (vettore) che
1. Possono essere correlate sia con l’appartenenza al gruppo
Cioè Cov(X,Z) ≠
0
2. Possono essere correlate con la variabile di misura
Cioè Cov(X,Y) ≠
0
Se queste condizioni si verificano SIMULTANEAMENTE la stima “usuale
dell’effetto del trattamento è distorta perché ingloba una parte della
diversità legata alle caratteristiche X differenziali tra i gruppi.
STUDIO DEGLI EFFETTI DI UN “TRATTAMENTO”
Es. Istruzione, formazione, tipologia famigliare, campagna pubblicitaria….
Consideriamo un individuo, in linea teorica siamo interessati a misurare
l’effetto di una certa variabile Z=0,1 (dicotomica= trattato/non trattato) su
una variabile “di risposta” Y.
Se chiamiamo Y1 e Y0 i valori di risposta per Z=1 e per Z=0, siamo
interessati ad una stima della quantità (relativa a tutto il collettivo):
  E (Y1 )  E (Y0 )
Dove la media è estesa a tutta la popolazione di individui.
Ciascun individuo è anche caratterizzato da un vettore di covariate X, che
in ipotesi possono avere una correlazione sia con la Y che con la Z, cioè
possono influenzare sia la variabile di risposta che la scelta.
L’ASSEGNAZIONE CASUALE
In generale la quantità  non è osservabile, infatti non è possibile sottoporre e non
sottoporre lo stesso individuo ad un trattamento, per cui ogni individuo mostra solo
UNO dei valori Y utili per la stima.
Abbiamo quindi due collettivi disgiunti e la comparazione “diretta” tra i valori Y cioè
la stima di  è corretta solo se la distribuzione delle covariate X è “simile” nei due
collettivi, cioè se
Corr(X,Z)=0
Se così non è una parte di  cioè della differenza trattati/non trattati dipende dalle
X e non dal trattamento.
L’assegnazione casuale dei soggetti ai due gruppi ha esttamente questo compito,
per definizione (a lungo andare) se l’assegnazione è casuale la distribuzione delle
X (o di loro opportune trasformate) nei due sottoinsiemi è statisticamente identica.
Quindi la media delle Y nei due collettivi ha la stessa componente “legata” alle X e
nella differenza Y1-Y0 si elide e la stima di  è corretta, cioè
UNA PICCOLA TRASFORMAZIONE
Definiamo come “propensity score” (PS) la probabilità che, dato un insieme di
covariate X, un individuo i appartenga al gruppo dei “trattati” (o dei “non trattati”):
s(Xi) = P(Z=1/Xi)
L’assegnazione casuale ha il compito di rendere il PS indipendente da X, cioè
identico nei due gruppi, definiamo questa selezione come IGNORABILE:
s(Xi) = P(Z=1/Xi) = P(Z=1)
Se l’assegnazione non è “strettamente” casuale questa condizione non è
rispettata, ma ha senso chiedersi se esiste una qualche combinazione delle X che
“restituisce” la condizione di comparabilità.
Ci chiediamo cioè se esiste una trasformazione b tale che:
s(Xi) = P(Z=1/b(Xi)) = P(Z=1)
In questo caso diversi termini: selezione “RESA IGNORABILE” o anche
IGNORABILE tout-court + altri termini
Esempio classico: campione stratificato, confronto medie “pesate”
ESEMPIO
Supponiamo che le donne, solo per il fatto di essere donne, riescano in media ad
ottenere 3 voti in più ad un certo esame. In questo caso la X è una dicotomica che
indica il genere
Poiché in media le performances degli studenti (uomini e donne) a quell’esame
sono basse, la Facoltà decide di offrire una serie di esercitazioni integrativa con
adesione volontaria. Supponiamo, come al solito, di sapere in anticipo che l’effetto
“vero” delle esercitazioni sia di aumentare di 6 punti il voto.
La situazione “vera” sia la seguente:
Uomini
Donne
Totale
Iscritti
60
40
100
Voto medio "prima"
21
24
22,2
Voto medio "dopo"
27
30
28,2
Differenza=effetto del trattamento
6
ESEMPIO - continua
Nella valutazione ex post dell’effetto, la composizione del sub-collettivo che sceglie
di frequentare le esercitazione è cruciale. Indichiamo con n il numero di
frequentatori delle esercitazioni e con N il numero di iscritti, con i pedici d e u il
genere (uomo/donna), con 1 e 0 la frequenza alle esercitazioni.
Ipotesi 1:
Sub-collettivo “bilanciato” esito tipico (long-run) SRS:
nd/Nd = nu/Nu. cioè P(Z=1/X)=P(Z=1) SELEZIONE IGNORABILE
Diciamo 30 uomini e 20 donne
27nu  30nd 27 * 30  30 * 20
Y1 

 28.2
nu  nd
50
  28.2  22.2  6
Corretto!
ESEMPIO - continua
Ipotesi 2
Sub-collettivi di uguale numerosità:
nd/Nd  nu/Nu. cioè P(Z=1/X)  P(Z=1)
SELEZIONE NON IGNORABILE
Diciamo 20 uomini e 20 donne  P(z=1/X=1) = 1/3 e P(Z=1/X=2) = 1/2
27nu  30nd 27 * 20  30 * 20
Y1 

 28.5
nu  nd
40
  28.5  22.2  6.3
Distorto!
In generale:
Distorsione (%) nella stima della differenza di voti secondo la probabilità di inclusione
Intervalli pari al +/- 2%
1
0,9
18%-20%
0,8
16%-18%
14%-16%
12%-14%
0,7
10%-12%
8%-10%
6%-8%
0,6
Prob(uomini)
4%-6%
2%-4%
0%-2%
0,5
-2%-0%
-4%--2%
0,4
-6%--4%
-8%--6%
-10%--8%
0,3
-12%--10%
-14%--12%
-16%--14%
0,2
-18%--16%
-20%--18%
0,1
0,1
0,2
0,3
0,4
0,5
0,6
Prob(donne)
0,7
0,8
0,9
1
Oppure, più leggibile…
Distorsione (%) nella stima della differenza di voti secondo la percentiuale di donne nel subcolletivo
40%
30%
20%
differenza
10%
0%
0%
10%
20%
30%
40%
50%
-10%
-20%
-30%
percentuale donne
60%
70%
80%
90%
100%
ESEMPIO - continua
Come interveniamo, di solito? Facile, pesiamo i risultati in modo da correggere la
distorsione legata alla diversa probabilità di inclusione, in particolare utilizziamo
l’inverso della probabilità
Diciamo 20 uomini e 20 donne  P(z=1/X=1) = 1/3 e P(Z=1/X=2) = 1/2
Cioè (media uomini *3 + media donne *2) / 5
(27*3 + 30 *2)/5 = 28.2
Corretto!
Stimatore di Horwitz-Thompson e similari
Abbiamo trovato un “peso” legato alle probabilità di inclusione (un PS) che ha reso
ignorabile il processo
La Y di ogni soggetto viene pesata con l’inverso della probabilità di aderire al
trattamento. Ammesso di conoscere tale probabilità, l’ignorabilità è ripristinata.
s(Xi) = P(Z=1/b(Xi)) = P(Z=1)
Che fare se non si conosce questa probabilità, cioè se le adesioni non sono frutto
di un disegno, ma di una scelta non controllata?
RIEPILOGHIAMO:
Obiettivo : Verificare l’effetto di un trattamento Z (1=trattato, 0 =non trattato) su un
collettivo di individui in generale diversi tra loro per qualche caratteristica X.
Indicatore: Differenza tra una qualche statistica di una variabile di risposta Y
Problema: la variabile di risposta Y relativa al singolo individuo i non è osservabile nei
due stati di Z
Conseguenza: Noi vorremmo stimare
  f (Yi ,1  Yi ,0 )
Ma possiamo osservare solo
  f (Yi ,1 )  f (Y j ,0 )
i  Z  1 j  Z  0
A quali condizioni l’inferenza è corretta? In generale se
P( z  1 / Y )  P( Z  1)
MA….
naturalmente la Y è osservata solo parzialmente, quindi la condizione non è verificabile
UN BEL PROBLEMA DI INFERENZA
In sé l’ipotesi di indipendenza di Z e Y NON può essere oggetto di inferenza,
sappiamo, però, che l’assegnazione “puramente” casuale ai due sottoinsiemi
garantisce questa condizione (perché garantisce l’indipendenza da qualsiasi
variabile)
La garanzia starebbe, quindi, nel meccanismo di assegnazione
MA…..
1. In molti (moltissimi) casi l’assegnazione non è per nulla casuale (scelte volontarie
di individui, condizioni di tempo e luogo differenti, etc..)
2. Anche quando il meccanismo è progettato per essere casuale, vi sono
numerosissime deviazioni dal progetto iniziale (non risposte, errori di lista,
sostituzioni di intervistati indisponibili, etc…)
3. E’ possibile, pur con un SRS puro, che il gioco del caso nella singola fattispecie
formi insiemi diversissimi (siamo stati sfortunati)
In generale il SRS “puro” è una condizione difficilmente conseguibile
INFATTI, OGNI TANTO ABBIAMO DEI DUBBI
Per esempio quando osserviamo che per le caratteristiche note X, i due sottoinsiemi
definiti da Z appaiono “troppo” diversi, perché questo ci fa venire sospetti circa la
casualità (valutata ex-post) del processo di assegnazione.
Siamo portati a credere che, per un qualche motivo, la formazione dei due insiemi sia
stata effettivamente influenzata da qualche altro fattore che non sia la pura casualità
(che dovrebbe generare insiemi simili per le X)
In realtà questa posizione è legata ad una ipotesi “a priori”, infatti la preoccupazione
sarebbe infondata se non avessimo il sospetto che “potrebbe” esserci una
correlazione tra le X e la Y. Anzi ci insospettiamo solo per le differenze in “alcune” X.
Per esempio consideriamo poco preoccupante nella misura delle differenze di reddito,
il colore degli occhi. Tanto che non lo rileviamo neppure (per quanto.....)
D’altra parte, se avessimo due insiemi “identici” per “tutte” le possibili caratteristiche X,
allora anche in presenza di correlazione l’ipotesi di indipendenza di Z e Y sarebbe
verificata.
UNA INFERENZA “INDIRETTA”
Ma se l’idea (o il sospetto) è che le X siano correlate con le Y, l’ipotesi di indipendenza
tra Z e X può essere verificata (naturalmente per le X osservate).
Anzi, di più: abbiamo metodi per stimare P(Z=1/X) e per fare inferenza sulle stime.
Ad esempio i modelli del tipo logit/probit, ma anche i modelli per dati Troncati e
censurati che abbiamo visto in precedenza.
Sia pure sotto diverse forma, ciò che facciamo è:
1. Ipotizzare un modello per la probabilità di assegnazione (o di scelta) al trattamento
2. Utilizzare una combinazione (non lineare) delle X per stimare questa probabilità
3. Sfruttare questa stima come “correttore” della distorsione nel confronto tra i livelli
della variabile di risposta Y
Nell’esempio abbiamo stimato P(Z=1) come funzione del genere, mediante uno
stimatore “naif” (frequenza relativa) e poi abbiamo utilizzato la stima come “peso”
per correggere la media dei trattati.
La stima della probabilità in questo contesto è il “PROPENSITY SCORE”
UN APPROCCIO MOLTO GENERALE
Naturalmente vi sono molti metodi in cui il percorso descritto può essere compiuto
tuttavia è importante sottolineare che questo modo di affrontare il problema:
Pone al centro dell’inferenza NON il meccanismo di selezione dei soggetti, MA il
processo di generazione dei dati, di cui la selezione è SOLO un elemento
Da questo punto di vista, il problema non è se la selezione è casuale, na se
disponiamo di un modello che è in grado di rappresentare il processo di misura
Cade la distinzione tra campioni casuali e sottoinsiemi non casuali, la legittimità
dell’inferenza sta nelle ipotesi del modello di misura, NON nel meccanicismo del
processo di selezione
Dal punto di vista teorico il modello di misura acquista importanza e dignità come
momento di conoscenza, non solo come “buona prassi” spesso impossibile da
rispettare fino fino in fondo
Si aprono possibilità enormi e non convenzionali per l’utilizzo di dati tradizionalmente
trascurati (es.: dati parziali, di origine amministrativa, su base volontaria etc..)
Scarica

Propensity scores (PS)