Inferencia causal
Centro de Investigación y Docencia Económicas División de Economía
Los problemas de inferencia con los que trataremos
Impacto de otro tipo de cambios exógenos
- Lo que aprenderemos puede aplicarse a otras preguntas causales
- El impacto de la aparición en la primera página de una boleta en la probabilidad de ser electo
- El impacto del cambio de legislación relativa al divorcio o al aborto
- El efecto de cambios geopolíticos, como la reunificación de Alemania
- El impacto del cambio climático en la productividad
- En todas estas preguntas estamos pensando en la idea de causalidad
- Lo que queremos conocer es qué le hubiera pasado a la población que recibió la intervención de no haberla recibido: el contrafactual
La epidemiología está de moda
La epidemia de cólera en Londres
En aquellos tiempos (1854) se creía que el cólera se transmitía por medio del miasma en el aire
Snow conjeturaba que la causa era un organismo vivo que se introducía en el cuerpo
Siguió una estrategia que podemos imitar:
- Localizar el primer caso
- Rastrear al segundo y notar que ocupó el mismo espacio que el primero
- Notar las diferencias en la limpieza entre los hogares infectados y los adyacentes
- Creó un mapa para rastrear a los infectados
- Notó que los infectados eran atendidos por la ciertas compañías de agua
- Experimentó cortando el suministro de compañías sospechosas
El problema era el agua
- La Tabla 1 nos muestra la idea básica de su diseño
- Es como si hubiera habido un experimento: casas comparativamente iguales recibían agua de distintas compañías
- Podemos notar las diferencias en el número de muertes por compañía
- Muchas veces no necesitaremos cosas más complicadas que esto
- A partir de estos hallazgos se propusieron algunas políticas que eran consistentes con la hipótesis de transmisión
- En muchos sentidos Snow hizo un trabajo de detective
Ciudad |
Hogares |
Muertes por cólera |
Muertes / 10 mil hogares |
Southwark y Vauxhall |
40,046 |
1,263 |
315 |
Lambeth |
26,107 |
98 |
37 |
Resto de Londres |
256,423 |
1,422 |
59 |
Nota: Reproducida por Freedman (1991). |
|
|
|
El caso del asbesto
- Un estudio publicado en el American Journal of Epidemiology mostraba que la fibra de asbesto causaba cáncer de pulmón (Kanarek et al., 1980)
- Se estudiaron 722 secciones censales en San Francisco
- Se formuló un modelo econométrico del tipo \[tasa=f(sexo,raza,estado\,civil, educación, ingreso, ocupación)\]
- ¿Qué salió mal?
- Variable omitida: fumar
- Se corrieron 200 regresiones y solo en una \(p<0.001\)
- Se antepusieron las técnicas estadísticas y los supuestos a la lógica y el razonamiento
Asumir causalidad de una regresión
- ¿Confiar más o menos en la KGB te hace más o menos políticamente activo (Bahry y Silver (1987)?
- ¿Y si la relación es a la inversa?
- ¿Qué otras cosas como estas no se leen a diario en los periódicos?
- ¿Los estados en Estados Unidos tienen diferentes culturas (Erikson et al. 1987)?
- ¿Puede una serie de variables dummy capturar la diferencia de culturas?
Nota sobre la falacia ecológica
- Término atribuido a Robinson (1950)
- Robinson, W. S. (1950). Ecological correlations and the behavior of individuals. American Sociological Review.
- Es asumir algo sobre un individuo a partir de los datos agregados
- Cuando las conclusiones cambian cuando el análisis se realiza a nivel individual que cuando se realiza a nivel agrupado, hablamos de una falacia ecológica
- En el caso de Kanarek y coautores, dedujeron causalidad usando datos agregados sobre el contenido de asbesto en el agua
- Greenland & Morgenstern (1989) argumentan que una de las dos causas de la falacia ecológica son los confundidores omitidos
- El hábito de fumar es un confundidor omitido que sesga los resultados atribuidos a otros factores de riesgo
- Pueden ver más en este artículo
Conclusión de Freedman sobre la regresión
- Bastante pesimista sobre la utilidad de la econometría
- Refinamiento técnico no resuelve el problema
- LaLonde (1986) compara estimadores experimentales vs. no experimentales
- Crítica a la minería de datos y a correr miles de modelos
- La regresión no revela por sí sola una causalidad
- Hay que poner énfasis en el diseño
- Yo no soy tan pesimista como Freedman
El problema de la causalidad en economía
Efecto causal
- Pensemos en un tratamiento binario \[T_i=\begin{cases}
1 \quad\text{tratado} \\
0 \quad\text{no tratado}
\end{cases}\]
- El resultado que cada individuo tendría bajo cada régimen de tratamiento:
- \(y_{1i}\) con \(T_i=1\)
- \(y_{0i}\) con \(T_i=0\)
- Supongamos que el tratamiento es recibir un trasplante y el resultado es morir (1) o seguir vivo (0) cinco días después de recibirlo (Hernan & Robins, 2018)
- Supongamos que Zeus recibió el trasplante y a los cinco días había fallecido
- Por otro lado, Hena no recibió el trasplante y a los cinco días seguía viva
- No tardarían nuestros columnistas en decir que hay que prohibir los trasplantes
Efecto causal
- Supongamos también que podemos conocer que: \[y_{Zeus}=\begin{cases}
y_{1,Zeus}=1\\
y_{0,Zeuz}=0
\end{cases}\] es decir, si no hubiera recibo el trasplante, estaría vivo cinco días después
- Similarmente, conocemos que:
\[y_{Hena}=\begin{cases}
y_{1,Hena}=0\\
y_{0,Hena}=0
\end{cases}\]
- Efecto causal para un individuo: el tratamiento tiene un efecto causal para \(i\) si \(y_{1i}\neq y_{0i}\)
- En nuestro ejemplo, el tratamiento tuvo un efecto causal en Zeus, pero no en Hena
Resultados potenciales
- \(y_{1i}\) y \(y_{0i}\) se conocen como resultados potenciales o contrafactuales
- El término potencial se debe a que solo vemos uno de ellos
- En nuestro ejemplo, solo observamos que \(y_{0,Zeus}=y_{1,Zeus}=1\)
- En general, el efecto causal para un individuo no puede ser identificado
Efectos causales promedio
- Supongamos que podemos estudiar a la familia de Zeus, \(N=20\)
Persona |
y0 |
y1 |
1 |
0 |
1 |
2 |
1 |
0 |
3 |
0 |
0 |
4 |
0 |
0 |
5 |
0 |
0 |
6 |
1 |
0 |
7 |
0 |
0 |
8 |
0 |
1 |
9 |
1 |
1 |
10 |
1 |
0 |
11 |
0 |
1 |
12 |
1 |
1 |
13 |
1 |
1 |
14 |
0 |
1 |
15 |
0 |
1 |
16 |
0 |
1 |
17 |
1 |
1 |
18 |
1 |
0 |
19 |
1 |
0 |
20 |
1 |
0 |
Efectos causales promedio
- De la tabla podemos concluir que \(P(y_{1i}=1)=10/20=0.5\), es decir, la mitad de quienes reciben el trasplante morirían después de cinco días
- Y también observamos que \(P(y_{0i}=1)=0.5\), es decir, que la probabilidad de morir de no haber recibido el tratamiento es también de 0.5
- En el anterior ejemplo, el tratamiento no tiene un efecto causal pues la probabilidad de morir con y sin el tratamiento es igual
- Efecto causal promedio en una población: un efecto causal promedio de \(T\) en el resultado \(y\) está presente si \(P(Y_{1i}=1\neq Y_{0i}=1)\) en la población de interés
- Cuando pensamos en poblaciones, podemos usar expectativas para definir el efecto causal promedio: \(E(Y_{1i}\neq Y_{0i})\), lo cual permite generalizar a resultados no binarios
- La ausencia de efectos individuales promedio no implica ausencia de efectos individuales
- Cuando no hay efecto causal individual para ningún individuo, \(y_{0i}=y_{1i}\), para todo \(i\), decimos que la hipótesis estricta (sharp) de efecto de tratamiento nulo es verdadera
Variabilidad aleatoria
- En la práctica, casi nunca podemos observar a la población de interés, sino solo a una muestra
- Por tanto, \(P(y_{ti}=y)\) no puede ser observada sino estimada
- Debido al error muestral, la proporción que muere en la muestra no es numéricamente igual a la proporción que muere en la población
- La hipótesis que queremos probar es que hay un efecto causal en la población
- Pero al trabajar con muestras, puede haber diferencias que surjan solo por el muestreo
- Nuestra tarea es distinguir estas diferencias de los verdaderos efectos causales
Próxima sesión
- Introduciremos el concepto de sesgo de selección
- Veremos un ejemplo de un experimento para identificar efectos causales
- Estudiaremos la regresión como una herramienta para estimar diferencias (ojalá causales)
Material de clase en versión preliminar.
No reproducir, no distribuir, no citar.