Inferencia causal

Inferencia Causal

Irvin Rojas

rojasirvin.com

Centro de Investigación y Docencia Económicas División de Economía

Los problemas de inferencia con los que trataremos

Programas implementados de forma deliberada

  • Gobiernos en todos los niveles implementan programas públicos con distintos objetivos:
    • Salud
    • Educación
    • Empleo
    • Mejoras urbanas
  • Siempre encontrarán referencias al extinto PROGRESA - OPORTUNIDADES - PROSPERA que fue parte fundamental del diseño de intervenciones diseñadas para ser evaluadas
  • ¿Qué saben de este programa?

Impacto de otro tipo de cambios exógenos

  • Lo que aprenderemos puede aplicarse a otras preguntas causales
    • El impacto de la aparición en la primera página de una boleta en la probabilidad de ser electo
    • El impacto del cambio de legislación relativa al divorcio o al aborto
    • El efecto de cambios geopolíticos, como la reunificación de Alemania
    • El impacto del cambio climático en la productividad
  • En todas estas preguntas estamos pensando en la idea de causalidad
  • Lo que queremos conocer es qué le hubiera pasado a la población que recibió la intervención de no haberla recibido: el contrafactual

La epidemiología está de moda

La epidemia de cólera en Londres

  • En aquellos tiempos (1854) se creía que el cólera se transmitía por medio del miasma en el aire

  • Snow conjeturaba que la causa era un organismo vivo que se introducía en el cuerpo

  • Siguió una estrategia que podemos imitar:

    1. Localizar el primer caso
    2. Rastrear al segundo y notar que ocupó el mismo espacio que el primero
    3. Notar las diferencias en la limpieza entre los hogares infectados y los adyacentes
    4. Creó un mapa para rastrear a los infectados
    5. Notó que los infectados eran atendidos por la ciertas compañías de agua
    6. Experimentó cortando el suministro de compañías sospechosas

El problema era el agua

  • La Tabla 1 nos muestra la idea básica de su diseño
  • Es como si hubiera habido un experimento: casas comparativamente iguales recibían agua de distintas compañías
  • Podemos notar las diferencias en el número de muertes por compañía
  • Muchas veces no necesitaremos cosas más complicadas que esto
  • A partir de estos hallazgos se propusieron algunas políticas que eran consistentes con la hipótesis de transmisión
  • En muchos sentidos Snow hizo un trabajo de detective
Tabla XI de Snow
Ciudad Hogares Muertes por cólera Muertes / 10 mil hogares
Southwark y Vauxhall 40,046 1,263 315
Lambeth 26,107 98 37
Resto de Londres 256,423 1,422 59
Nota: Reproducida por Freedman (1991).

El caso del asbesto

  • Un estudio publicado en el American Journal of Epidemiology mostraba que la fibra de asbesto causaba cáncer de pulmón (Kanarek et al., 1980)
  • Se estudiaron 722 secciones censales en San Francisco
  • Se formuló un modelo econométrico del tipo \[tasa=f(sexo,raza,estado\,civil, educación, ingreso, ocupación)\]
  • ¿Qué salió mal?
  • Variable omitida: fumar
  • Se corrieron 200 regresiones y solo en una \(p<0.001\)
  • Se antepusieron las técnicas estadísticas y los supuestos a la lógica y el razonamiento

Asumir causalidad de una regresión

  • ¿Confiar más o menos en la KGB te hace más o menos políticamente activo (Bahry y Silver (1987)?
  • ¿Y si la relación es a la inversa?
  • ¿Qué otras cosas como estas no se leen a diario en los periódicos?
  • ¿Los estados en Estados Unidos tienen diferentes culturas (Erikson et al. 1987)?
  • ¿Puede una serie de variables dummy capturar la diferencia de culturas?

Nota sobre la falacia ecológica

  • Término atribuido a Robinson (1950)
    • Robinson, W. S. (1950). Ecological correlations and the behavior of individuals. American Sociological Review.
  • Es asumir algo sobre un individuo a partir de los datos agregados
  • Cuando las conclusiones cambian cuando el análisis se realiza a nivel individual que cuando se realiza a nivel agrupado, hablamos de una falacia ecológica
  • En el caso de Kanarek y coautores, dedujeron causalidad usando datos agregados sobre el contenido de asbesto en el agua
  • Greenland & Morgenstern (1989) argumentan que una de las dos causas de la falacia ecológica son los confundidores omitidos
    • El hábito de fumar es un confundidor omitido que sesga los resultados atribuidos a otros factores de riesgo
  • Pueden ver más en este artículo

Conclusión de Freedman sobre la regresión

  • Bastante pesimista sobre la utilidad de la econometría
  • Refinamiento técnico no resuelve el problema
  • LaLonde (1986) compara estimadores experimentales vs. no experimentales
  • Crítica a la minería de datos y a correr miles de modelos
  • La regresión no revela por sí sola una causalidad
  • Hay que poner énfasis en el diseño
  • Yo no soy tan pesimista como Freedman

El problema de la causalidad en economía

Efecto causal

  • Pensemos en un tratamiento binario \[T_i=\begin{cases} 1 \quad\text{tratado} \\ 0 \quad\text{no tratado} \end{cases}\]
  • El resultado que cada individuo tendría bajo cada régimen de tratamiento:
    • \(y_{1i}\) con \(T_i=1\)
    • \(y_{0i}\) con \(T_i=0\)
  • Supongamos que el tratamiento es recibir un trasplante y el resultado es morir (1) o seguir vivo (0) cinco días después de recibirlo (Hernan & Robins, 2018)
    • Supongamos que Zeus recibió el trasplante y a los cinco días había fallecido
    • Por otro lado, Hena no recibió el trasplante y a los cinco días seguía viva
  • No tardarían nuestros columnistas en decir que hay que prohibir los trasplantes

Efecto causal

  • Supongamos también que podemos conocer que: \[y_{Zeus}=\begin{cases} y_{1,Zeus}=1\\ y_{0,Zeuz}=0 \end{cases}\] es decir, si no hubiera recibo el trasplante, estaría vivo cinco días después
  • Similarmente, conocemos que:

\[y_{Hena}=\begin{cases} y_{1,Hena}=0\\ y_{0,Hena}=0 \end{cases}\]

  • Efecto causal para un individuo: el tratamiento tiene un efecto causal para \(i\) si \(y_{1i}\neq y_{0i}\)
  • En nuestro ejemplo, el tratamiento tuvo un efecto causal en Zeus, pero no en Hena

Resultados potenciales

  • \(y_{1i}\) y \(y_{0i}\) se conocen como resultados potenciales o contrafactuales
  • El término potencial se debe a que solo vemos uno de ellos
  • En nuestro ejemplo, solo observamos que \(y_{0,Zeus}=y_{1,Zeus}=1\)
  • En general, el efecto causal para un individuo no puede ser identificado

Efectos causales promedio

  • Supongamos que podemos estudiar a la familia de Zeus, \(N=20\)
Efectos individuales
Persona y0 y1
1 0 1
2 1 0
3 0 0
4 0 0
5 0 0
6 1 0
7 0 0
8 0 1
9 1 1
10 1 0
11 0 1
12 1 1
13 1 1
14 0 1
15 0 1
16 0 1
17 1 1
18 1 0
19 1 0
20 1 0

Efectos causales promedio

  • De la tabla podemos concluir que \(P(y_{1i}=1)=10/20=0.5\), es decir, la mitad de quienes reciben el trasplante morirían después de cinco días
  • Y también observamos que \(P(y_{0i}=1)=0.5\), es decir, que la probabilidad de morir de no haber recibido el tratamiento es también de 0.5
  • En el anterior ejemplo, el tratamiento no tiene un efecto causal pues la probabilidad de morir con y sin el tratamiento es igual
  • Efecto causal promedio en una población: un efecto causal promedio de \(T\) en el resultado \(y\) está presente si \(P(Y_{1i}=1\neq Y_{0i}=1)\) en la población de interés
  • Cuando pensamos en poblaciones, podemos usar expectativas para definir el efecto causal promedio: \(E(Y_{1i}\neq Y_{0i})\), lo cual permite generalizar a resultados no binarios
  • La ausencia de efectos individuales promedio no implica ausencia de efectos individuales
  • Cuando no hay efecto causal individual para ningún individuo, \(y_{0i}=y_{1i}\), para todo \(i\), decimos que la hipótesis estricta (sharp) de efecto de tratamiento nulo es verdadera

Variabilidad aleatoria

  • En la práctica, casi nunca podemos observar a la población de interés, sino solo a una muestra
  • Por tanto, \(P(y_{ti}=y)\) no puede ser observada sino estimada
  • Debido al error muestral, la proporción que muere en la muestra no es numéricamente igual a la proporción que muere en la población
  • La hipótesis que queremos probar es que hay un efecto causal en la población
  • Pero al trabajar con muestras, puede haber diferencias que surjan solo por el muestreo
  • Nuestra tarea es distinguir estas diferencias de los verdaderos efectos causales

Próxima sesión

  • Introduciremos el concepto de sesgo de selección
  • Veremos un ejemplo de un experimento para identificar efectos causales
    • MHE, Capítulo 2
  • Estudiaremos la regresión como una herramienta para estimar diferencias (ojalá causales)

Material de clase en versión preliminar.

No reproducir, no distribuir, no citar.