Inferencia Causal
Irvin Rojas
rojasirvin.com
Centro de Investigación y Docencia Económicas División de Economía
Olvidemos por ahora la causalidad y centremonos en la conexión entre dos variables, \(y\) y \(s\) (ingreso y educación)
La función de esperanza condicional es una forma de describir la relación entre estas dos variables
Función de esperanza condicional: la FEC de \(y_i\) dado un vector de regresores \(X_i\) es la esperanza o promedio poblacional de \(y_i\) cuando mantenemos fijo \(X_i\) y se denota \(E(y_i|X_i)\)
Para representar una realización particular de \(X_i\) escribimos \(X_i=x_i\), por lo que la FEC es \(E(y_i|X_i=x_i)\)
Con \(y_i\) discreta, la FEC se expresa como
\[E(y_i|X_i=x_i)=\sum_t t P(y_i=t|X_i=x_i)\]
\[\beta=\arg\min_b E((E(y_i|X_i)-X_i'b) ^2)\]
Demostración: para la demostración, consideren el problema de regresión poblacional: \[\beta=\arg\min_b E((y_i-X_i'b)^2)\]
Podemos sumar y restar \(E(y_i|X_i)\) y reescribir \((y_i-X_i'b)^2\) como:
\[(y_i-X_i'b)^2 = ((y_i-E(y_i|X_i))+(E(y_i|X_i)+X_i'b))^2= \\ =(y_i-E(y_i|X_i))^2+(E(y_i|X_i)-X_i'b)^2+2(y_i-E(y_i|X_i))(E(y_i|X_i)-X_i'b)\]
El término \((y_i-E(y_i|X_i))^2\) no involucra \(b\) por lo que no importa en el proceso de optimización
Por la Propiedad de Descomposición de la FEC, \(2(y_i-E(y_i|X_i))(E(y_i|X_i-X_i'b))=0\)
Nos queda \((E(y_i|X_i)+X_i'b)^2\), que es exactamente el mismo problema que el del Teorema de la regresión de la FEC
Son modelos de regresión donde incluimos una variable categórica para cada uno de los posibles valores que tomen las \(X_i\)
Del ejemplo con los datos de EUA, hay 21 posibles años de educación, entonces un modelo saturado es:
\[y_i=\alpha+\beta_1 c_{1i} + \beta_2 c_{2i} + \ldots + \beta_{21} c_{21i} + u_i\] donde \(c_{ji}=1\) si el individuo \(i\) tiene una educación \(s_{i}=j\)
\[y_i=\alpha+\beta_H x_{Hi} + \beta_R x_{Ri}+ \beta_{HR} x_{Hi}x_{Ri}+u_i\]
A los coeficientes \(\beta_H\) y \(\beta_U\) se les conoce como efectos principales
El término de interacción \(\beta_{HR}\) nos dice cómo cambia el ingreso entre individuos por tipo de localidad y por sexo
Lo que hemos visto hasta ahora nos dice que la regresión es nuestro mejor aproximación lineal a la FEC
Pero la regresión será causal solo si la FEC es causal
Con lo que hemos visto del modelo de resultados potenciales, podemos tener una interpretación causal de la FEC
\[\{y_{0i},y_{1i}\}\perp D_i | X_i\]
\[ \begin{aligned} E(y_i|D_i=1)-E(y_i|D_i=0)=&\overbrace{ E(y_{1i}-y_{0i}|D_i=1)}^{\text{Efecto promedio en los tratados}}+\\& \underbrace{E(y_{0i}|D_i=1)-E(y_{oi}|D_i=0)}_{\text{Sesgo de selección}} \end{aligned} \]
El SIC implica que si hacemos la comparación condicional en \(X_i\), el sesgo desaparece \[ \begin{aligned} E(y_i|X_i,D_i=1)-E(y_i|X_i,D_i=0)=E(y_{1i}-y_{0i}|X_i) \end{aligned} \]
Es decir, que si comparamos a personas con y sin tratamiento, con los \(X_i\) fijos, el sesgo de selección desaparece
Mantener fijas las \(X\) es el análogo a obtener el promedio del salario en cada nivel de escolaridad en la gráfica de la FEC descrita anteriormente
Para generalizar el concepto cuando la variable tiene más de dos valores (como con la educación \(s_i\)), escribamos \(Y_{si}\equiv f_i(s)\)
Esta función nos dice cuál sería el ingreso de \(i\) bajo todos los posibles niveles de \(s\)
En este caso, asumimos el SIC, que se traduce en: \[Y_{si}\perp s_i | X_i\]
En diseños experimentales, el SIC surge porque el tratamiento se asigna de forma aleatoria
Pero con datos observacionales, el SIC significa que \(s_i\) es casi como si fuera asignado de manera aleatoria cuando condicionamos en \(X_i\)
que indica lo que un individuo ganaría para todo valor de \(s\) (y no solo el valor realizado \(s_i\))
La única parte aleatoria es el error con media cero \(\nu_i\), que captura los factores no observados que afectan los ingresos
Sustituyendo el valor observado:
\[Y_i=\alpha+\rho s_i+\nu_i\]
Supongamos que el SIC se cumple dado un vector \(X_i\)
Descompongamos el error en una función lineal de las características \(X_i\) y un error \(u_i\): \[\nu_i=X_i'\gamma+u_i\]
donde se asume que \(E(\nu_i|X_i)=X_i'\gamma\) y donde \(u_i\) y \(X_i\) no están correlacionados
\[ \begin{aligned} E(f_i(s)|X_i,s_i)=E(f_i(s)|X_i)&=\alpha+\rho s+E(\nu_i|X_i) \\ &=\alpha+\rho s + X_i'\gamma \end{aligned} \]
Es decir, en el modelo de regresión causal \(Y_i=\alpha+\rho s_i+ X_i'\gamma+u_i\), \(u_i\) no está correlacionado con los regresores \(X_i\) y \(s_i\)
\(\rho\) es el efecto causal de interés
El supuesto clave es que la única razón por la cual \(\nu_i\) y \(s_i\) están correlacionados es \(X_i\)
Las comparaciones observacionales están contaminadas por el sesgo de selección
La aleatorización resuelve el problema de selección, es decir, al comparar la variable de resultados de interés entre individuos tratados y no tratados, obtenemos el efecto causal
La FEC nos ayuda a describir la relación entre dos variables, por ejemplo, entre el estado de tratamiento y la variable de resultados
La regresión es una aproximación lineal a la FEC, aún cuando la FEC no sea lineal
Usaremos regresión como una herramienta para comparar la variable de resultados entre grupos
La regresión tiene una interpretación causal si la FEC que trata de aproximar es cauusal
El SIC le da una interpretación causal a la regresión, pero el SIC es un supuesto fuerte
Material de clase en versión preliminar.
No reproducir, no distribuir, no citar.