Inferencia Causal
Irvin Rojas
rojasirvin.com
Centro de Investigación y Docencia Económicas División de Economía
\[\hat{V}(\beta_{MCO}^H)=\hat{\sigma}^2(X'X)^{-1}\] donde \(\hat{\sigma}^2=\frac{1}{N-k}\hat{u}_i^2\) y \(\hat{u}_i^2=(y_i-X_i'\hat{\beta}_{MCO})^2\)
\[V(\hat{\beta}_{MCO}^{R})=(X'X)^{-1}X'\Omega X(X'X)^{-1}\]
Dependiendo de cómo se especifique \(\hat{\psi}_i\), obtenemos distintas versiones del estimador de varianzas robusto
La propuesta de White original es:
\[HC0:\quad\hat{\psi}_i=\hat{u}_i^2\]
\[HC1:\quad\hat{\psi}_i=\frac{N}{N-k}\hat{u}_i^2\]
Un par de resultados nos ayudarán a entender qué hacen las otras correcciones a la matriz robusta en el software
Definimos la influencia de la observación \(i\) como:
\[h_{ii}=X_i'(X'X)^{-1}X_i\]
\(h_{ii}\) nos dice qué tanto jala la observación \(i\) a la línea de regresión
En una regresión con un solo regresor \(x\), se puede mostrar que la influencia de la observación \(i\) es:
\[h_{ii}=\frac{1}{N}+\frac{(x_i-\bar{x})^2}{\sum(x_j-\bar{x})^2}\] es decir, que la influencia se incrementa cuando \(x_i\) se aleja de la media
Algunos autores sugieren usar la influencia en la matriz de varianzas robusta
Se proponen algunas alternativas:
\[HC2:\quad\hat{\psi}_i=\frac{1}{1-h_{ii}}\hat{u}_i^2\]
\[HC3:\quad\hat{\psi}_i=\frac{1}{(1-h_{ii})^2}\hat{u}_i^2\]
Surgen naturalmente cuando las observaciones están agrupadas
El supuesto de errores independientes claramente no se cumple
\[y_{ig}=\beta_0+\beta_1 x_g+e_{ig}\]
Aquí, \(x_g\) es un regresor que es el mismo para todos los miembros del grupo \(g\)
Asumamos que todos los grupos tienen tamaño \(n\)
Podemos mostrar que la correlación de errores entre dos observaciones \(i\) y \(j\) que pertenecen a \(g\) es \[E(e_{ig}e_{jg})=\overbrace{\rho_e}^{\substack{\text{coeficiente de correlación} \\ \text{intraclase residual}}} \underbrace{\sigma_e^2}_{\text{varianza residual}}\]
Le damos una estructura aditiva a los errores:
\[e_{ig}=\nu_g+\eta_{ig}\] donde \(\nu_g\) captura toda la correlación dentro del grupo
\(\eta_{ig}\) es un error idiosincrático con media cero e independiente de cualquier otro \(\eta_{jg}\)
Como queremos analizar el problema del agrupamiento, asumimos que tanto \(v_g\) y \(\eta_{ig}\) son homocedásticos
\[\rho_e=\frac{\sigma_{\nu}^2}{\sigma_{\nu}^2+\sigma_{\eta}^2}\] - Deberíamos calcular la matriz de varianzas \(V_C(\hat{\beta})\) tomando en cuenta esta estructura
¿Qué pasa si hacemos MCO en el contexto de este problema?
Moulton (1984) muestra que:
\[\frac{V_C(\hat{\beta})}{V_{MCO}(\hat{\beta})}=1+(n-1)\rho_e\] - A \(\sqrt{\frac{V_C(\hat{\beta})}{V_{MCO}(\hat{\beta})}}\) se le conoce como el factor de Moulton
El factor de Moulton nos dice qué tanto sobrestimamos la precisión al ignorar la correlación intra-clase
Visto de otro modo:
\[V_C(\hat{\beta})=\left(1+(n-1)\rho_e\right)V_{MCO}(\hat{\beta})\]
Consideremos el caso extremo de que \(\rho_e=1\), es decir, que todas las \(y_{ig}\) dentro del mismo \(g\) son iguales
Entonces el factor de Moulton es simplemente \(\sqrt{n}\)
Visto de otro modo, la matriz de varianzas correcta se obtendría multiplicando por \(n\) la matriz \(V_{MCO}(\hat{\beta})\)
\[V_C(\hat{\beta})=n V_{MCO}(\hat{\beta})\]
En general, \(x_{ig}\) varía a nivel individual y tenemos grupos de tamaño \(n_g\)
En este caso, el factor de Moulton es la raíz cuadrada de:
\[\frac{V_C(\hat{\beta})}{V_{MCO}(\hat{\beta})}=1+\left(\frac{V(n_g)}{\bar{n}}+\bar{n}-1\right)\rho_x\rho_e\] donde \(\bar{n}\) es el tamaño promedio del grupo y \(\rho_x\) es la correlación intraclase de \(x_{ig}\)
Noten que el error que cometemos es más grande entre más heterogéneo es el tamaño de grupos y entre más grande es \(\rho_x\)
Por tanto, cuando el tratamiento no varía entre grupos, este error es grande
Solución paramétrica: calcular directamente el factor de Moulton e inflar los errores de MCO
Bootstrap por bloques: en vez de hacer muestras bootrstrap remuestreando individuos, se remuestrean grupos
Estimar los errores agrupados (clustered standard errors)
\[ \begin{aligned} \hat{\beta}&=\beta+(X'X)^{-1}X'u \\ &=(X'X)^{-1}\left(\sum_{g=1}^G X_gu_g\right) \end{aligned} \] - Suponiendo independencia entre \(g\) y correlación dentro de cada grupo:
\[E(u_{ig}u_{jg'}|x_{ig}x_{jg'})=0\] excepto cuando \(g=g'\)
\[V({\hat{\beta}}_{MCO})=(X'X)^{-1}\left(\sum_{g=1}^G X_g'u_gu_g'X\right)(X'X)^{-1}\]
\[\hat{V}(\hat{\beta}_{R})=(X'X)^{-1}X'\hat{\Sigma} X (X'X)^{-1}\]
\[\hat{\Sigma}=\left(\begin{matrix} \hat{u}_{1}^2 & 0 & 0 & \ldots & 0 \\ 0 & \hat{u}_{2}^2 & 0 & \ldots & 0 \\ \vdots & & & & \\ 0 & & & \ldots & \hat{u}_{n}^2\end{matrix}\right)\]
Para estimar la varianza con errores agrupados empleamos una generalización de la propuesta de White para errores robustos
Si \(G\to\infty\), el estimador de la matriz de errores agrupados robusta (CRVE) es consistente para estimar \(V(\hat{\beta})\):
\[\hat{V}_{CR}(\hat{\beta})=(X'X)^{-1}\left(\sum_{g=1}^G X_g'\hat{u}_g\hat{u}_g'X_g\right)(X'X)^{-1}\] donde \(\hat{u}_g\hat{u}_g'\) es la matriz de varianzas para los individuos del grupo \(g\)
\[\hat{V}_{CR}(\hat{\beta})=(X'X)^{-1}X'\hat{\Sigma} X(X'X)^{-1}\]
\[\small \hat{\Sigma}=\left(\begin{matrix} \hat{u}_{1,1}^2 & \hat{u}_{1,1}\hat{u}_{2,1} & \ldots & \hat{u}_{1,1} \hat{u}_{n,1}& 0 & 0 & \ldots & 0 & \ldots & 0 & 0 & \ldots & 0 \\ \hat{u}_{2,1}\hat{u}_{1,1} & \hat{u}_{2,1}^2 & \ldots & \hat{u}_{2,1}\hat{u}_{n,1} & 0 & 0 & \ldots & 0 & \ldots & 0 & 0 & \ldots & 0\\ \vdots & \vdots & & \vdots & \vdots & \vdots & & \vdots& & \vdots & \vdots & & \vdots \\ \hat{u}_{n,1}\hat{u}_{1,1} & \hat{u}_{n,1}\hat{u}_{2,1}& \ldots & \hat{u}_{n,1}^2& 0 & 0 &\ldots & 0 & \ldots & 0 & 0 & \ldots & 0 \\ 0 & 0 & \ldots & 0 & \hat{u}_{1,2}^2 & \hat{u}_{1,2}\hat{u}_{2,2} & \ldots & \hat{u}_{1,2}\hat{u}_{n,2} &\ldots & 0 & 0 & \ldots & 0 \\ 0 & 0 & \ldots & 0 & \hat{u}_{2,2}\hat{u}_{1,2} & \hat{u}_{2,2}^2 & \ldots & \hat{u}_{2,2}\hat{u}_{n,2} &\ldots & 0 & 0 & \ldots & 0 \\ \vdots & \vdots & & \vdots & \vdots & \vdots & & \vdots& & \vdots & \vdots & & \vdots \\ 0 & 0 & \ldots & 0 & \hat{u}_{n,2}\hat{u}_{1,2} & \hat{u}_{n,2}\hat{u}_{2,2} & \ldots & \hat{u}_{n,2}^2 &\ldots & 0 & 0 & \ldots & 0 \\ \vdots & \vdots & & \vdots & \vdots & \vdots & & \vdots& & \vdots & \vdots & & \vdots \\ 0 & 0 & \ldots & 0 & 0 & 0 & \ldots & 0 &\ldots & \hat{u}_{1,G}^2 & \hat{u}_{12,G}\hat{u}_{2,G} & \ldots & \hat{u}_{1,G}\hat{u}_{n,G} \\ 0 & 0 & \ldots & 0 & 0 & 0 & \ldots & 0 &\ldots & \hat{u}_{2,G}\hat{u}_{1,G} & \hat{u}_{2,G}^2 & \ldots & \hat{u}_{2,G}\hat{u}_{n,G} \\ \vdots & \vdots & & \vdots & \vdots & \vdots & & \vdots& & \vdots & \vdots & & \vdots \\ 0 & 0 & \ldots & 0 & 0 & 0 & \ldots & 0 &\ldots & \hat{u}_{n,G}\hat{u}_{1,G} & \hat{u}_{n,G}\hat{u}_{2,G} & \ldots & \hat{u}_{n,G}^2 \end{matrix}\right)\]
El resultado asintótico de consistencia depende de que \(G\to\infty\)
Si \(G\) está fijo, no importa qué tan grande sea \(N\), \(\hat{V}_{CRVE}(\hat{\beta})\) no será consistente
Algunos paquetes ajustan esta matriz de varianzas haciendo una corrección parecida a \(HC1\), pero ahora tomando en cuanta también \(G\) y no solo \(N\) (ver por ejemplo, vcovCR en R)
Con pocos grupos, subestimamos los errores estándar y rechazamos la \(H_0\) más veces de lo que deberíamos (over-rejection)
Si tenemos pocos grupos, recurrimos a otras soluciones (ver Cameron y Miller, 2015)
La recomendación práctica es que se tomen en serio el problema de los pocos clusters
¿Cuánto es poco? Cameron y Miller (2015) citan 50. (¡Qué raro, el número de estados en EUA!)
Material de clase en versión preliminar.
No reproducir, no distribuir, no citar.