Errores estándar e inferencia

Inferencia Causal

Centro de Investigación y Docencia Económicas División de Economía

Errores estándar no estándar

Errores estándar robustos

Recordemos que con errores homocedásticos, la matriz de varianzas del estimador de MCO puede ser estimada como:

\[\hat{V}(\beta_{MCO}^H)=\hat{\sigma}^2(X'X)^{-1}\] donde \(\hat{\sigma}^2=\frac{1}{N-k}\hat{u}_i^2\) y \(\hat{u}_i^2=(y_i-X_i'\hat{\beta}_{MCO})^2\)

Una primera desviación respecto a los errores clásicos ocurre cuando relajamos el supuesto de homocedasticidad
En la clase 3 estudiamos de manera general las propiedades asintóticas del estimador de MCO
La varianza asintótica es:

\[V(\hat{\beta}_{MCO}^{R})=(X'X)^{-1}X'\Omega X(X'X)^{-1}\]

Errores robustos a la heterocedasticidad

Un estimador de la varianza del estimador de MCO que no asume homocedasticidad es el estimador propuesto por White (1980)
Sabemos que la matriz de varianzas del estimador de MCO robusta a la heterocedasticidad es: \[\hat{V}(\beta_{MCO}^R)=(X'X)^{-1}\left(\sum_i\hat{u}_i^2x_ix_i'\right)(X'X)^{-1}\]
Aquí un recordatorio de por qué podemos escribir \(X'uu'X\) como una sumatoria
Consideremos la carnita del sándwich \[\sum_i\hat{u}_i^2x_ix_i \equiv \sum_i \hat{\psi}_i x_ix_i'\]

Errores estándar robustos

Dependiendo de cómo se especifique \(\hat{\psi}_i\), obtenemos distintas versiones del estimador de varianzas robusto
La propuesta de White original es:

\[HC0:\quad\hat{\psi}_i=\hat{u}_i^2\]

Este estimador asintóticamente consistente

En muestras pequeñas, muchas veces se emplea la siguiente corrección:

\[HC1:\quad\hat{\psi}_i=\frac{N}{N-k}\hat{u}_i^2\]

Desviación a la influencia

Un par de resultados nos ayudarán a entender qué hacen las otras correcciones a la matriz robusta en el software
Definimos la influencia de la observación \(i\) como:

\[h_{ii}=X_i'(X'X)^{-1}X_i\]

\(h_{ii}\) nos dice qué tanto jala la observación \(i\) a la línea de regresión
En una regresión con un solo regresor \(x\), se puede mostrar que la influencia de la observación \(i\) es:

\[h_{ii}=\frac{1}{N}+\frac{(x_i-\bar{x})^2}{\sum(x_j-\bar{x})^2}\] es decir, que la influencia se incrementa cuando \(x_i\) se aleja de la media

La influencia es un número entre 0 y 1 y además \(\sum_i h_{ii}=k\), siendo \(k\) el número de regresores

Errores estándar robustos

Algunos autores sugieren usar la influencia en la matriz de varianzas robusta
Se proponen algunas alternativas:

\[HC2:\quad\hat{\psi}_i=\frac{1}{1-h_{ii}}\hat{u}_i^2\]

\[HC3:\quad\hat{\psi}_i=\frac{1}{(1-h_{ii})^2}\hat{u}_i^2\]

Long & Ervin (2000) realizaron un experimento de simulación y recomendaron usar \(HC3\) en muestras pequeñas, por lo que el paquete sandwich en R usa \(HC3\) por default
Es importante tener en cuenta qué tipo de errores estándar piden que el software calcule

Errores agrupados

Surgen naturalmente cuando las observaciones están agrupadas
- Niños en salones de clase
- Hogares en localidades
- Solicitudes de empleo en una empresa
- Ahorradoras en un banco
El supuesto de errores independientes claramente no se cumple

Pensemos en un problema simple para entender la intución:

\[y_{ig}=\beta_0+\beta_1 x_g+e_{ig}\]

Aquí, \(x_g\) es un regresor que es el mismo para todos los miembros del grupo \(g\)
Asumamos que todos los grupos tienen tamaño \(n\)

Errores agrupados

Podemos mostrar que la correlación de errores entre dos observaciones \(i\) y \(j\) que pertenecen a \(g\) es \[E(e_{ig}e_{jg})=\overbrace{\rho_e}^{\substack{\text{coeficiente de correlación} \\ \text{intraclase residual}}} \underbrace{\sigma_e^2}_{\text{varianza residual}}\]
Le damos una estructura aditiva a los errores:

\[e_{ig}=\nu_g+\eta_{ig}\] donde \(\nu_g\) captura toda la correlación dentro del grupo

\(\eta_{ig}\) es un error idiosincrático con media cero e independiente de cualquier otro \(\eta_{jg}\)
Como queremos analizar el problema del agrupamiento, asumimos que tanto \(v_g\) y \(\eta_{ig}\) son homocedásticos

Errores agrupados

Con esta estructura de errores, el coeficiente de correlación intraclase es:

\[\rho_e=\frac{\sigma_{\nu}^2}{\sigma_{\nu}^2+\sigma_{\eta}^2}\] - Deberíamos calcular la matriz de varianzas \(V_C(\hat{\beta})\) tomando en cuenta esta estructura

¿Qué pasa si hacemos MCO en el contexto de este problema?
Moulton (1984) muestra que:

\[\frac{V_C(\hat{\beta})}{V_{MCO}(\hat{\beta})}=1+(n-1)\rho_e\] - A \(\sqrt{\frac{V_C(\hat{\beta})}{V_{MCO}(\hat{\beta})}}\) se le conoce como el factor de Moulton

Factor de Moulton

El factor de Moulton nos dice qué tanto sobrestimamos la precisión al ignorar la correlación intra-clase
Visto de otro modo:

\[V_C(\hat{\beta})=\left(1+(n-1)\rho_e\right)V_{MCO}(\hat{\beta})\]

Es decir entre más grande sea la correlación dentro de los grupos, más deberíamos inflar los errores de MCO

Consideremos el caso extremo de que \(\rho_e=1\), es decir, que todas las \(y_{ig}\) dentro del mismo \(g\) son iguales
Entonces el factor de Moulton es simplemente \(\sqrt{n}\)
Visto de otro modo, la matriz de varianzas correcta se obtendría multiplicando por \(n\) la matriz \(V_{MCO}(\hat{\beta})\)

\[V_C(\hat{\beta})=n V_{MCO}(\hat{\beta})\]

Errores agrupados en general

En general, \(x_{ig}\) varía a nivel individual y tenemos grupos de tamaño \(n_g\)
En este caso, el factor de Moulton es la raíz cuadrada de:

\[\frac{V_C(\hat{\beta})}{V_{MCO}(\hat{\beta})}=1+\left(\frac{V(n_g)}{\bar{n}}+\bar{n}-1\right)\rho_x\rho_e\] donde \(\bar{n}\) es el tamaño promedio del grupo y \(\rho_x\) es la correlación intraclase de \(x_{ig}\)

No es necesario asumir una forma para \(\rho_x\) (se puede calcular)

Noten que el error que cometemos es más grande entre más heterogéneo es el tamaño de grupos y entre más grande es \(\rho_x\)
Por tanto, cuando el tratamiento no varía entre grupos, este error es grande

Soluciones para errores agrupados

Solución paramétrica: calcular directamente el factor de Moulton e inflar los errores de MCO
Bootstrap por bloques: en vez de hacer muestras bootrstrap remuestreando individuos, se remuestrean grupos
Estimar los errores agrupados (clustered standard errors)

Errores estándar agrupados

Con errores agrupados podemos escribir el estimador de MCO como

\[ \begin{aligned} \hat{\beta}&=\beta+(X'X)^{-1}X'u \\ &=(X'X)^{-1}\left(\sum_{g=1}^G X_gu_g\right) \end{aligned} \] - Suponiendo independencia entre \(g\) y correlación dentro de cada grupo:

\[E(u_{ig}u_{jg'}|x_{ig}x_{jg'})=0\] excepto cuando \(g=g'\)

En este caso, el estimador de MCO tiene una varianza asintótica dada por

\[V({\hat{\beta}}_{MCO})=(X'X)^{-1}\left(\sum_{g=1}^G X_g'u_gu_g'X\right)(X'X)^{-1}\]

Errores estándar agrupados

Con errores heterocedásticos, pero sin agrupamiento, la matriz de varianzas de White (1980) tiene una estructura como sigue:

\[\hat{V}(\hat{\beta}_{R})=(X'X)^{-1}X'\hat{\Sigma} X (X'X)^{-1}\]

Donde

\[\hat{\Sigma}=\left(\begin{matrix} \hat{u}_{1}^2 & 0 & 0 & \ldots & 0 \\ 0 & \hat{u}_{2}^2 & 0 & \ldots & 0 \\ \vdots & & & & \\ 0 & & & \ldots & \hat{u}_{n}^2\end{matrix}\right)\]

Errores estándar agrupados

Para estimar la varianza con errores agrupados empleamos una generalización de la propuesta de White para errores robustos
Si \(G\to\infty\), el estimador de la matriz de errores agrupados robusta (CRVE) es consistente para estimar \(V(\hat{\beta})\):

\[\hat{V}_{CR}(\hat{\beta})=(X'X)^{-1}\left(\sum_{g=1}^G X_g'\hat{u}_g\hat{u}_g'X_g\right)(X'X)^{-1}\] donde \(\hat{u}_g\hat{u}_g'\) es la matriz de varianzas para los individuos del grupo \(g\)

De manera compacta

\[\hat{V}_{CR}(\hat{\beta})=(X'X)^{-1}X'\hat{\Sigma} X(X'X)^{-1}\]

Errores estándar agrupados

Y en este caso la matriz \(\hat{\Sigma}\) tiene una estructura agrupada

\[\small \hat{\Sigma}=\left(\begin{matrix} \hat{u}_{1,1}^2 & \hat{u}_{1,1}\hat{u}_{2,1} & \ldots & \hat{u}_{1,1} \hat{u}_{n,1}& 0 & 0 & \ldots & 0 & \ldots & 0 & 0 & \ldots & 0 \\ \hat{u}_{2,1}\hat{u}_{1,1} & \hat{u}_{2,1}^2 & \ldots & \hat{u}_{2,1}\hat{u}_{n,1} & 0 & 0 & \ldots & 0 & \ldots & 0 & 0 & \ldots & 0\\ \vdots & \vdots & & \vdots & \vdots & \vdots & & \vdots& & \vdots & \vdots & & \vdots \\ \hat{u}_{n,1}\hat{u}_{1,1} & \hat{u}_{n,1}\hat{u}_{2,1}& \ldots & \hat{u}_{n,1}^2& 0 & 0 &\ldots & 0 & \ldots & 0 & 0 & \ldots & 0 \\ 0 & 0 & \ldots & 0 & \hat{u}_{1,2}^2 & \hat{u}_{1,2}\hat{u}_{2,2} & \ldots & \hat{u}_{1,2}\hat{u}_{n,2} &\ldots & 0 & 0 & \ldots & 0 \\ 0 & 0 & \ldots & 0 & \hat{u}_{2,2}\hat{u}_{1,2} & \hat{u}_{2,2}^2 & \ldots & \hat{u}_{2,2}\hat{u}_{n,2} &\ldots & 0 & 0 & \ldots & 0 \\ \vdots & \vdots & & \vdots & \vdots & \vdots & & \vdots& & \vdots & \vdots & & \vdots \\ 0 & 0 & \ldots & 0 & \hat{u}_{n,2}\hat{u}_{1,2} & \hat{u}_{n,2}\hat{u}_{2,2} & \ldots & \hat{u}_{n,2}^2 &\ldots & 0 & 0 & \ldots & 0 \\ \vdots & \vdots & & \vdots & \vdots & \vdots & & \vdots& & \vdots & \vdots & & \vdots \\ 0 & 0 & \ldots & 0 & 0 & 0 & \ldots & 0 &\ldots & \hat{u}_{1,G}^2 & \hat{u}_{12,G}\hat{u}_{2,G} & \ldots & \hat{u}_{1,G}\hat{u}_{n,G} \\ 0 & 0 & \ldots & 0 & 0 & 0 & \ldots & 0 &\ldots & \hat{u}_{2,G}\hat{u}_{1,G} & \hat{u}_{2,G}^2 & \ldots & \hat{u}_{2,G}\hat{u}_{n,G} \\ \vdots & \vdots & & \vdots & \vdots & \vdots & & \vdots& & \vdots & \vdots & & \vdots \\ 0 & 0 & \ldots & 0 & 0 & 0 & \ldots & 0 &\ldots & \hat{u}_{n,G}\hat{u}_{1,G} & \hat{u}_{n,G}\hat{u}_{2,G} & \ldots & \hat{u}_{n,G}^2 \end{matrix}\right)\]

Errores estándar agrupados

El resultado asintótico de consistencia depende de que \(G\to\infty\)
Si \(G\) está fijo, no importa qué tan grande sea \(N\), \(\hat{V}_{CRVE}(\hat{\beta})\) no será consistente
Algunos paquetes ajustan esta matriz de varianzas haciendo una corrección parecida a \(HC1\), pero ahora tomando en cuanta también \(G\) y no solo \(N\) (ver por ejemplo, vcovCR en R)

Con pocos grupos, subestimamos los errores estándar y rechazamos la \(H_0\) más veces de lo que deberíamos (over-rejection)
Si tenemos pocos grupos, recurrimos a otras soluciones (ver Cameron y Miller, 2015)
- Inflar los errores con un corrector de sesgo
- Bootstrap agrupado con refinamiento asintótico
La recomendación práctica es que se tomen en serio el problema de los pocos clusters
¿Cuánto es poco? Cameron y Miller (2015) citan 50. (¡Qué raro, el número de estados en EUA!)

Material de clase en versión preliminar.

No reproducir, no distribuir, no citar.