Recordemos que con errores homocedásticos, la matriz de varianzas del estimador de MCO puede ser estimada como:
\[\hat{V}(\beta_{MCO}^H)=\hat{\sigma}^2(X'X)^{-1}\]
donde \(\hat{\sigma}^2=\frac{1}{N-k}\hat{u}_i^2\) y \(\hat{u}_i^2=(y_i-X_i'\hat{\beta}_{MCO})^2\)
Una primera desviación respecto a los errores clásicos ocurre cuando relajamos el supuesto de homocedasticidad
La varianza asintótica robusta a heterocedasticidad
\[V(\hat{\beta}_{MCO}^{R})=(X'X)^{-1}X'\Omega X(X'X)^{-1}\]
Un estimador de la varianza del estimador de MCO que no asume homocedasticidad es el estimador propuesto por White (1980)
\[\hat{V}(\beta_{MCO}^R)=(X'X)^{-1}\left(\sum_i\hat{u}_i^2x_ix_i'\right)(X'X)^{-1}\]
Aquí un recordatorio de por qué podemos escribir \(X'uu'X\) como una sumatoria
Consideremos la carnita del sándiwch
\[\sum_i\hat{u}_i^2x_ix_i \equiv \sum_i \hat{\psi}_i x_ix_i'\]
Dependiendo de cómo se especifique \(\hat{\psi}_i\), obtenemos distintas versiones del estimador de varianzas robusto
La propuesta de White original es:
\[HC0:\quad\hat{\psi}_i=\hat{u}_i^2\]
Este estimador asintóticamente consistente
En muestras pequeñas, muchas veces se emplea la siguiente corrección:
\[HC1:\quad\hat{\psi}_i=\frac{N}{N-k}\hat{u}_i^2\]
Un par de resultados nos ayudarán a entender qué hacen las otras correcciones a la matriz robusta en el software
Definimos la influencia de la observación \(i\) como:
\[h_{ii}=X_i'(X'X)^{-1}X_i\]
\(h_{ii}\) nos dice qué tanto jala la observación \(i\) a la línea de regresión
En una regresión con un solo regresor \(x\), se puede mostrar que la influencia de la observación \(i\) es:
\[h_{ii}=\frac{1}{N}+\frac{(x_i-\bar{x})^2}{\sum(x_j-\bar{x})^2}\] es decir, que la influencia se incrementa cuando \(x_i\) se aleja de la media
La influencia es un número entre 0 y 1 y además \(\sum_i h_{ii}=k\), siendo \(k\) el número de regresores
Algunos autores sugieren usar la influencia en la matriz de varianzas robusta
Se proponen algunas alternativas:
\[HC2:\quad\hat{\psi}_i=\frac{1}{1-h_{ii}}\hat{u}_i^2\]
\[HC3:\quad\hat{\psi}_i=\frac{1}{(1-h_{ii})^2}\hat{u}_i^2\]
Long & Ervin (2000) realizaron un experimento de simulación y recomendaron usar \(HC3\) en muestras pequeñas, por lo que el paquete sandwich en R usa \(HC3\) por default
Es importante tener en cuenta qué tipo de errores estándar piden que el software calcule
Surgen naturalmente cuando las observaciones están agrupadas
El supuesto de errores independientes claramente no se cumple
Pensemos en un problema simple para entender la intución:
\[y_{ig}=\beta_0+\beta_1 x_g+e_{ig}\]
Aquí, \(x_g\) es un regresor que es el mismo para todos los miembros del grupo \(g\)
Asumamos que todos los grupos tienen tamaño \(n\)
Podemos mostrar que la correlación de errores entre dos observaciones \(i\) y \(j\) que pertenecen a \(g\) es \[E(e_{ig}e_{jg})=\overbrace{\rho_e}^{\substack{\text{coeficiente de correlación} \\ \text{intraclase residual}}} \underbrace{\sigma_e^2}_{\text{varianza residual}}\]
Le damos una estructura aditiva a los errores:
\[e_{ig}=\nu_g+\eta_{ig}\] donde \(\nu_g\) captura toda la correlación dentro del grupo
\(\eta_{ig}\) es un error idiosincrático con media cero e independiente de cualquier otro \(\eta_{jg}\)
Como queremos analizar el problema del agrupamiento, asumimos que tanto \(v_g\) y \(\eta_{ig}\) son homocedásticos
Con esta estructura de errores, el coeficiente de correlación intraclase es:
\[\rho_e=\frac{\sigma_{\nu}^2}{\sigma_{\nu}^2+\sigma_{\eta}^2}\]
Deberíamos calcular la matriz de varianzas \(V_C(\hat{\beta})\) tomando en cuenta esta estructura
¿Qué pasa si hacemos MCO en el contexto de este problema?
Moulton (1984) muestra que:
\[\frac{V_C(\hat{\beta})}{V_{MCO}(\hat{\beta})}=1+(n-1)\rho_e\] - A \(\sqrt{\frac{V_C(\hat{\beta})}{V_{MCO}(\hat{\beta})}}\) se le conoce como el factor de Moulton
El factor de Moulton nos dice qué tanto sobreestimamos la precisión al ignorar la correlación intra clase
Visto de otro modo:
\[V_C(\hat{\beta})=\left(1+(n-1)\rho_e\right)V_{MCO}(\hat{\beta})\]
Es decir entre más grande sea la correlación dentro de los grupos, más deberíamos inflar los errores de MCO
Consideremos el caso extremo de que \(\rho_e=1\), es decir, que todas las \(y_{ig}\) dentro del mismo \(g\) son iguales
Entonces el factor de Moulton es simplemente \(\sqrt{n}\)
Visto de otro modo, la matriz de varianzas correcta se obtendría multiplicando por \(n\) la matriz \(V_{MCO}(\hat{\beta})\)
\[V_C(\hat{\beta})=n V_{MCO}(\hat{\beta})\]
En general, \(x_{ig}\) varía a nivel individual y tenemos grupos de tamaño \(n_g\)
En este caso, el factor de Moulton es la raíz cuadrada de:
\[\frac{V_C(\hat{\beta})}{V_{MCO}(\hat{\beta})}=1+\left(\frac{V(n_g)}{\bar{n}}+\bar{n}-1\right)\rho_x\rho_e\] donde \(\bar{n}\) es el tamaño promedio del grupo y \(\rho_x\) es la correlación intraclase de \(x_{ig}\)
No es necesario asumir una forma para \(\rho_x\) (se puede calcular)
Noten que el error que cometemos es más grande entre más heterogéneo es el tamaño de grupos y entre más grande es \(\rho_x\)
Por tanto, cuando el tratamiento no varía entre grupos, este error es grande
Solución paramétrica: calcular directamente el factor de Moulton e inflar los errores de MCO
Bootstrap por bloques: ver más adelante el concept de bootstrap
Estimar los errores agrupados (clustered standard errors)
Con errores agrupados podemos escribir el estimador de MCO como
\[ \begin{aligned} \hat{\beta}&=\beta+(X'X)^{-1}X'u \\ &=(X'X)^{-1}\left(\sum_{g=1}^G X_gu_g\right) \end{aligned} \]
Suponiendo independencia entre \(g\) y correlación dentro de cada grupo:
\[E(u_{ig}u_{jg'}|x_{ig}x_{jg'})=0\]
excepto cuando \(g=g'\)
En este caso, el estimador de MCO tiene una varianza asintótica dada por
\[V({\hat{\beta}}_{MCO})=(X'X)^{-1}\left(\sum_{g=1}^G X_g'u_gu_g'X\right)(X'X)^{-1}\]
Con errores heterocedásticos, pero sin agrupamiento, la matriz de varianzas de White (1980) tiene una estructura como sigue:
\[\hat{V}(\hat{\beta}_{R})=(X'X)^{-1}X'\hat{\Sigma} X (X'X)^{-1}\]
Donde
\[\hat{\Sigma}=\left(\begin{matrix} \hat{u}_{1}^2 & 0 & 0 & \ldots & 0 \\ 0 & \hat{u}_{2}^2 & 0 & \ldots & 0 \\ \vdots & & & & \\ 0 & & & \ldots & \hat{u}_{n}^2\end{matrix}\right)\]
Para estimar la varianza con errores agrupados empleamos una generalización de la propuesta de White para errores robustos
Si \(G\to\infty\), el estimador de la matriz de errores agrupados robusta (CRVE) es consistente para estimar \(V(\hat{\beta})\):
\[\hat{V}_{CR}(\hat{\beta})=(X'X)^{-1}\left(\sum_{g=1}^G X_g'\hat{u}_g\hat{u}_g'X_g\right)(X'X)^{-1}\] donde \(\hat{u}_g\hat{u}_g'\) es la matriz de varianzas para los individuos del grupo \(g\)
De manera compacta
\[\hat{V}_{CR}(\hat{\beta})=(X'X)^{-1}X'\hat{\Sigma} X(X'X)^{-1}\]
Y en este caso la matriz \(\hat{\Sigma}\) tiene una estructura agrupada
\[\small \hat{\Sigma}=\left(\begin{matrix} \hat{u}_{1,1}^2 & \hat{u}_{1,1}\hat{u}_{2,1} & \ldots & \hat{u}_{1,1} \hat{u}_{n,1}& 0 & 0 & \ldots & 0 & \ldots & 0 & 0 & \ldots & 0 \\ \hat{u}_{2,1}\hat{u}_{1,1} & \hat{u}_{2,1}^2 & \ldots & \hat{u}_{2,1}\hat{u}_{n,1} & 0 & 0 & \ldots & 0 & \ldots & 0 & 0 & \ldots & 0\\ \vdots & \vdots & & \vdots & \vdots & \vdots & & \vdots& & \vdots & \vdots & & \vdots \\ \hat{u}_{n,1}\hat{u}_{1,1} & \hat{u}_{n,1}\hat{u}_{2,1}& \ldots & \hat{u}_{n,1}^2& 0 & 0 &\ldots & 0 & \ldots & 0 & 0 & \ldots & 0 \\ 0 & 0 & \ldots & 0 & \hat{u}_{1,2}^2 & \hat{u}_{1,2}\hat{u}_{2,2} & \ldots & \hat{u}_{1,2}\hat{u}_{n,2} &\ldots & 0 & 0 & \ldots & 0 \\ 0 & 0 & \ldots & 0 & \hat{u}_{2,2}\hat{u}_{1,2} & \hat{u}_{2,2}^2 & \ldots & \hat{u}_{2,2}\hat{u}_{n,2} &\ldots & 0 & 0 & \ldots & 0 \\ \vdots & \vdots & & \vdots & \vdots & \vdots & & \vdots& & \vdots & \vdots & & \vdots \\ 0 & 0 & \ldots & 0 & \hat{u}_{n,2}\hat{u}_{1,2} & \hat{u}_{n,2}\hat{u}_{2,2} & \ldots & \hat{u}_{n,2}^2 &\ldots & 0 & 0 & \ldots & 0 \\ \vdots & \vdots & & \vdots & \vdots & \vdots & & \vdots& & \vdots & \vdots & & \vdots \\ 0 & 0 & \ldots & 0 & 0 & 0 & \ldots & 0 &\ldots & \hat{u}_{1,G}^2 & \hat{u}_{12,G}\hat{u}_{2,G} & \ldots & \hat{u}_{1,G}\hat{u}_{n,G} \\ 0 & 0 & \ldots & 0 & 0 & 0 & \ldots & 0 &\ldots & \hat{u}_{2,G}\hat{u}_{1,G} & \hat{u}_{2,G}^2 & \ldots & \hat{u}_{2,G}\hat{u}_{n,G} \\ \vdots & \vdots & & \vdots & \vdots & \vdots & & \vdots& & \vdots & \vdots & & \vdots \\ 0 & 0 & \ldots & 0 & 0 & 0 & \ldots & 0 &\ldots & \hat{u}_{n,G}\hat{u}_{1,G} & \hat{u}_{n,G}\hat{u}_{2,G} & \ldots & \hat{u}_{n,G}^2 \end{matrix}\right)\]
El resultado asintótico de consistencia depende de que \(G\to\infty\)
Si \(G\) está fijo, no importa qué tan grande sea \(N\), \(\hat{V}_{CRVE}(\hat{\beta})\) no será consistente
Algunos paquetes ajustan esta matriz de varianzas haciendo una corrección parecida a \(HC1\), pero ahora tomando en cuanta también \(G\) y no solo \(N\) (ver por ejemplo, vcovCR en R)
Con pocos grupos, subestimamos los errores estándar y rechazamos la \(H_0\) más veces de lo que deberíamos (over-rejection)
Si tenemos pocos grupos, recurrimos a otras soluciones (ver Cameron y Miller, 2015) - Inflar los errores con un corrector de sesgo - Bootstrap agrupado con refinamiento asintótico
La recomendación práctica es que se tomen en serio el problema de los pocos clusters
¿Cuánto es poco? Cameron y Miller (2015) citan 50. (¡Qué raro, el número de estados en EUA!)