\[y_{it}=\alpha_{it}+x_{it}'\beta_{it}+u_{it}\]
con \(i=1,\ldots,N\) y \(t=1,\ldots,T\)
Este modelo así escrito es muy general pues tiene un intercepto y una pendiente para cada \(i\) y \(t\)
Sin embargo, este modelo es imposible de estimar pues hay más parámetros que las \(T\times N\) observaciones
\[y_{it}=\alpha_i+x_{it}'\beta+\varepsilon_{it}\]
donde \(\varepsilon_{it}\) es iid sobre \(i\) y \(t\)
Las \(\alpha_i\) las pensamos como variables aleatorias que capturan la heterogeneidad
Para propósitos de estimación, recurriremos a un supuesto clave:
Exogeneidad fuerte o estricta: asumimos que el error tiene media cero condicional cuando condicionamos en los valores contemporáneos, pasados y futuros
\[E(\varepsilon_{it}|\alpha_i,x_{i1},\ldots,x_{iT})=0,\quad\quad t=1,\ldots,T\]
La exogeneidad fuerte descarta modelos donde \(y_{it}\) depende de sus rezagos o donde alguna de las \(x_{it}\) es endógena
La forma en que tratemos a \(\alpha\) resultará en los dos tipos de modelos principales de esta clase
Si asumimos que los efectos individuales están potencialmente correlacionados con \(x_{it}\), nuestro modelo se conoce como de efectos fijos
\(\alpha_i\) es la heterogeneidad no observada
Con paneles cortos no podemos estimar de forma consistente las \(\alpha_i\)
Recurriremos a métodos para deshacernos de las \(\alpha_i\)
Por otro lado, si asumimos que la heterogeneidad no observada es una variable aleatoria independiente de \(x_{it}\), podemos hacer algunos supuestos sobre su distribución y especificar un modelo de efectos aleatorios
Suponemos que tanto la heterogeneidad no observada como el error son iid
\(\alpha_i \sim (\alpha,\sigma^2_{\alpha})\)
\(\varepsilon_{it} \sim (0,\sigma^2_{\varepsilon})\)
Podemos ver al modelo como una transformación del original con un error compuesto \(u_{it}=\alpha_i+\varepsilon_{it}\):
\[y_{it}=x_{it}'\beta+u_{it}\]
Podemos mostrar que la correlación de los errores compuestos de dos observaciones en distintos momentos del tiempo es \(cor(u_{it},u_{is})=\frac{\sigma_{\alpha}^2}{\sigma_{\alpha}^2+\sigma_{\varepsilon}^2}\)
También se conoce como modelo equicorrelacionado
Quizás un mejor nombre para el modelo de efectos aleatorios es el a veces usado modelo de intercepto aleatorio o de componentes aleatorios
Para el modelo de efectos fijos, Lee (2002) usa el nombre de efecto relacionado y para el de efectos aleatorios el de efecto no relacionado
Lo más importante es tener en cuenta que \(\alpha_i\) es una variable aleatoria, lo que cambia es lo que asumimos sobre su correlación con los regresores
También conocido como estimador within
Tomando la media sobre \(i\)
\[ \begin{aligned} \frac{1}{T}\sum_iy_{it}&=\frac{1}{T}\sum_i\alpha_i+\frac{1}{T}\sum_ix_{it}'\beta+\frac{1}{T}\sum_i\varepsilon_{it} \\ \bar{y}_{i}&=\alpha_i+ \bar{x}_i\beta+\bar{\varepsilon}_i \end{aligned} \]
\[y_{it}-\bar{y}_{i}=(x_{it}-\bar{x}_i)'\beta+(\varepsilon_{it}-\bar{\varepsilon}_i)\]
El estimador within es el estimador de MCO a esta ecuación modificada
\(\hat{\beta}\) es consistente si los \(\alpha_i\) son efectos fijos y \(\varepsilon_{it}\) es iid
Una desventaja del modelo de efectos fijos es que no se pueden identificar el parámetros sobre regresores que son fijos en el tiempo, auque sean observables (sexo, IQ, lugar de nacimiento, raza, entre muchos otros)
Frecuentemente no estamos interesados en estimar los efectos fijos, es decir, los consideremos parámetros incómodos
Si quisiéramos estimarlos directamente, podríamos incluir dummies individuales
Se requieren páneles largos para que los efectos estimados sean consistentes
En el resto del curso nos enfocaremos en casos donde podemos ignorar estos parámetros incómodos
\[y_{it}-y_{it-1}=(x_{it}-x_{it-1})'\beta+(\varepsilon_{it}-\varepsilon_{it-1})\]
Supongamos que existen una serie de características que son fijas en el tiempo
El estimador de primeras diferencias es consistente
El estimador de primeras diferencias y el within son iguales cuando \(T=2\)
Con \(T>2\) el estimador de primeras diferencias es menos eficiente
Los paquetes estadísticos usan un estimador within
\[\hat{\beta}_W=\left(\sum_i\sum_t(x_{it}-\bar{x}_i)(x_{it}-\bar{x}_i)'\right)^{-1}\sum_i\sum_y(x_{it}-\bar{x}_i)(y_{it}-\bar{y}_i)\]
La consistencia del estimador depende de que \(p\lim \frac{1}{NT}\sum_i\sum_y(x_{it}-\bar{x}_i)(y_{it}-\bar{y}_i)=0\) cuando \(N\to\infty\) o \(T\to\infty\)
Frecuentemente tenemos pocos periodos (páneles cortos), por lo que esperamos que haya muchos individuos para probar consistencia
La condición de exogeneidad fuerte es suficiente para que \(p\lim \frac{1}{NT}\sum_i\sum_y(x_{it}-\bar{x}_i)(y_{it}-\bar{y}_i)=0\) cuando \(N\to\infty\) o \(T\to\infty\)
\[ \begin{aligned} \hat{V}(\hat{\beta}_{W,h})&= \sigma^2_{\varepsilon}\left(\sum_i\sum_t (x_{it}-\bar{x}_i)(x_{it}-\bar{x}_i)'\right)^{-1}\\ &=\sigma^2_{\varepsilon}\left(\sum_i\sum_t \ddot{x}_{it}\ddot{x}_{it}'\right)^{-1} \end{aligned} \] donde se puede estimar \(\hat{\sigma}^2_{\varepsilon}=\frac{1}{N(T-1)-K}\sum_i\sum_t\hat{\varepsilon}_{it}\)
\[ \begin{aligned} \hat{V}(\hat{\beta}_{W})&=\left(\sum_i\sum_t \ddot{x}_{it}\ddot{x}_{it}'\right)^{-1}\left(\sum_i \sum_t \sum_s \ddot{x}_{it}\ddot{x}_{is}'\hat{\ddot{e}}_{it}\hat{\ddot{e}}_{is}\right)\left(\sum_i\sum_t \ddot{x}_{it}\ddot{x}_{it}'\right)^{-1} \end{aligned} \]
Esta versión con la estructura de la matríz de White es robusta a la heterocedasticidad y a la correlación serial
Es lo que se conoce como matriz de varianzas agrupada
En ECNI aprendimos que el estimador de MCO es el estimador de varianza mínima entre los estimadores lineales insesgados cuando los errores son iid
Ahora consideremos el modelo \(y=X\beta+u\)
Aasumamos que la varianza de los errores es \(\Omega\neq\sigma^2I\)
Asumamos que conocemos \(\Omega\), una matriz no singular
Si premultiplicamos el modelo lineal por \(\Omega^{-1/2}\)
\[\Omega^{-1/2}y=\Omega^{-1/2}X\beta+\Omega^{-1/2}u\] se puede mostrar con algo de álgebra que
\[V(\Omega^{-1/2}u)=E((\Omega^{-1/2}u)(\Omega^{-1/2}u)'|X)=I\]
Es decir, los errores del modelo transformado son iid
Así que podemos estimar \(\beta\) eficientemente por MCO al modelo transformado
El estimador mínimos cuadrados generalizados (MCG) es
\[\hat{\beta}_{MCG}=(X'\Omega^{-1}X)^{-1}X'\Omega^{-1}y\]
En la práctica, no conocemos \(\Omega\)
Podemos proponer un modelo para \(V(u|x)\) y obtener un estimador consistente para \(\Omega\)
Esto da lugar al estimador de mínimos cuadrados generalizados feasibles
\[\hat{\beta}_{MCGF}=(X'\hat{\Omega}^{-1}X)^{-1}X'\hat{\Omega}^{-1}y\] # Estimador between
Aunque es de poca utilidad práctica, el estimador between nos servirá de auxiliar más adelante
Explota la variación entre unidades
Al promediar sobre el tiempo recordemos que obtenemos
\[ \begin{aligned} \bar{y}_{i}&=\alpha_i+ \bar{x}_i\beta+\bar{\varepsilon}_i \end{aligned} \] - Sumando 0 obtenemos:
\[ \begin{aligned} \bar{y}_{i}&=\alpha + \bar{x}_i\beta+(\alpha_i - \alpha + \bar{\varepsilon}_i) \end{aligned} \]
El estimador between es MCO a la ecuación transformada (con intercepto)
Solo es consistente si \(\bar{x}_i\) es independiente de el error compuesto \(\alpha_i - \alpha + \bar{\varepsilon}_i\)
Es equivalente a una regresión de sección cruzada con \(T=1\)
\[y_{it}=\mu+x_{it}'\beta+\alpha_i+\varepsilon_{it}=w_{it}'\delta+\alpha_i+\varepsilon_{it}\] donde \(w_{it}=[1\;x_{it}]\) y \(\delta=[\mu\;\beta']'\)
Asumimos que \(\alpha_i\) y \(\varepsilon_i\) son iid
\(\mu\) simplemente garantiza que los errores tengan media cero
\[y_{it}-\lambda\bar{y}_i=(1-\lambda)\mu+(x_{it}-\lambda\bar{x}_i)'\beta+\nu_{it}\] donde \(\nu_{it}=(1-\lambda)\alpha_i+(\varepsilon_{it}-\lambda\bar{\varepsilon}_i)\)
\[\hat{\lambda}=1-\frac{\hat{\sigma}_{\varepsilon}}{\sqrt{T\hat{\sigma}_{\alpha}^2+\hat{\sigma}_{\varepsilon}^2}}\]
El software estadístico hace estas estimaciones basadas en las ecuaciones 21.48 y 21.49 en CT
Para \(\sigma_{\varepsilon}^2\) usamos el estimador within \(\hat{\beta}_W\) para obtener:
\[\hat{\sigma_{\varepsilon}}^2=\frac{1}{N(T-1)-k}\sum_i\sum_t\left((y_{it}-\bar{y}_i)-(x_{it}-\bar{x}_i)'\hat{\beta}_W\right)^2\] - Para \(\sigma_{\alpha}^2\), usamos el estimador between \(\hat{\beta}_B\) para obtener
\[\hat{\sigma_{\alpha}}^2=\frac{1}{N-(k-1)}\sum_i\left(\bar{y}_i-\hat{\alpha}_B-\bar{x}_i'\hat{\beta}_B\right)^2-\frac{1}{T}\hat{\sigma_{\varepsilon}}^2\]
El estimador de efectos aleatorios se logra premultiplicando el modelo \(y_{it}=w_{it}'\delta+\alpha_i+\varepsilon_{it}\) por \(\Omega^{-1/2}\) y con algo de álgebra
Se asume que \(\alpha_i\) y \(\varepsilon_{it}\) son independientes
Hacemos \(\Omega_i\) con entradas \(\sigma_{\alpha}^2+\sigma_{\varepsilon}^2\) en la diagonal principal
Fuera de la diagonal tiene \(\sigma_{\alpha}^2\)
\[\Omega=\sigma_{\varepsilon}^2 I_T+\sigma_{\alpha}^2ee'\] donde \(e=(1,1,\ldots,1)'\) es un vector de unos de dimensión \(T\times 1\)
El estimador de efectos es consistente si \(NT\to\infty\), lo cual requiere que \(N\to\infty\) o \(T\to\infty\) (o ambos)
Con paneles cortos, es natural requerir suficientes individuos en la muestra
Por otro lado, CT proveen dos expresiones para las matrices de varianza en los casos de homocedasticidad (es decir, si \(\varepsilon_{it}\) y \(\alpha_i\) son iid) y para el caso general donde donde se permite heterocedasticidad y autocorrelación de \(\varepsilon_{it}\)
\[y_{it}=\alpha+x_{it}'\beta+u_{it}\] tenemos lo que se conoce como modelo pooled o de coeficientes constantes
Este modelo no explota la estructura del panel
El modelo es correcto si los regresores no están correlacionados con el errror
Podemos estimar consistemente \(\beta\) por MCO
Los errores estándar deben tomar en cuenta la correlación serial
Si estamos dispuestos a asumir un modelo pooled, debemos al menos estimar un modelo de MCO con errores robustos agrupados a nivel individual
Si el modelo asumido es de efectos fijos
Solo el estimador within o de primeras diferencias es consistente
Estimadores de efectos aleatorios y pooled son inconsistentes
Si el modelo asumido es de efectos aleatorios
Una prueba de Hausman compara dos estimadores, uno consistente bajo la \(H_0\) y otro que no lo es
Si los efectos individuales son efectos fijos correlaciondos con el error, el estimador within es consistente y el de efectos aleatorios no lo es
La \(H_0\) es que los efectos fijos no están correlacionados con el error
Si se rechaza la \(H_0\), existe evidencia en favor de usar un estimador de efectos fijos