Consideremos una variable latente \(y^*\) que se observa de acuerdo a una regla de observación \(g(\cdot)\)
Lo que observamos es \(y=g(y^*)\)
Censura
Siempre observamos \(X\) pero no \(y\):
Censura por abajo: \(y=\begin{cases}y^* \quad \text{si }y^*>L \\ L \quad \text{si }y^*\leq L \end{cases}\)
Censura por arriba: \(y=\begin{cases}y^* \quad \text{si }y^*<U \\ U \quad \text{si }y^*\geq U \end{cases}\)
El típico ejemplo de censura se encuentra en los datos top coded, como los de ingreso
Otro ejemplo es la oferta laboral: en un problema de optimización, las horas óptimas pueden ser negativas, pero entonces observamos la variable censurada en el cero
Truncamiento
Tanto \(X\) como \(y\) son no observados para ciertos valores de \(y\)
Truncamiento por abajo: \(y=y^*\) si \(y^*>L\) y no osbervada si \(y^*\leq L\)
Truncamiento por arriba: \(y=y^*\) si \(y^*<U\) y no osbervada si \(y^*\geq U\)
Función de verosimilitud censurada
La censura y el truncamiento cambian la función de verosimilitud de los datos observados
Verosimilitud censurada (usando censura por abajo)
Cuando \(>L\), la densidad de \(y\) es la misma que la de \(y^*\), es decir, \(f(y|x)=f^*(y|x)\)
Cuando \(y=L\), la densidad es discreta con masa igual a la probabilidad de que \(y^*\leq L\)
Con los errores normales, podemos definir la cdf como \[
\begin{aligned}
F^*(0)&=P(y^*\leq0) \\
&=P(x'\beta+\varepsilon\leq 0) \\
&=\Phi(-x'\beta/\sigma) \\
&=1-\Phi(x'\beta/\sigma)
\end{aligned}
\]
Esto nos permite definir la densidad censurada como \[
f(y)=\left(\frac{1}{\sqrt{2\pi\sigma^2}}exp\left(-\frac{1}{2\sigma^2}(y-x'\beta)^2\right)\right)^d\left(1-\Phi\left(\frac{x'\beta}{\sigma}\right)\right)^{1-d}
\]
Y entonces la función de log verosimilitud será \[
\begin{aligned}
\mathcal{L}_N(\beta,\sigma^2)&=\sum_i\left( d_i\left(-\frac{1}{2}\ln(\sigma^2)-\frac{1}{2}\ln(2\pi)-\frac{1}{2\sigma^2}(y_i-x'\beta)^2\right)+ \right. \\
&\left. +(1-d_i)\ln\left(1-\Phi\left(\frac{x_i'\beta}{\sigma}\right)\right) \right)
\end{aligned}
\]
\(\hat{\theta}\) es consistente si la densidad está bien especificada
El estimador de MV es asintóticamente normal: \(\theta\stackrel{a}{\sim}\mathcal{N}(\theta,V(\hat{\theta}))\)
Maddala (1983) y Amemiya (1985) proveen expresiones para la matriz de varianzas
Nota sobre terminología
El modelo Tobit fue plantado inicialmente para un problema de censura en cero
Cuando nos refiramos al Tobit estaremos pensando en la estructura particular que tienen \(y^*\) y \(y\)
Si en vez de censura, ocurriera truncamiento, la log verosimilitud sería \[\mathcal{L}_N(\beta,\sigma^2)=\sum_i \left(-\frac{1}{2}\ln(\sigma^2)-\frac{1}{2}\ln(2\pi)-\frac{1}{2\sigma^2}(y_i-x'\beta)^2-\ln\left(\Phi(x_i'\beta/\sigma)\right)\right)\]
Ejemplo: tobit
Veamos un problema típico de economía laboral, la participación de las mujeres en el mercado de trabajo
\[
\begin{aligned}
y_1^*=x_1'\beta_1+\varepsilon_1 \\
y_2^*=x_2'\beta_2+\varepsilon_2 \\
\end{aligned}
\] En el caso en que \(y_1^*=y_2^*\), el modelo se colapsa al Tobit
Modelo de Heckman
No hay consenso de cómo llamarlo
El estimador que veremos fue desarrollado por Heckman
Algunos otros autores le llaman Tobit de Tipo II o modelo con ecuación de selección
Supuesto: errores con distribución conjunta normal
Usamos los valores positivos de \(y_2\) para estimar la regresión \[y_{2i}=x_{2i}'\beta_2+\sigma_{12}\lambda(x_{1i}'\beta_1)+v_i\]
Estimador de Heckman en dos etapas
Usando el resultado de la varianza truncada podemos estimar \[\sigma_2^2=\frac{1}{N}\sum_i(\hat{v}_i+\hat{\sigma}_{12}^2\hat{\lambda}_i(x_1'\beta_1+\hat{\lambda}_i))\] donde \(\hat{v}_i\) son los residuales estimados
La correlación de errores puede ser estimada como \[\hat{\rho}=\hat{\sigma}_{12}/\hat{\sigma}_2\]
Por tanto, una prueba de que \(\rho=0\) o \(\sigma_{12}=0\) es una prueba de si los errores están correlacionados y si es necesaria la correción por muestra seleccionada
Poner atención a la significancia del inverso de la razón de Mills en la segunda etapa
Ejemplo: heckit
Usamos datos de una muestra de hogares que reportan sus gastos médicos ambulatorios limdep_ambexp.dta
Muchos hogares tienen cero gastos
Ejemplo: heckit
Procedimiento en dos etapas
Ejemplo: heckit
Usamos modelsummary para presentar los resutlados
Dependent variable:
lambexp
dambexp
lambexp
Heckman
probit
OLS
selection
(1)
(2)
(3)
(4)
income
0.003**
(0.001)
age
0.207***
0.197***
0.087***
0.197***
(0.023)
(0.024)
(0.027)
(0.023)
female
0.328***
0.278***
0.664***
0.278***
(0.060)
(0.066)
(0.061)
(0.065)
educ
0.062***
(0.012)
blhisp
-0.222***
-0.182***
-0.366***
-0.182***
(0.061)
(0.065)
(0.062)
(0.064)
totchr
0.524***
0.490***
0.796***
0.490***
(0.039)
(0.043)
(0.071)
(0.042)
ins
0.169***
(0.063)
imr
-0.555**
(0.230)
Constant
5.357***
5.496***
-0.669***
5.496***
(0.138)
(0.156)
(0.194)
(0.154)
Observations
3,328
3,328
3,328
2,802
R2
0.192
0.192
Adjusted R2
0.191
0.191
Log Likelihood
-1,195.516
rho
-0.426
Inverse Mills Ratio
-0.555** (0.233)
Residual Std. Error
1.269 (df = 2796)
F Statistic
132.859*** (df = 5; 2796)
chi2
513.826*** (df = 7)
Note:
p<0.1; p<0.05; p<0.01
Errores estándar
Para estimar la varianza hay que considerar dos cosas:
Sabemos que \(V(y_2|x,y_1^*>0)\) depende de \(X\), es decir, la varianza es heterocedástica
En la segunda etapa, \(\hat{\lambda}_i\) no es observado sino estimado
Heckman (1979) provee las fórmulas de los errores correctos (R y otros paquetes ya lo implementan correctamente)
Efectos marginales
Definamos en un solo vector \(x=[x_1\;x_2]\)
Podemos reescribir \(x_1\beta_1=x'\gamma_1\) y \(x_2'\beta_2=x'\gamma_2\), donde \(\gamma_1\) y \(\gamma_2\) tendrán algunas entradas iguales a cero si \(x_1\neq x_2\)
Así, la media truncada es \[E(y_2|x)=x'\gamma+\sigma_{12}\lambda(x'\gamma_1)\]
Y los efectos marginales relevantes son:
Proceso sin censura: \(\frac{\partial E(y_2^*|x)}{\partial x}=\gamma_2\)
Truncado en cero: \(\frac{\partial E(y_2|x, y_1=1)}{\partial x}=\gamma_2-\sigma_{12}\lambda(x'\gamma_1)(x'\gamma_1+\lambda(x'\gamma_1))\)
Censurado en cero: \(\frac{\partial E(y_2|x)}{\partial x}=\gamma_1\phi(x'\gamma_1)x'\gamma_2+\Phi(x'\gamma_1)\gamma_2-\sigma_{12}x'\gamma_1\phi(x'\gamma_1)\gamma_1\)
Detalles de la estimación
En teoría, los parámetros del modelo de dos ecuaciones están identificados si los mismos regresores se incluyen en ambas ecuaciones
Pero cuando imponemos errores normales, al hacer \(x_1=x_2\) y, recordando que el IRM es casi lineal para un rango grande de su argumento, la segunda ecuación indica que
\[E(y_2|y_1^*>0)\approx x_2'\beta_2+a+bx_2'\beta_1\] Es decir, el modelo está cerca de no estar identificado
Por tanto, en la práctica, se recomienda que haya una o varias variables que estén en una ecuación y no en la otra
Algunos autores llaman a esto restricción de exclusión, término que no me gusta tanto porque se confunde con la misma restricción en el contexto de variables instrumentales
Resumen
Tanto el tobit como el modelo de muestras seleccionadas recaen en fuertes supuestos distribucionales
En el modelo de muestras seleccionadas relajamos el supuesto de que el mismo proceso da origen a la censura o truncamiento, y a la variable dependiente
El tobit requiere de una interpretación de \(y^*\) similar a la de horas deseadas
El modelo de muestra seleccionada es más intuitivo para un proceso del tipo: