Tabla 1. Covariables entre grupos de tratamiento y control (datos en la línea base) | |||
---|---|---|---|
$$(1)$$ | $$(2)$$ | $$(3)$$ | |
Variables | Media control | Media tratamiento | $$p$$ |
Edad | 9.486 | 9.332 | 0.114 |
Sexo (masculino=1) | 0.545 | 0.497 | 0.073* |
Jefe trabaja en agricultura | 0.462 | 0.522 | 0.435 |
Grado máximo de estudios en el hogar | 5.836 | 5.346 | 0.406 |
Índice calidad de vivienda | 0.492 | 0.593 | 0.447 |
Índice de consumo de durables | 0.441 | 0.467 | 0.829 |
Número de pares de zapatos que posee | 2.06 | 1.825 | 0.213 |
Horas que pasa sin zapatos | 2.09 | 1.963 | 0.917 |
Días que no fue a la escuela | 0.701 | 0.886 | 0.465 |
Horas para dormir | 10.68 | 9.98 | 0.388 |
Horas para comer | 1.931 | 1.934 | 0.986 |
Horas para lavar | 0.732 | 0.835 | 0.228 |
Horas en escuela | 4.613 | 4.154 | 0.168 |
Horas para trabajar | 0.409 | 0.572 | 0.082* |
N | 666 | 912 | 1,578 |
Nota: Los valores \(p\) son de una prueba \(t\) simple. * \(p <0.10\), ** \(p <0.05\), *** \(p <0.01\). |
Tarea 1
Preguntas
Fecha de entrega: martes 17 de septiembre a las 20:00 en Teams
La tarea deberá entregarse en Teams. Deberá incluir dos documentos:
Un primer documento de respuestas donde se incluyan las respuestas a las preguntas teóricas y conceptuales. Este documento debe estar en formato pdf y debe ser generado usando un software de procesamiento de textos científicos, por ejemplo, usando los leguajes LaTeX o Markdown. En este documento también se deben incluir las respuestas a preguntas sobre conclusiones que se desprenden de las secciones prácticas. Por ejemplo, si una pregunta pide obtener la media de la variable x en cierta base de datos, entonces el documento de respuestas debe incluir la pregunta y respuesta correspondiente: “la media de la variable x es 32.6”. En este documento también deberán incluirse las tablas y gráficas que se soliciten.
Un segundo archivo deberá contener el código replicable usado para generar los resultados de la sección práctica. El código debe también crear las tablas y gráficas solicitadas. Los archivos de código se verificarán para comprobar su replicabilidad.
Datos
Pregunta 1
Se diseñó una intervención que consistió en entregar zapatos a niños en cuatro áreas con altos niveles de pobreza de cierto país. Se sabe que los niños caminan bastante para ir a la escuela y realizan una serie de tareas domésticas después de la escuela. Por tanto, se tiene la hipótesis de que la entrega de zapatos tendrá impactos en el desarrollo de los niños. Se seleccionaron aleatoriamente localidades de control y localidades de tratamiento. Dentro de las localidades asignadas al tratamiento, todos los niños de entre 7 y 12 años de edad recibieron zapatos. Los investigadores deciden usar un \(\alpha=0.10\) durante el estudio.
La tabla 1 presenta información sobre una serie de características de los niños que participaron en el estudio en la línea base.
La tabla 2 muestra los resultados de estimar una regresión del tipo
\[y_i=\alpha+X_i'\beta+\theta T_i+\varepsilon_i\]
donde \(T_i\) indica la pertenencia al grupo de tratamiento, \(X_i\) es un vector de características observables usadas como controles y \(y_i\) es cada una de las siguientes variables sobre las que se estima el impacto del programa: 1) número de zapatos que posee; 2) días que no fue a la escuela; y 3) horas para trabajar.
Tabla 2. Efectos del tratamiento en variables seleccionadas | |||
---|---|---|---|
$$(1)$$ | $$(2)$$ | $$(3)$$ | |
Número de pares de zapatos que posee | Días que no fue a la escuela | Horas para trabajar | |
$$\hat{\theta}$$ | 0.075 | -0.165** | 0.348 |
(e.e) | (0.061) | (0.057) | (0.243) |
N | 1,302 | 664 | 556 |
Nota: * \(p <0.10\), ** \(p <0.05\), *** \(p <0.01\). Todas las regresiones controlan por edad, sexo, ocupación del jefe del hogar y calidad de la vivienda. Errores estándar agrupados a nivel localidad entre paréntesis. \(\hat{{\theta}}\) se refiere al estimador de \(\theta\). |
[2 puntos] ¿Qué representan los valores \(p\) reportados en la columna (3) en la tabla 1?
[3 puntos] Un donante está preocupado por los resultados de la intervención porque considera que los niños que tenían más zapatos antes de que iniciara el programa tuvieron una menor probabilidad de estar en el grupo que recibió zapatos por parte del programa. ¿Considera esto una preocupación válida sobre la integridad del experimento?
[5 puntos] ¿Cómo se interpreta el asterisco al lado del valor \(p\) de 0.082 asociado a las horas para trabajar?
[5 puntos] ¿Cuál es el impacto del programa en el número de pares zapatos que los niños en promedio poseen? Mencione la magnitud y significancia estadística de dicho impacto.
[5 puntos] En columna (2) de la tabla 2, ¿qué interpretación tienen los dos asteriscos al lado de -0.165?
[5 puntos] ¿Cuántos días sin ir a la escuela esperaríamos observar después de la intervención en los niños que recibieron zapatos?
[5 puntos] La nota al pie de la tabla 2 indica que se reportan errores estándar agrupados? ¿Por qué los investigadores realizan la estimación de los errores estándar de esta manera?
Pregunta 2
Suponga que está interesado en conocer el impacto que tiene el acceso a las microfinanzas en un indicador de seguridad alimentaria \(y_i\) de las familias. La idea detrás es que el acceso al crédito podría mejorar la habilidad de los hogares para suavizar el consumo. Afortunadamente, usted tiene acceso a una encuesta representativa a nivel nacional que incluye un índice de seguridad alimentaria así como una variable indicadora o dummy, \(T_i\), que toma el valor de 1 si algún miembro del hogar tiene acceso a microfinanzas y de 0 en otro caso.
Suponga que su asistente le sugiere que para evaluar el impacto de microfinanzas basta con estimar la siguiente regresión por MCO:
\[ y_i = \alpha + \beta T_i + \varepsilon_i \]
[5 puntos] ¿Cómo valora la propuesta de su asistente? ¿Qué podemos esperar de una comparación observacional como la de la propuesta?
[5 puntos] Muestre si el estimador de MCO de \(\beta\) es consistente o no para el efecto de tratamiento.
Pregunta 3
[10 puntos] Replique el ejercicio en MHE que ejemplifica el teorema de la regresión de la FEC. Para esto use el archivo de datos muestra-enoe-123.csv, que contiene una muestra del primer trimestre de 2023 de la ENOE e incluye personas que trabajan y reciben un ingreso. lingreso es el log del ingreso mensual y escolaridad son los años de educación. Primero, estime una regresión de lingreso en función de escolaridad usando los microdatos. Luego, obtenga la media de lingreso para cada nivel de escolaridad y estime una regresión de las medias en función de escolaridad, pesando por el número de observaciones usadas para construir cada media. Compare los coeficientes estimados.
Pregunta 4
Use los datos del archivo STAR_public_use.csv para este problema. En este problema replicará la fila correspondiente a la variable Age (edad del o la estudiante) de la Tabla 1 en Angrist et al. (2009).1
[5 puntos] Obtenga la media y la desviación estándar de la edad, age en los datos, en el grupo de control (columna 1), restringiendo la muestra a aquellos individuos con noshow igual a 0.
[10 puntos] Usando una regresión lineal, muestre que la edad no está correlacionada con la asignación a los tratamientos (ssp, sfp y sfsp). De nuevo, debe restringir la muestra quienes tienen noshow igual a 0. Reporte los coeficientes y los errores estándar (columnas 2 a 4).
[5 puntos] Realice una prueba de significancia conjunta de los coeficientes obtenidos en el punto b. Reporte el estadístico \(F\) y el valor \(p\) asociado (columna 5).
[10 puntos] ¿Cuál es el propósito de la prueba F realizada en el punto c.? ¿Qué hipótesis nula prueban los autores?
Pregunta 5
Nuevamente, use los datos del archivo STAR_public_use.csv para este problema. En este problema, replicará dos columnas del efecto de tratamiento de la Tabla 5. Note que de nuevo se deben usar solo las observaciones que tienen noshow igual a 0. Los autores también sustituyen los valores de gpa_year1 por NA cuando la variable grade_20059_fall es NA; y sustituyen grade_20059_fall por NA cuando la variable gpa_year1 es NA. Además, note que se usan las siguientes variables de control: sex, mtongue, hsgroup, numcourses_nov1, lastmin, mom_edn, y dad_edn, todas ellas categóricas.
[10 puntos] Estime el efecto de cada tipo de tratamiento sobre el promedio o GPA, denotado gpa_year1 en los datos, para toda la muestra (Panel B, columna 1). Calcule correctamente los errores estándar. Interprete los resultados.
[10 puntos] Estime el efecto sobre el GPA de recibir cada tipo de tratamiento, considerando los tratamientos SSP o SFP (de cualquier tipo) en los hombres de la muestra (Panel B, columna 5). Esto es, considere el tratamiento SSP como un primer tipo de tratamiento y, ya sea SFP o SFSP, como un segundo tipo de tratamiento. Calcule correctamente los errores estándar. Interprete sus resultados.
Notas
Angrist, J., Lang, D., y Oreopoulos, P. (2009). Incentives and services for college achievement: Evidence from a randomized trial. American Economic Journal: Applied Economics, 1(1), 136-63.↩︎