Tarea 1

Preguntas

Fecha de entrega: lunes 15 de septiembre a las 20:00 en Teams

La tarea deberá entregarse en Teams. Deberá incluir dos documentos:

Un primer documento de respuestas donde se incluyan las respuestas a las preguntas teóricas y conceptuales. Este documento debe estar en formato pdf y debe ser generado usando un software de procesamiento de textos científicos, por ejemplo, usando los leguajes LaTeX o Markdown. En este documento también se deben incluir las respuestas a preguntas sobre conclusiones que se desprenden de las secciones prácticas. Por ejemplo, si una pregunta pide obtener la media de la variable x en cierta base de datos, entonces el documento de respuestas debe incluir la pregunta y respuesta correspondiente: “la media de la variable x es 32.6”. En este documento también deberán incluirse las tablas y gráficas que se soliciten.

Un segundo archivo deberá contener el código replicable usado para generar los resultados de la sección práctica. El código debe también crear las tablas y gráficas solicitadas. Los archivos de código se verificarán para comprobar su replicabilidad.

Datos

muestra-enoe-123.csv

STAR_public_use.csv

Pregunta 1

Suponga que para un experimento en un laboratorio se asignó a un grupo pacientes a un brazo de tratamiento o a uno de control. Antes de comenzar el experimento se recolectaron una serie de características \(x_{ji}\), \(j=1,\ldots 10\), de cada paciente. Se busca medir el efecto del tratamiento sobre una variable de resultados \(y_i\). En el experimento, se trabaja con \(\alpha=0.10\).

  1. [5 puntos] El investigador A quedó a cargo de comprobar el balance de la asignación del tratamiento y le reporta lo siguiente:

    Para verificar que la aleatorización fue exitosa, tomé la serie de variables pre-intervención y la dummy de asignación al tratamiento \(T_i\) para correr la siguiente regresión: \[T_i=\alpha+\sum_{j=1}^{10}x_{ji}'\beta +\varepsilon_i\]

    Después realicé una prueba \(F\) de significancia conjunta sobre los coeficientes \(\beta_j\) que resultó tener un valor \(p\) de 0.043.

    Explique cuál es la hipótesis nula en la prueba realizada y qué se esperaría de haberse logrado una aleatorización exitosa del tratamiento.

  2. [5 puntos] ¿Qué concluye a partir de lo que le reporta el investigador A?

  3. [5 puntos] Por otro lado, el investigador B le reporta lo siguiente:

    Yo realicé un análisis para determinar el balance en la asignación del tratamiento. Para cada una de las características \(x_{ji}\) corrí la siguiente regresión: \[x_{ji}=\gamma+\pi T_i+u_i\] A continuación, le reporto una tabla con los valores p asociados al coeficiente estimado de \(\pi\) en cada una de las 10 regresiones.

    Característica Valor \(p\) Característica Valor \(p\)
    \(x_{1i}\) 0.025 \(x_{6i}\) 0.015
    \(x_{2i}\) 0.012 \(x_{7i}\) 0.033
    \(x_{3i}\) 0.027 \(x_{8i}\) 0.019
    \(x_{4i}\) 0.076 \(x_{9i}\) 0.028
    \(x_{5i}\) 0.002 \(x_{10i}\) 0.017

    Explique la hipótesis nula detrás de las pruebas que realizó el investigador B y qué se esperaría de haberse logrado una aleatorización exitosa del tratamiento,

  4. [5 puntos] ¿Cómo reconcilia la evidencia encontrada por el investigador A y el B y qué concluye sobre el balance en la asignación del tratamiento? ¿Qué características tendría una diferencia de medias de \(y_i\) después del tratamiento como estimador del impacto de este?

Pregunta 2

Se implemetó un programa para la entrega de semilla mejorada para la producción de frijol. La semilla se entregó a productores de hasta 10 hectáreas que ya reciben servicios de asistencia técnica y fertilizantes por parte del gobierno. El gobierno está interesado en estimar el impacto de la semilla mejorada en los rendimientos de la producción de frijol una vez que se realiza la cosecha, \(y_i\).

Para responder esta pregunta, el gobierno invierte una gran cantidad de recursos en una encuesta representativa de los productores de frijol de hasta 10 hectáreas de todo el país y donde se identifica si el productor recibió o no la semilla mejorada (\(T_i\)), además de un amplio cuestionario sobre insumos usados en la producción, prácticas agrícolas y características socioeconómicas de los productores y sus familas.

  1. [10 puntos] Se propone que para estimar el efecto del programa se comparen los rendimientos de los productores que recibieron la semilla con los que no la recibieron. Argumente en términos del sesgo de selección sobre la conveniencia de esta estrategia para estimar el efecto causal de la semilla mejorada.

  2. [5 puntos] Para implementar la propuesta del punto a., se propone estimar la siguiente regresión: \[ y_i = \alpha + \beta T_i + \varepsilon_i \]

    Muestre si el estimador de MCO de \(\beta\) es consistente o no para el efecto de tratamiento.

  3. [5 puntos] Describa cómo realizaría el experimento ideal para la identificación del efecto causal de proveer semilla mejorada sobre el rendimiento. Describa cómo asignaría el tratamiento, qué condiciones deberían verificarse para asegurar la integridad del diseño y qué posibles obstáculos encontraría para la implementación de la estrategia que propone.

Pregunta 3

[10 puntos] Replique el ejercicio en MHE que ejemplifica el teorema de la regresión de la FEC. Para esto use el archivo de datos muestra-enoe-123.csv, que contiene una muestra del primer trimestre de 2023 de la ENOE e incluye personas que trabajan y reciben un ingreso. lingreso es el log del ingreso mensual y escolaridad son los años de educación. Primero, estime una regresión de lingreso en función de escolaridad usando los microdatos. Luego, obtenga la media de lingreso para cada nivel de escolaridad y estime una regresión de las medias en función de escolaridad, pesando por el número de observaciones usadas para construir cada media. Compare los coeficientes estimados.

Pregunta 4

Use los datos del archivo STAR_public_use.csv para este problema. En este problema replicará la fila correspondiente a la variable High school GPA (calificación en la preparatoria) de la Tabla 1 en Angrist et al. (2009).1

  1. [5 puntos] Obtenga la media y la desviación estándar de la edad, gpa0 en los datos, en el grupo de control (columna 1), restringiendo la muestra a aquellos individuos con noshow igual a 0.

  2. [10 puntos] Usando una regresión lineal, muestre que la calificación en la preparatoria no está correlacionada con la asignación a los tratamientos (ssp, sfp y sfsp). De nuevo, debe restringir la muestra quienes tienen noshow igual a 0. Reporte los coeficientes y los errores estándar (columnas 2 a 4).

  3. [5 puntos] Realice una prueba de significancia conjunta de los coeficientes obtenidos en el punto b. Reporte el estadístico \(F\) y el valor \(p\) asociado (columna 5).

  4. [10 puntos] ¿Cuál es el propósito de la prueba F realizada en el punto c.? ¿Qué hipótesis nula prueban los autores?

Pregunta 5

Nuevamente, use los datos del archivo STAR_public_use.csv. En este problema, replicará dos columnas del efecto de tratamiento de la Tabla 5. Note que de nuevo se deben usar solo las observaciones que tienen noshow igual a 0. Los autores también sustituyen los valores de gpa_year1 por NA cuando la variable grade_20059_fall es NA; y sustituyen grade_20059_fall por NA cuando la variable gpa_year1 es NA. Además, note que se usan las siguientes variables de control: sex, mtongue, hsgroup, numcourses_nov1, lastmin, mom_edn, y dad_edn, todas ellas categóricas.

  1. [10 puntos] Estime el efecto de cada tipo de tratamiento sobre el promedio o GPA, denotado gpa_year1 en los datos, para toda la muestra (Panel B, columna 1). Calcule correctamente los errores estándar. Interprete los resultados.

  2. [10 puntos] Estime el efecto sobre el GPA de recibir cada tipo de tratamiento, considerando los tratamientos SSP o SFP (de cualquier tipo) en las mujeres de la muestra (Panel B, columna 6). Esto es, considere el tratamiento SSP como un primer tipo de tratamiento y, ya sea SFP o SFSP, como un segundo tipo de tratamiento. Calcule correctamente los errores estándar. Interprete sus resultados.

Notas

  1. Angrist, J., Lang, D., y Oreopoulos, P. (2009). Incentives and services for college achievement: Evidence from a randomized trial. American Economic Journal: Applied Economics, 1(1), 136-63.↩︎