Autor: María Camila Jiménez Amaya / Portafolio: Quantitative / Vie. 17 de Nov de 2023

Transcripción de este video

(Transcripción automatizada sin revisión humana)

00:00:27:13 Instructora María Camila Jiménez, economista con maestría en Economía de la Universidad, Ex Marcela en Francia, se ha desempeñado como científico de datos y administrador de aplicaciones de minería de datos. Gran interés por temas de econometría aplicada, economía laboral y análisis y procesamiento de información estadística y económica. Actualmente hace parte del grupo de instructores del Portafolio Cuantitativo en Sorpre Shop.

00:01:11:11 Bienvenidos. Buenos días a todos y gracias por asistir a este segundo webcast. El objetivo, como mencionó Erika, es explorar una técnica conocida como variables instrumentales, aplicado a un caso que empezamos a ver en el webcast anterior sobre efectos educativos de herramientas tecnológicas. En la sesión pasada vimos que el análisis de regresión es una herramienta muy útil para descubrir relaciones, y dos de los objetivos de la regresión lineal se basan en hacer predicciones clones.

00:01:51:00 Pero también lo podemos usar para estimar efectos causales y vimos como era importante distinguir entre una correlación y causalidad. Entonces la idea es seguir con el ejemplo en el que el objetivo es tratar de estimar el efecto causal de el acceso a herramientas tecnológica como Internet. Computadores. En el puntaje total o utilizando una muestra de datos para el caso de Colombia.

00:02:34:06 Este conjunto de datos corresponde a estudiantes que en el último año de bachillerato presentan una prueba de conocimientos. Entonces, con base a esto, pues la idea es encontrar causalidad y a través de este ejercicio discutimos varios de los problemas, incluyendo el sesgo por variables omitidas e causalidad simultánea y errores de de medición que hacían que bueno, estos problemas generaban la violación o no al supuesto exógena edad.

00:03:05:13 Por lo tanto, veíamos que podía darse el caso en que alguna de las variables no incluidas explícitamente en el modelo pudieran estar relacionadas con nuestra variable de interés, que, repito, es el acceso a herramientas tecnológicas. Y veíamos al final de la sesión que una manera pues de resolver el problema de sesgo por variables omitidas era pasando de una regresión lineal simple a una regresión lineal múltiple.

00:03:57:08 Pero pues la condición para hacer esto es que en el conjunto de datos tengamos disponibles pues, estas variables que hemos omitido. Sin embargo. Pues en muchos casos estas variables omitidas no las tenemos porque son muy difíciles de medir. Entonces, la idea en esta sesión es hablar un poco sobre las consecuencias de las dos en edad e la una una alternativa para estimar el efecto causal teniendo en cuenta la presencia de dos en ida y cómo podemos evaluar en la calidad de de nuestro modelo, en la suposición formal que nosotros estamos violando.

00:04:50:01 En este caso es la que nos dice que las variables explicativas son e no estocásticos. Cuando hablamos de que no son estocásticos nos referimos a que si obtenemos un nuevo conjunto de datos, solo deberíamos observar que los valores de nuestra variable dependiente cambian mientras que los de nuestra variable explicativa permanecen iguales. Y podemos pensar en esto como un experimento contra un lado donde pues el investigador determina cuales son las condiciones experimentadas codificadas en la variable explicativa y este supuesto es crucial cuando nos referimos a las propiedades estadísticas de nuestro estimador específico.

00:05:37:15 Amente. Este supuesto em em es importante para la consistencia que significa que el estimador converge al verdadero coeficiente cuando el conjunto de datos tiende a infinito. Sin embargo, en ciencias sociales los experimentos controlados son raros, ya que estamos hablando también de asuntos éticos. Por lo tanto. E las variables explicativas em em son estocásticos en el sentido que em son la consecuencia de procesos económicos o toma de decisiones individuales.

00:06:23:07 Entonces, desde el punto de vista de la inves del investigador, estas variables explicativas deben ser tomadas o consideradas como estocásticos. Y una vez que cambiamos este enfoque. Pues reconocemos que podemos encontrar diferentes valores de de X en un nuevo conjunto de datos. La consecuencia de de pasar de de considerar X1A estocástico estocástico es que podemos encontrar correlaciones entre nuestro variable de interés con otras variables e incluyendo pues aquellas que no están explícitamente en nuestro modelo.

00:06:58:09 Si lo ponemos en el contexto de nuestro ejemplo, veíamos que el acceso a herramientas tecnológicas podría estar correlacionada con variables como las habilidad de los estudiantes que son difíciles de observar y por lo tanto pues no, no tenemos EM. Está esto disponible en nuestro conjunto de datos, pero sabemos que este tipo de variables también tienen una influencia en nuestra variable pendiente, que es el el puntaje.

00:07:34:08 Entonces, como consecuencia, esta variable explicativa va a estar correlacionada con con el error y por lo tanto pues vamos a tener el problema de en 12 unidas y la consecuencia principal en términos de de EM las propiedades estadísticas es que este estimador va a ser inconsistente. Entonces, para resumir, el problema de endógena edad en general pasa cuando nuestra variable de interés x está correlacionada con con el erro.

00:08:09:01 El error y la principal consecuencias que este estimar no va a ser consistente. Incluso si tratamos de incrementar el tamaño de nuestra muestra, lo que vamos a obtener son estimadores no confiables. ¿Entonces, para entender un poco mejor el el problema de dentro bentonita podemos mirar esto un poco de forma gráfica? Recordemos que en nuestro modelo tenemos varios elementos nuestra variable dependiente representada por un vector G.

00:08:47:24 Tenemos una matriz de X en donde tenemos las variables explicativas, incluyendo pues nuestro interés más controles y tenemos un término de Roar que es donde em. Digamos que combinamos todos esos factores que sabemos que afectan pero que no podemos observar. Hilando ingenuidad aparecen cuando al menos uno de estos factores que tenemos representados no se correlacionan con alguna de nuestras variables.

00:09:30:01 Y en la matriz de entonces, la clave para resolver endo genuina EM es encontrar una variable adicional que vamos a llamar variable instrumental y que generalmente la encontramos denotada con con la letra z, y esta variable tiene que satisfacer principalmente dos condiciones. La primera es que debe estar correlacionada con con x y la segunda es que no tiene que estar correlacionada o con el error em.

00:10:01:13 Esto significa que la variación de dx la podemos descomponer en dos em en dos partes una parte que no va a estar correlación, pero otra que va a estar pues correlacionada con ella. Y la solución es encontrar una variable que capture el movimiento de X, pero que no esté relacionada con con el término de error y sin garantizamos estas dos condiciones.

00:10:43:04 Entonces podemos concluir que la covarianza entre la variable instrumental y gen es igual a la covarianza entre la variable instrumental y nuestra variable endógena multiplicado por por el beta. En el primer paso cuando utilizamos en variables instrumentales, es encontrar esta variable e instrumental que nos va a ayudar a descomponer x en dos partes. Entonces vamos a tener aquella que es explicada y una parte que no es explicada por por z.

00:11:24:10 Una vez identificamos esta variable, nosotros estamos interesados en el tamaño del efecto de la parte explicada, entre la cual vamos a representar por por beta y la parte que no es explicada. Entonces se va a añadir algo al término de error. Esto lo que nos garantiza es que podemos coincidir que es como exógena y podemos estar tranquilos en que la parte no explicada no está correlacionada con la parte explicada.

00:12:11:06 Entonces, em la forma como podemos estimar este efecto se conoce como mínimos cuadrados ordinarios en dos etapas o en inglés to square, y lo podemos represen parte de esta forma. Lo que hacemos con este procedimiento es que, dado que tenemos esta variable instrumental, podemos estimar cuál es el efecto de Z sobre x y el efecto de z sobre este elemento sería elemento desconocido que una vez tengamos es el valor de este primer elemento y de esta, pues podemos fácilmente calcularlo y es la calidad de de los resultados.

00:12:54:13 Aplicando esta técnica depende de ciertas condiciones relacionadas con la variable instrumental. Entonces la primera nos dice que en la primera etapa de este método es sustancial. Esto significa que la variable instrumental nos debe generar una variación en la variable cuyo efecto estamos interesados. En nuestro caso, lo que queremos es encontrar una variable instrumental que nos ayude a explicar que tenga un poder predictivo sobre el puntaje total.

00:13:37:12 La segunda condición la llamamos el supuesto de independencia, y la llamamos así porque la idea es que la variable instrumental tenga la misma calidad de una asignación aleatoria, de tal manera que podamos considerar esta variable exógena. Y el tercer supuesto es sobre algo que vemos en la literatura que se conoce como restricción de exclusión y lo que nos dice es que esta variable instrumental sólo debe afectar en los resultados de nuestra variable dependiente a través de dx.

00:14:19:17 Esto que significa su música que tenemos que La idea es que esta variable instrumental cierre de todas estas llamémoslas y puertas traseras que que hace que haya más contaminación del efecto causal. Entonces, teniendo en cuenta esta introduc ción, la idea es pasar a e stata a mirar cómo funciona pues este método. Teniendo en cuenta las conclusiones a las que llegamos en la sesión pasada.

00:15:25:00 Entonces. Para esto vamos a usar en Stata la versión EM 18 y vamos a utilizar en los datos de nuevo esto Vamos a utilizar un conjunto de datos que tengo EM en esta carpeta con el nombre SV 11. En 2021, este conjunto de datos EM como lo mencionado, viene de la prueba, a saber 11, que es una prueba que todos los estudiantes al terminar en bachillerato deben presentar y prácticamente pues es un prerrequisito para acceder a la educación superior y estos datos se encuentran disponibles en el EM en el MIT pass es de acceso libre, entonces y solo y registrarnos y podemos descargar los datos y en este caso tomamos los datos para el año

00:16:04:07 2021. La muestra que vamos a tomar es restringida a aquellos estudiantes que tienen entre 14 y 25 años, ya que tenemos em alta heterogeneidad. Y con estos datos, entonces, antes de llamar este conjunto de datos, una buena práctica es usar macros para indicar em nuestros principales directorios. Por ejemplo, yo lo uso mucho para indicar dónde tengo los datos, o sea, de qué folder voy a traer los datos y donde voy a ir guardando todas mis salidas.

00:16:55:11 Entonces en esta carpeta, por ejemplo, le estoy indicando que los resultados me los guarde y acá una vez indicamos esto, entonces podemos abrir nuestro conjunto de datos, digamos es que acá para abrirlo utilizo este símbolo que me llama en la macro y he seguido pues el nombre de mi conjunto de datos y como vemos la sesión, pues este es un conjunto de datos que tiene 124 variables y información sobre 548.507 estudiantes EM Acá voy a crear una variable, es la edad al cuadrado.

00:17:39:14 Y bueno, digamos que nuestra principal variable EM es em acceso a computadores e internet en la casa del total de estudiantes. Entonces tenemos EM 3.64% 1100 baños y el 76% de los estudiantes tienen acceso a herramientas tecnológicas en la casa. Sin embargo, como indica al principio que nos vamos a enfocar en una muestra más pequeña de estudiantes de entre 14 y 25 años, por lo tanto, se nos reduce un poco en la muestra, pero el comportamiento es el mismo.

00:18:25:03 Tenemos más estudiantes con acceso a herramientas tecnológicas y nuestra variable dependiente es el puntaje global. Esto es una variable que toma valores desde cero hasta máximo en 500. En este. En esta muestra el máximo puntaje máximo llega a 495 con una media de 248, una desviación estándar de 51 puntos y podemos entonces mirar el comportamiento del puntaje global con las categorías de nuestra variable de interés y a través de Sumara es combinado con el point short.

00:19:05:12 Entonces acá podemos ver que hay diferencias entre los dos grupos, por ejemplo, los que no tienen acceso a herramientas tecnológicas que obtienen puntajes es con un mínimo de 96, es máximo de 438 y la media es de 221, mientras que aquellos que tienen acceso a herramientas tecnológicas el máximo que obtienen es más alto. Pero también hay estudiantes e incluso con un puntaje de cero y la media vemos que es un poco más alto, pero al mismo tiempo la desviación estándar.

00:20:07:06 ¿También tenemos mucha más variación y nosotros en la sesión pasada concluimos con esto y regresión donde? Pues además de incluir nuestra variable interés herramientas tecnológicas, incluyamos un conjunto de variables relacionadas con características de los estudiantes, características de la condición socioeconómica de la familia y características de los colegios, con el fin de tratar de reducir este sesgo por omisión de variables y una vez ejecutado, pues lo guardamos, lo guardamos en un archivo llamado o NS con nuestro comando a recto y utilizando como antes este símbolo para que identifiquen qué carpeta quiero guardar mis niños.

00:21:11:17 Resulta. Analizamos un poco los los resultados. Veíamos que el efecto EM o el coeficiente estimado es de es de 12, lo que significa que aquellos estudiantes que tienen acceso a herramientas tecnológicas tienden a tener puntajes más altos. Y sin embargo. Pues acá hacíamos em em en resaltamos que eso es peligroso, asumir que esto es un efecto causal, esto es más como una correlación, entonces se mueven en la en la misma dirección, pero al incluir más variables, pues veíamos que este coeficiente en pestañas tiende a ser un poco más, más preciso en acá que variables incluimos incluimos variables como el tiempo que los estudiantes dedican a navegar en internet en actividades diferentes a las académicas.

00:22:04:22 El sexo. Entonces acá, por ejemplo, los hombres tienen em obtienen un mejor puntaje respecto a las mujeres y veíamos aquí el efecto de la edad que no es lineal. Con eso incluimos e creamos esta variable. La edad al cuadrado es lo que nos indica estos signos. Es que el comportamiento tiene forma de de u, es decir, que em entre más jóvenes son estudiantes e cercanos a los 15 años e tienen em un punto obtienen un puntaje global más alto en la medida que va avanzando en la edad, este puntaje va disminuyendo y llega hasta cierto punto donde empieza a subir otra vez.

00:22:36:03 EM Acá también incluyamos aspectos de de la familia como el tamaño del hogar, el número de personas que hay en el hogar, la educación de los padres. Si la mamá permanece en la casa o trabaja em y variables asociadas con características del colegio como el calendario. Si es un colegio académico o técnico, es una modalidad, etcétera ni eso.

00:23:11:24 Pero entonces em. A pesar pues de que controlamos por todas estas características, este conjunto eficiente probablemente sufre el sesgo por omisión de variables, porque tenemos variables no observables EM que van pues están relacionadas con esta variable, como por ejemplo también el compromiso de los padres, la motivación de los estudiantes, pero sobre todo las habilidades innatas de de ellos.

00:23:54:03 Y como no tenemos información sobre estas variables, pues tenemos que utilizar técnicas alternativas a la regresión lineal múltiple para tratar pues de de estimar este efecto cosa alguna de ellas es variables instrumentales, pero hay diferentes técnicas que seleccionamos también. Pues de acuerdo pues a la característica de de nuestros datos y como vimos. Pues la idea es tratar de aislar el efecto de esta variable em explicativa de tal manera que no esté contaminada, digamos por otros factores que pueden influir en nuestro puntaje en global.

00:24:32:05 Para esto pues, debemos encontrar em variables candidatas que estén relacionadas con el acceso a tecnología, pero que no estén correlacionadas con con el error. Y también pues es importante que esta variable instrumental tenga un efecto en la variable dependiente, pero sólo a través de nuestra variable endógena. Entonces, en la práctica digamos que hay que ser muy creativos y también tener mucha suerte para encontrar una variable instrumental que sea que sea válida.

00:25:35:15 Acá vamos a utilizar una que em se encuentra pues en la literatura sobre esto, este tema en específico que es que nos indica si los padres de los estudiantes tienen acceso a herramientas tecnológicas en su lugar de trabajo y esta variable no es candidata porque tenemos todavía no estamos seguro si es o no bueno, variable e instrumental. Y para saber si sí de hecho es válida, pues tenemos que evaluar las condiciones que vimos que nos vamos a llamar la condición de relevancia y de Gemita en la lógica, pues detrás de de esta variable es que el uso de tecnologías por parte de los padres de los estudiantes tiene un efecto sobre el puntaje global.

00:26:10:19 Después de controlar por otros factores y en la práctica digamos que es muy difícil probar estadísticamente la validez. Pero teóricamente es posible pensar que el hecho de que los padres tengan acceso a computadores e internet en el trabajo incrementa la probabilidad de que tengan también estas herramientas en la casa y por lo tanto los estudiantes tienen también mayor probabilidad de acceder a ellos.

00:26:45:07 Es desde que esta variable instrumental, pues está relacionada o a priori pensamos que está relacionada solamente con el acceso a tecnología. Entonces es muy poco probable que esté correlacionada con otros factores que afecten el puntaje global, como son las las habilidades. Y con esta variable que he candidata podemos aplicar el método de estimación de mínimos cuadrados. Entonces dos etapas.

00:27:50:05 Acá vemos que el 24% de de los estudiantes tienen papás que cuentan con herramientas tecnológicas en la oficina. EM En esta tan tonces utilizamos el comando y ver ingress que nos ayuda a estimar por medio de mínimos cuadrados ordinarios en dos etapas y en el resultado que vamos a ver al final como dos tablas. Acá lo que vamos a hacer entonces es indicarle cuál es nuestra variable dependiente, nuestras variables de control y después incluimos acá nuestra variable endógena entre paréntesis, como si fuera una ecuación auxiliar en en donde después del igual vamos a poner la lista de nuestras variables instrumentales.

00:28:30:13 En este caso sólo contamos con una variable instrumental, por lo tanto decimos que el modelo está idénticamente identificado, pero acá si tenemos más variables instrumentales, pues las podemos incluir. Ponemos nuestra condición de del rango de edades y como tenemos también problemas de heterogeneidad, ponemos el robot para que corrija y los errores estándar y con suerte le indicamos a esta tal que nos muestre tanto la primera como la la segunda etapa.

00:29:00:12 Acá no lo mencioné antes, pero como funciona este método es que en la primera etapa nuestra variable dependiente va a ser en la variable endógena y nuestras variables independientes van a ser tanto los instrumentos como variables de control. ¿Entonces, por ejemplo, a quién? Esta es la primera etapa de nuestra regresión. Nos muestra acá en el nombre de nuestra variable dependiente.

00:29:38:20 Acá vamos a tener, pues, todos los controles y al final vemos nuestra variable instrumental. El signo es positivo y es estadísticamente significativo. Entonces, acá, como intuíamos al principio, la correlación, pues, es positiva. Después tenemos una segunda etapa que es condicional a la primera etapa. Entonces prácticamente esta variable de acceso no a herramientas tecnológicas corresponde a los valores predichos de la primera etapa.

00:30:22:18 Y acá tenemos también todos los los controles. Ya podemos ver diferencias grandes como el tamaño del coeficiente, cambios en signos y también en la en la significa cancelar e y eso es el procedimiento. Es muy sencillo en esta etapa, sin embargo, pues la no importante a la hora de aplicar es de esta técnica. Pues es evaluar que en qué tan confiables son estos resultados y para decir qué tan confiables son, pues debemos evaluar las condiciones de del instrumento.

00:31:12:12 ¿Entonces vuelvo y repito si, si la regresión de variables instrumentales es es útil? Pues depende de si en nuestro instrumento es relevante y cumple con la condición de exógena. Si los instrumentos son inválidos, los resultados que vamos a obtener no van a tener sentido. Y como decimos, el remedio puede ser peor que la enfermedad. Entonces en muchas ocasiones es mejor quedarnos con los resultados de de la primera regresión por el problema de la endógena, para entonces evaluar la primera condición la relevancia del instrumento.

00:31:48:07 Debemos pensar esta condición como algo similar al efecto que tiene el tamaño de de la muestra. Entonces, cuanto más relevantes los instrumentos, entonces más información está disponible para el uso de la regresión por variables instrumentales. Es decir que un instrumento relevante produce un estimador más preciso. Al igual que al aumentar el tamaño en nuestra muestra obtenemos pues estimadores más precisos.

00:32:22:04 Aquellos instrumentos que nos explican muy poca variación en la variable endógena los vamos a llamar instrumentos débiles, y cuando tenemos instrumentos débiles, pues tenemos un gran problema. Entonces básicamente, pues el resultado es que este estimador puede estar sesgado en la dirección del estimador de mínimos cuadrados ordinarios y por lo tanto. Pues el resultado no no va a ser confiable.

00:33:21:15 En varios libros de econometría podemos encontrar que una regla para evaluar estadísticamente qué tan relevante son nuestros resultados es fijarnos en En el valor del estadístico depende la primera etapa de la regresión. Y con este estadístico pues estamos probando la hipótesis modular de que los instrumentos son iguales a cero y la regla para saber si instrumentos de débil o no, es que si este valor es menor a diez, decimos que en que es débil de otra forma, pues es un buen candidato y em para para corregir el problema de ingenuidad cuando tenemos muchos instrumentos y algunos de ellos son débiles, lo mejor es descartar aquellos que son débiles.

00:34:02:23 Pero si tenemos solo un instrumento para la variable en dos en AM, entonces la solución es tratar de buscar instrumentos adicionales que que sean más fuertes o cambiar el enfoque empírico, es decir, utilizar otro tipo de de métodos para estimar este efecto causal. Por ejemplo. En este caso. Pues la primera condición se satisfacen. La segunda condición que nos habla sobre la ajenidad del instrumento es más difícil de probar estadísticamente.

00:34:53:16 Y la principal consecuencia de la violación de este em de esta condición es que el estimador pues va a ser inconsistente, lo que significa que este coeficiente que que obtenemos pues no converge en probabilidad a un efecto causal. Listo entonces, em en en si el instrumento llega a ser no no exógeno em lo que lo que estamos haciendo es no identificando una variación exógena y por lo tanto, pues no podemos confiar en nuestros resultados como decía anteriormente, pues en estadísticamente no hay una forma de de probar este supuesto.

00:35:42:24 Esto es más teórico en el sentido que debemos justificar muy bien por qué nosotros creemos que que es exógeno también mezclándolo con algunas señales que obtenemos de nuestro lado, de nuestra tabla cuando tenemos más instrumentos y más variables instrumentales para la variable endógena. Hay una manera de mirar si si todas estas variables instrumentales EM proporcionan em, si son exógenas, entonces nos proporciona una forma de aislar la contaminación que tenemos en el en el coeficiente EM.

00:36:23:00 Los instrumentos validos usualmente vienen de usar teorías, por ejemplo en economía siempre en lo primero que hacemos es mirar que nos dice la teoría sobre el tema que estamos tratando y ser muy creativos, buscar como fuentes exógenas de de variación en qué cambian el comportamiento de regresar. Y para esto, por ejemplo, en muchos casos acudimos a la historia o a choques externos a que nos proporcionen como cierta aleatoriedad estos resultados.

00:37:24:21 Entonces los vamos a ver acá en un archivo de Excel inserto en este archivo Excel. Lo que el nos exporta es la segunda etapa que es la que nos nos interesa y acá podemos ver em ciertos em aspectos que nos pueden hacer dudar de de la validez de nuestro instrumento. Por ejemplo, lo primero que observamos es el cambio en el tamaño del coeficiente, o sea, pasamos de perdón de 12 a a 90 y en en comparación con otros estudios sobre el mismo tema, pues este coeficiente es mucho más grande, lo que nos hace también dudar pues de de sobre todo de la exógena del instrumento em también Otro aspecto que miramos es que a priori

00:37:59:07 nosotros también tenemos que em como intuir si esperamos un efecto más pequeño, más grande respecto a nuestra regresión. Y en base a esto también nos ayuda como a tener una idea de si esto nos está ayudando a corregir o no el problema en general y muy probablemente acá la razón de por que este instrumento no es válido tiene que ver con otras variables que me están afectando.

00:38:39:07 EM No a través de de mi variable explicativa de interés. Por ejemplo, podemos pensar en que aquellos trabajos donde los padres tienen acceso a herramientas tecnológicas pueden estar relacionados con con los salarios. Entonces aquellas ocupaciones donde ellos tienen acceso a estas herramientas de pronto están correlacionados con salarios más altos que me están afectando. El puntaje global de los estudiantes, siguiendo otro canal diferente al de acceso de los estudiantes a estas herramientas en tecnológicas.

00:39:15:21 Por lo tanto. En este caso, los resultados que obtenemos con variables instrumentales, pues no son confiables, no son creíbles en las soluciones. Como mencionó, es tratar de encontrar una variable disponible en nuestro conducto de datos que tenga que sea más fuerte. EM sobre todo que cumpla con este supuesto de exógena. Y si no lo podemos hacer, es mejor pensar en otras alternativas.

00:40:15:05 Muchas gracias. Con esto termino. ¿Erika, me estás escuchando? Ya hay logro escuchar a Camila ahora si perdona, es que creo que es está escuchando súper bajito, como un momento, un volumen perfecto. Ella le dije por acá te llegaban un par de consultas y es la primera que te hacían. Era sobre a que tipo de datos se le puede aplicar el trabajo con variables instrumentales o si esto es indiferente, pues a la a la aplicación de ese procedimiento en sí.

00:40:51:07 Este procedimiento lo utilizamos mucho cuando no tenemos acceso a datos longitudinal ales, es decir, a un seguimiento de nuestras unidades de análisis en el tiempo. Entonces, cuando hablamos de datos de corte transversal, donde prácticamente para un periodo determinado observamos ciertas personas, pero en otro periodo observamos el mismo fenómeno para otras personas en so variables instrumentales es una una opción.

00:41:29:13 Perfecto. Muchas gracias también. ¿Bueno, estaban consultando varias personas por acá en el Chubut, eh? La grabación de esta sesión en el chat les estoy dejando el enlace en donde podrán encontrar este video y el de la sesión anterior. Aquí pueden consultar pues esta información. También te consultaban lo siguiente Como se pueden interpretar los valores negativos en la variable sobre la permanencia de la madre en casa, Aunque esta variable es una variable dicotómica que toma el valor de de uno.

00:42:07:11 Si la mamá trabaja, entonces en este caso e este Este resultado pues no lo podemos interpretar como causalidad, pero nos está diciendo que hay una correlación negativa, es decir, que los estudiantes que tienen mamas que trabajan tienden a tener menores puntajes respecto a aquellos estudiantes donde la mamá está más presente. ¿En qué tiene sentido? ¿Consenso? Perfecto. ¿Por acá te hacían una consulta a propósito?

00:42:46:10 ¿Pues que mencionas que la variable chico toma y te hacen la siguiente consulta como poder trabajar en general en la regresión, añadiendo la posibilidad de incluir las variables dicotómicas o categóricas, o sea, como podemos? ¿La pregunta es como podemos incluirlas en la regresión? Ajá, exacto. Supongo que te los realizan sociales. ¿Bueno, acá por ejemplo en tenemos diferentes tipos de variables categóricas, unas que son dicotómicas, otras que toman más valores, no?

00:43:36:24 Por ejemplo dicotómicas como el acceso no a herramientas tecnológicas y otras como el tiempo que que em dedica navegando en internet. Entonces tenemos tres categorías usualmente estas variables nosotros las codificamos o por ejemplo si hablamos perdón, eh, nuestra variable me gusta esto eh, tiene por ejemplo cuatro categorías y estas son las etiquetas. Pero acá podemos ver que digamos que vamos a estas etiquetas.

00:44:19:04 Tenemos en números, al tener números, entonces con Stata podemos incluir este está ahí con el punto y lo que hacemos es que para en lugar de crear varios variables dicotómicas con relación a una categoría de referencia, el automáticamente la va a considerar como una variable categórica y él decide. Acá, por ejemplo, vemos el decide cuan variable toma como como referencia, de tal manera que acá pues vemos las tres categorías que debemos interpretar con respecto a la primera, que fue la que se seleccionó como referencia.

00:44:41:16 Entonces no hay que crear. Por ejemplo acá tengo que crear las variables dicotómicas para esta variable, pero en realidad, pues para correr la regresión en no necesitamos hacer esto con stata y podemos directamente hacerlo simplemente indicándole y punto.

00:45:17:01 Perfecto. Muchas gracias Camila. Por acá te preguntan también si hay alguna forma de que cuando se necesita usar variables instrumentales en un estudio y cuándo, pues definitivamente no usarlas. Y es cuando pensamos como en un problema de investigación. Y la idea de este problema es estimar un efecto causal. Siempre tenemos que pensar como en todos esos factores que pueden contaminar el efecto de la variable de interés.

00:45:54:07 Entonces para esto hay que ir mucho a las teorías que ya existen, pero también usar el sentido común como que de esta manera pues poder identificar como aquellos todos esos factores que pueden influir en ese efecto causal y la decisión de usar variables instrumentales o no realmente depende pues del tipo de datos que que tenemos siempre, pues si no contamos con panel con datos longitudinales EM, la primera opción puede ser variables instrumentales.

00:46:28:03 Sin embargo, digamos que en la práctica hay que tener mucho cuidado con este método, porque hay creo que lo más difícil es como tratar de encontrar una variable que realidad nos convenza de que si está capturando esa exógena que en cierto sentido lo podemos ver como una un experimento aleatorio, por decirlo así, bien, perfecto, habría que verlo. Pues muchísimas gracias por tu presentación.

00:47:26:07 Por ahora no veo más preguntas en el chat. Bueno, habían otro par de quietudes, pero durante la presentación las resolví entonces. Pues estas son todas las preguntas que nos quedaban por transmitirte. No sé si quieres añadir algo más antes de finalizar tu presentación el día de hoy. ¿No, no creo que se aborde todo lo lo principal, por supuesto, esto es una presentación introductoria, entonces, ya que si están interesadas, hay varios libros interesantes donde podemos aprender más sobre cuándo saber cuándo no usar estos métodos y sobre la variable instrumental como qué otras formas tenemos de encontrar una variable instrumental válida?

00:48:19:06 Perfecto, Pues muchísimas gracias. Bueno, aquí llega una una inquietud adicional que. Que. Pues a propósito, sobre esos libros podrías recomendarte unos y para para las consultas. EM hay varios, digamos que como para empezar. Pues bueno, es que no sé, depende mucho también de de la de la formación académica, porque por ejemplo yo soy economista, entonces yo empecé con Google Drive para aprender estos temas, pero hay libros más, digamos que amigables y uno no tiene como ese background estadístico que podría sugerir, pero en este caso no tengo presente los la referencia.

00:48:56:03 Pero te podría mandar por email o no sé, algunos libros, vamos, si quieres vamos a compartir la la encuesta de hoy y si puedes estar interesados de pronto en alguna cuestión sobre la parte temática o sobre pues el la consulta ya directamente de la metodología. Si quieren déjennos en la última pregunta el comentario y pues entonces los los contactamos vía mail para poderles compartir esta información.

00:49:36:03 Si están de acuerdo. Bueno, si por acá nos están confirmando que sí, que perfecto, entonces vamos a ese momento en las pantallas este encuesta para que puedan entonces em participar allí y pues en caso de que exista interés por esto que les mencionaban puedan dejarlo allí registrado y pues les contactaremos vía México sin más. Bueno entonces desearles un muy feliz día, agradecerles su asistencia a esta presentación y a Camila.

00:50:04:18 Pues muchas gracias por el espacio. Pues entonces nos vemos en una próxima oportunidad, que estén muy bien y que tengan un excelente resto y hasta pronto. Hasta luego. Para mayor información respecto al software o en temas relacionados, no dude en contactarnos a través del correo electrónico, entrenamientos a software shop, punto com o visitar nuestra página web Triple Ole o punto Software Guión Ya.com.

Efectos Educativos de Herramientas Tecnológicas en Colombia: Un Análisis a través de Variables Instrumentales

En el ámbito de análisis de regresión, es fundamental comprender y abordar el desafío de la endogeneidad. Para superar este obstáculo, introducimos el concepto de "Variables Instrumentales." que funcionan como sustitutos de las variables endógenas, permitiendo así, estimar los efectos de las variables independientes sobre la variable dependiente. En esta presentación, exploraremos el uso de variables instrumentales, así como la aplicación del método de Mínimos Cuadrados en 2 Etapas, que se convierte en una herramienta poderosa para abordar la endogeneidad. Además, discutiremos la validez de las variables instrumentales, un aspecto fundamental para garantizar la robustez de nuestros análisis, lo que facilita una perspectiva más completa en distintos proyectos de investigación y análisis de datos.

Etiquetas relacionadas

Análisis de datos
Educación
Matemáticas

¡Comparte este video con tus colegas!

Copiar link

Facebook

Instagram