Autor: María Camila Jiménez Amaya / Portafolio: Quantitative / Vie. 03 de Nov de 2023

Transcripción de este video

(Transcripción automatizada sin revisión humana)

00:00:36:23 Shopper Shop, la empresa líder en la implementación de herramientas analíticas y software especializado en Latinoamérica, les da la bienvenida a esta presentación. Conferencista María Camila Jiménez, economista con maestría en Economía de la Universidad, ex mer CEO. Se ha desempeñado como científico de datos y administrador de aplicaciones de Minería de datos. ¡Buenos días! En el día de hoy voy a presentar este webinar que titulé Efectos Educativos de herramientas Tecnológicas en Colombia.

00:01:17:03 Un análisis a través de la regresión lineal y básicamente el webinar se divide en dos partes. La primera es una parte teórica donde voy a explicar los principales conceptos y después vamos a ir a nuestra herramienta Data versión 18 para aplicar este y este ejercicio en el análisis de regresión y es una herramienta estadística que nos ayuda a descubrir relaciones.

00:01:58:06 En este caso, por ejemplo a Queremos explicar como el rendimiento académico de estudiantes de último año de bachillerato se comporta de acuerdo a si tienen ellos acceso o no a herramientas tecnológicas como computadores e internet en casa. ¿Una de las primeras preguntas es qué tipo de relación esperamos acá? Y a priori digamos que el sentido común nos dice si estos estudiantes tienen acceso a herramientas tecnológicas, tienen acceso a información y por lo tanto esperamos que tengan un puntaje más alto.

00:02:36:10 Esta relación la podemos expresar a través de una ecuación donde nos interesa interpretar estos números, particularmente el número que acompaña nuestra variable y tecnología y el hecho de que este coeficiente sea positivo nos indica qué tenemos de herramientas. Acceso a herramientas tecnológicas va en la misma dirección del rendimiento académico y esta declaración se basa en una correlación que también se puede utilizar para hacer predicciones adecuadas.

00:03:25:00 Un error muy común en la práctica es tratar de interpretar este valor como un efecto causal, es decir, que tener acceso a herramientas tecnológicas provoca un aumento en el rendimiento académico. Y es erróneo concluir esto porque tenemos otras variables, como por ejemplo las habilidades de los estudiantes que pueden afectar tanto el rendimiento como la tecnología. Y entonces el mensaje acá es que la el análisis de regresión tiene diferentes objetivos, lo podemos utilizar para encontrar correlaciones y hacer predicciones, pero también lo podemos utilizar para estimar efectos causales.

00:04:22:22 Este webinar y otros que que se aproximan se van a enfocar en el segundo objetivo, que es encontrar efectos en causales. Es importante. Vamos a empezar con el análisis de nuestra variable de interés que es el puntaje, y dado que es una variable continua, la podemos describir a través de un histograma tal como vemos acá. Este histograma lo que nos sugiere es que la distribución del puntaje se aproxima a una distribución normal que la podemos describir a través de dos parámetros la media y la varianza, y también podemos compararla con la distribución normal estándar que se caracteriza por tener una media cero y una varianza de uno, dado que en muchos casos es costoso acceder

00:05:00:08 a la información de toda la población, lo que nosotros hacemos siempre es trabajar a través de muestras y nos interesa en un estimador de la media poblacional que podemos emplear a través de la media muestral, donde de su ir va denotar la enésima observación de del puntaje. Esta media muestra la conocemos tan bien como media y no condicional porque no depende de otras variables.

00:05:41:18 Sin embargo, en muchas aplicaciones nos ayuda a tener información adicional para mejorar, por ejemplo, las las predicciones. En nuestro ejemplo, en la variable herramientas tecnológicas nos podría ayudar a predecir el puntaje porque como vimos en la diapositiva anterior, hay una correlación mixto y dado que no tenemos acceso a la población, estos parámetros son parámetros no observados y por lo tanto vamos a utilizar la información de las de las muestras.

00:06:15:21 La idea de utilizar entonces una variable para predecir otra en lugar de utilizarla la media de la muestra significa que vamos a pasar de un enfoque no condicional a un condicional y en esta esta ecuación que vemos acá la podemos reescribir de otra manera utilizando el significado de G y de la relación lineal beta cero más beta uno x.

00:06:59:19 De tal manera que acá vamos a tener un término de error que va a estar definido como la diferencia entre el valor observado del puntaje y esta predicción condicional en esta forma reescrita de va a ser muy útil para estimar estos coeficientes que es de nuestro interés y juntos forman lo que conocemos como regresión lineal simple. Simple porque solo tenemos acá una variable x y lineal por como esta y acá identificado nuestro beta.

00:07:38:17 Esto significa que existen otras variables que nos van a afectar el puntaje, pero dado que no están explícitamente identificadas, acá van a estar todas ellas en el término de derrota sobre la notación. Entonces dependiendo pues de del campo y también del objetivo e la variable de la variable x tienen diferentes nombres. Por ejemplo, en ciencias sociales tendemos a llamarlas variable dependiente y variable explicativa.

00:08:09:00 Ahora entonces, nos vamos a concentrar en la interpretación de nuestros parámetros, particularmente nos interesa la interpretación de de la pendiente, es decir, del valor que acompaña a nuestra variable de interés y para la interpretación. Entonces vamos a suponer que en un momento t0 tenemos dos estudiantes, el estudiante A con un puntaje de 20 y el estudiante B con un puntaje de 40.

00:09:00:16 Vamos a suponer que hay una intervención donde estos estudiantes reciben, por ejemplo computadores y después de esto vamos a observar cuáles son los puntajes de estos estudiantes. Entonces digamos que en un tiempo T1 el estudiante obtiene un puntaje de 50 y la estudiante B de 70. ¿La pregunta acá es cuál estudiante tiene el incremento relativo más grande? Para esto aplicamos esta esta fórmula para el estudiante a y para el estudiante B, por lo tanto, el estudiante A es el que tiene el menor incremento y este esta manera de cálculo digamos que puede ser expresado en notación matemática como una derivada.

00:09:39:05 Esto significa que el beta que acompaña a nuestra variable de interés representa un efecto marginal y el otro lo calculamos a través de un la derivada de g con respecto a ellos en muchas aplicaciones y este. Este beta puede ser interpretado como una elasticidad que nos sirve para medir como el cambio en la variable x porcentualmente afecta en términos porcentuales nuestra variable dependiente.

00:10:06:23 ¿Como ejemplo, si nos interesa saber cómo responde la demanda de un producto a cambios en su precio y queremos hacer por ejemplo, comparaciones de los productos, digamos café y leche, estos productos se miden de forma diferente, no? La leche la vemos en litros, mientras que el café lo vimos en gramos y al tener diferentes medida nos dificulta la interpretación.

00:10:57:06 Por eso hablar en términos porcentuales en este caso tiene sentido y también nos ayuda a vincular ese cambio porcentual cuando tenemos una relación causa efecto, de tal manera que no interpretación puede ser como la que vemos acá. Si el precio de las naranjas cae en un 2%, entonces su demanda aumentará un 5%. Matemáticamente la elasticidad la podemos definir como el cambio relativo de que individuo por el cambio relativo de x y e en nuestro modelo estaría definido por beta E multiplicado por la relación entre ellos.

00:11:53:03 El problema es que esta elasticidad depende de valores específicos de X. Por lo tanto, en la práctica lo que hacemos es transformar estas variables en términos logarítmicas, de tal manera que la elasticidad es el beta. Teniendo en cuenta esto, entonces la idea es cómo podemos estimar estos parámetros y siguiendo la idea que vimos de ajustar una línea de regresión a nuestros datos en una manera sensatas, plantear un problema de minimización con el fin de encontrar esos parámetros que minimizan esta expresión que se basa en los errores.

00:12:34:09 El mínimo de esta función objetivo no obtenemos al resolver las primeras y condiciones de tal manera que vamos a obtener aquí los estimadores de mínimos cuadrados ordinarios donde el Beta uno gorro es el estimador de pendiente que está definido como la relación entre la covarianza de que sigue la varianza de X y el beta cero más es más va a ser igual al promedio de nuestra variable dependiente menos el beta un estimado con la medida de nuestra variable explicativa.

00:13:05:18 Para el caso de de beta uno gorro el signo va a estar definido por la correlación que hay entre x y G, de tal manera que si la correlación es positiva, este parámetro a ser positivo. Si es negativa la correlación, este parámetro va a tener un signo negativo, y si este valor es cero, significa que no es estadísticamente distinto de cero.

00:13:34:06 Para medir la calidad de la estimación, entonces tenemos una medida que se basa en los residuales. No residuales van a ser el estimador de los errores. Y para esto entonces debemos considerar dos conceptos. El primero es la suma de cuadrados totales que no definimos como la suma de las desviaciones de los valores observados con respecto a la media.

00:14:05:18 Y el segundo concepto es la suma de cuadrados explicados, que es la suma de las desviaciones de los valores estimados con respecto a la media, con base en estos dos conceptos podemos definir una medida de ajuste que conocemos como el re cuadrado y uno define como la fracción de la variación de G que explica que se explica por el modelo, es decir, por la variable explicativa que estamos considerando.

00:14:54:05 Este valor toma valores entre cero y uno o entre cero 100% es donde cero. Si obtenemos un valor de cero nos indica que no hay ajuste, mientras que si tenemos un valor de uno de 100%, el ajuste es perfecto. En la práctica, pues nunca obtenemos, digamos, estos valores extremos y algo importante es que aunque este esta medida y es un indicador de que tan buen ajuste tenemos, no define si nuestro modelo es bueno o malo, tenemos que considerar otros aspectos en otro aspecto.

00:15:34:00 En la La regresión es sobre las propiedades estadísticas de nuestros parámetros. Acá no, pues no vamos a entrar en profundidad con las estadísticas, con las propiedades estadísticas, pero la idea es que cuando nosotros hacemos estimaciones es de ellos. Queremos cuantificar la incertidumbre, es decir, qué tan cercano este valor es al representa el valor poblacional y para esto las propiedades estadísticas de estos parámetros se basan en las propiedades estadísticas del término de error.

00:16:18:13 Por ende, tenemos un conjunto de supuestos que si se cumplen, garantizan unas buenas propiedades estadísticas dentro de los parámetros. La primera suposición entonces, es sobre todo el modelo nos dice que bien está relacionada forma lineal con X y lo conocemos tan bien como el proceso de generación de datos. Vamos a tener un segundo supuesto sobre la variable explicativa EM, en particular las n observaciones de de x son valores fijos en lo podemos pensar como con un ejemplo.

00:16:55:00 Por ejemplo, el gerente de una firma que tiene que fijar precios de un producto cada lunes. Después tenemos un conjunto de supuestos relacionados con el término de error particular. EM Los supuestos son que es la media condicional del error es cero. La varianza es constante. Los errores de diferentes observaciones no están correlacionados y dados estos tres supuestos, los errores se distribuyen normalmente.

00:17:32:20 Y por último, tenemos un supuesto relacionado con los betas que nos dice que estos son desconocidos pero fijos para las observaciones. En la práctica es muy difícil que todos estos supuestos se cumplan, por lo tanto, la violación de ellos lleva a aplicar otros procedimientos que que nos ayuden pues a superar la violación. Y con estos siete supuestos podemos determinar las propiedades estadísticas.

00:17:59:07 Acá en este webinar nos vamos a enfocar en dos de los E de los supuestos, que es cuando tenemos dos entidades. Decir que esta media condicional es diferente de cero y cuando los errores no son constantes, es decir, cuando hay enteros elasticidad.

00:18:40:20 Vamos a empezar entonces con el supuesto tres que nos dice Las variables explicativas son exógenas. La violación la conocemos como endógena y es importante saber cuáles son las carencias de la endógena. Edad. Cómo podemos hacer la estimación bajo este problema y cómo podemos evaluar las propiedades de nuestros estimadores. En este. En este webinar nos vamos a enfocar en una de las de las soluciones, pero en los que siguen, pues vamos a mirar más al detalle en otros procedimientos.

00:19:21:02 Sin embargo, por el momento es importante saber cuáles son las fuentes de endo genuina y en particular tenemos tres fuentes. La primera es cuando hay variables omitidas. Por ejemplo, como lo mencioné anteriormente, las habilidades de los estudiantes al no ser observables o medibles, lo vamos a tener en el término de error y por lo tanto en nuestra variable explicativa va a estar correlacionada con con el error y violando, pues, el supuesto de inventar un segundo.

00:20:11:06 Una segunda fuente está relacionada con el comportamiento estratégico, por ejemplo, que los estudiantes se esfuerzan por sacar un puntaje alto porque tienen la expectativa de que los padres los van a recompensar, por ejemplo, con herramientas tecnológicas, computadoras, celulares, etcétera y una tercera fuente está relacionada con errores de medición. Entonces, por ejemplo, en el caso de las habilidades, puede que encontremos una variable muy cercana a ella, pero de todas maneras no va a captar, pues este concepto es complejo y por lo tanto vamos a tener un error de medición en esa variable que nos va a producir endógena.

00:21:04:21 Entonces, para resumir, este problema es muy serio y común cuando estamos em em haciendo aplicaciones con estos métodos y em en presencia de dos m da en mínimos cuadrados ordinarios y no funciona bien. Por lo tanto, tenemos que acceder a otro tipo de procedimientos que nos ayude a superar este este problema y tener así resultados confiables. El segundo problema es la violación del supuesto cuatro que nos dice que la varianza de los errores es como se da, es decir, que la varianza de ellos no cambia con los valores de nuestra variable de interés.

00:21:36:19 Por decir algo, si en el eje x tenemos la edad y con los errores lo que esperamos es este comportamiento. Cuando se viola vamos a observar algo como lo que vemos aquí en este, en esta gráfica y como en el caso anterior, pues nos interesa conocer cuáles son las consecuencias de la actividad y cómo podemos em estimar un modelo teniendo en cuenta este problema.

00:22:25:12 Y esto entonces y ahora vamos a pasar a al software con aplicación en donde vamos a utilizar datos de la prueba saber 11 para el año 2021. Si no es para esto, entonces acá tengo e stata y voy a trabajar con con este Duffy e los datos e los lo lo tengo acá con el nombre con este nombre ya está en formato de team y lo primero que vamos a hacer es definir unas macros para los directorios con con global.

00:23:12:00 Entonces voy a definir EM donde tengo los datos en que, en que ruta puedo encontrar mis datos y también en qué carpeta quiero guardar los resultados de este ejercicio. Entonces él va a tomar de aquí los datos y los va a guardar en esta carpeta. Entonces lo vamos a ejecutar y para llamar nuestros datos utilizamos el comando y usted lía la opción, la utilizamos en caso de que tengamos un conjunto de datos abierto y una buena práctica.

00:24:03:16 Siempre crear un archivo log para guardar todos los procedimientos que llevamos. Realiza este conjunto de datos. Como vemos aquí en esta ventana tiene 124 ops variables y 548.507 observaciones que corresponden a estudiantes de todas las regiones de Colombia en Context y podemos observar en nuestra ventana de resultados la características generales de nuestras variables. Por ejemplo, el nombre, el tipo de almacenamiento y las etiquetas, tanto de las variables como de de los valores.

00:25:00:06 En nuestro interés está en esta variable que lo voy a llamar ten y un bajo y setter y la voy a tabular teniendo en cuenta los valores perdidos. Los mismo. Y acá podemos ver que del 100% tenemos 3.64 observaciones en pérdidas en el 76% de los estudiantes cuentan con computador. Internet en en casa en. Sin embargo, vamos a restringir nuestro análisis a aquellos estudiantes que tienen entre 14 y 25 años, ya que si hacemos un cuadro de resumen para la edad, vamos a observar que tenemos personas con un año de edad, pero también con 128 años de edad, lo cual puede deberse a errores.

00:25:40:00 Entonces, para reducir la presencia de de anclaje, vamos a restringirlo de tal manera que vamos a trabajar con esta cantidad de variables. Y ahora vamos a mirar como el puntaje global cambia de acuerdo a A si tienen acceso a herramientas tecnológicas. Pero antes vamos a mirar las características de nuestra variable dependiente. Sabemos que la mente primero los valores de los El valor del puntaje va de 0 a 500.

00:26:16:02 En este caso tenemos estudiantes con un puntaje máximo de 495, una media de 248 puntos y una desviación estándar de 51 puntos. Cuando lo hacemos, En resumen, por nuestra variable de interés, entonces vamos a observar que la media es mucho mayor. Pagan a los estudiantes que tienen acceso a computador en Internet y en la varianza también es un poco más alta.

00:26:55:16 Y esto Entonces, con base a esto, la idea es ejecutar nuestra primera regresión y nuestro interés en estas variables dicotómicas. Sin embargo, para entender la interpretación, primero voy a tomar la variable edad, esto sólo con el fin de facilitar la interpretación de de los coeficientes y después ejecutamos una segunda regresión con nuestra variable de interés. Entonces el comando para ejecutar la regresión es rec, seguido por nuestra variable dependiente.

00:27:41:22 Después el conjunto de variables explicativas. En este caso sólo estamos considerando la edad y después podemos incluir ciertas condiciones y ejecutarla. Entonces em. Esta va a ser la salida y acá en la diapositiva podemos ver que en la salida se compone de tres aspectos. Esta primera tabla corresponde al ANOVA o análisis de varianza. La segunda tabla presentada con el rojo corresponde a las medidas de ajuste y tenemos en amarillo los resultados de los coeficientes y eso significancia.

00:28:30:02 Entonces en este caso el coeficiente EM de la edad tiene un valor de 11.4. ¿Que significa este coeficiente? Significa que si comparamos, por ejemplo, dos estudiantes con edades que difieren en un año, el estudiante más viejo, digamos, tiene un promedio, un puntaje más bajo de 11.4 puntos. El signo negativo entonces nos indica que si los estudiantes tienen más años de edad, tienden a tener un rendimiento más bajo, y esto resulta, como decía al principio, nos sirve para hacer predicciones.

00:29:13:04 Por ejemplo, para un estudiante con 17 años de edad es si hacemos el cálculo. El resultado de la predicción es que estos estudiantes van a obtener un puntaje general de 258 puntos acá, pues cabe aclarar que esta predicción no es del todo exacta porque tenemos otros factores que nos determinan el rendimiento de los estudiantes, pero teniendo en cuenta sólo esta variable y siendo concientes de que existen otros variables, pues este sería la predicción en las medidas de ajuste.

00:29:58:00 Aquí el cuadrado está en valores de 0.07 o 7% y tenemos otra medida de ajuste que no lo expliqué anteriormente, pero es el el error estándar de la regresión y ambas me van a indicar que también se ajusta la línea de regresión a la dispersión de los datos. Este cuadrado es 7%. Significa que en la edad que es en la variable explicativa que consideramos acá explica 7% de la varianza de nuestra variable dependiente.

00:30:27:18 Y esto lo podemos entonces ver a través de un gráfico mixto. Entonces acá lo que voy a hacer es generar dos gráficos, uno teniendo en cuenta todos los datos, todos los estudiante y otro limitándolo a aquellos estudiantes entre 14 y 25 años para generar el gráfico de dispersión junto a la A la línea de regresión utilizamos el comando.

00:31:00:16 Tu web skater es para la dispersión y el FIT es para la la línea de regresión y voy a combinar estos dos gráficos para verlos en una misma ventana.

00:31:50:15 Entonces acá tenemos en los dos gráficos non-stop. Fijémonos como cambia la la línea en la pendiente bloqueada, considerando todos, pues tenemos mucho ruido y acabemos en el segundo gráfico en la regresión, limitándolo a los años de edad. Y podemos ver acá en la línea de regresión lo que nos muestra el ajuste que tiene, pues en la edad vemos que aunque explica mucho de la variación, pues permanece sí, sin explicar el otro.

00:32:32:03 La otra media de ajuste es lo que vemos acá, como el robot MSD, que en este caso nos da un valor de de 49. Y esto significa que la desviación estándar de de los residuales de la regresión tiene este valor de 49 puntos. Tiene las últimas medidas de nuestra variable dependiente y en lo que nos indica en general es que hay mucha dispersión, por lo que es sólo a tener en cuenta la edad, pues nos explican muy poco de la variación de empleo de nuestra variable de dependiente.

00:33:13:07 Sin embargo. Como decía anteriormente. Pues el hecho de que tengamos un bajo r cuadrado y un valor alto de EM la desviación estándar, el error estándar de de la regresión no significa que nuestra regresión sea buena o mala. Lo que nos dice estos valores es que tenemos otros factores que pueden influir en nuestra variable dependiente como características de los estudiantes y características en los colegios de en la situación socioeconómica de las familias.

00:33:57:11 EM. Por lo tanto, lo que nos dicen estos estos valores es que las variables. La variable que estamos incluyendo explica solo una pequeña parte de esa variación. Lo que no nos va a decir estas medidas de ajuste es cuáles son estos factores que hacen falta en este, en este modelo mixto. Entonces la idea es que sí es bueno mirar esto, pero no hay que basar, digamos, todo en nuestras conclusiones, en el ajuste.

00:34:35:09 Bueno, ahora que tenemos claro cómo interpretar nuestra nuestra variable explicativa cuando es continuo. Vamos a pasar acá a ejecutar una la misma regresión, pero donde la variable explicativa de interés es el acceso a herramientas tecnológicas, son lo mismo y vamos a tener a nuestra. He salido este valor de 34.7 y si es el resultado, pues de la misma mecánica de la regresión con una variable continua.

00:35:33:13 Pero la interpretación va a ser diferente porque dado que no es continua, no la podemos interpretar como en una pendiente. De hecho, este resultado es equivalente a ejecutar un análisis de medias. Si ejecutamos acá un test, esto, podemos ver que la constante corresponde a aquellos estudiantes que no tienen acceso a la media, de aquellos estudiantes que no tienen acceso a herramientas tecnológicas y este valor sumado con el 34.74, nos da aquí la media de aquellos estudiantes que tienen acceso a herramientas tecnológicas y la diferencia corresponde a a este coeficiente que acompaña la variable de interés en.

00:36:15:22 Bueno, cuando ejecutamos no nos interesa también almacenarlo, guardar estos resultados, por ejemplo en un archivo de Excel y por medio del comando o un return podemos hacerlo si lo ejecutamos, el lo que va a hacer es guardarlo en nuestra carpeta de resultados. Cuando tenemos y por defecto y nos va a exportar los coeficientes, el error estándar, el número de observaciones y el R cuadrada.

00:36:54:11 ¿Esto es muy importante y cuando en una salida donde la regresión es también en la interpretación de la ineficacia de estos coeficientes, entonces para la significancia se utiliza el estadístico t e que nos va a decir? Pues si esta variable la debemos tener en cuenta o no en nuestro modelo. Y este estadístico test se basa en definir una hipótesis nula y una hipótesis alternativa.

00:37:27:18 En este caso, la hipótesis no es que no hay efecto de las herramientas tecnológicas y si rechazamos esta hipótesis significa que esta variable sí es significativa para explicar el puntaje, en este caso, para definir si es significativa o no, podemos usar el valor P asociado al estadístico test, y lo que hacemos es utilizar la regla de si este valor es menor a un alfa del 5% de 0.05.

00:38:14:04 Rechazamos la hipótesis normal, lo que significa que este este coeficiente es significativo. Y adicionalmente, como estamos trabajando con con nuestras, podemos acá calcular un coeficiente, un intervalo de confianza con base en el error estándar que también nos permite definir si la variable es significativa o no, si por ejemplo una La hipótesis es que el coeficiente es igual a cero y cero está entre el intervalo, entonces quiere decir que nuestra variable no debería estar en el modelo EM.

00:39:00:13 Ahora vamos a pasar entonces a a la violación de los supuestos. Vamos a comenzar con el supuesto de museo suicida y decide ir a casi la varianza del error. ¿Depende o no de herramientas tecnológicas requiere, digamos, pensar qué significa pues este término de error? Y una manera de entenderlo es separando esta ecuación en dos casos e Un primer caso donde este esta variable toma el valor cero, es decir, no hay acceso a herramientas tecnológicas y uno cuando tienen acceso a herramientas tecnológicas.

00:40:01:09 Entonces, en el caso donde los estudiantes no tienen acceso, este está. Esto se reduce a beta cero. Más bien, simplemente reemplazamos tecnología por cero y un sub y va a ser la desviación del rendimiento del de un estudiante de la media poblacional. Mientras que en el caso donde los estudiantes tienen acceso y uso y va a ser la desviación del rendimiento del estudiante y encima de la media poblacional, entonces con esto digamos que en el hecho de que no dependa de la tecnología que es nuestro supuesto, puede ser equivalente a que la varianza del puntaje es la misma para estudiantes con y sin acceso a herramientas tecnológicas.

00:41:11:02 En otras palabras, en este ejemplo, el termino de horrores como ser ático si la varianza del puntaje es la misma para ambas categorías y si esta varianza impera, pues decimos que el error es entero, sea básico. Y una manera pues de evaluarlo puede ser. En resumen viendo el puntaje por las categorías. Entonces acá vemos en la desviación estándar EM, por lo que podríamos decir que este supuesto como sea suicida se viola y digamos que en términos prácticos, cuando trabajamos sobre todo con fenómenos sociales, en la mayoría de casos vamos a encontrar que este supuesto se viola, y si queremos hacerlo simple, podemos siempre utilizar este, esta opción robusto que nos va a corregir el la

00:42:31:22 de la desviación estándar de los errores cuando lo ejecutamos acá. No cambiar estos valores con respecto a la agresión original. En segundo, en segundo es la segunda. El segundo. La segunda violación del supuesto es en el de endo genital y en acá vimos que el coeficiente era de 34.7, lo que indica que aquellos estudiantes que tienen acceso a herramientas tecnológicas tienen un mejor rendimiento con una diferencia de 34.7 respecto a los que no, y aunque acá podemos ver que las herramientas tecnológicas, los estudiantes que tienen acceso a herramientas tecnológicas tienden a tener altos puntajes em Como dije anteriormente, y hay otras variables que también influyen en el resultado en el puntaje y en un enfoque

00:43:18:23 donde queremos o donde el objetivo es hacer inferencia causal. Una de las formas de de mejorar este resultado que sufren de ingenuidad es incluyendo más variables que sospechamos pues que influyen en el puntaje en global. Entonces en este caso. Usando teorías también. Pues el sentido común. Podemos utilizar características de estudiantes del hogar y del colegio que estén disponibles en nuestro conjunto de datos, como es ejemplo.

00:44:10:07 En este conjunto de datos, por ejemplo, tenemos variables como el tiempo que los estudiantes dedican em a navegar en Internet. También tenemos la edad. No voy a crear la edad al cuadrado porque en EM, como vimos anteriormente, el comportamiento no es lineal, sino que más bien pues lo podemos describir pronto como como siguiendo una u e. También podemos incluir el sexo de los estudiantes, una variable que nos indique si los estudiantes trabajando no es cuántas personas viven en el hogar, el nivel educativo en los papás y la mamá trabaja o no, si el estudiante pertenece a alguna etnia.

00:45:13:14 Y también características del colegio como la modalidad, si es académico, técnico, si es privado o público en el en nivel socioeconómico del barrio donde está el colegio en el calendario. Si saben EM también podemos incluir variables a sobre cuánto tiempo dedican los estudiantes a una lectura diaria, sino si el colegio es bilingüe o no, y con base a esto podemos entonces pasar de una regresión lineal simple a una regresión lineal múltiple, donde varias de las variables omitidos que pueden estar correlacionados con nuestra variable de interés, pues ya van a estar explícitamente en nuestro modelo, lo que nos permite calcular, estimar un efecto causal, controlando por aquellas variables.

00:45:51:10 Esto y acá podemos ver que este coeficiente pasa de 34 y a 12 y todas estas variables son de control. La mayoría son significativas, sin embargo, todas estas variables y al ser control también. Ehm. Digamos que no, no lo podemos interpretar como efectos causales, ni esto sólo nos sirve para controlar y poder estimar este parámetro como un efecto a usar.

00:46:27:17 Sin embargo, incluso si nosotros incluimos todas estas variables que están disponibles en nuestro conjunto de datos, todavía tenemos la influencia de otros factores que no son observables como habilidades tecnológicas, habilidades innatas. ¿La motivación de los estudiantes Qué tan comprometidos están los papás con con con la educación de los estudiantes? ¿Y estas variables? Pues pueden estar correlacionadas tanto con el acceso a herramientas tecnológicas como con el puntaje.

00:47:26:18 Y al ignorar estas variables, entonces este estimador, este coeficiente puede estar sesgado y este es miento lo conocemos como sesgo por variable y omitido, por lo tanto debemos acudir a otros procedimientos como variables instrumentales que nos ayudan como tal a aislar la contaminación que tenemos en este coeficiente y así poder interpretarlo como un efecto causal. En este resultado también lo podemos exportar y con el comando, con la opción append lo que hacemos es añadir esos resultados en nuestro libro de Excel que creamos inicialmente.

00:48:09:13 Entonces acá vamos a observar las dos salidas y con esto entonces termino en la presentación. Muchas gracias por su atención. María Camila, muchísimas gracias por tu presentación. Te voy a ir compartiendo algunas cuestiones que surgieron por acá en el chat, si te parece, para que puedas tal vez tener como más de la mano las preguntas de esto. Entonces pues lo primero que te consultan es que métodos se tienen para el cálculo de los betas en el modelo.

00:48:45:05 Es el método que está detrás y supongo que se refieren puntualmente a la forma en que se está calculando en este caso a que es con base a este método de mínimos cuadrados ordinarios donde lo que hacemos es tomar la definición de en los errores al cuadrado que está por esta expresión y a través de un problema de minimización, llegamos a estos resultados que el software pues calculado automáticamente.

00:48:54:04 O sea, nosotros no tenemos que calcular nada de esto, simplemente pues interpretar y analizar los resultados.

00:49:17:20 Perfecto. Bueno, por acá puse un comentario Trigo y a leer puntualmente. Se muestra en la gráfica de actividad que a un mayor número de muestras la gráfica se achata y los intervalos aumentan en su anchura. Eso es por el efecto y la utilización de la herramienta tecnológica en los puntajes está inconsistencia en los errores. Tal vez se puede deber a que el efecto es muy grande.

00:49:59:17 Un modelo a incluir podría considerar con herramientas tecnológicas para que la homosexualidad prevalezca, aunque por acá en el modelo global es poco significativo o como se trabaja en ese caso, el modelo que que seleccionamos. Digamos que la variable interés es significativa. Sin embargo, hay muchos factores que no incluimos acá porque tomamos un modelo de regresión lineal simple. Entonces la idea siempre es cómo tratar de controlar por todos esos factores que sabemos que afectan.

00:50:55:23 En G para encontrar el el valor real del efecto causal. ¿Por acá también te dicen lo siguiente como se puede identificar si los errores se minimizan con la curva? En los errores se minimizan con la curva y no se. ¿Y tal vez la persona que no se hace esta pregunta si pudiera darnos un poco más de detalle, no entiendo puntualmente a cuál se refiere y a uno que te dice no entiendo si al considerar el modelo con varias variables sólo sirve para estimar la relación causal de la primera variable, Entonces, como se estimaría la relación causal para cada una de las variables o en general a em em?

00:51:39:16 Cuando uno plantea, digamos, una pregunta de investigación, siempre es mejor como enfocarse en solo un efecto causal, tal manera que uno controla teniendo en cuenta otras variables. Pero no nos interesa si estas otras variables em digamos que están contaminadas o son efectos causales o no, lo que nos interesa es que el coeficiente de nuestra variable interés e sea limpio, sea que si nos indique que es un efecto causal y en caso pues que estemos interesados en más de un efecto causal, existen otros métodos como variables instrumentales, datos, panel.

00:52:35:04 Bueno, hay un montón de herramientas dependiendo pues también de las característi cas de nuestros datos que nos ayudan como tal a aislar ese efecto. Por acá te dicen lo siguiente como osos podría solucionar el problema poniendo genera en los siguientes webinars Vamos a mirar una. En el siguiente vamos a mirar una opción que es utilizando variables instrumentales y después vamos a mirar otras técnicas y utilizando datos panel perfecto que nos indica la persona que estaba hablando alrededor de la curva, no con una recta, sino que la DIS por si nos acercamos a una curva es lo que te dice.

00:53:06:00 Um. Creería tal vez que aquella es con respecto a la dispersión de los datos y en este caso pues se está trabajando con el modelo lineal. Y entonces pues por esa, por esa razón es que se trabaja con la recta puntualmente. No sé si quieres añadir algo ahí. María Camila Eh, digamos que cuando hablamos de lineal es que nos interesa que estos coeficientes no tengan, por ejemplo, un término al cuadrado.

00:53:42:08 Sí, pero por ejemplo, no sé si estoy entendiendo bien la pregunta, si el puntaje y la edad, si vemos un gráfico, el puntaje versus la edad y vemos que no sigue una relación lineal sino por ejemplo cuadrática, podemos incluir la edad y la edad al cuadrado para captar ese comportamiento. Bien, perfecto. He caminado por acá. Te deseo un par de consultas sobre la grabación sobre volver, sobre la presentación y demás.

00:54:26:04 Elisa nos ha apoyado desde el chat enviándonos los enlaces donde podrán consultar la grabación de esta sesión a partir de la próxima semana. Este y adicionalmente. Pues a continuación vamos a compartir una una encuesta en la que podrán dejar sus inquietudes, sus comentarios y si se requiere algún contacto posterior, lo haremos vía correo. No se María Camilo, si quieres añadir algo más para terminar la presentación del día de hoy, no solo que los invito a los siguientes webinar Vamos a explorar estas otras herramientas para detectar efectos causales y perfecto.

00:55:01:01 Bueno, pues entonces agradecer tu presentación el día de hoy María Camila y dejarlos pues nuevamente invitados a los siguientes eventos para que nos puedan acompañar ya por quienes están compartiendo la encuesta. Entonces nuevamente pues invitarles a que puedan responder las preguntas que allí se encuentran consignadas y nos encontramos entonces en una próxima oportunidad. Que estén muy bien. María Camila, muchísimas gracias por tu presentación, desearte que tengas un feliz resto de la tarde noche para ti.

00:55:24:17 Y pues entonces quedamos a la espera de los próximos eventos que estén muy bien se lentes resto de ir. Hasta luego. Para mayor información respecto al software o en temas relacionados, no dude en contactarnos a través del correo electrónico, entrenamientos a software, guión, ya.com o visitar nuestra página web Triple Ole o Punto Software Guión Ya.com.

Efectos Educativos de Herramientas Tecnológicas en Colombia: Un Análisis a través de Regresión Lineal

La regresión lineal permite determinar una relación entre una variable dependiente y varias variables independientes. En esta presentación, abordaremos una visión general de la regresión lineal y sus principales características, centrándonos en el método de Mínimos Cuadrados Ordinarios, exploraremos los supuestos subyacentes en el análisis de regresión, además, abordaremos cuestiones prácticas relacionadas con la bondad de ajuste, la significancia conjunta de variables, la multicolinealidad y la heteroscedasticidad, esto, a través de un ejemplo práctico desarrollado en Stata.

Etiquetas relacionadas

Datos
Investigación
Matemáticas

¡Comparte este video con tus colegas!

Copiar link

Facebook

Instagram