SS_Logo

Stata 18: Trabajo con modelos logit y probit

Autor: Camilo Alarcón / Portafolio: Quantitative / Jue. 05 de Oct de 2023

Transcripción de este video

00:00:33:01 Shopper Shop, la empresa líder en la implementación de herramientas analíticas y software especializado en Latinoamérica, les da la bienvenida a esta presentación. Instructor Camilo Alarcón, Ingeniero Industrial Economista con doble titulación de la Universidad Autónoma de Manizales, Magister en Economía Aplicada de la Universidad EAFIT y doctorando en Administración de la Universidad de los Andes. Experiencia en la docencia y la investigación en áreas como economía, Administración y Finanzas.

00:01:09:21 Cinco años en el sector privado donde ha desempeñado roles de consultor en programas de protección social. Líder de procesos en áreas de logística, compras y costos, como también la coordinación del desempeño de indicadores de control en el área de soporte a clientes. Bienvenidos. Bueno, bienvenidos a todos. Hoy vamos a hablar, hacer un acercamiento a un tema de de modelos lógica y provista en términos de estadística y econometría, donde los serán lo que queramos poner.

00:01:57:20 Digamos que dentro del desempeño que he tenido en mi vida laboral y de investigación, estos modelos han sido muy útiles, dado que tienen unas características importantes al momento de hacer algunas evaluaciones de acuerdo a las variables que nosotros tengamos. Digamos que el método funciona mucho, es de verlo desde la máxima verosimilitud y también el tipo de de de de del modelo de regresión que hacemos con esto para poder hacer algunas estimaciones si queremos hacer algunas predicciones en términos de probabilidad, pues estos modelos funcionan un montón y yo tuve un acercamiento cercano.

00:02:27:12 O sea, no es no es muy lejano a lo que tiene. Lo ideal provista por esos modelos multi nominales que tienen más que todo modelos de provee. Pero digamos que en circunstancias de lectura e interpretación cuestión como, como, como esas características importantes. Entonces cuando tenemos modelos de variables con variables dependientes binarias, pues nos van a servir mucho este tipo de modelos.

00:03:05:17 Y cuando ya hacemos como un alcance un poco más grande, que son modelos con variables dependientes categóricas de 123 o las diferentes acciones que nosotros queramos predecir o queramos estimar, pues van a ser modelos que nos van a ayudar un montón para esto. Listo, entonces partimos de la base que el el los modelos Logic y Provi, pues especifi especialmente siempre que vamos a elegir este modelo para hacer cualquier tipo de estimación, nuestra variable dependiente tiene que ser especialmente binaria cierto valores entre cero y uno.

00:03:53:16 Por ejemplo, como verdadero falso hombre o mujer, enfermo o enfermo, diferentes acciones que tenemos. Entonces esto nos va a servir mucho para el análisis. Puede ser el análisis en economía, puede ser análisis en la ciencias sociales, en la biología, en bioestadística, todo este tipo de de de problemas que tenemos, sean sociales, ya o poco más, también matemáticos podríamos utilizarlos para para poder servir a esto y hace regresiones específicamente con interpretaciones de la probabilidad de la probabilidad de que un evento ocurran de esto.

00:04:29:00 Y entonces esto va a ser indica nos va a dar como indicaciones de la presencia o ausencia de algún atributo sobre toda la información proveniente. ¿Datos de individuos, de empresas, de familias o es común encontrar este tipo de variables? ¿Cierto en algunos casos podemos ver si una venta o una venta o en casos de investigación cuál es el impacto, por ejemplo, que vamos a ver hoy en términos de si aumenta la depresión o no en las características de los individuos o si aumenta la pobreza o no?

00:05:08:12 En otros términos, si por ejemplo, trayéndolo a mis temas de investigación que son más amplios en en este aspecto, entonces para poder ver un poco el modelo, no quiero entrar como mucho en en esto, en esta específicas urbes, porque este es el modelo teórico como tal. Pero lo que vamos a encontrar acá, lo que vamos a tratar de evaluar, es lo que vamos a tratar de evaluar, es la probabilidad de la ocurrencia de de de la ocurrencia de que esa variable sea igual a uno, cuanto está condicionado a las diferentes variables independientes.

00:05:37:23 Cierto entonces ya lo entonces teóricamente digamos que esto el software, para eso el software nos sirvió un montón y entonces ahí es donde vamos a hacer toda la aplicación y esto ya lo hace el software, hacen la implementación, pero matemáticamente esta es la construcción del modelo. Entonces vemos que esta funcionalidad que es el esta es la la distribución.

00:06:16:06 En el caso de la del lodge vamos a hacer, vamos a tener una distribución. F Entonces esa distribución en pues va a estar ya determinada directamente por todo nuestro modelo, o sea todos los betas que vamos a estimar y las variables y cada una de las variables. Entonces si hacemos esto y ya no hacemos una conversión matemática, lo podemos llevar a esto y al final lo que vamos a obtener pues es este modo cierto y lo que vamos a obtener al final es la probabilidad de que ese evento ocurra, es decir, que ese evento sea igual a un cierto con esta variable dependiente, sea igual a uno, y entonces la idea es que lo veamos

00:06:40:06 sólo en un ejemplo específico, que ya lo vamos a ver al final. Pero esto es indispensable porque de acuerdo a esto es que vamos a hacer toda la modelación de nuestro, de nuestro modelo, el papel, vamos a hacer todas las modelación de nuestra investigación o de lo que queramos investigar para poder determinar cuál es esa relación de ese beta con respecto a todo lo que necesitamos.

00:07:02:10 Entonces, para efectos de un modelo lógico, pues vamos a tener específicamente una distribución. F Para efectos de un modelo provider, pues vamos a tener una una distribución normal, ciertos de simplemente va a ser, vamos a cambiar a una distribución normal y esas son las únicas diferencias que vamos a tener en términos de uno o el otro. ¿O sea, por qué?

00:07:23:07 Pues porque la línea va a ser muy delgada entre lo que pasa entre el uno al otro. Entonces hacen una distinción entre un pro y un bridge, pues no tiene mucho, pues no hay mucha diferenciación. Generalmente utilizamos los dos para hacer como comparaciones y la línea es muy delgada y van a hacer pues digamos que los los resultados muy parecidos.

00:08:02:22 Bien, entonces aquí quiero mostrarles un poco los efectos como se ve la realización de uno de los dos modelos. Entonces miren el login como lo mostramos acá. Siempre vamos a tener especialmente cuando hablamos de una de una estimación por máxima o verosimilitud, pues que vamos a tener valores siempre cero y un cierto dijimos y eso pues nos va a ayudar a reducir también una cantidad de de supuestos que no tenemos desde la MS 11.

00:08:28:15 Ahí cambiamos un poco esa perspectiva y simplemente vamos a tener como esta son las distribuciones, miren que esta distribución lógica es un poquito más normalizada y mientras que la distribución lógica es un poquito más, más logarítmica en términos que es un poco más, más achatada, vista hacia la derecha, entonces eso nos va a llevar a determinar y siempre dándonos valores entre cero.

00:09:15:17 Y eso es súper importante porque ese es la probabilidad acumulada que nosotros vamos a realizar y de ahí es que vamos a determinar cuál es la probabilidad de ocurrencia de un evento o no, y también va muy ligado en términos de si queremos ver, por ejemplo, los efectos del impacto de una evaluación de de ser de una política o de diferentes temas que queramos ver en, en, en, en, en los fenómenos que ocurren en naturalmente, pues también lo podemos utilizar viéndolo desde la misma perspectiva, claro, podemos utilizar otro tipo de modelos para ser un poco más asertivos en el el en en en la la realización o la visualización del efecto causal.

00:09:54:04 Pero estos son modelos que también nos ayudan a determinar el efecto causal y que son muchos, mucho mejores para determinar la probabilidad de ocurrencia o la predicción de alguna de las de este de de lo que vaya a pasar con los eventos. En este caso lo que vamos a buscar es que el evento sea más cercano al no es cierto, como contramos que la probabilidad de ocurrencia de un evento sucede al alguna de las de las necesidades que estamos buscando en cualquier tipo de investigación, pues estén dados a partir de de la cercanía a este visto acá.

00:10:30:09 ¿Quiero hacerles como un comparativo en términos de lo que son las restricciones por mínimos cuadrados ordinarios y la regresión es nos dísticas cierto? ¿Digamos que la la regresiones normales z en términos de qué tipo de variables utilizamos entonces? ¿Miren nuestra variable cuando hacemos una una regresión po con variables uni variadas, continuas, cierto? Es decir, que tenemos datos o valores específicos que son diferentes a cero y alguno cierto.

00:11:07:11 ¿Entonces pues vamos a lograr hacer estas estimaciones por por, por estas, por esta e esta estimación que son los los mínimos cuadrados óptima, cierto? Entonces aquí podemos ver y vamos a ver la cantidad de supuestos que necesitamos para esto. Y con respecto a las variables dependientes, que no vamos a tener ningún problema para hacer la estimación. Cierto, podemos utilizar variables categóricas, variables binarias, variables discretas, variables continuas, variables de tratamiento.

00:11:51:18 Necesitamos ver la normalidad y pues aquí vamos a ver la diferenciación entre un modelo cuando lo estimamos por MCO y un modelo cuando lo estimamos por máxima verosimilitud. Aquí si tiene pues como esas diferencias, entonces miren que la diferencia radica en nuestra variable dependiente, donde nuestra variable dependiente tiene que ser discreta y binaria específicamente. O sea, si estoy vivo, si estoy muerto, si es falso o verdadero, si tiene depresión o no tiene depresión, si es hombre o es mujer, si los salarios son superiores a 60 millones o inferiores a 60 millones, también lo podemos tener como una variable o una variable binaria.

00:12:19:18 Pero lo que sí puede ocurrir es que dentro de nuestras variables dependientes no tenemos ningún problema. Lo podemos hacer con cualquier tipo de variable. Es cierto. Entonces pueden ser discretas, continuas, binarias, categóricas. Podemos hacerlo desde ese tipo y entonces ahí vamos a tener esas diferenciaciones. ¿Ahora, acá dentro del modelo, miren el modelo natural y el modelo lógico, pues vamos a tener esas diferencias, cierto?

00:13:07:04 Precisamente porque el modelo logístico pues va va a depender también de una, de una especificación, el lote logarítmica, entonces como es logarítmica, allí vamos a tener esa diferenciación y lo que tenemos que hacer es unas derivaciones de nuestro modelo para poder determinar cuál va a ser esa probabilidad de coherencia del evento. ¿Y entonces vamos a tener de esto, miren que aquí algunas herramientas que tenemos son residuales, o sea los residuales de de los de la T, de los de los bordes, de la de los medias, de los de las medias al cuadrado cierto?

00:13:35:20 Y el el el test en el fichero que nos sirve para determinar esas es las hipótesis que necesitamos dentro del modelo normal de la teoría. Y aquí simplemente, pues lo vamos a hacer por máxima verosimilitud. Necesitamos las desviaciones estándar y pues el el ratio test o el test que ya lo vamos a ver para determinar como como Podemos figura con esto.

00:14:10:10 Aquí hablamos un poco de la máxima verosimilitud, que simplemente es el método que utilizamos para hacer la estimación. No voy a entrar como en muchos, en muchos detalles para esto, simplemente que es una función logarítmica, cierto, natural, que va aumentando de cero a infinito y el valor máximo de la función de verosimilitud. ID, pues es ese valor. Es como la maximización, ese valor máximo que vamos a encontrar para poder encontrar nuestro, nuestro, nuestro valor estimado, cierto, nuestro está que necesitamos estimar.

00:14:44:00 Entonces simplemente lo que vamos a tener aquí es dentro de este punto y dentro del punto cero. Digamos que esta es nuestra estimación por máxima verosimilitud en cada uno de estos punticos. Entre cero y uno, pues la idea es encontrar cuál es ese punto máximo con medias, cierto, y con todos los exponenciales que tenemos acá para poder encontrar ese valor máximo que es el que me va a ayudar a estimar el punto que a mí me interesa para poder responder a esa variable dependiente.

00:15:23:12 Entonces, una función de máxima verosimilitud suele ser más fácil de trabajar en la función de probabilidad, que normalmente es una función de densidad de probabilidad que es la que estamos viendo. Es entonces así es como utilizamos el método y el método, pues específicamente ya la herramienta que es estatal, el tiempo visto. Bueno, algunos supuestos del modelo que vamos a utilizar EM para ambos, tanto para el login como para Provi, pues vamos a utilizar la linealidad en los logs o y en la función o en la función de acumulación del prove.

00:16:02:14 Entonces simplemente es que vamos a asumir que existe una relación lineal entre las variables independientes y la función noche. Y esa función acumulativa pues va a implicar que un cambio en una unidad, en una variable independiente tiene un efecto constante en el locativo. Sí. Entonces ese es como parte de lo que tenemos independencia de los errores, pues va a asumir que los errores no están correlacionados entre las observaciones y en otras parábolas, pues la variable dependiente en una observación está influenciada por valores de la variable dependiente, sino en otras observaciones.

00:16:32:07 Y la independencia de irrelevantes. Pues se va a asumir que ahí esa independencia es relevantes. Lo que significa que hay una exclusión, una inclusión o una exclusión de una variable independiente y no afecta a la relación entre las demás, entre las variables, entre las demás variables independientes y la variable dependiente. Entonces, un poco para encontrar esto es, como vemos, la la, la poco, la multiculturalidad que puede existir entre las variables, pero que no va a ser relevante entre ellos.

00:17:13:22 Porque si yo saco alguna de las variables no va a tener ningún efecto sobre ellas. Listo. Y eso lo vamos a ver con algunos que ahora les voy a mostrar. Como podemos ver este tema de independencia en irrelevantes y como podemos ver los not, los los no nos los ratios para poder entender que es entonces un ratio, simplemente es una razón de probabilidad, entonces es una medida que utilizamos para cuantificar esa asociación entre los dos eventos cierto o variables categóricas en un estudio de caso o control de su análisis o lo que queramos tener ahí, entonces simplemente es como una tablita de contingencias.

00:17:43:09 Lo que lo que lo que nos va a ayudar es a determinar en qué situaciones podemos comparar. Las probabilidades de que ocurra un evento con éxito en dos grupos diferentes. Listo. Y entonces esta es la significación. Les voy a enseñar cómo podemos obtener esto directamente en Stata y de acuerdo a la obtención de estos. Si es igual a uno, pues vamos a tener este tipo de asociación, si es mayor que una este tipo de asociación, y así sucesivamente.

00:18:08:08 Para hallar el otro ratio, simplemente vamos a tener la probabilidad sobre uno menos la probabilidad de la ocurrencia de ese evento. Entonces, cuando predecimos cuál es la probabilidad de ocurrencia por cada uno de los individuos, pues esa probabilidad es la que vamos a obtener acá y la podemos sacar directamente. Entonces, ahora les muestro donde podemos encontrar esa probabilidad, que esa probabilidad es esta misma que tenemos acá.

00:18:32:19 Si esto lo podemos sacar allá en un excel, en la calculadora Caras y simplemente aquí vamos a reemplazar los valores y esto nos va a dar esa probabilidad de que ocurra por cada uno de los individuos y entonces ya lo vamos a revisar. Y por último la curva ROC, que es esa medida que nos va a ayudar a cuantificar esa capacidad de discriminación del modelo.

00:19:11:11 Y entonces esto nos ayuda mucho a ver cómo esa esa relación que veíamos en términos de la independencia y relevantes, porque de acuerdo a la capacidad que tiene el modelo, podemos definir si esa independencia entre ellos, pues va, nos va, nos va a dar como en un contexto específico en que el modelo realmente está explicando lo que nosotros queremos ver y es una gráfica donde vamos a tener un dato y ese dato lo vamos a obtener directamente también en la, en la, en la, en el en el en el software.

00:19:33:20 Entonces ya, ya les voy a enseñar. Es muy sencillo y muy fácil, entonces va a ser muy chévere toda esta interpretación de esto. Vamos a hacer un poco paso a paso la interpretación de los datos y luego vamos a irnos directamente a estos dos, a estos, a estas dos pruebas o estos dos supuestos para mirar en que momento los determinamos.

00:20:15:13 Son Bueno, entonces en términos del estudio que queremos visualizar acá simplemente hay un es un ejercicio que se hizo en algún momento, es un estudio para estimar la la prevalencia de la depresión e identificar qué factores predictivos y los resultados que son que están asociados a la depresión. Entonces un poco se se quiso ver como cuál es esa posibilidad o esa probabilidad de que un individuo sufra depresión por encima de la media cuando el individuo es mujer o cuando el individuo tiene cierta edad, o cuando el individuo está desempleado.

00:20:46:10 Ese es simplemente un ejemplo. Pero esto es como el tipo de pregunta de investigación que nos va a llevar a tomar la decisión de utilizar este diseño. Si entonces para ello vamos a tener este estas variables cierto, la variable de depresión, un caso de depresión donde uno es si cero es, no se tiene depresión no tiene precio. Entonces miren que de una vez si nosotros vamos a utilizar nuestra variable dependiente, mírenla acá.

00:21:20:19 ¿Cuál es la probabilidad de que un individuo sufra depresión? Ahí ya estamos determinando que esa es nuestra variable dependiente. Entonces pues vamos a tener estos datos. Es un un conjunto de 294 datos En la observación original de mil adultos residentes en Estados Unidos en Los Ángeles, y este diseño principal inicialmente era un estudio longitudinal que incluía cuatro entrevistas, pero pues luego de acuerdo se sacó como una muestra específica.

00:21:59:20 Cierto se vuelve más datos transversales, por lo que es un análisis transversal para identificar esa relación que existe entre la depresión prevalente en cinco casos de depresión. ¿Y entonces, cuáles van a ser nuestras variables? ¿Aquí no hay una variable que que voy a utilizar ahora, pero para que hagamos el el el análisis, entonces depresión es nuestra variable dependiente y vamos a utilizar todas estas otras variables como variables independientes que nos van a ayudar a explicar porque pues cuál es la probabilidad de que exista depresión o no exista depresión?

00:22:22:23 En este caso vamos a buscar cuáles son esas variables que nos van a ayudar a explicar cuál es la que nos está llevando a que sí haya depresión. ¿Cierto? Entonces miren la es una variable continua. Los ingresos son una variable continua en el género, en este caso si es eso, si es mujer, pues es uno, y si es hombre es cero.

00:22:59:14 Si está desempleado o no, también es una variable binaria crónica que va a ser relevancia si es una enfermedad crónica en en años pasados si o no, y el alcohol si o si usualmente utilizar o consume alcohol, cierto, y es una variable también binaria de uno y cero. Y pues miren que cuando hacemos la, eh, la especificación de nuestro modelo funciona de la misma manera, vamos a tener unos betas y esos betas pues nos van allá, explica.

00:23:22:23 ¿Cuál es la diferencia? Que estos betas cuando hacemos la explicación específica de de o hacemos ya la estimación de nuestro modelo, esos betas no nos van a decir nada, solamente nos van a inducir a cuál es el movimiento que está teniendo cada una de las variables o de la variable dependiente. Entonces es positivo. Si es son efectos positivos y es un efecto del tipo ya.

00:24:05:09 Para poder hacer una lectura de lo que está ocurriendo necesitamos hacer los cambios máquinas ya. Entonces también vamos a estimar los cambios marginales y en los cambios marginales, ahí ya vamos a determinar cuál es la probabilidad de ocurrencia de un caso mixto. Bueno, aquí hay alguna bibliografía. Estos son, digamos que unos libros básicos que introducen a estos temas y son chéveres porque digamos que tienen ahí unas especificaciones importantes de cuáles son el paso a paso, de cómo entenderlo y cómo llevar a cabo todas estas.

00:24:38:19 Es una de las buenas ideas en términos de lógica y problema. En el modelo significa Buenos días. ¿Podemos tener bases de datos para replicar el ejercicio? Creo que no, que variables el fragment ok, el treatment no está ahí, pero ya se las voy a mostrar simplemente sí o no, o sea, si, si, si entro en un tratamiento con el el tratamiento, el UI significa los errores de esto.

00:24:59:19 Buenos días. Respetuosamente creo que la variable sin mail es bastante confusa porque uno creería que aplica solo para femenino si lo que se está midiendo si es hombre o mujer afecta a la depresión, entonces debería nombrarse como sexo. Sí, tienes toda la razón Nelson. Lo que pasa es que la base de datos la llamo así, pero concuerdo contigo, no puede ser género.

00:25:22:02 En este caso lo podríamos también. Y no, no tiene mucho problema. Lo que pasa es que cuando vamos a ver los ob. Reid redicho, si nos interesaría saber, por ejemplo, en un estudio que le interesaba saber en algún momento si las mujeres sufrían más de depresión que los hombres, entonces ahí es también, dependiendo de como tú lo quieras ver en el estudio.

00:26:25:04 Bien, pero concuerdo contigo, ya depende de las necesidades que tenga en cuanto. Bueno, entonces vamos a verdad. Insisto entonces. Entonces, entonces aquí tengo ya mi base de datos en breves para que veamos los datos tenemos muchas variables adicionales. Pues que en este caso no nos interesan todavía, pero pues acá ya tenemos como en la consecución de cada una de las variables que necesitamos.

00:27:10:09 Entonces, en este caso vamos a utilizar la variable sexo, esta puerta y esta es la variable final. Si la ves, entonces vamos a utilizar mucho, voy a utilizar Street, voy a utilizar voy preset ya vamos a hacer las las son 294 observaciones Ya, ya te voy a mostrar con las con las estadísticas de scripting list. Entonces vamos a utilizar threads que es uno y dos de la voy a convertir a cero y uno para tener pues como la misma máquina midad de press que es mi variable de dependientes y main, que es lo que queremos ver.

00:27:49:02 Si en términos de la mujeres van a sufrir mayor depresión por un no hay que de los de los de los otros temas que tenemos el desempleo, el alcohol y chronic pues que ya sabemos si es una enfermedad crónica. En el pasado, pues es que podemos tener esto que podemos hacer un son de todas nuestras variables. Si en total son 294 observaciones Claudia y te estoy mostrando si podemos ver los mínimos y los máximos, entonces podemos ver nuestra variable continua.

00:28:32:18 Vemos que son personas entre 18 y 89 años. Las las personas a las que les preguntamos que el es de cinco. Aquí están los cinco General. Estos son como en esto es en cientos de dólares. Creo que es. Entonces aquí podemos determinar estos valores y pues vamos a tener en nuestras variables que nos interesa. Entonces en términos de ver el modelo CERT Ah, bueno, aquí simplemente voy a generar una nueva variable para poder determinar que mi variable trip se va cero y un cert para poder mantener la equivalencia entre todos los datos y podamos hacer una determinación.

00:28:58:19 Pero pues si alguno de ellos va a ser, digamos que la diferencia entre esto, entre entre uno y dos, ahí ya vamos a tener un promedio distinto al que sume y será entonces si necesitamos mantener esa proporción entre entre cero y uno para poder darle como cabida a que haya un tratamiento y no un tratamiento. Es lo que estoy haciendo aquí es convertir mi variable en tratamiento, que es la variable tratamiento.

00:29:26:05 Simplemente es si entro a tratamiento o no el tratamiento. En el momento que están tamiento están en tratamiento. Entonces lo que hice fue generar una nueva variable, que si miren aquí ya la tengo y si hago será con tab de mi variable y llame variable la convertí en ceros y unos. Esto para poder hacer mejores estimación de ese efecto que tenemos ahí tenemos 146 que no están tratados y 148 que sí están tratados.

00:29:56:00 Entonces miren que no hay mucha diferenciación entre eso y está como balanceado el que tenemos acá, listo, bien y aquí entonces lo que hacemos es ya poder tener nuestra variable en nuestro model. El modelo que les presenté anteriormente con el comando Logic puedo irme directamente a hacer la estimación de lo que es un longitudes, el paquete estadístico o el o la herramienta.

00:30:33:22 ¿Esta data ya nos está dando directamente y muy sencillo como como podemos realizar esto? Entonces con login podemos hacer nuestra estimación y es muy importante que cuando utilicemos este tipo de este tipo de de de estimaciones, las variables que sean binarias o categóricas vayan precedidas de una y anterior para que nos haga la estimación que necesitamos. List. Entonces lo que vamos a ver acá simplemente hacemos la estimación, o sea, y podemos ver los diferentes en los diferentes indicadores que esto nos resulta.

00:30:56:19 Miren que esto ya lo medimos es con un chi cuadrado, cuando esto es superior a diez, creo que es 6,10, entonces estamos teniendo un buen chi cuadrado donde estamos resolviendo todas nuestras hipótesis, que nuestras variables globales son diferentes de cero y lo mismo el cuadrado que es diferente de cero. Es decir, que cada una de las variables son diferentes de ese visto.

00:31:23:06 Y aquí podemos encontrar nuestras estimaciones. Esto generalmente que es nuestro coeficiente, no nos va a decir, pero el signo si, Entonces vamos a tener que por ejemplo uno el tratamiento es positivo. Hubo cierto en los años son negativos, es decir que en la medida que son a menor edad, pues van a sufrir en menor manera que la menor depresión.

00:31:58:20 Y así lo podemos hacer como el contraste, contrastes. ¿Y también pues vamos a tener nuestros pe valor, que son muy importante, cierto? Si son mayores al 0.5, pues entonces no van a ser estadísticas de lo que es significativo. Es lo que estamos viendo acá es que la edad, los ingresos, que el ser mujer y el desempleo, pues son variables que nos están ayudando a explicar por encima del 10% más o menos en o en un 10% de la probabilidad de que sea estadísticamente significativo.

00:32:25:15 Es lo que podemos encontrar acá. Visto eso como perspectiva general de lo que es el modelo y como lo podemos hacer, que podemos hacer estas variables que tenemos acá que no son significativas, las podríamos sacar sin ningún problema y pues hacer la estimación con las otras y la variación van a ver que es muy mínima, pero eso lo podemos hacer porque digamos que este tipo de modelos no lo permiten.

00:33:01:09 Ahora, cuando hago un predictor, el predictor simplemente me va a ayudar a encontrar esa probabilidad por cada uno de de los de los de los individuos. Hagamos aquí de un producto de probabilidad global ilidad y entonces esto quiero que lo miren. Entonces miren que por cada individuo esta la probabilidad de que sufra, de que sufra depresión. Entonces este es como un 20% de que sufra depresión, este es un 11%.

00:33:40:18 ¿Entonces eso que veíamos allá teóricamente esto directamente en la herramienta, no lo está haciendo cierto? Mirando la probabilidad de cada uno de los individuos si va a sufrir depresión, entonces mire lo que tenemos, entonces lo que hace es meter allá cada uno de los bettas y va a multiplicar por el el el valor de el valor de de la variable ser y lo va a elevar, va a ser elevado al exponencial, el exponencial va a ser elevado a todo eso, uno menos tal es dividido tales y vamos a tener esta probabilidad.

00:34:27:06 Un modelo lógico binomial negativa no se que es binomial negativa es lade Bueno y entonces aquí podemos encontrar cada una de las probabilidades de que sufra de depresión por cada uno de los individuos. Listo, entonces esto, esto es súper interesante. Cuando utilizamos un pedido para hacer las pruebas, podemos utilizar el esta class que nos bauti que nos va a dar todo el momento es Miren que aquí podemos ver como estas diferenciaciones en términos de cuál es la probabilidad de que ocurra un efecto positivo, en efecto, negativo, cierto, pero todo la especificidad, la sensibilidad, prudencia descriptiva, especificidad y todas estas cositas que van a ser importantes en el momento de la lectura.

00:34:49:15 Lo más importante de esto es que para que haya un buen ajuste del modelo es que esté cercano a 100. ¿Cierto? Entonces miren que aquí tenemos un modelo bien ajustado, casi en un 83%. Entonces esto es como buen indicador de que el modelo tiene un buen ajuste. ¿Bondad, cierto? Si queremos ver otro podemos utilizar el FIT stat para el espátulas.

00:35:22:22 Lo tienen que que lo tienen que instalar listo. Y el FIT está también nos va a servir para determinar cada uno de estos. ¿Como estas pruebas que tenemos acá, cuáles nos van a servir mucho? La Mac Fade, que es como el recuadro ADO y el could que el el r cuadrado que es como el 83. Si estas dos si estas son superiores a al a, creo que esta esta tiene que ser superior al al como al 10%.

00:35:47:07 Creo que es. Entonces esta me va a servir como ajuste o modelo de bondad, y este también es como en un 83%. Quiere decir que la relación entre las variables independientes con respecto a la variable dependiente, pues tiene ahí como un buen ajuste listo, lista e y. Y lo otro que quiero que miremos son los e, los cambios marginales.

00:36:14:06 Entonces, cuando utilizamos un cambio marginal, miren que ya vamos a tener una, 1111 tema completamente diferente, este valor vamos a utilizar margin, cierto, vamos a utilizar los cambios de es cuando tenemos cambios en que simplemente es utilizar esta misma formulita y cuando utilizamos el asterisco, simplemente que vamos a usar el cambio marginal de todas las variables que ya utilizamos en el modelo search.

00:37:15:10 Y entonces aquí. Ahora, si el cambio marginal nos va a decir que ante un cambio, ante un incremento en en un tratado cierto, va a haber un cambio, un incremento en 6.12%, perdón, 6.12 puntos porcentuales de la probabilidad de que haya depresión. A ver, Julio Cesar nos dice buenos días, si tengo una variable cuantitativa referente a una característica, algunas entidades variable dependiente y tengo otras variables independientes, como puedo hacer para dividir a Como puedo hacer para dividir en grupos de entidades utilizando la variable dependiente en dos grupos para poder utilizar la regresión logística y si vas a utilizar regresión logística tienes que devolverlas en dos grupos y ya depende de tu criterio.

00:37:47:17 Vas a decir, por ejemplo, las que no se tienen las superiores a 50.000 personas, 50 a 50 personas que trabajan ahí y 50 inferiores a 50, pues según un criterio que tú utilices. Ahora, si tu quieres utilizar variables y quieres volverlo variables, categórica 7123, hasta cuatro o cinco, ya tienes que utilizar otro modelo que son modelos multi nomia.

00:38:23:03 Si, pero si quieres utilizar de regresión logística variable binaria listo para la interpretación del modelo, se debe usar los márgenes o los o ratios, los dos abiertos. Para la interpretación especifica vamos a utilizar el el el matching, es decir cual es la probabili idad de que ocurra el evento. Entonces si hay un aumento en el tratamiento en 6.12 puntos porcentuales con de la probabilidad de que tenga depresión, ahí es donde utilizamos.

00:39:09:22 Es cierto. Y también vamos a utilizar los en los p valores para hacer la misma relación. Entonces aquí pues yo utilizaría solamente los que me dan estadísticamente significativo. Entonces en la medida que la edad decrece en 0.2 puntos porcentuales, va a disminuir la la la la la probabilidad de tener depresión. Cierto, lo mismo con los ingresos y lo mismo con si es mujer, entonces la probabilidad de que sea mujer em es de de que una mujer sufra depresiones del 8.6% listo.

00:39:32:11 David dice ok y ya les enseño como es la interpretación de los ocho em marginales y recibidos son lo mismo, no son lo mismo. Juan Galeano No, los marginales es simplemente la derivación de cada uno de ellos. Usted podría compartir el DO para tener los comandos a la mano. Ya, ya se los comparto por la, por acá, por la.

00:40:17:05 Ya se los muestro. Saludos cordiales. ¿Hola Guatemala, nos podría pasar ese de un fácil? ¿Ah ok, miren aquí se los estoy mostrando ahí al aquí no hay sentimientos en el screenshot listo? Y aquí es donde podemos tener como la solución de es si yo quiero mirar estos márgenes puedo utilizar esta gráfica, utilizar la la el comando márgenes plot margin margin martins plot y voy a obtener esta gráfica y entonces aquí voy a ver cómo son las diferenciaciones.

00:41:00:02 Miren que esto va entre cero, entre entre cero y uno. Todo esto para poder hacer toda la especificación de que está pasando en el modelo. Esto listo, dice buenos días y tengo celdas vacías en mi base de datos. ¿Eso interfiere en mi modelo? Si señora, seguramente te lo va a contar como mis inválidos. Para analizar cuál de los factores es más relevante cero considerar el valor de los coeficientes o el valor del es esta valor los factores es más relevante ambos, porque aquí lo que tu estás determinando es la probabilidad de ocurrencia cero de de uno o el otro.

00:41:29:00 Entonces pues si es importante que haya una insignificancia, pero también es como lo lees, porque cada variable va a ser diferente. Sea entonces el el efecto que va a tener una variable con respecto a la variable dependiente, pues va a tener un efecto diferente para hallar los ratio. Entonces simplemente yo vuelvo a correr el mismo modelo, yo corro mi mismo modelo, le voy a poner una con mi TAC al final y le voy a dar o r cuando le doy yo.

00:42:15:10 R Miren que inmediatamente el sistema me va a sacar los nosotros. Listo, mírenlo ahí, mírelo, bonito queda. Entonces aquí ya no tenemos los coeficientes y no nos cuadrática, entonces simplemente aquí vamos a hacer esa identificación que va a pasar. Miren que lo que esté cercano a uno o lo que o lo que este si, lo que esté sea igual a uno, este cercano uno pues no le podemos dar mucha interpretación, por ejemplo el tres no el las no, pues esto es muy cercano a uno, pero el tema en sí es cierto, miren que el final es de 2.1, 2.1, entonces simplemente aquí lo que como lo vamos a leer es si aumenta un en una

00:42:57:11 unidad la el ser mujer cierto, entonces la probabilidad de tener depresión está en 2.1 en vez más ser mujer y tener depresión. Esa es la la interpretación que tenemos. A ver, a ver como debería corregirlo de las celdas vacías. Luisa y pues hay dos opciones o que las elimines o que las vuelva a cero. Bueno, hay tres o que que es como la mediación, como la mediación para que mires como puedes convertir esas variables que están más cercanas a uno, más cercanas a cero y convertir esas variables.

00:43:19:15 Pero pues vas a tener ahí como algunos problemas, visto al ver cómo hago para ver todas las preguntas que realizan a o quizá, no sé. Bueno, Carlos, existe algunas medidas de bondad, de ajuste, de para saber si los resultados del modelo son válidos, es decir, cuáles son las pruebas estadísticas sobre los errores que mínimamente cumplen nuestro modelo. Test de normalidad.

00:43:54:16 Ah, ok, listo. Acuérdate que ahí ya lo explica entonces Carlos, Entonces cuando quieres ver ajustes, medidas de ajustes de bondad, tienes estas, mira, puedes utilizar estas y de acuerdo a los porcentajes miras cuáles son las hipótesis que se realizan. En este caso lo que vemos es que el el modelo tiene un buen ajuste en el 83.33%. Lo que podríamos entrar a mirar es si con otras variables y quitándole algunas variables esto aumenta o disminuye y podemos empezar a ver cuál es el ajuste de onda.

00:44:27:00 Y el otro es mirar el max fade y el el count rr cuadrado, que también son unos buenos indicadores para mirar ese ajuste de bondad. ¿Está bien, entonces aquí simplemente hacemos la relación de estos ratios y de los otros ratio y podemos hacer ese tipo de interpretación, ok? ¿Y los modelos multi nominales? Los modelos multi nominales son otra cosa.

00:45:07:14 Sí, porque eso tienen otros otros modelos, otros supuestos y tienen otras otras otras cositas. ¿Cuál es la diferencia entre interpretación del otro ratio con el Martins del final o que? ¿Ya, ya te explico, eh? La diferencia de los ratio no, no tiene ninguna diferencia, solamente es que el otro ratio te está diciendo el número de veces que puede ocurrir eso cierto, te está dando como un valor porque este no lo miras como un porcentaje, sino que miras que el desempleo por ejemplo, va a afectar, que tú estés desempleado y que tengas depresión en 3.2 veces más que no lo tengas.

00:45:34:18 Esa es la interpretación. Mientras que con el margen, si haces la interpretación porcentual, entonces aquí tú dices ah, bueno, estar desempleado va a permitir en un 20% más o menos 19 punto 83% que tengas depresión. Sí, esa es la diferencia. Como era la interpretación de lado de mujer, Ser mujer da una probabilidad de dos veces tener depresión. Sí, sí, Fernanda así es.

00:46:07:23 Esa es la interpretación. Muy bien, entonces ahí les mostré y miren ya si queremos correr un Provi, el Provi lo podemos hacer de la misma manera, utilizando Provi, el el, el comando Provi, que ya estoy alcanzado de tiempo. Miren lo que hacemos con el Provi, tenemos esta relación marginal, miren que esto va a ser muy parecido a lo que teníamos con él, con el logging y lo que vamos a tener acá.

00:46:38:17 También podemos utilizar los márgenes y miren lo que tenemos en términos de los matching. Entonces utilicemos este, eh. Bueno, les quería mostrar otra cosita plano no alcanzo para poder identificar entonces, pero simplemente miren que las variaciones entre un modelo provi y un modelo logging, pues no va a tener mucha diferenciación. Miren lo que es este modelo acá y lo que es pongámoslo acá en paralelo para que lo podamos ver igualito.

00:46:57:03 ¿O sea, digamos la calidad position para que lo podamos ver y ver la relación entre ambos no?

00:47:40:02 Esto se puede ver en Stata, pero no, no alcanza a ser rápido para que lo podamos ver todos, Entonces este es el logging y este es muy probable. Entonces miren lo que ocurre con cada uno de ellos y esto hace para que lo veamos. Mírenlo ahí entonces miren que las variaciones entre ambos no son muy grandes, simplemente es que este es un modelo que funciona desde, desde con una normal y hasta con una f list.

00:48:08:00 Es la distribución lo que cambia. ¿Listo, Cuál sería el criterio para preferir un logic o un pro? Es indistinto acá cuando es un modelo multi nominal. Específicamente necesitamos el olly, pero cuando estamos acá no tenemos ningún problema. Podemos utilizar ambos o podemos utilizar uno de los dos. ¿No tiene ningún problema, cierto? No hay una distinción entre uno que uno sea mejor, el otro sea peor.

00:48:49:09 Simplemente es donde uno se sienta más cómodo. Que la interpretación está de esto. ¿Si Leticia es verdad, es verdad porque generalmente en economía vemos digamos que como utilizamos más normales, cierto? Entonces nos vamos más por temas que tengan la distribución normal. Sep, y a veces también como utilizamos muchos modelos multi nominales, el provider es un modelo para que se utiliza específicamente para modelos multi nominales, entonces ese funciona más que todo allá, pero cualquiera de los dos in distinto sea el caso.

00:49:22:11 ¿Por ejemplo, los ingenieros utilizan mucho inglés, ingenieros industriales utilizamos mucho los modelos, no? Pero eso depende también de como tú quieras estimar tu modelo. Generalmente lo hacen las dos para hacer comprobaciones para, hacer similitudes, ese tipo de cosas. Listo. Bueno, espero haya sido de su agrado este webcast, que hayan aprendido un montón. No sé si quieren más preguntas, dudas de cuánto las personas que están solicitando la grabación han venido.

00:49:59:18 Es por la presentación de estas empresas en la lista. Voy a responder esta pregunta de Fernanda No puedes utilizar cualquiera de los dos. Luisa Lo que pasa es que se puede hacer de diferentes maneras. Tu lo puedes estimar desde el post que es el que más utilizamos porque es el que va a utilizar el promedio. ¿Cierto? Y este, pues es otra manera de mirar los marginales, pero la diferenciación no va a ser muchos, simplemente son maneras de hacerlo para poder hacer la lectura de esto.

00:50:28:00 Muchas gracias. ¿Listo? Con gusto Leticia. Bueno, con mucho gusto. Se puede considerar una variable categórica como variable dependiente. Um. Solo acuérdate, pues si lo puedes hacer, pero tienes que hacer una, Javier. ¿Tienes que hacer una estimación distinta, cierto? Tienes que utilizar otra especificación de otro modelo como último monial. ¿Por ejemplo, si tú dices quieres mirar la intención de carrera?

00:50:54:07 Emprendedor, Emprendedor es uno, empleado es dos y académico es tres. Ahí ya tienes variables categóricas, entonces ahí tienes que correr un modelo completamente distinto. ¿Pero si tú dices uy, no vas a ser emprendedor o no, entonces utilizas uno de estos modelos de esto en él son Podrías por favor pasar una última vez el tú fail desde arriba hasta abajo?

00:51:38:00 Si ya, ya te lo paso en Nelson, claro que sí. Mira acá no acá. ¿Y creo que ya lo estás viendo, cierto? Necesitas tomar el pantallazo del perdón. Segundo, va quitar esto ya ahí creo que ya lo puedes ver lista, ahí ya, ya Rosmery ya, ya te lo mira en un ratio, míralo acá, míralo hasta el otro. Entonces el ratio se va.

00:52:26:08 ¿Significa cierto? Sí, aumenta, por ejemplo, ante un aumento en una unidad de una mujer. ¿Cierto? Vamos a tener 2.17 veces más mujeres con depresión que no sean mujeres con depresión. ¿Modelos censurados? Yo creería que sí. Pueden ser resultados parecidos. Lo que pasa es que los modelos censurados van a tener unas EM, unos supuestos diferentes. Sí, pero ahí es donde uno tiene que tener cuidado con esos modelos.

00:52:55:12 El modelo de José Mari Léeme, sólo tienes que hacer por aparte. Ese nos muestra acá, pero, pero se hace por aparte. Ese sí lo tienes que estimar, tienes que hacerlo, tienes que llevarlo a la faja a la cual cuadra o algo así. ¿Que modelos se utilizan para causalidad entre variables, Causalidad entre variables? ¿Pues dependiendo de tu pregunta de investigación los datos que tengas, cierto?

00:53:39:12 Porque si tienes datos para el, pues utilizas un método específico o si tienes el museo si haces un AR city pues tienes otros modelos diferentes. Set Si tienes una variable instrumental, por ejemplo utilizas otro, otro modelo. Si tienes variables categóricas en tu variable dependiente, pues ahí tienes que mirar. Eso sí, entendí tu pregunta, Hernando. Bueno, Nisa, creo que ya respondí a las preguntas.

00:54:11:18 No sé si hay más preguntas. Bien, camino no de este lado no tenemos más preguntas en el chat y si es que tenemos aquí un pequeñito lío con la conexión, pero todo está perfecto y creo que hemos abordado todas las preguntas. ¿Camilo y quieras mencionar algo para finalizar? Bueno, voy a responderle. ¿Andrea Andrea Realmente? Pues no, no, no eligiría pues cualquiera de los dos sirve un montón para eso, ya depende de cuál.

00:54:41:23 Por ejemplo, los modelos logísticos. Si nos vamos más a profundidad del de de cómo podemos hacer el análisis, podríamos, ehm. ¿Podríamos elegir cuáles son esas variables que nos están causando ahí? El nos están dando más mayor bondad. ¿Entonces podría utilizar más el logístico por eso, cierto? Porque puedo utilizar otro tipo de pruebas para desarrollar que es o para determinar cuáles son esas variables específicas que me están respondiendo a eso que estoy buscando.

00:55:14:04 Esto bueno, y nada. Estos son modelos severísimas, sirven para todo, para la todo. El tipo de aplicaciones en sus trabajos, en cosas que quieran estimar porque están estimando la probabilidad de ocurrencia de un evento. Entonces no nos vamos a ir al extremo de de de de valles llanos cierto estadística valles y. Pero esto nos ayuda a tener como la aproximación a eso y no tiene digamos que no supuestos tan fuertes como otro tipo de pre de modelos.

00:55:36:17 Simplemente es tener en cuenta que nuestra variable dependiente pendientes final. Muchas gracias y espero les haya gustado un montón. Para mayor información respecto al software o en temas relacionados, no dude en contactarnos a través del correo electrónico, entrenamientos, arroba, software on ya.com o visitar nuestra página web Triple Ole o punto Software Guión Ya.com.

Stata 18: Trabajo con modelos logit y probit


Los modelos Logit y Probit son valiosas herramientas para el análisis de datos, puesto que permiten conocer las relaciones entre variables categóricas y variables explicativas en investigaciones de diversas áreas del conocimiento. Estos métodos ofrecen estimaciones precisas y confiables, lo que los hace esenciales para entender y cuantificar relaciones en datos categóricos y responder a preguntas clave en diversas disciplinas.En esta presentación abordaremos las herramientas con que cuenta Stata para llevar a cabo estos procedimientos, los resultados y su interpretación.

Etiquetas relacionadas

  • Análisis de datos
  • Energías
  • Finanzas

¡Comparte este video con tus colegas!

Compartir

Ver más

Cotizar
Próximos
Eventos

X

Mis cotizaciones:

Comentarios a tu solicitud:

Cotizar