SS_Logo

Modelos multinomiales con apoyo de Stata: Predicciones categóricas

Autor: Camilo Alarcón / Portafolio: Quantitative / Jue. 30 de Nov de 2023

Transcripción de este video

00:00:39:20 Instructor Camilo Alarcón, Ingeniero industrial, economista con doble titulación de la Universidad Autónoma de Manizales, Magister en Economía Aplicada de la Universidad EAFIT y doctorando en Administración de la Universidad de los Andes. Experiencia en la docencia y la investigación en áreas como economía, Administración y Finanzas. Cinco años en el sector privado donde ha desempeñado roles de consultor en programas de protección social, líder de procesos en áreas de logística, compras y costos, como también la coordinación del desempeño de indicadores de control en el área de soporte a clientes.

00:01:25:26 Bienvenidos a Buenos días para todos. Es un placer nuevamente acompañarlos en este proceso de de algunas interacciones que pueden ser con Stata e o y vamos a trabajar específicamente los modelos de regresión multi nominal. Entonces vamos a hacer como un background importante en el uso de EM de los modelos binomial es entendiendo esos conceptos iniciales, que ahí es donde digamos que tenemos que tener en cuenta algunas cosas importantes, porque cuando ya vamos a ver el modelo como tal, pues digamos que es relativamente sencillo lo que hacemos en Stata.

00:02:04:23 Entonces por eso aquí cero como demorarme en algunas cosas específicas, dado que es importante entender esos conceptos para poder irnos a a al trabajo o de la lista. Entonces bueno, modelo multi nominal es un tipo de modelo econométricos, también estadístico. ¿Cierto que es una extensión que viene del modelo Logic Project? Sí, lo que pasa es que a diferencia de los modelos Logic y Pro Bit, esta extensión em va a tener la característica de que nuestras variables dependientes son categóricas.

00:02:34:27 ¿Cierto? Entonces ya no tenemos un modelo binomial donde o una variable binomial donde tenemos específicamente cero y uno cierto donde mirábamos la probabilidad de que o que nuestra probabilidad que queríamos evaluar precisamente era la probabilidad de T de que uno sea el proceso que tenemos, sino que tenemos varias categorías search y esas categorías pueden ser or or order ordinales o nominal cierto.

00:03:17:25 Entonces podemos tener procesos no ordenados o procesos ordenados. En el caso que vamos a ver hoy, vamos a ver el proceso no ordenado, porque el proceso no ordenado en algunos casos nos ayuda a hacer un análisis más sencillo, un análisis que especifique muy bien, digamos, esas necesidades que tenemos en el modelo mixto. Entonces, como dice acá, podemos tener un número finito de valores o categorías cierto, no podemos tener un valor infinito de valores pues porque eso ya se nos convierte en una variable continua, una variable discreta pues, y eso sería un modelo distinto al que lo hacemos.

00:04:06:29 Entonces acá precisamente lo que queremos es es tener esto entonces una variable de elección, de modelo de transporte. La situación economy o canil de educación son tipos de t o ejemplos de t t variables que podemos tener como variables categóricas en un modo de transporte bus taxi, auto propio, cierto niveles de educación primaria, secundaria, tecnología técnico, em universitario, cierto el tipo de la situación económica, el medio de ingresos medios, ingresos altos ingresos bajos cierto país o países de ingresos altos ingresos medios ingresos bajos.

00:04:38:09 Así podemos definir algunas algunas situaciones de esto y esto cuando hablamos de de de t variables o de tipos categóricos que son ordenados o no ordenados, entonces podemos tener el ejemplo de un modo de transporte. Este modo de transporte no es ordenado, o sea esto yo puedo decir bus e carro e auto propio y taxi, o puede decir taxi e bus e y auto propio.

00:05:02:08 Cierto, entonces no vamos a tener diferencias en lo que ocurre en esos pares ordenados o en esas categorías o no ordenadas, mientras que el nivel de educación sí va a tener en un, en una, una secuencia o un análisis que requiere que un paso anterior se coloque, que el paso anterior esté en este hecho para poder llegar al otro.

00:05:28:21 Entonces, dependiendo del tipo de análisis que vayamos a hacer, pues lo vamos a utilizar. El ejemplo que vamos a utilizar hoy es un modelo no ordenado, pero que en supuestos funciona de la misma manera. Acá es importante tener en cuenta que en el en los modelos multi nominales precisamente esa variable categórica pues tiene que tener una una distribución muchísimo mejor.

00:06:02:10 Entonces así es cuando determinamos que podemos utilizar este tipo de modelos, cuando organizamos y dilucidar que tenemos una variable categórica, específicamente nuestra variable dependiente, pues para poder tener eso en esto las observaciones deben ser independientes entre sí. Estos son supuestos pues que. Que son importantes. Es decir, que no exista auto correlación. Que las categorías de la variable dependiente sean mutuamente excluyentes y exhaustivas.

00:06:39:12 Lo que quiere decir es que esos factores son variable. Las categorías van a estar representadas por grupos o niveles y las variables son variables continuas que representan características o atributos, bien las variables dependientes de seguir una distribución multi nominal, como les decía y que sea. Y es una generalización de la distribución binomial. Entonces este análisis lo vamos a hacer para para, para variables, para esas categorías que son más de dos categorías con 12345 máximo, pues llegamos.

00:07:20:02 Generalmente se hace con basta siete. Sería como en los casos habituales en los que se hace y pues algo muy importante dentro de eso supuesto, es que tenemos que cumplir y que lo tenemos que cumplir en todos los modelos que nosotros hacemos en estadística, en econometría, pues es la multi con linealidad. Entonces siempre es importante revisar ese proceso de linealidad para que no tengamos, Digamos que hay unos problemas en la precisión y en en, en esa, en esa parte donde tenemos que tener precisión, en, en la, en la estimación de nuestros betas o en nuestros estimadores para poder que tengan una correcta interpretación y pues nos estén haciendo lo.

00:07:45:27 Entonces ahí vamos a tener. Ahora vamos a ver algunos problemas que tenemos en el modelo que les voy a presentar y entonces un poco entonces estas son, eh, estos son supuestos básicos, miren que con respecto a a los modelos que nosotros estimamos por por MCO, por mínimos EM, por mínimos cuadrados ordinarios, pues en este caso nosotros estamos evaluando.

00:08:17:24 Hay que tener en cuenta que nosotros evaluamos estos modelos por máxima verosimilitud y lo que estamos encontrando con la máxima verosimilitud es la máxima probabilidad, cierto sea esa maximización de la probabilidad de que un suceso exista. Entonces, por eso en la interpretación y la diferencia entre un modelo lineal y un modelo de este tipo, cierto que ya, ya tiene algunos supuestos, este le baja un poco los los supuestos a los que hay que cumplir, pues debidamente, debido a que la interpretación es diferente.

00:08:55:23 Listo. Entonces acá les vamos a dar un poco de matemática y es simplemente para entender cómo funciona el modelo. Entonces cuando veamos el caso en lo del Provi, pues solamente teníamos esta interpretación, cierto, lo que nosotros estábamos buscando en en los modelos Provider con nuestra variable dependiente era encontrar la probabilidad de que pasara un CERT. Esa era la probabilidad de que nosotros o esa es la probabilidad que nosotros buscamos cuando estamos en un modelo de este tipo, es decir, en un modelo lógico, en un modelo pronto.

00:09:31:10 ¿Ahora bien, que en el caso de los modelos multi nominales, miren que nuestras categorías cambian, cierto, son más de dos entonces, por ende la interpretación tiende a ser diferente, cierto? Entonces lo que hacemos acá en este caso es que nosotros para poder hacer la evaluación o la interpretación de lo que queremos realizar en estos modelos, es precisamente encontrar esa razón de cambio o esa razón de P de probabilidad que existe en la ocurrencia de un evento con respecto a los otros eventos ciertos.

00:10:11:04 Entonces, por eso siempre es muy importante en los modelos binomial es que también los modelos multi nominales encontrar cuál es esa base. Es em ese esa categoría base que me ayude a explicar la relación con el resto de categorías. ¿Por eso miren que aquí sólo vamos a encontrar estimadores que van a estar determinados hacia o no? ¿Entonces miren que si nosotros tenemos estimadores como el Theta uno, el Beta uno y el de Estados, lo que quiere decir es que estamos haciendo la comparación con respecto a las otras categorías de el beta o el estimador tres o la categoría tres específicamente cierto?

00:10:42:01 Entonces miren lo que está ocurriendo acá, lo que está ocurriendo acá precisamente es que nosotros vamos a hacer la estimación por máxima verosimilitud, porque tenemos estos exponenciales elevado a todo nuestro, nuestro, nuestro modelo, pero específicamente relacionando una categoría base con respecto a las otras categorías. Entonces, si nosotros organizamos esto matemáticamente, pues vamos a llegar al final de esto.

00:11:13:00 Cierto es que la explicación y el beta va a estar dictaminado por esto. Entonces mire la relación o la base va a ser nuestra categoría tres en este caso, cierto, la categoría tres y entonces la razón de o la proporción de análisis que vamos a hacer en este caso es cómo está relacionada la categoría tres con respecto a la categoría uno y cómo esta o cuál es la probabilidad de que de ocurrencia cuando tengo la categoría A1 y lo que pasa con la categoría dos.

00:11:56:18 Cierto, entonces siempre es muy importante ese análisis, porque eso es lo que va a ocurrir. Digamos en el caso que tenemos taxi, perdón, tenemos auto propio, tenemos taxi y tenemos bus. Bus es la categoría menos e menos la categoría número tres, y esa va a ser nuestra categoría base. Supongamos que tenemos la variable independiente. ¿Son ingresos, cierto? Entonces la explicación va a estar dada por lo siguiente En la medida esta yo creeríamos que en la medida que aumentan los ingresos, pues vamos a tener más probabilidades de de utilizar el carro que de utiliza el el bus.

00:12:37:15 ¿Cierto? ¿O más probabilidades sí aumentan nuestros ingresos de utilizar el taxi a utilizar el bus, cierto? ¿Entonces esa es la categoría que nosotros tenemos que definir en una en un modelo multi nominal no ordenado para poder definir cuáles son esas E Cuál es esa referencia de categoría que yo tengo para poderla contrastar con el resto y visualizar que esa, eh, esa probabilidad de ocurrencia de una categoría con respecto a las otras, pues tenga, tenga sentido y pues tenga una interpretación adicional, cierto?

00:13:17:02 Entonces aquí podemos ver cómo utilizamos esta la, el la la, la interpretación de los betas específicamente. Entonces los betas en el lodge son el impacto de X sobre el logaritmo de la razón de probabilidad. ¿Se pregunta siempre vamos a tener un logaritmo porque esto sigue funcionando como un logaritmo? ¿Bien, y por ejemplo, si en este caso es cuando utilizamos el factor binomial, cierto, muy lógico, normal, entonces es la probabilidad de tener crédito sobre la probabilidad de no tenerlo cierto?

00:13:55:05 Entonces, en este caso utilizamos en la interpretación del beta, como si en el caso fuera, Si el resultado de esta probabilidad fuera cuatro, entonces lo que va a indicar es que cuatro veces más es más probable tener crédito a no tener lo mismo. Vamos a utilizar acá, cierto, pero lo vamos a hacer por categorías. Entonces la probabilidad de utilizar el carro con respecto a utilizar bus, la probabilidad de utilizar el taxi con respecto a la probabilidad de utilizar el bus Si y nos el el el el factor o el lo el beta específicamente ese coeficiente.

00:14:22:23 El beta es el que me va a dar esa razón de probabilidad de esto, o bien y al igual que en en los en los modelos Logic y Provi pues tenemos que utilizar los los los efectos marginales y en este caso funciona de la misma manera los que lo diferentes. Que esto nos va a ayudar pues a dar como una interpretación alternativa cierta.

00:15:07:00 Entonces esos efectos, esos efectos marginales, se van a interpretar como el cambio de la probabilidad de cada categoría de la variable dependiente por cada unidad de cambio de las variables independientes, manteniendo el resto, el resto constante. Entonces, por ejemplo, si el efecto marginal de la variable x sobre la la categoría es 0.05, va a significar que ante un aumento de la unidad de una unidad en X va a aumentar la probabilidad de que la variable dependiente tome el valor de de de de ese coeficiente en conjunto.

00:15:35:05 Entonces ahí tenemos esas diferencias para el análisis que vamos señora disculpa, de pronto antes de que sigas con el con el tema acá nos habían hecho una pregunta sobre la diferencia entre los y el provine, que no le quedaba muy claro a esta persona. Si se usa es indistinto indistintamente. Ya, ya la vi. ¿Listo? Sí Eduardo Ok, esa es la diferencia.

00:16:02:12 La explicamos en lógica y entonces déjame. Al final te voy a mostrar unas diferencias acá entre el login, entre el login multi nominal y el login y el pro BID multi nominal, para que hagamos un análisis de algo de esto. Y yo creo que ahí podemos tener em. ¿Podemos probar? ¿Puedes aclarar esa duda de esto? Entonces déjame este al final y al final compartimos esa diapositiva.

00:16:39:13 ¿Para que? ¿Para que? Para ver si ahí te queda más clara la diferencia de esto. ¿La diferencia solamente es en el tipo de distribución, cierto? Los project se distribuyen de una manera normal y los logic se produce se si se distribuyen de una manera logarítmica, entonces esa es la diferencia, simplemente es la distribución, pero en el en el resultado como tal es muy parecido, solamente es la distribución que tu utilices con los datos de tu variable dependiente de tu variable al pendiente de esto bien puedes repetir esta última interpretación de los cambios.

00:17:07:21 Claro que sí. Volvamos a entonces. Ante un cambio en la probabilidad de cada categoría de la de una variable dependiente por cada unidad de cambio, en esa, en esa variable dependiente vamos a tener un efecto o un aumento o una disminución dependiendo del signo en en la probabilidad de esa de esa categoría. ¿Cierto? Entonces así es que lo interpretamos igual.

00:17:33:17 Ya lo vamos a ver en el ejercicio para que luego lo analicemos mejor. Entonces yo les traje un ejercicio que yo hice en mi tesis de maestría, donde analizamos las diferencias en los factores que influencian la intensión de carrera y lo que nosotros estamos haciendo ahí es buscando esa intención de carrera de los estudiantes universitarios en Colombia. ¿Cuáles son las las intenciones?

00:18:12:08 ¿Ser empleado, ser académico o ser emprendedor? Entonces miren la la relación que estamos buscando acá nosotros estamos construyendo una variable dependiente, categórica entre empleado académico, emprendedor uno, dos y tres. Cierto, esto va a cambiar un poquito, porque creo que emprendedor es uno empleado es dos y académico es tres. ¿Ya lo vamos a ver según la categoría y entonces vamos a explicar cuál es la probabilidad que puedan tener estos, estos estudiantes de que sean alguno de estos, de estos o de de estas categorías, cierto?

00:18:44:16 ¿Cuál es esa intención que ellos tienen? Pues hoy vamos a revisar un modelo que se ajusta perfectamente con un modelo multi nominal y que no es ordenado, porque yo puedo utilizar las categorías. Las categorías no tienen dependencia entre ellas, sino que hay una una interdependencia, pero se puede hacer el análisis en indistinto alor. Bien a ver si tengo datos del reparto modal a partir de encuestas y con eso conozco el porcentaje de uso.

00:19:28:16 De cada modo se puede asumir que modelo no tiene autónoma y se puede reproducir ese reparto sí o sí como el ahora. El modelo analítico para reproducir eso se puede o solo puede pronosticar con alguna herramienta los resultados del resultado sin conocer el modelo, como si fuera una caja negra, sin ver los coeficientes del modelo. ¿Fernando Lo que pasa es que tú puedes utilizar un modelo multi nominal siempre y cuando tu variable dependiente y tú la puedes construir claramente, tú la puedes construir, pero tiene que ser categórica, cierto?

00:19:57:20 Que tú definas muy bien esas categorías y generalmente esas categorías las definimos muchas veces. Pues porque la base de datos en las contiene y bueno fue lo que logramos obtener de de la población o de la muestra que estamos teniendo, o algunas veces también llegan de la literatura. Si, y entonces ojo con el pronóstico, porque aquí nosotros no estamos mirando un pronóstico como tal, sino que estamos mirando la probabilidad de ocurrencia de uno de esos eventos.

00:20:26:09 ¿Cierto? ¿Que pasa si ocurre? ¿Cuál es la probabilidad de ocurrencia que pase una categoría y no la otra? Por eso vamos a tener una una base. Listo. Y si quieres, al final hablamos de de esto de alguna herramienta, de modo que se pueda asumir que el modelo no los resultados. Sin conocer el modelo lo miramos al final porque no entiendo bien esa pregunta, pero ya, ya tratamos de resolverlo con la base de datos que tenemos en esto.

00:20:58:18 Bueno, entonces este estudio lo realizamos a partir de este proyecto que es que es el Global University, entre el premio nivel Spirit Student Service. Entonces, con base en esta base de datos, pues nosotros para Colombia específicamente trajimos e organizamos nuestra base de datos para poder tener esto listo. La encuesta se realiza a estudiantes en diferentes países solamente utilizamos esta base de datos para Colombia.

00:21:28:24 Esta base de datos tiene alrededor de eh, bueno, se hizo en 64 institución en ES en el 2018 de educación Superior en 16 ciudades colombianas. En la encuesta del 2018 participaron 15.851 estudiantes de instituciones públicas y privadas y este tipo de bases de datos, pues permite investigar los patrones y tendencias de las decisiones de carrera de los estudiantes universitarios.

00:22:13:17 ¿Y este es mi modelito, cierto? Digamos que este modelo funciona también, pero tiene algo porque aquí hacemos las construcciones de unas variables como el locus de control, otro case y y y el entorno universitario son variables que construimos a partir de un análisis factorial confirmatorio. Entonces esa es la construcción. Pero entonces lo que queremos ver es cómo estos estas variables independientes, el locus de control autoeficacia, el entorno universitario general bueno y otras como las variables de control, pues están determinando esa intención de carrera, ya sea ser empleado o ser académico o ser emprendedor.

00:22:46:04 De esto bueno, ya que estas son las diferencias y similitudes entre los modelos que Lodge y Prey, pero creo que lo veamos al final una vez vamos a ver el modelo, entonces quiero mostrarles este modelito que tengo acá en esta acta compartimos pantalón. Bueno entonces que ya he hecho algunas cositas, que acá tengo mis variables, entonces quiero que veamos nuestra variable dependiente.

00:23:13:23 Simplemente utilizamos nuestra variable dependiente, que es esta que yo creé anteriormente. Y entonces miren, lo que tenemos acá es que uno, en este caso uno es emprendedor, dos es académico y tres es empleada. Si esta fue la distribución que tenemos, entonces esa fue la percepción que tienen los estudiantes de lo que quieren hacer. Una vez terminan sus estudios universitarios.

00:23:50:02 Uno. Ser emprendedor todo ser académico y tres ser empleado, cierto. Entonces tenemos nuestras categorías. El 68% de los estudiantes dice o dice que una vez terminan sus sus sus estudios, entonces quieren ser emprendedores. Un 8%. 9% dice o intuye que quiere ser académico y un 23%, pues más o menos intuye que quiere ser empleado. Bien. Entonces, estas son nuestras categorías.

00:24:17:24 La base de datos de expertos, la construcción del locus de control, de la autoeficacia y del entorno universitario se crean con base a la literatura, con unos autores que hablan acerca de estas, de cómo influye esto en el espíritu emprendedor, específicamente en si es emprendedora, pero en este la abrimos las categorías y lo que queremos. Aires. Y estas variables que influyen solamente en el emprendimiento, pues también influyen en otra cosa.

00:25:10:09 ¿Cierto? Otra cosa acá es el empleo y ser acá o ser empleados en académicos y estas las construimos como variables porque es como constructos que venían que ya vienen en la base de datos y lo que hacemos es coger varias preguntas y utilizar el análisis factorial para poderlas obtener. Entonces en ese caso lo que realizamos ahí es ya tenido cosas de de pues han tenido webcasts acerca de de análisis factorial y simplemente lo quisimos acá en este trabajo fue utilizar el análisis factorial para esto, entonces CA Lo tenemos acá, utilizamos las correlaciones, simplemente utilizamos el par, el factor test para poder testear esto, luego hallamos el factor utilizamos el KMO pues para poder mirar esas

00:25:39:09 estimaciones como que cumplan los supuestos para poderlos convertir en un en un factor, utilizamos estos factores y simplemente aquí obtuvimos tres factores. Bueno, cuatro factores, pero en este caso solamente utilizamos tres de esos factores que los convertimos en locus de control, en autoeficacia y en entorno universitario. Y vamos a utilizar otras variables de control como el género, como la nacionalidad, como el número de empleados, el número de empleados.

00:26:15:06 Vamos a ver que tiene ahí unos unos problemas y eso es precisamente lo que quiero que veamos para poderlo estimar. Entonces, para poder hacer esta estimación, nosotros utilizamos en un modelo multi nominal logic, utilizamos el comando en sí. Entonces con el M Logic inmediatamente el sistema nos está ayudando a a utilizar o sabe que ya tenemos un modelo multinivel y en este caso la intensión de carrera pues es la la la variable dependiente.

00:26:49:07 Y aquí pues vamos a utilizar nuestras variables independientes locus de control, autoeficacia, entorno, edad, número de empleados, em el género cuando tenemos variables que son binomial es para poderlas hacer la estimación siempre le tenemos que poner el punto a listo a OK número de empleados, por eso es que tiene problemas el número de empleados. Yo la puse para saber qué había en el modelo y el ejercicio que quiero crear.

00:27:21:23 Cuando quitamos esa variable, ese número de empleados es cuando tú reportas que eres Mr. o que tienes un emprendimiento y tienes un número de empleados. Entonces esta esta variable corresponde a super claro, va a haber un problema y de dentro general, dado que pues los que dijeron que no, entonces pues vamos a tener un problema con la variable intensión de carrera, pero quiero que veamos esos problemas para ver qué pasa cuando lo hacemos Listo.

00:27:45:14 Bueno, y entonces acuérdense que yo les había dicho que tenemos que tener una relación de una categoría, todos tenemos que tener una categoría base. En este caso yo voy a utilizar la categoría uno, pero si quiero utilizar la categoría dos, que es académico también, entonces utilicemos lados para ver cómo es el análisis y que nos y cuál es el resultado de esto.

00:28:26:07 Entonces veamos cuál es el resultado de esto. Aquí lo estimamos y entonces miren esto como, como es de chévere esto a cuando salen estos resultados, a mí me encanta porque esto es bellísimo. Entonces aquí nos dice el número de iteraciones que se hizo por máxima verosimilitud, cierto en se hicieron cuatro estima iteraciones e bueno, miren que es un multi nomia, logística, regresión, ya sabemos que es esto, aquí tenemos otros EM e otras EM.

00:28:51:27 Digamos que e indicadores que nos sirven para mirar cuál es el modelo, pero en estos 46 C, cuando estimamos por máxima verosimilitud, pues aquí no tenemos mucho que contestar. Claro, claramente este chi cuadrado, que es el modelo general, pues es es superior a a, a a lo que corresponde. Entonces quiere decir que el modelo global está bien y ahí podemos sacar esa, esa conclusión.

00:29:32:20 Entonces miren inmediatamente el modelo me dice ah, señor, claro, usted tiene como base una categoría base que es dos, cierto que es lo importante acá, lo importante analizar acá en este modelo es el signo. ¿Si el signo es lo que nos interesa, entonces cómo hacemos el análisis de esto? Miren que aquí no tenemos mucha relación, es decir, no hay mucha, mucha, no son estadísticamente significativos para la la intención de ser emprendedor y solamente el locus de control es significativa.

00:30:00:04 Es que es estadística mente significativo para ser empleado. Entonces hay que revisar qué es lo que pasa con el modelo, porque parece que tiene problemas, cierto, pero digamos que esto no es un grado bonito. Nos hubiera dado bien. Entonces hacemos el análisis a partir de los E, de los de los estimadores, específicamente del signo de los estimadores. Entonces, por ejemplo, el locus de control es positivo.

00:30:40:05 ¿Que análisis hacemos acá? ¿Bueno, ante un aumento de locus de control es cierto, cuando hay un aumento en el locus de control podemos visualizar que la probabilidad de ser em que esto que que este locus de control impacta la probabilidad de ser impacta más la probabilidad de ser emprendedor que de ser académico? Si. ¿Entonces ante cuando aumenta el locus de control, aumenta la probabilidad de ser emprendedor y no de ser académico?

00:31:16:25 Si, y lo mismo pasa acá. Y entonces podríamos decir que hay una influencia positiva del locus de control cuando somos. Cuando los estudiantes reportan que quieren ser empleados y no académicos. ¿Cierto? ¿Ahora, qué pasa si yo lo hago con base a un cierto a? Miremos a ver qué pasa con base u entonces base uno cierto base uno. Miren que aquí el signo es contrario en el locus de control.

00:31:48:13 Entonces de pronto aquí la lectura puede ser diferente. Ante una disminución del locus de control, la probabilidad de ser académico es menor que la de decir eh, em que la de ser emprendedor. Y lo mismo acá la la. Ante un aumento de locus de control vamos a tener mayor probabilidad de sea empleado, a ser a ser emprendedor. De esto claro para todos.

00:32:26:27 ¿Cómo hago el análisis a partir del signo? Esto es muy importante. Y entonces ahora sí vamos a ver la relación que existe en los efectos marginales. A ver, miremos. ¿Listo? ¿Sí, claro, para todos, Bueno para todos, no? Dos que me dijeron que significa Bien, entonces ahora hagamos este, hagamos los efectos marginales. Y entonces, en los efectos marginales de este modelo ya podemos hacer una inferencia de lo que significa esto.

00:32:59:19 ¿Cierto? Entonces, ante un un cambio en una unidad de EM de locus de control, cierto, entonces vamos a tener una disminución de 0.3 unidades porcentuales de ser en este caso EM, de ser académico, de ser académico y no ser emprendedor, o de ser empleado y no ser emprendedor. Entonces estos ya no sirven para hacer el análisis de ambos, cierto, de este y de éste.

00:33:42:25 Y vemos pues que aquí no hay una incidencia, pues estadísticas en la mente, en el locus de control. El locus de control es el que más a bueno y la también cierto ante una disminución de la edad vemos que hay mayores probabilidades en ser académico, ser empleado que ser emprendedor. Ese es el análisis que hacemos. Listo. ¿Entonces vemos que hay muchos, muchas variables que todavía con que no le pegan al, al, al modelo cierto, entonces ahí es donde nosotros pues tenemos que mirar qué es lo que está pasando con la, la la la la, el, la multi co linealidad cierto?

00:34:12:26 Y entonces hacemos una una matriz de correlaciones y empezamos a ver qué es lo que pasa. Es lógico que estas tres sean multi co linealidad, pues que tengan multi co linealidad, dado que son en un análisis de factor cert un sí, un análisis factorial, que esto es confirmatorio, entonces es lógico que esto pase, pues debido a que estamos utilizando esas herramientas, entonces esto no nos preocupa que pasa.

00:34:34:07 Pero mire la relación de lo que pasa con las otras, lo que hablábamos de número de empleados, miren que esta variable es una variable que nos hace mucho ruido con respecto a las otras. ¿Cierto? ¿Por qué? Por lo que les decía precisamente es que estamos tomando en cuenta estudiar antes, que son emprendedores y otros que no son emprendedores.

00:35:08:04 Entonces esa heterogeneidad en la información pues nos está alterando los resultados. Entonces miremos qué pasa. Una vez nosotros damos esta variable en empleados, por eso quería que hiciéramos este ejercicio, para que revisáramos qué era lo que pasaba. Entonces quitamos este mira, vemos que con la quita eso mejora mucho la la la En los resultados. Con respecto a las otras variables, todavía hay algo que nos hace ruido.

00:35:30:16 Y miren que la nacionalidad es algo que nos hace mucho ruido todavía. Entonces si nosotros quitáramos esta esta variable para revisar qué es lo que pasa, miremos ahora cuáles son los resultados con respecto a esto y los resultados me mejoran enormemente. Cierto, hay un poco de ruido con lo que está pasando aquí con la edad, pero debe ser simplemente por este.

00:35:55:19 Estos resultados que estamos teniendo acá. ¿Ahora, si corremos nuestro modelo sin estas dos variables, cierto? Entonces podemos revisar qué es lo que pasa. Vamos a ver cómo se ajusta ese modelo para ver si podemos tener algo que nos ayude a ser más precisos. ¿Y miren que en este caso nuevas variables ya tienen, ya tienen un nuevo resultado, cierto?

00:36:35:15 Miren que el locus de control tiene un resultado estadísticamente significativo. ¿La autoeficacia también en la edad, también el entorno universitario sigue teniendo, hay algunos problemas, el género también sigue teniendo algunos problemas, pero miren que para el caso de ser empleado acá el género no tiene problemas, cierto? ¿Digamos que está ahí muy cerquita a tener entonces el cómo se lee, por ejemplo, la de género, la probabilidad de ser hombre, perdón, ante un aumento en las personas que son hombres, cierto?

00:37:15:05 ¿Entonces va a tener más probabilidad de ser empleado que se de que ser emprendedor, cierto? En el caso, miremos cómo es el género. ¿De acuerdo? ¿Cómo es el género? ¿El género que género Si uno es hombres dos ESO dos son mujeres, uno es hombres y a las mujeres en o cero es lo contrario, cierto? Entonces ante un aumento o ante o ante más hombres existan, cierto que más hombres allá en acá, pues vamos a tener más probabilidades de que esos hombres sean empleados a que sean emprendedores.

00:38:05:04 Si ese es un análisis que podemos hacer en este caso con variables de control, si quisiéramos nuevamente nuestros nuestros efectos marginales, pues los podíamos obtener desde acá y entonces vemos cuáles son esas que no son significativamente, que son estadísticamente significativas. Y con base en eso pues hacemos nuestro análisis. Miren que en la medida que vamos cambiando a que pasa es que yo me puse en acá, esto es dos, esto es base dos A no lo estoy corrigiendo bien porque esto va a ser un si está bien, está bien cuando lo corren dos, entonces ahí y podemos ver, nosotros no podemos correr o hacer el análisis de acuerdo a la categoría que queramos ver y con

00:38:50:06 base en eso, pues tomar las decisiones que queramos. Simplemente lo único que va a cambiar la relación con respecto a qué nosotros estamos haciendo. Pero miren que los modelos van en términos de de valor, van a ser muy listo y entonces aquí podemos obtener en unas unas, en unos resultados bien bonitos. ¿Ojo que aquí no estamos haciendo predicciones específicamente, sino que lo que estamos haciendo es mirar la probabilidad de ocurrencia de un evento listo a Alejandra, así ruido como que es a esa variable, me está interfiriendo, está teniendo multi con línea o está teniendo?

00:39:27:16 Digamos que es muy parecida a otras variables o está interfiriendo en otras variables. En esto dice en este o este, en este modelo, cuando se cuando se pretende predecir, se puede utilizar el criterio de información de acá aquí para definir las variables que ingresan al modelo o pasos hacia atrás. Sí señor, sí señor, sí se puede utilizar acá, que para eso, claro, esos son, digamos que, em, que es de voz, de igualdad, de ajuste, pues mucho más específicos para poder determinar cuáles son las variables que realmente me están incidiendo en el modelo.

00:40:06:20 Entonces, claro, lo puedes utilizar de la misma manera, si se exponen los coeficientes, igual se obtienen o r e o r s. Ojo, que por acá se explicaba en algún punto que en los supuestos está in dependencia entre sí. Entonces hay que tener cuidado. Cuando tú vuelves esas variables tú las estás elevando a otro. A otro nivel. Sí, porque hay que mantener esos que son temas de linealidad en los en los en las variables dependientes.

00:40:48:08 Listo. Bueno, ni lar. Ahora sí, Eduardo, creo que es. Sí, sí, sí, sí, sí, sí. Billy Sí, señor, claro que sí. Tú lo interpretas con los efectos marginales. Sí. Entonces, mira, ante un aumento del 0.04% puntos porcentual del locus de control va a aumentar la probabilidad de que seas EM, de que seas emprendedor o seas académico a ser empleado.

00:41:17:20 Sí. Entonces mira que acá con con los con los efectos marginales estos ya te dan el punto porcentual. Listo. Y ahí ya haces el análisis desde esos esos puntos porcentuales que puede aumentar ante cambios en, en, en, en esas variables. Esto es antes cambios en el locus de control. Vas a tener un aumento de la probabilidad de ser emprendedor o académico.

00:41:50:16 El 0.04 puntos porcentual es Esto está muy bien, Excelente pregunta. Bueno, entonces ahora sí quiero que miremos esto nuevamente. ¿Entonces la extensión producto también la podemos hacer aún a un multi nominal, cierto? Simplemente es que miren, la función del provee está basada en una distribución acumulativa normal, mientras que la función lógica entonces va a estar en una función logarítmica.

00:42:30:18 Es razón de probabilidades. Esa es la diferencia, esa es la diferencia. Entonces el ajuste va a ser igual, pero entonces, dependiendo de la distribución acumulativa, cierto, vamos, perdón, de la función o de la distribución de cada uno, vamos a elegir cuál el próvido, cuál es el log, pero si hacemos ambos, podemos obtener lo mismo. ¿Miren en el boletín nominal los coeficientes no tienen una interpretación directa de las probabilidades, mientras que en el login multi nominal los los los coeficientes los podemos interpretar directamente, cierto?

00:43:02:13 Es decir, aquí podemos utilizar el signo y también este para ver cuál es la relación en el problema, no en promedio utilizamos netamente lo que pase en el en el en el en en los cambios, en los efectos marginales. Listo. Miren el multi nominal. La curva de respuesta sigue la forma de función de distribución, mientras que en esta en el lógico multi nominal, pues vamos a tener una función logística.

00:43:34:04 Sí, esta es una función de distribución acumulativa normal. Esta es una función logística normal. Y por último, aquí Jacobo para Para utilizar estas semejanzas podemos ver que ambos modelos comparte supuestos similares como la independencia, observación, linealidad en los predictores y la homogeneidad de varianza de los errores. Visto en Bien, Fernando dice se está partiendo del supuesto que el modelo es multi nominal, no jerárquico.

00:43:56:29 Si señor. O sea, todas las alternativas en un mismo nivel de jerarquía eso afecta. Habría que crear nidos a priori jerárquicos en un árbol donde agrupas modos de transporte. Si señor. Y hay un hay un modelo especificó Fernando que se llama así multi nominales anidados. Y acá existe. Lo que pasa es que no llego hasta allá porque no, no tengo tiempo.

00:44:19:09 Pero hay, hay, hay. La función lo puedes buscar ya Les voy a compartir un documento que les voy a mostrar aquí, un documento en la bibliografía que les va a servir mucho para esa especificación. Podemos tener no ordenados y ordenados, ordenados y ordenados de los ordenados pueden ser multi y nominales anidados. Y eso se puede hacer y son modelos bacán.

00:44:49:09 Hicimos muy complicados, pero acá mismos también, porque parte mucho de la de la de la de la de la relación fallecían así. Entonces ahí la interpretación tiene que ser muy, muy cuidadosa y muy delicada. Por último, compartirles esta bibliografía, cierto para que la tengan ahí los la las práctica de multi variedad análisis de a fifí que en este pueden encontrar todo lo relacionado en los supuestos a como el modelos específica.

00:45:12:11 Este es mi trabajo que lo pueden encontrar en Google escolar para que revisen cuáles fueron los resultados, como se hizo el modelo. Ahí sale todo. Entonces muy chévere. Esto se llama intención de carrera de los estudiantes universitarios en Colombia me encontré este que que se lo recomiendo mucho de Guarín, Ramirez y Torres. Modelos multi nominales. Un análisis de sus propiedades aquí.

00:45:48:07 Esto está especificado y les dicen paso a paso cómo funciona, cómo lo pueden relacionar. Es, es, es. Está muy chévere. Lo encuentran también ahí, directamente en Google Escolar. Me pareció a canismo como sumo para ustedes y quieren como profundizar más en estos modelos. Ahí lo tienen. Y pues lo último es el el, el el el trabajo de May pues que el trabajemos y es muy específico también explicando el es chévere y sencillo para para trabajar estos modelos en en términos de cuáles son los supuestos, cómo poder llegar.

00:46:12:11 Y una cosa muy chévere que tiene May es que explican como puedo hacer pruebas de bondad, de ajuste y lo explica muy bien, como hago pruebas de bondad, de ajuste, porque esas pruebas de bondad de ajuste son muy buenas, como los decían atrás. Y el aquí que lo puedo utilizar, claro que lo puedo utilizar, pero eso son pruebas que me van a ayudar a determinar cuál es el mejor modelo.

00:46:41:04 Si y May lo hace muy bien, pues les recomiendo mucho este modelo, perdón, este libro para que lo utilicen listo. No sé si tienen dudas, preguntas e que más les puedo mostrar. Nicolai, la base de datos es solo para las universidades en investigación. No está pública entonces. Pero digamos que hay otras bases de datos que te puedan servir para eso.

00:47:15:22 Listo. Como saber si hay multi con linealidad. Generalmente utilizamos Héctor. Utilizamos que hay perdón. Utilizamos la matriz de correlaciones que vemos acá. ¿Cierto? Y con la matriz de correlaciones determinamos pues que este factor sea inferior o este este valor sea inferior a 0.5. Hay otros también, como el BID no puede hacer el BID y en el BID se puede terminar.

00:48:03:29 Espérame, yo miro con BID se puede terminar también si hay multi co linealidad, entonces a esconder esto, corramos a esta y miremos el Big Bang 4.º mil. No, no lo reconoce. Bueno, utilizando Beef con Bif puedes ver si hay multi con linealidad o no y ese vive generalmente te van a salir valores entre uno y muy grandes. Uno busca que sean inferiores e inferiores a a perdón si están bif, que sean inferiores a a diez.

00:48:42:28 Esto en este no me está sirviendo, no sé por que entonces, pero el BID es un buen, es un buen un buen tema para revisarlo. ¿Listo? Bueno, algo paso acá, pero bueno, ahí les dejo esa recomendación. ¿Listo? Bien, no sé si hay más preguntas. Fernando es como sería un análisis de sensibilidad. Si cambias un valor de una variable de adquisición, por ejemplo, sube la tarifa del viaje en tren.

00:49:11:27 Si están haciendo el análisis de sensibilidad, precisamente porque están revisando la probabilidad de ocurrencia de uno con respecto al otro, entonces ahí, con el valor del del coeficiente, estás haciendo ese análisis de te de de sensibilidad precisamente porque lo estás haciendo como probabilidad. Listo, claro. Ya les comparto nuevamente la bibliografía. Claro que sí, sí la tienen. Ahí está la bibliografía.

00:49:44:25 0.04 puntos porcentuales. Listo, ya. Si es Fernando, dice Si tuvieras que elaborar un modelo analítico cuando es binomial puede usar regresión lineal, pero cuando hay más de dos modos no es tan directo. Se que hacer varios nidos en un árbol binomial en sí. Yo creería que tendrías que hacer el análisis independiente para que lo hagas como que lo hagas binomial y mires la probabilidad desde la regresión lineal.

00:50:16:04 Si se puede, sí se puede, pero te tocaría hacer varias regresiones. Fernando, yo yo te recomiendo que que revises el el multi nomía launidad que es muy novedoso y estatal, lo saca muy bien. Revisas Bueno, con mucho gusto. Elisa, creo que ya muchas gracias. Para mayor información respecto al software o en temas relacionados, no dude en contactarnos a través del correo electrónico.

00:50:25:07 Entrenamientos, arroba, software, guion shop, punto com o visitar nuestra página web Triple o punto software guion shop punto com.

Modelos multinomiales con apoyo de Stata: Predicciones categóricas


Los modelos multinomiales hacen parte de los modelos de regresión, que son comúnmente utilizados en estadísticas y análisis predictivo cuando la variable dependiente es categórica con más de dos categorías. Estos modelos son una extensión de la regresión logística binomial, que se utiliza cuando la variable dependiente tiene solo dos categorías. En esta presentación, abordaremos, mediante un ejercicio práctico, las diversas herramientas con que cuenta Stata para trabajar modelos multinomiales y su interpretación.

Etiquetas relacionadas

  • Datos
  • Educación
  • Estadística

¡Comparte este video con tus colegas!

Compartir

Ver más

Cotizar
Próximos
Eventos

X

Mis cotizaciones:

Comentarios a tu solicitud:

Cotizar