Autor: Franco Andrés Mansilla Ibañez / Portafolio: Quantitative / Jue. 30 de Nov de 2023

Transcripción de este video

(Transcripción automatizada sin revisión humana)

00:00:29:16 Software sobre la empresa líder en la implementación de herramientas analíticas y software especializado en Latinoamérica, les da la bienvenida a esta presentación. Esta sesión estará a cargo de Franco Mansilla, Ingeniero Civil Industrial con Magíster en Finanzas en la Universidad de Chile. Actualmente se encuentra trabajando como líder técnico en Inteligencia Artificial en el Banco de Crédito e Inversiones. BSI En su país.

00:00:56:13 Se ha desempeñado como analista en investigación económica y financiera para académicos de la Universidad de Chile y Banco Central de Chile, en temas de mercados de capitales, eficiencia de mercado, riesgo financiero, econometría y estadística. En el área académica ha sido catedrático en temas como Probabilidad y Estadística, Econometría Financiera, Formulación y Evaluación de proyectos y en ramas de ingeniería como Investigación de Presiones y Taller de Ingeniería Civil Industrial.

00:01:29:07 Bienvenidas. Bueno, bienvenidos a este nuevo nueva sesión en la que vamos a ver algo de penalización, principalmente lo que vamos a ver hoy día. Es bueno lo que hemos visto anteriormente en otra sesión en Stata, pero acá aplicado a un lector y también sobre todo molesta. Trabajo sobre. Bien, entonces primero, antes de mostrarle lo que es la parte práctica, introducir un poco lo que son los algoritmos de predicción y por qué lo utilizamos bien un poco.

00:01:59:28 Introducción Lo algoritmo de penalización pertenece a un dentro del grupo o de la camada de los modelos de regresión de penalización que con que. Que corresponden a los a lo que son técnicas o al abanico de técnicas que ofrece todo lo que es machine learning y en el machine learning principalmente es el mecanismo o es el método con cual nosotros hacemos a que un un sistema inteligencia artificial aprenda bien.

00:02:57:05 Es decir, todo, por ejemplo, tiene que ver con un robot, con una aspiradora robot o con cualquier cosa que que se quiera automatizar, tanto digital o como físico. El tiene que aprender de algo perfecto. Entonces el machine learning principalmente utiliza sus herramientas que a través de datos él trata de lograr en encontrar patrones mediante esos datos. Perfecto. Entonces, hoy en día, principalmente el machine learning no solamente se ocupa en eso, en entregar a esa inteligencia, a estos sistemas de inteligencia artificial, sino también para mejorar los métodos clásicos con la que antiguamente se utilizaba en los negocios para hacer gestión, para generar redo crédito, para generar modelos de fraude, para generar modelos comerciales, etcétera.

00:03:21:23 Bien, entonces aquí yo les voy a mostrar una técnica un poco más adelante que se llama Street Wise y Stick Wise principalmente. Lo que viene a ofrecer, es decir, un método iterativo que te encuentre mejor modelo y cómo por ejemplo esta herramienta de machine learning y logran mejorar parte o en gran parte el poder predictivo. Que tengan esto muy bien.

00:03:51:23 Bueno, con el machine learning hoy hay diferentes tipos de sistemas de aprendizaje. Uno de los sistemas de aprendizaje más utilizado son el es el supervisado perfecto en la que tú le entregas un target, un objetivo a que el modelo aprenda. Es decir, si tú le entregas la marca de fraude, lo que tiene que hacer el modelo o los datos, el lograr encontrar el mejor conjunto de patrones que logre o reconocer un fraude perfecto.

00:04:20:17 ¿Y por qué utilizamos modelos? Porque principalmente nosotros, como ser humano tenemos la capacidad de encontrar patrones, pero no tan avanzados o no, incorporando tantas variables como lo podría ser un modelo que puede incluir cinco, diez, 40 variables respecto al ser humano, lo puede dictar patrones, pero un poco más acotado en términos de dos variables máximo tres variables. Perfecto.

00:04:44:01 Si ya eso ya se solo se puede hacer mucho más complejo. Entonces tableros supervisados en la que tú le das un objetivo donde su objetivo, el algoritmo machine learning que tú estás utilizando, tiene que lograr encontrar patrones no supervisado o principalmente que tú no le das un target, el principalmente mediante reglas o mediante cálculo de distancia o de densidad.

00:05:32:10 El logra principalmente adecuar un mejor, un mejor grupo, un mejor. Te dice oye, mira, yo encuentro que estos grupos se parecen más o estos patrones se parecen más. Entonces guíate con esto. Respecto a los semi supervisados, que es como un target intermedio en la que tú conoces una parte del target. Ve por ejemplo, conoces cuando hacen fraude, pero no si cuando no hacen fraude por ejemplo, entonces las características de un fraude tú las podrías conocer a priori, pero no necesariamente las que no cumplen esas características son un fraude perfecto, por lo tanto podría ser algo como se ve supervisado porque conoces muy bien una parte del target y no así ambas partes.

00:06:01:02 Y por último está el reforzado, que simplemente es que lo utilizan por ejemplo mucho para aprender, para que sistemas de inteligencia aprendan mediante incentivos. Es control policial. Cuando le enseñan a ese perro policial ser un perro policial, es decir, si ese perro queremos que logra encontrar, no sé, personas, nosotros lo tenemos que entrenar a ese perro. ¿Y cómo lo entrenamos?

00:06:31:19 Un perro entregándole premios cada vez que hace algo que queremos que haga y lo hace bien, nosotros le hacemos un premio. Claramente el perro no sabe distinguir entre lo bueno y lo malo, solamente el vas a ir haciendo eso porque tiene un incentivo, porque le dan comida, entonces eso es con esto, eso mismo. Esa misma analogía llevado al área tecnológica es exactamente lo mismo en la que tú vas iterando, vas iterando hasta que tú le das distinto incentivos.

00:07:08:20 ¿Y cuales son los incentivos? Menor error, ganancia, mayores, etc, bien, una parte importante que esto lo voy a aplicar más adelante son definir ventana de desarrollo, porque yo me tengo que asegurar que mi modelo cuando yo realice un modelo me tengo que asegurar que ese modelo que yo implemente en el negocio o lo utiliza para hacer gestión, etcétera necesito asegurarme que es un modelo bueno, bien, antes de ponerlo en producción, no me sirve de nada crear un modelo, ponerlo en producción y recién ahí en producción ponerlo a prueba.

00:07:35:13 Entonces, para evitar de ponerlo a prueba en producción, yo lo que hago. Defines distintas ventanas de desarrollo perfecto, toda la muestra desarrollo, el auto y la o dos que principalmente lo que tratan de evaluar estas ventanas de desarrollo son dos cosas uno que el modelo aprenda patrones y no detalles y dos que evaluar cómo se comporten modelo con muestras que en ningún momento observó.

00:08:08:17 Perfecto. Por lo tanto, yo para eso defino una muestra y una muestra out of time que lo importante de esto y una de las cosas que yo trato de practicar harto, es decir, bueno, como lo envuelvo en machine learning o sea evidenciado que entregan mejor poder predictivo que los modelos tradicionales. Bueno, no es consistentemente, no es persistentemente. Bueno, perfecto.

00:08:39:03 Entonces tú como persona que desarrolles tus modelos tiene que decir bueno a que quiebre. Yo estoy dispuesto a entregar en términos de ganancia en una métrica, por ejemplo, era acierto, por ejemplo, para pasar de un modelo tradicional a un modelo de machine learning. Es decir, esto es en un modelo clásico, una regresión logística, y me está dando, por ejemplo, un acierto de 60% y el modelo de machine learning está entregando un cierto el 61%.

00:09:11:02 Bueno, prefiero quedarme con un modelo clásico que que un modelo clásico que es parsimonioso y es estable, que tiene cinco variables a un modelo machine learning que tenga 30 variables, que es inestable y solamente me está ganando 1% buen predictivo. Entonces ahí es donde uno tiene que comenzar a hacer benchmark y decir bueno, lo que quiero apostar siempre por lo más parsimonioso, es decir, lo más pequeño posible, pero eso lo más pequeño posible, que explique la mayor cantidad posible.

00:09:49:21 Eso hace referencia a un termino parsimonioso o un modelo parsimonioso, y este el famoso step. ¿Pues decir bueno, yo en el mundo, en el mundo académico, para personas que son académicos de acá, uno cuando hace modelos principalmente uno hace modelos para encontrar ciertas relaciones, ciertas causalidades, etc, en la cual unos basan mediante revisiones bibliográficas qué variable utilizar? ¿Perfecto, pero qué es lo que sucede si ese mismo concepto lo llevamos a los negocios?

00:10:14:11 Por ejemplo, un banco que necesita hacer un modelo scoring para escoger que clientes son buenos, malos, malos pagadores. El banco no tiene una revisión bibliográfica detrás para saber cuáles son, que variables puede estar como bueno, malos pagadores, incluso los hay. Pero esas variables, por ejemplo sexo no se puede incluir o género no se puede incluir dentro un modelo porque eso recae como regla reputacional.

00:10:44:04 Por lo tanto, claro, académicamente está documentado que la variable género es muy buena para discriminar entre los buenos y malos pagadores. Pero si la coloco, lo que va a suceder es que introduce un riesgo reputacional. Caes, se cae el supervisor, la CMF, el Chile me dice oye, estoy utilizando una variable que no deberías utilizarla porque estás discriminando Bien, entonces, más allá de eso, la instituciones financieras no tienen cinco variables, tienen 2000 variables que se podrían utilizar.

00:11:09:11 Por lo tanto, entonces decimos y no y no tenemos documentación. Una revisión bibliográfica para decir cuál es. Más de 2000 variables califican mejor para hacer un buen o un mal pagador, siendo que estamos utilizando a administrativos datos de la corporación de ese banco. Quizás las variables que califiquen para ese banco sean otras variables que califican para otro banco.

00:11:47:22 Entonces hay técnicas o método, métodos que son como el ejemplo acá, el street wise. Lo que propones principalmente dice arroja todas las variables que tu tengas o las que ya hiciste un filtro previo por correlación, por análisis de la calidad de información, etcétera Arroja todas las variables que te quedaron. Y yo lo que voy a hacer, voy a hacer un proceso iterativo y lo que voy a ir haciendo es que te voy a entregar el mejor modelo en términos de significancia estadística y en términos de de de métrica, de de precisión o de o de explica habilidad.

00:12:22:03 Perfecto. ¿Entonces, qué es lo que sucede? Principalmente que cuando nosotros estamos haciendo modelos. Bueno, y esto supuesto ya un poco más teórico, uno supuesto que yo establezco en un modelo es clásicos es que mi parámetros tengan ciertas propiedades. Perfecto, perfecto. Una de las tres propiedades fundamentales son la consistencia perfecto que cumplan lo que sea, independiente, idénticamente distribuido, la eficiencia referente a la varianza.

00:12:49:08 La varianza y poco sesgo perfecto. ¿Pero qué es lo que sucede cuando yo me enfrento a un modelo con la cual tengo muchas variables en el mundo de los negocios? Lo que va a suceder es que el modelo es más complejo y que significa un modelo más complejo, un modelo con más variables. Por lo tanto, yo este umbral que es, dice óptimo Model Complex es se va a ir moviendo hacia más a la derecha.

00:13:28:08 Por lo tanto, claro, voy ganando menos sesgo, pero a costa de a costa de perder varianza. Perfecto. Entonces esto se va a desplazando más hacia la derecha. Aunque utilices type wins o no utilices this way. En un modelo clásico voy ganando sesgo, pero voy perdiendo varianza entre el estimador. Perfecto. ¿Entonces, de qué forma yo puedo disminuir o disminuir esta brecha?

00:14:09:00 Es decir, ceder un poco de sesgo con tal de ganar varianza y llegar al óptimo donde está puesta la línea. Y existen estos modelos principalmente de proyección y lazo perfecto. Rígidas son principalmente lo que proponen al momento de capturar su cálculo. Sus parámetros es generar una penalización perfecto. Donde esa penalización las se la entrega un valor de lambda que al que ustedes ven acá perfecto.

00:14:43:13 Si el landau es cero, fíjense esto no sé si fíjense en la en la parte roja donde está la lambda lambda beta cuadrado. Si el lambda es cero, eso se transforma en una estimación de MCO prácticamente perfecto. Pero si el Lambert mayor a cero lo que va a estar introduciendo es una penalización por parámetros a cada una de las variables.

00:15:13:13 Y cómo yo sé que sí va a ser una variable que tengo que penalizar menos o más. Bueno, él lo va a ir ajustando en funciones el valor de la onda. Es decir, si yo, por ejemplo, tengo dos variables que están altamente correlacionadas, lo que se conoce como multi o linealidad, posiblemente lambda, lo que va a hacer es que perfecto se va a encontrar con estas dos variables que están altamente correlacionadas.

00:15:47:22 Alguna una le va a dar un peso reflejado en su beta más grande y a la otra un peso reflejado más pequeño, no necesariamente cero, pero más pequeño perfecto. Entonces de esa forma, en parte lo que está asegurando en cierta medida, esto es que va a ir penalizando variables que quizás no le estén entregado información en términos independiente e idénticamente distribuir.

00:16:20:09 Perfecto, entonces, una de las percepciones lo que hace el Rich es volverlo más modelo o disminuir la complejidad del modelo mientras mantenemos todas las variables dentro del modelo, es decir, disminuir la complejidad del modelo, irse más hacia la izquierda con tal de mantener esa variable el modelo y no así eliminarlas. Bueno, eso tiene sus pros y sus contras.

00:17:01:02 ¿Por qué? Porque si yo hago eso no voy a tener la capacidad de discriminar. Qué variables buena o qué variables no es tan buena porque ambas están en el modelo perfecto. En cambio, eso lo trata de de él como de mejorar por hacerlo o o entregar un método alternativa, lo que se llama lazo bien y lo que hace lazo es prácticamente lo mismo que penaliza en vez de penalizar la suma cuadrada de los estimadores, como lo dice Rich Lazo, lo que hace es penalizar la suma absoluta.

00:17:32:21 Lástima. Por lo tanto, acá sí cabe la opción en que el peso que le puede asignar a un parámetro puede ser cero. ¿Y qué significa cero? ¿Que es A? Realmente ese parámetro no le está entregando información para explicar lo que tú estás explicando como variable y entonces muchos utilizan lazo no solamente para volver a un modelo menos complejo si no lo utilizan también como un seleccionador de características.

00:18:19:21 Bien, sabiendo que tenemos este tema de la gran cantidad de variables que pueden participar del que mueve y por último, de decir bueno, a mí me gustaría combinar, a mi me gustaría combinar ambos. Entonces está lo que es la red elástica, me faltan la tela y el elástico bien, y lo que hace la red elástica exactamente utiliza lambda, pero utiliza un factor, un factor alpha para ponderar principalmente lo que va a usar de Rich y lo que va a usar de lazo.

00:18:46:20 Bien, entonces usualmente lo que trata de hacer las personas no usar tanto una técnica a otra es derechamente usar el Internet y el que discrimine principalmente. Bueno, si voy a utilizar un 45% lazo y un 55% del otro, que lazo ese 45% de lazo que se dedique principalmente a discriminar cuáles son las variables que deberían ser cero y la otra 55% que o que corresponde.

00:19:34:22 Reid va a decir bueno, a cuál hay que entregarle menos peso, pero no necesariamente cero. Bien, el gran tema de esto, que claro, pues suena muy atractivo, pero el gran problema también que se agrega es como entré yo, es decir, bueno, gano algo, pero tengo que ceder algo. ¿Y qué es lo que tengo que ceder? Es entregarle un valor a Alpha uno y un LA un valor al anda decir bueno, qué valor le entrego lamba o qué valor le entrego Alfa Y ahí entran todos los y el toda la complejidad computacional que usted alguna vez ha escuchado de machine learning, no solamente en términos de la estimación misma, sino es cuál al llegar al modelo

00:20:10:22 óptimo, perfecto y lo que hace un criterio es un método que nos permiten encontrar cuál es el punto óptimo de en de lambda con tal de tener buena métrica de entrenamiento y buena métrica de validación Perfecto. Y esa métrica de entrenamiento de validación puede ser si está utilizando algoritmos de clase. Puse un ejemplo un ejercicio de clasificación puede ser F1 Record Acura si cae.

00:20:51:07 Esas son métricas para métricas, pero métricas no paramétricas, puede usar curvas, roca, KS, etcétera. Bien, o si estás usando un ejercicio de regresión, usa el criterio de información R cuadrado raíz errores de ajuste y medio cuadrática map. Ese mapeo índice es igualdad de tail setter y entonces claro, entonces tú lo que vas haciendo con esto para encontrar un alfa y un lambda es iterar, es probar distintos alpha y lambda con tal de encontrar el menor error o la mayor grado de explicable perfecto, y es un proceso iterativo.

00:21:19:29 Entonces, si tú tienes mucha información, cada una de federaciones puede tardar diez minutos. Entonces, si tienes, por ejemplo, diez, posibilidad de lambda y diez posibilidades de de alfa, tienes 100 iteraciones de modelos que tiene que hacer. Por lo tanto, si un modelo se demora diez minutos por 100, entonces eso pasa en los minutos y pasa. Entonces va a estar iterando, iterando.

00:21:51:20 Y ahí está principalmente uno de los temas grandes que tiene el machine learning es esa dualidad o es entre ellos entre tiempo de procesamiento versus versus, el desempeño perfecto. Claro que era el mejor desempeño, pero tienes que dar harto tiempo de de procesamiento. Quizás no tanto tiempo de procesamiento o no encuentres la mejor métrica o el mejor modelo.

00:22:26:14 Será un poco eso, pero con tal de disminuir un poco los tiempo de procesamiento, bien. Y también dice bueno, hay otra forma que es el valida hecho en que lo que mide es precisamente decir bueno, si esa alfa y ese lamba que tu encontraste lo que te trata de hacer es simplemente decir bueno, ese alfa y ese planeta es óptimo solamente para esa muestra que estamos utilizando en entrenamiento o también es óptimo para otras muestras de entrenamiento que vas a utilizar.

00:22:53:08 Entonces hay tal proceso iterativo que te entrega full cross al hecho recto y eso en parte todo esto tú lo tienes que ir programando, no, no es que es llegar y cuatro diálogo, tomarlo, etcétera y comenzar todo esto tu parte lo tienes que ir programando a medida que los vayas, que vayas pasando cada una de la trabajo correspondiente.

00:23:27:13 Bien, por ahora pasemos a la parte del texto. Miren, yo acá tengo una base de datos principalmente que tiene 13 columnas y una variable precio por defecto. Una variable precio de vivienda creo que era con 13 variables que van a explicar esta variable precio perfecto entonces, y tiene alrededor de 507 casas, porque entonces, bueno, una de las cosas principales que uno tiene que comenzar a hacer es la estadística descriptiva.

00:23:59:26 ¿Para qué? Para ir conociendo nuestra base de datos y no solamente conociéndola, sino también hacer detección y hacer tratamientos de datos atípicos y el tratamiento de mis inválidos. Porque si ustedes observan acá, yo en la variable cuatro tengo mis valores vacíos. Por lo tanto, si yo tiene una regresión, aunque sea una regresión lineal o una u otra, no me va a dejar perfecto.

00:24:33:22 ¿Por qué? Porque de lo mismo, a no ser que sean ya árboles de decisión, por ejemplo. Y aquí es otro cuento, otro, otro y harina de otro costal. Perfecto, entonces si se dan cuenta, yo acá lo que hago, no me quiero detener mucho en esto, porque no es que no el objetivo del webcast, pero acá la detección. Yo hago una detección primero de datos atípicos y lo que hago una detección bastante sencilla.

00:25:02:06 Digo, bueno, si la mediana es sensible a los datos atípicos y la mediana no, y observo que si la media es 3,5 y la mediana cero cero 24. ¿Claramente hay una presencia de datos atípicos que está haciendo que la media se me dispare y la mediana no? Perfecto. Entonces, si yo calculo una variación de esto, me da un 90 y 93% de áreas.

00:25:33:06 Y entonces digo bueno, si todas las variaciones de cada una de las variables es superior al 20%, bueno, es quizás que esa variable está siendo afectada por un valor de tipo. Bien, entonces esta variable claramente variables como dicotómicas o variables categóricas, no tiene sentido que tengan dados atípicos porque es cero. Uno no puede tomar cero 1100 son son dicotómicas o cero uno perfecto.

00:26:18:20 Por lo tanto no tiene mucho sentido. Por ejemplo, la variable dos es dicotómica. La variable cuatro también. No tiene sentido que sean tratadas, siendo que me da un 100% bien y hay diferentes formas. El tratamiento de los datos atípicos muchas. O sea, desde el teorema Chibi chev que asumen normalidad teoremas chibi chev et al, que asumen otro tipo de distribución o gráfico de de box plot o rango intergaláctico, Winsor ización, etcétera, etcétera, etcétera Entonces yo acá lo que hice fue hacer un teorema de y yo estoy diciendo que el 99% de los casos se encuentra en más o menos tres desviación estándar.

00:26:42:05 Por lo tanto, todo lo que esté superior a 29 yo lo Winsor hizo o lo achata o 29. Entonces si se dan cuenta, el máximo acá es el 88, por lo tanto acá me está diciendo que el intervalo superior es 29, entonces los trato a 29, Perfecto. Y así con toda la mayor. Y en términos de mis inválidos ocurre exactamente lo mismo.

00:27:17:15 Si se dan cuenta la variable cuatro. La variables seis son variables que tienen presencia datos atípicos. Por lo tanto, la variable cuatro es dicotómica. La variable seis es continua. Por lo tanto son distintos métodos de tratamiento. Una variable dicotómica la la hago un tratamiento un valor faltante. Es decir, el missing lo trato como una información adicional. Por lo tanto le asigno una categoría adicional efecto La variable continua la veo tratar con promedio, con una mediana, una media armónica o con método más sofisticado que existen.

00:27:56:03 Bien, ahí yo tengo algunos documentados, algún método más sofisticado para hacer tratamiento de datos. Adivino Bien, ya está. La base de datos limpia. Hago una separación entre muestra entrenamiento y validación, 70% de entrenamiento y 70% de variación perfecto y 30% de variación Correlación. Bien, voy a ayudar al modelo a eliminar las variables que están altamente que están altamente correlacionadas, por lo tanto, las que posiblemente se me van a ir con la variables cinco, nueve y diez perfecto.

00:28:48:22 Y yo acá yo ya tengo mi modelo para mi base de datos final limpia y limpia de filtro de correlación para comenzar a eliminar los datos para hacer los modelos respectivos. Bien, entonces si ustedes se han dado cuenta, yo tengo varias hojas porque yo principalmente son las iteraciones que voy haciendo, no se las quiero mostrar precisamente como las hago bien, porque es sencillo, ustedes por ejemplo yo acá hice un primer modelo, el modelo uno, entonces aquí yo voy eliminando, voy eliminando por la probabilidad, entonces esta variable VAR tiene un 30% de pi valido, por lo tanto la elimino comenzando primero con los métodos clásicos, un modelo de regresión lineal, simple, clásico.

00:29:19:06 Bien comienzo iterar sacando de a una la variable cuatro también se va y hay una variable y aquí el modelo en el modelo tres queda como el modelo final por hacerlo. Entonces ustedes podrían utilizar la herramienta Simulator en la que ustedes toman, por ejemplo, todo, toda la base de datos, entrenamiento, me acá que están hasta acá me porque ponen que los otros datos son para validación.

00:29:51:23 Voy a recuerden que tener cinco módulos relevantes y el módulo es Simulaciones donde tú puedes hacer simulaciones de Montecarlo, Hipercubo Latino y tal módulo de pronósticos perfecto. Y aquí los modelos de pronósticos Tarima, modelos, modelos, curvas JS modelos de Markov modelo de de similitud, redes neuronales y hasta el modelo regresión múltiple. ¿Entonces aquí te estaba diciendo bueno, te explico un poco como funciona y dice cuál es tu variable pendiente?

00:30:24:17 Mi valía independiente, expreso perfecto y aquí tú generas el OK y y lo bueno que te permite hacer es que te permite hacer rezagos. Es decir, si tú quieres incorporarle rezagos a las variables que tú estás incluyendo, sobre todo, por ejemplo, cuando creas un modelo de proyección y lo que es se mueres por edición, como el regresión. Tú puedes hacer por ejemplo esto con aplicando los hago un rezago do, rezago, etcétera Bien, si tú le pones OK te va arrojar esto.

00:30:57:08 Y esto es principalmente el valor que arroja Ruiz, porque se dan cuenta, yo cuando arroje esto simplemente con Excel nos arroja nada más que la tabla puros números. Pero a diferencia Rich Simulator lo que te arroja son las la estricta regresión, la regresión en sí, que partes se dan cuenta exactamente lo mismo. Cero 76 96 cero 76 96 cero 22 57 cero 22 57 Y lo que agrega son explicaciones.

00:31:29:00 Aquí te va explicando, por ejemplo, qué es un cuadrado, que es un coeficiente de eliminación y te lo va explicando en función a los datos que tú vas obteniendo. Por ejemplo, aquí yo 63 Y efectivamente, aquellos 63 cero 63, entonces te va explicando la y te va a interpretar cada uno de estos de esto estadístico. En efecto, lo mismo sucede con la con los resultados de la regresión misma por ejemplo.

00:31:51:03 Bien, entonces te dice mira lo que está en azul son las variables de significancia estadística. Por lo tanto, si estos están en menor o mayor a esto es porque no es explicativa. Si es explicativa, echas un análisis de varianza. Aquí está todas las pruebas de ANOVA por fichero y la estimación o el pronóstico que tú quieras hacer. Perfecto.

00:32:31:25 ¿Entonces, cómo esto que es el modelo tres que prácticamente tiene seis, tiene siete variables un juicio de determinación de un 63%? ¿Cómo lo podríamos mejorar? ¿Utilizando, por ejemplo, modelos? Entonces aquí lo que tengo es es exactamente la misma, la misma base de datos, pero ya no filtrando por filtros de correlación perfecto, sino derechamente lo que dejé fue entro todas las variables, las tres variables y le agregué una constante.

00:33:07:29 Perfecto. Entonces, si se dan cuenta la forma de estimar la forma de estimar los parámetros de este método de penalización es exactamente lo mismo x transpuesto por x, al menos uno por x, transpuesto por ir bien, pero aquí se le está agregando algo adicional y que ese es algo adicional es el lambda. La penalización que yo les comenté, más la matriz de identidad.

00:34:06:15 Entonces yo acá arriba en la matriz identidad, aquí está la matriz de inicial perfecto y aquí lo que simplemente hice fue cumplir o seguir la ecuación. La matriz de varió las variables x traspuesta por x en más, en lambda más, o sea por la matriz de entidad impersonal lista en inverso, traspuesta por y. Y aquí me dan los parámetros Yo mediante el análisis de covarianza yo puedo calcular lo que es el error típico perfecto que es las raíces de la diagonal, y así después puedo calcular efectivo x la división entre el cociente y el típico, quizá con la global y al final.

00:34:44:05 ¿Hasta ahora la pregunta del millón es bueno, de qué forma yo acá puedo entregar este valor lambda arbitrario y este lambda arbitrario? Existen dos formas de hacerlo bien. Yo se lo estoy mostrando derechamente. Next. Perfecto. Por lo tanto, si usted lo hace en Python, hay otras formas. Hay funciones de costo perfecto donde esta función de lo que hace entra dentro un proceso optimización y va encontrando la mejor, la menor función de costo con tal, o sea, va encontrando las mejores parámetros con tal de minimizar esta función de bot.

00:35:28:11 Bien, y acá en parte existen dos formas uno es utilizar este método que te dice es precisamente multiplica el número de variables por la varianza. Se dan cuenta el número de variables por la varianza sobre la multiplicación de los detrás del mejor modelo de MCO, es decir, de estos transpuesto por su misma, pero transporte perfecto y esto me da un valor de uno es 65.

00:36:06:05 Ese es un método. El otro método es que nosotros, por ejemplo, como calculamos la métrica de raíz media cuadrática con estos valores de entrenamiento y de validación, es decir, cuánto se desvía el modelo con respecto a lo que realmente observa, con lo que realmente real Yo puedo generar un proceso de optimización. Es decir, bueno, quiero minimizar mi muestra de entrenamiento con tal que me entregue y mejores fetas, o en este caso, mi mejor lado.

00:36:47:10 Entonces yo lo que hago acá podría, por ejemplo, generar un perfil, es decir, bueno, quiero ponerlo como objetivo en la punta, arbitrarios, minimizarlo bien con tal. Disculpen. Dagger Quiero minimizar la raíz media cuadrática del entrenamiento, minimizar porque es una métrica de error como objetivo, como objetivo encontrar el mejor lambda efecto. Entonces ahí lo que va a ser en cierta medida es arrojar un proceso iterativo.

00:37:21:08 Pero ojo, no va a ser el el óptimo global que se le llama, va a ser un óptimo local porque estás optimizando una métrica que no es la más óptima, tampoco perfecta. No es una función de costo de la que realmente se utilizan, sino derechamente estás utilizando es es estás utilizando un método optimización minimizando una métrica de interés que la reina cuadrática con tal de encontrar el mínimo de lambda arbitraria los coeficientes óptimos.

00:38:03:17 Perfecto. Lo que aquí tú quieres es decir, bueno. Cuánto Lo único que asignar a esto para que esto siga bajando para que la raíz cuadrática siga bajando. Bien, entonces, siguiendo el mismo ejemplo con las probabilidades, voy extrayendo la probabilidad tres, después la siete y así iterando, iterando de tal forma encontrar el mejor modelo efecto. Entonces aquí, por ejemplo, bajó de un miento de un 5,5 a 1 cinco.

00:38:34:15 Perfecto. Y aquí te creo que tengo un resumen. Entonces aquí, observen acá, aquí están los tres modelos de MCO y aquí están los nueve modelos. No son ocho modelos de Rich. Entonces si yo grafico esto, si se dan cuenta me está entregando el mejor modelo MSO me está entregando un es una media cuadrática de 5,6, pero al observar todas las iteraciones de Rich, todas están por debajo a esta línea cuadrática queda en promedio como 5,4 bombeo.

00:39:15:01 Entonces, si yo elijo un número de variables óptimos, sería un número de variables con diez variables perfecto con diez variables. Y cuál tenía diez variable. La iteración cinco corresponde a esta esta variable, o sea, este modelo perfecto. Entonces, de pasar a un modelo con conducta hasta abajo, de pasar un modelo de seis variables paso a un modelo de nueve variables.

00:39:50:28 Pero disminuyendo esa métrica, esa métrica de error que tú estás utilizando para validar esa ese modelo perfecto y ahí tuya precisamente como modelo final puedes utilizar ya no necesariamente separarlo, por más que entrenamiento variación puede utilizar todo modelo, ejecutarlo nuevamente. Y aquí tienes tu modelo final perfecto, porque como ya utilizaste, ya encontraste cuál es tu mejor modelo y cómo se comporta de mejor forma con la mano con la muestra de validación.

00:40:31:17 Ya no es necesario que utilices la muestra de validación. Ahora corres con toda la muestra y tienes tu modelo para hacer lo que tu quieras. Acepto en hacer inferencia y precio de paso ejecutas. Y con esto último, principalmente quería terminar en cómo nosotros podríamos llegar a un mejor modelo, con quizás la misma o más variables, pero con tal de reducir esa cantidad de la métrica de desempeño que yo estoy utilizando, en este caso de la Reina Guadalupe.

00:41:08:04 Bien, déjenme verse, para el cual es una consulta, no sé si esa por ahí hay alguna. ¿Tip Franco, acá tengo dos preguntas los coeficientes se interpretan o más bien son modelos para pronósticos? Son modelos o modelos de regresión, pero no son modelos que te permitan medir causalidad, porque para medir causalidad tú necesitas tener una revisión bibliográfica detrás. Aquí nosotros estamos postulando principalmente a mejorar el predictivo.

00:41:38:20 No estamos modelos haciendo modelos para generar causalidades, homogeneidad, interpretaciones. Ok, bien, es simplemente explicativo, perfecto. Por eso acá por ejemplo, yo elegí el modelo, el modelo cinco, yo dejé el este modelo calificado pero con una variable que no es significativa en una persona en el mundo académico. ¿Es decir oye, pero cómo es posible? ¿Tienes que hacer algo con esa variable?

00:42:28:09 Bueno, aquí no necesariamente lo que estoy postulando con un poder predictivo. No estoy postulando para generar argumentos de causalidad o relación, etcétera. Perfecto. ¿La otra pregunta es este tipo de modelos deben seguir algún supuesto en el término de errores? Claro, sea cuando cuando tú quieras hacer una interpretación causal u otro, usualmente tienes que valía ciertos supuestos mínimos cuadrados hasta todo lo que es la multipolaridad, la heterosexualidad, si serie de auto relación, bla bla bla, pero acá no necesariamente porque acá no te está interesando comprobar ciertos supuestos para llevar a cabo esa interpretación o esa causalidad.

00:43:02:19 Bien, acá lo que estás tratando hacer, como te comenté al principio, es poder predictivo, bien que uso este texto cuanto al principio. Nosotros sabiendo que habían variables correlacionadas, igual la incluimos porque le estamos diciendo en forma intrínseca que el modelo se haga cargo. Depende, penalizando las variables que están altamente correlacionada, dejando invitados. Ah, bueno, los próximo webcast voy a ver a toda la actividad que está realizando su doctor en términos de eventos.

00:43:39:23 Ya se está acabando el año, entonces ya me imagino que hay menos frecuencia de huelgas. Está planificando el próximo año, pero dejarle invitado a cambiar en los cursos sincrónico que se está es que ustedes vieron al principio del video como en la sala súper bien, donde hay mucho material ahí en la que puede boxear, en términos de que distintos tipos de análisis, o sea, desde modelos matemáticos, elearning, modelos de riesgo, modelos financie ero, modelo de stata, etc ahí está disponible esa material en los link que les compartió Lisa.

00:43:55:16 Para mayor información respecto al software o en temas relacionados, no dude en contactarnos a través del correo electrónico, entrenamientos a software on Ya.com o visitar nuestra página web triple o punto Software Guión Ya.com.

Algoritmos de Penalización con Risk Simulator

Hoy en día la aplicación de diferentes algoritmos para resolver problemas de estimación ha sido una mejora considerable en términos de desempeño del modelo, logrando así mejores pronósticos frente a los métodos tradicionales. En este webcast abordaremos los conceptos, intuición y aplicaciones prácticas de los algoritmos de penalización utilizando Risk Simulator para mejorar los modelos empleados en la realización de pronósticos de datos.

Etiquetas relacionadas

Análisis de datos
Datos
Investigación

¡Comparte este video con tus colegas!

Copiar link

Facebook

Instagram