SS_Logo

Riesgo Operacional y Aplicación utilizando modelos de Machine Learning

Autor: Franco Andrés Mansilla Ibañez / Portafolio: Quantitative / Jue. 22 de Sep de 2022

Transcripción de este video

00:00:43:22 Somos un equipo autogestionado, responsable, proactivo y autónomo, con gran compromiso social, aportando el pensamiento científico y el desarrollo latinoamericano, promoviendo el uso de software para investigación en todas las áreas del conocimiento. Generamos contenido de alta calidad teniendo en cuenta las distintas necesidades del mercado. Realizamos actividades gratuitas constantemente. Abordamos temáticas vigentes, aplicaciones especializadas y elementos metodológicos que te permiten interactuar y generar redes para la difusión de tus proyectos.

00:01:10:16 Contamos con servicio de asesoría, consultoría y acompañamiento personalizado. Certifica ciones internacionales, emprendimientos especializados y talleres prácticos. Nuestro principal objetivo es promover el uso de tecnología en el campo investigativo, generando un impacto significativo en la región y de esta forma contribuir a la creación de comunidad para compartir conocimiento.

00:02:06:13 Te invitamos a ser parte de este gran equipo Software Shop. Visita nuestra página web y conoce nuestros servicios. Software Shop y KPMG les da la bienvenida a esta presentación. Ángel Guzmán, Ingeniero Riesgo Operacional y aplicación utilizando modelos de machine learning. Este espacio cuenta con el acompañamiento de Mariana Zambrano Carvajal, banda Ancha, el British Management de KPMG Profesional estadística con manejo de bases de datos, Excel Avanzado R y Python enfocadas al área de Gestión de riesgos Financieros y Franco Andrés Mansilla, instructor de Software Shop, líder técnico en Inteligencia Artificial en el Banco de Crédito e Inversiones en Chile, Especialista en entrega de soluciones analíticas a necesidades y problemáticas de negocio, tal como inversiones, operaciones y riesgos.

00:02:41:00 Bienvenidos. Inicialmente, dentro de la agenda del día de hoy, tenemos como primero una introducción a ciencia de datos y riesgo. Segundo, riesgo operacional. Factores y tipos. Tercero, sistemas de gestión de riesgo operacional. 4.º, Machine learning y tipos de modelos. 5.º, principales algoritmos de programación y finalizamos con la aplicación práctica en Stata de los conceptos mencionados anteriormente y breve introducirnos a los conceptos de ciencia, de datos y y riesgos.

00:03:14:03 Es importante tener en cuenta y muy claro el concepto de gestión de riesgo, el cual es, valga la redundancia, en la práctica e identificar riesgos. Como sabemos, todas las empresas se encuentran expuestas a diferentes factores de riesgo y estos pueden prevenir provenir de una fuente de diferentes fuentes, de una gran variedad de fuentes como lo son financieras cibernéticas, um, desastres naturales, legales, entre otros.

00:03:43:19 Una vez que identificamos estos, em, estos riesgos deben analizarse y evaluarse en función del impacto previsto claramente para la naturaleza del negocio y ser aceptados o mitigados de alguna forma. EM En este sentido, la ciencia de datos permite una mejor gestión de riesgos, es decir, las empresas que adoptan estos modelos tienen un mejor control de su negocio y los riesgos asociados a los mismos.

00:04:16:13 Para las demás empresas esto genera un aumento de incertidumbre y lo que a medida que avanza el tiempo em y a si mismo, el ritmo de los negocios origina una brecha bastante importante y es una de las aplicaciones más útiles de la ciencia de datos y en especial de del machine learning. Se encuentra en el análisis de riesgos, ya que permite determinar dónde podría estar presente un riesgo en visible o el que aún como empresa no tenemos conocimiento.

00:04:44:04 Y así pasamos al siguiente tema que es Por qué utilizar machine learning en la gestión de riesgos? En pocas palabras, las herramientas de machine learning no las ofrecen en capacidades de predicción de riesgo que van más allá de lo que es posible con análisis manual humano. EM esto es porque pueden alertar sobre peligros. Como mencionaba anteriormente. No identificados y ofrecen una mejor comprensión de los que ya conocemos.

00:05:14:01 El resultado de esto es una mejor preparación, con una mitigación de riesgos apropiada y un ahorro general tanto de tiempo como de de recursos. Asimismo, un tiempo, unos tiempos de respuesta mucho más rápidos. Dada la opción de este tipo de modelos. EM Ahora sí, teniendo en cuenta la pregunta que tenemos en el presente cómo pueden ayudar las metodologías de machine learning en el negocio?

00:05:39:01 Esto lo podemos analizar desde diferentes ángulos de riesgo. El primero es en relación a la gestión de fraude, ya que nunca llegamos a esperar hasta que haya ocurrido un caso particular de fraude antes, antes de identificarlo y solucionarlo. El segundo es en relación a gestiones de crédito. En este punto es importante comprender la incertidumbre y los problemas potenciales del crédito en.

00:06:11:22 Es por eso que el machine learning permite analizar la combinación óptima entre lo que es el riesgo de crédito y los riesgos macroeconómicos que podemos presentar en relación al lavado de dinero o de activos. El machine learning nos permite identificar patrones relevantes y recoger más rápido aquellos que nosotros ya conocemos. En relación a préstamos, el machine learning nos permite comprender las medidas de desempeño relevantes tanto para los préstamos individuales como para las tendencias macroeconómicas que pueden afectarlos.

00:06:49:08 Es así que la combinación de ambos podemos traducirla como un mejor rendimiento de los préstamos, específicamente para entidades bancarias. Y finalmente, para terminar, tenemos la gestión integrada de riesgos y el riesgo operacional. La gestión integrada de riesgos. En este punto, además de utilizar machine learning para analizar las áreas como individualmente mencionadas, también tiene el potencial de realizar análisis macro para comprender cómo interactúa la cartera de riesgos en cada una de las diferentes entidades.

00:07:30:15 Y finalmente pasamos al riesgo operacional, que es, digamos, nuestro riesgo objetivo. En la charla al día de hoy, bueno, y el riesgo operacional, cómo sabemos? Este riesgo hace referencia a toda posible contingencia que pueda provocar pérdidas de la empresa. Cosa errores, ya sea humanos, tecnológico, procesos fallidos o, por ejemplo, a raíz de acontecimientos externos a sí mismo. Estos ítems que les acabo de mencionar conforman los factores de riesgo operacional en una empresa.

00:08:05:24 Em. Inicialmente las fallas relativas a procesos em. Generalmente procesos internos se pueden dar de la ausencia o una aplicación inadecuada de procedimientos de trabajo. Y esto los implica un riesgo importante a nivel operacional a sí mismo. Fallos relativos a personas que puedan darse por errores u omisiones humanas. Esto al interior de los equipos de trabajo. Fallas relativas a los sistemas de información.

00:08:13:08 Esto comprende. A nivel de aplicaciones, bases de datos. Plataformas.

00:08:51:21 Y tenemos también fallas por evento sistemas. Y estas pueden darse por fallas en cadenas de suministros o en servicios externos a la empresa, pero que son críticos para la naturaleza de negocio. Esto puede ser, por ejemplo, energía eléctrica, conexiones, internet, líneas telefónicas, etcétera Y estos factores de riesgo desencadenan también en los tipos de riesgo operacional en, por ejemplo, los procesos internos pueden convertirse en fraude interno.

00:09:28:10 AM. Qué se puede presentar de diferentes formas como por ejemplo robos, sobornos, EM o desde el lado regulatorio con incumplimientos normativos. Y esto se realizan por parte de colaboradores directos con la empresa o también terceros que estén vinculados con la entidad. EM. En el caso de las fallas tecnológicas pueden convertirse c em en en un tipo de riesgo operacional ya que fallas en un sistema de cómputo pueden abrir brechas.

00:10:06:18 Manejo de hardware y software. Em. Por otro lado. Podemos también presenta riesgos en la ejecución. Ejecución y gestión de procesos. E Cómo por ejemplo capturas de transacciones, monitoreos indebidos, reportes de clientes o captura de información y gestión de cuentas de forma inadecuada o sin permisos. Y finalmente, como entonces sistemas tenemos el el fraude externo que se puede materializar o se origina por la actuación de personas externas a la entidad.

00:10:41:13 Esto pueden ser robos, falsificaciones, ataques informáticos o cibernéticos y fallas de ese tipo. Aquí tenemos algunos ejemplos para ver de manera más práctica o visual en cómo un riesgo se puede materializar en un evento de riesgo. Entonces, por ejemplo, la venta de bases de datos puede ser un factor tanto externo como interno y corresponde pues claramente a fraude externo interno.

00:11:23:03 Así mismo, el daño en comunicaciones por infraestructura corresponde a un factor externo, ya que E no está bajo el control de la entidad y es un evento de riesgo correspondiente a fallas tecnológicas. Y así pues, observamos estos otros ejemplos y de esta forma pasamos al Sistema de Gestión de Riesgo Operacional O SARO, por sus siglas. En este Sistema de Gestión de Riesgo Operacional está compuesto por cuatro etapas, la primera EM y bueno, previo a esto es importante tener en cuenta la importancia de este sistema de gestión de riesgo.

00:12:07:00 Y es que mediante él, mediante el claro y su efectivo desempeño, se busca lograr una reducción en el nivel de riesgo operacional en al que se expone las las organizaciones y de esta forma poder reducir la probabilidad de que ocurran eventos imprecisos y asimismo sus impactos o sus em eventos subyacentes. Pasando la primera etapa tenemos la identificación. Esta identificación de realizarse previo a la ejecución de cualquier proceso con el fin de identificar los riesgos operativos ocurridos y aquellos riesgos potenciales.

00:12:50:08 Mente peligrosos a la consecución o al logro de los objetivos propuestos. En esta etapa es importante tener en cuenta el inventario de procedimientos y también la correcta, la correcta recolección de información, porque así mismo la recolección de información puede presentarnos o puede originar em riesgo claramente y em es importante tener en cuenta. Como segunda etapa tenemos medición o evaluación y esto se realiza una vez que los riesgos operativos de la diff de los diferentes procesos ya identificados en la etapa anterior.

00:13:25:10 El siguiente paso sería evaluar la posibilidad de que se materialice esto en función de la frecuencia con la que suceden. Así como definir el impacto que podría generar en caso de ocurrencia. Como resultado. Esta segunda etapa. E establecemos lo que es llamado el riesgo inherente que es, digamos de una forma sencilla el nivel de riesgos que me representa como compañía, una actividad concreta, sin aplicarle ningún tipo de control.

00:14:00:09 Como tercera etapa tenemos control o mitigación. En esta tercera etapa lo que se busca es definir las medidas de control que permiten reducir esa probabilidad de ocurrencia, así como los impactos subyacentes. Tras esta etapa, lo que obtenemos como organización es el riesgo residual. Este riesgo residual corresponde al riesgo que resulta tras la aplicación de controles oportunos y en que tengan sentido o tengan una relación directa considerados por la entidad del riesgo inherente.

00:14:33:08 Y finalmente, tenemos la etapa de monitoreo. He aquí lo que se lleva a cabo es el seguimiento adecuado de los riesgos con el fin de ir analizando su evolución. En esta etapa ya la las entidades cuentan con una comprensión de su situación frente a la exposición del riesgo operativo y por eso se enfoca más en el seguimiento y puesta en práctica de los controles que definimos en la etapa anterior.

00:15:09:15 Y acá en la parte rojo tenemos nuevamente recalcado la importancia de la tercera etapa, donde tomamos el riesgo inherente, le agregamos dos controles y así obtenemos el riesgo residual, que es claramente en un riesgo disminuido y muy mitigado a través de controles. Y en esta parte tenemos los elementos que componen el Sistema de Gestión de Riesgos Operacional. Claramente todos estos elementos son en base a eventos de riesgo operacional materializados.

00:15:38:09 Estos elementos hacen parte de un ciclo definido por el sistema de gestión y son el gobierno y cultura de riesgo, infraestructura y herramientas, estrategia, políticas, procedimientos y controles Evaluación Monitoreo, Pruebas, Datos, Mediciones y reportes Capacitación y comunicaciones Escalamiento Resolución y reputación y eventos externos. Todo esto está ligado a los tipos de riesgo mencionados anteriormente y a los factores de riesgo.

00:16:10:12 Y con esto ya podemos dar paso al concepto de machine learning que ya hemos mencionado anteriormente. Pero es importante definir y ampliar en esta sección. Bueno, como les mencionaba, el machine learning o aprendizaje automático en español es una rama de la inteligencia artificial de este campo de inteligencia artificial que proporciona a los sistemas de información la capacidad de aprender y mejorar de manera automática a partir de experiencia o lo que nosotros también conocemos como entrenamiento para entrenamiento.

00:16:41:07 Estos sistemas lo que hacen es transformar los datos en información y con esta información lo que podemos decir como empresa es ayudar a la toma de decisiones. Cabe mencionar que para cualquiera de estos modelos, para que cualquier humano realice de forma adecuada o óptima predicciones robustas, es necesario alimentarlos con datos, y entre más datos, pues mucho mejor a sí mismo.

00:17:20:17 El machine learning se divide en tres tipos. El primero es el aprendizaje supervisado y el segundo es el aprendizaje. No supervisado. Y el tercero es el aprendizaje reforzado o también conocido como aprendizaje profundo en el aprendizaje supervisado. En este tipo de modelos, especie de machine learning, lo que hace el sistema es aprender o entrenarlo con datos ya etiquetados, es decir, con etiquetas que nosotros colgamos previamente de los datos.

00:18:04:19 Y de esta forma el algoritmo aprende e incorpora ajustes a los parámetros internos del modelo para poder adaptarse a los nuevos que ingresemos al sistema. Por ejemplo, este tipo de modelos son muy utilizados para en los correos para detectar spam o correos maliciosos y también el aprendizaje no supervisado. En este caso incluimos los datos sin etiquetar, es decir, que no conocemos previamente la estructura que poseen y en este tipo de aprendizaje lo que buscamos es obtener información clave o importante con datos no etiquetados.

00:18:42:01 Este tipo de aprendizaje se divide en dos categorías principales que son los Denning y reducción de la de dimensionalidad em. En el primer caso. En el caso de los modelos de Closing consisten en técnicas de agrupación para analizar características particulares de los datos y de esta forma agruparlos em de acuerdo a su similitudes o características particulares. En el caso de los modelos de reducción de dimensionalidad, los son utilizados principalmente para bases de datos con gran tamaño o con complejidad.

00:19:23:10 Lo que hacemos en estos modelos es determinar teniendo en cuenta las correlaciones entre las variables en el agrupamiento que vamos a generar. Esto lo que nos permite es disminuir redundancias en la información y así mismo, como lo dice su nombre, dimensionamiento. Y finalmente tenemos aprendizaje reforzado. EM En este tipo de aprendizaje, lo que busca el modelo, en lo que tiene como finalidad es construir modelos que aumenten el rendimiento tomando como base una ganancia.

00:19:58:07 Esto es, este modelo es muy diferente a los explicados anteriormente, es mucho más complejo y requiere de muchos más datos para su correcto funcionamiento. Entonces, lo que buscamos es conocer la totalidad de combinaciones para poder lograr un objetivo propuesto en Vamos a ejemplo, podemos pensar en un ejemplo externo si nos proponemos programar un algoritmo para para que conozca todas las combinaciones posibles en un tablero de ajedrez y de esta forma siempre ganemos.

00:20:47:21 Es algo así más o menos como funciona el aprendizaje profundo de estos algoritmos de machine learning. Estos tipos de machine learning se deben a su vez en otras ramas, como podemos ver, el machine learning por una parte tiene el aprendizaje no supervisado que si en dos ejercicios de link y los modelos de reducción de dimensionalidad también el aprendizaje supervisado, si bien modelos de regresión y clasificación, existen estos otros dos tipos que no son tan utilizados están aplicables a este tipo de riesgo que son el aprendizaje semi supervisado, que en el caso de que no contemos con todos los datos etiquetados, ingresamos datos al modelo, tanto etiquetados como no detectados y el aprendizaje reforzado.

00:21:08:02 Ahora tenemos los principales algoritmos de programación. El primero es el algoritmo de regresión. En estos algoritmos los utilizamos cuando queremos o son adecuados. Cuando queremos comprender las relaciones existentes entre un conjunto de variables frente a una variable objetivo.

00:21:36:02 Entonces, por ejemplo, como podemos ver en en pantalla, en la primera gráfica tenemos un modelo lineal que es representado por una línea recta y tiene un buen ajuste porque los puntos se encuentran bastante cerca de la recta, mientras que en el segundo gráfico se presenta un mal ajuste porque los datos se encuentran muy dispersos alrededor de la recta o el modelo de regresión planteado.

00:22:13:18 Así mismo, estos modelos de regresión no necesariamente son solo lineales, también existen de tipo no lineal, como exponenciales logarítmicas, entre otros. Segundo, tenemos los algoritmos valles llanos. Ehm. Bueno, por ejemplo, en el caso de los modelos de regresión son aplicables en riesgo operativo. Por ejemplo, si buscamos evaluar la interacción entre diferentes factores a la vez en y cómo esto me afecta a mí como empresa en a nivel de riesgo operativo.

00:22:46:23 Ahora, si, continuando con los algoritmos, valles, llanos y estos modelos aplican el teorema de Bayes, que es la formulita que observamos en la parte inferior de la pantalla y lo que hacen es clasificar las variables como independientes trabajan bajo ese supuesto y proporcionan una forma de calcular una probabilidad de un evento que en este caso sería a dos probabilidades de eventos pasados.

00:23:11:14 Es decir, trabajan sobre probabilidades condicionales. El siguiente que tenemos son algoritmos de agrupación o de que los tienen que ya expliqué previamente en los que trabajamos con datos no etiquetados y lo que hacemos es buscar sus características particulares y agruparlos em de acuerdo a su similitudes.

00:23:50:17 El siguiente son los algoritmos de árboles de decisión en estos algoritmo y lo que buscamos es elegir opciones en base a criterios establecidos. Es en este sentido, dentro del árbol se generan los que, por ejemplo, podemos ver en el gráfico que son los circulitos que representan variables específicas y en las ramas se observa el resultado de las reglas de decisión preestablecidas.

00:24:22:10 Y como último tenemos los algoritmos de redes neuronales y estos algoritmos tratan de copiar en cierta forma cómo trabaja el cerebro humano y funcionan de manera simultánea. Conexión entre variables. Estas conexiones se conocen como ponderaciones. En estos algoritmos constan principalmente de tres elementos. El primero es la capa de entrada que hemos, que son los circuitos amarillos y son las variables insumo que ingresamos al modelo

00:24:59:18 También tenemos las capas ocultas, que son las todas las posibles combinaciones que pueden realizar estas variables y finalmente el auto o la capa de salida. EM En este caso las redes aprenden examinando datos individuales y lo que buscan es generar una predicción para cada uno de ellos. EM En el caso de que la predicción no sea correcta, el algoritmo lo que hace es realizar ajustes a las ponderaciones para que la proyección sea correcto.

00:25:46:14 Y esta forma, si hay paso franco, le cedo la palabra para que nos muestre la aplicación práctica de todos estos conceptos. Muchas gracias Mariana. Bueno, como bien comentaba Mariana y hoy en día lo bueno hoy en día nos lo hacen modelos principalmente o activos analíticos para dar solución a diferentes necesidades. No solamente se están enfocando en la parte de gestión y la toma de decisiones, sino también las empresas están apostando mucho en la parte operacional, en eficientar sus procesos y eficientar sus procesos.

00:26:25:09 No solamente conlleva o no conlleva reemplazar una máquina, una revea, una, un muestreo analítico o reemplazarlo por una persona, sino principalmente es ayudar o complementar a la persona que actualmente está para para que ustedes sepan 1111 modelo, un activo analítico cuando llega a su madurez, principalmente necesita mucho conocimiento e intuición del experto para que esa acción analítico sea auto suficiente y así poder reemplazar a una persona.

00:27:00:02 Pero hasta el momento ese es algoritmo. Va a ir siempre acompañado por la persona que lo está ayudando en su operación día a día. Y un ejemplo principal es que hoy en día existen no solo son los problemas de fraude, los problemas de fraude, de fraude tienen una característica bien peculiar que principalmente dentro de la volumetría de un fraude, en comparación con los no fraudes, es mucho mayor.

00:27:41:07 Entonces tú vas a poder encontrar fraudes, por ejemplo, en comparación con un fraude, 151 2%, 5% más un 10%. Entonces estos esta este problemática de detección de fraude que es más preventiva y fraude, entiéndase por fraude transaccional, fraude, cuando venga una persona a pedirme dinero, si soy un banco, etc, son muy pocos los fraudes, por lo tanto lograr identificarlos con técnicas tradicionales lo hace mucho más complejo.

00:28:12:03 Bien, por lo tanto ahí entra todos los técnicas que hoy en día existen de machine learning o todo el mundo de deep learning para complementar, para ayudar un poco más a mejorar el poder predictivo que tienen los modelos clásicos o los modelos tradicionales. Entonces yo les traje un ejemplo de una, de una base de datos, que es una base, dado que es prácticamente alrededor de 500 observaciones, no tiene más que eso.

00:28:42:24 Dado que tenemos un tema de tiempo detrás, todos tenemos una marca de fraude donde esta marca de fraude tiene detrás una definición de negocio, donde el negocio tiene que decir oye, para nosotros esto es fraude, no? Perfecto. Entonces en función a todos sus criterios se va creando esta marca, y esa marca va a ir acompañada de un set de variables que permiten predecir cual es fraude y cual no es fraude.

00:29:18:16 Bien, lo que trata principalmente cualquier activo analítico es lograr encontrar patrones perfecto con los diferentes tipos de algoritmo que existen en este mundo. Entonces a observar, tenemos aproximadamente un 25% de fraude y un 74,2% de no fraude. Entonces, si nosotros comenzamos a analizar un poco la base de datos para hacer el Premo, el premio del amianto, que es lo relevante a la hora de crear un activo con un activo analítico en lo que son lo varios.

00:29:51:08 Perfecto, como lo comentaba la otra vez en otra conferencia eh, lo que nosotros o lo que las personas lo están haciendo, o las personas que se dedican a crear modelos, el problema que más tienen son el pre procesamiento de la data. Entonces, si yo tengo, por ejemplo 500 observaciones y dice cliente observaciones, tengo un 10% de missing valioso, de qué forma yo puedo reemplazar es un missing valioso esos valores perdidos sin perder el registro?

00:30:24:15 Porque lo que yo menos quiero perder es registros e informaciones. Datos. Bien, entonces hay diferentes supuestos detrás que existen para hacer tratamiento de mi sin value, por ejemplo, uno más clásico es que no me cambie la distribución. Entonces yo acá yo tengo un tratamiento y mis in values en la que separo ya el punto de vista técnico. Dos tipos de variable las variables que son dicotómicas y son continuas y las que son categóricas, entonces las que son variables dicotómicas y categóricas las reemplazo por un.

00:31:01:06 El mismo invi lo reemplazo por un valor extra, o sea una clase extra. Por ejemplo, si una variable categórica llega hasta cuatro y es variable categórica tiene un missing, yo le reemplazo un 5 de mayo, dándole a conocer que los cinco son missing values o información que no se pudo recolectar. U otra, otra casuística. Y para las variables que son de características continuas, yo lo que simplemente hago es sacar una una mediana y una mediana según clase.

00:31:34:14 Entonces, por ejemplo, tengo radio desde ingreso aquí. Ustedes pueden ver donde esta variable ratio deuda ingreso que tiene Noemí sin values. Lo que yo trato de hacer es calcular una mediana según si es cero o es uno. Considerando el fraude perfecto. Ahora bien, hay diferentes tipos de imputación, está la por imputación y los que son agrupamientos. Bien, hay uno.

00:32:16:11 Cuando te pasan, por ejemplo, los modelos de riesgo, de admisión de riesgo, hay uno que se llama where, donde el WHERE no trata de imputar, trata de agruparlos, missing. Con respecto a los otros valores, bien y tiene que cumplir ciertos criterios, etc bien, entonces hay todo un mundo detrás por el previo de tratamiento. Entonces si nosotros comenzamos a dibujar esto, resulta hoy que encontró que la variable imputó con categoría faltante y con 0,2 0,12% value ratio de ingresos y pudo con mediana de la clase variable.

00:32:52:11 La variable deuda, tarjeta y crédito se imputó con mediana y otra deuda también se imputa con mediana. Bien, entonces ya dado que ya tenemos una variable, las variables sin mi, sin varios, idealmente sin valores únicos, ya comenzamos a hacer otro tipo de análisis y un análisis que a mí me gusta mucho hacer. Es un análisis previo al modelo y ese análisis primer modelo me gustaría identifi ficar cuáles son las variables que discriminan mejor al target, es decir, mejor los fraudes y no fraudes.

00:33:40:23 Entonces, si yo hago un gráfico, un histograma que yo le voy a mostrar de mu C1, aquí tenemos, aquí tenemos ocho, ocho histogramas, sí. Entonces, por ejemplo, acá lo que podemos observar es que déjenme encontrarlo, que yo tengo la variable ratio de ingresos. Entonces si ustedes ven acá, lo que yo quiero analizar ciertamente es que tener variables que tengan poder discriminatorio, sonaste la valor discriminatorio cero, pero lo mejor que representa este ejemplo, entonces de qué forma yo hago un gráfico con un simple gráfico, en este caso es un histograma.

00:34:35:00 Yo puedo. Si la Badia pudo observar si la variable tiene poder discriminatorio o no, entonces si observo, por ejemplo en este caso la variable ratio del ingreso, los verdes son los no fraude, los no fraude y lo morado es un fraude. Observamos que los fraudes y no fraude de la variable ratio del ingreso no se traslapan, entonces al no existir esta tras este traslape entre los histogramas, podemos decir que en diez, por ejemplo, un ratio de un ingreso diez superior a diez son variables, son, son personas que son fraudes y las que son menores a diez son, pues hay mayor frecuencia para los no fraude, entonces existen otras casuísticas, por ejemplo, que puede ser una

00:35:05:05 variable de este estilo, por ejemplo años de permanencia o déjeme buscar otra que sea más ingreso del hogar. Por ejemplo, si se dan cuenta ingresos del hogar, ambos histogramas están trasladados. A pesar que tengo 500 observaciones, se puede observar bien igual que bajo los 50. Más o menos observamos de que los fraudes y los no fraudes por la variable ingreso hogar están trasladados.

00:35:46:11 Por lo tanto, es posible que esta variable no tenga tanto poder discriminatorio que me logre diferenciar los fraudes y los no fraudes, como por ejemplo la variable ratio de ingresos efecto. Entonces ya con esto tú te vas dando una idea de cómo esto va a ir funcionando a medida que yo vaya arrojando los modelos. Entonces, volviendo al código, aquí ya separamos una muestra del tratamiento 20% para muestra, 80% muestra entrenamiento 20% muestra de variación.

00:36:19:08 Perfecto, que tenemos 400 datos para entrenar nuestro modelo, 100 datos para validar el modelo. Ojo, idealmente tener mucho más perfecto y en la realidad hay mucho más. Pero por temas de de procesamiento podemos estar acá un día entero tratando de ejecutar esto. Sí que tenemos muchos datos bien. Y lo que primero vamos a hacer, vamos a hacer un modelo de regresión logística y ese modelo de regresión logística, método tradicional, lo vamos a comparar con un modelo.

00:37:09:14 Ramón Flores viene y lo que necesita un modelo de regresión logística de la cual no tienen la capacidad, por ejemplo con un Random Flores, es que no logra discriminar las variables que están altamente, altamente correlacionadas. Por lo tanto al al al dejar dejar las variables que están altamente correlacionadas, lo que va a afectar va a ser principalmente en la desviación del parámetro y como va a enviar las desviaciones del parámetro, va a sesgar el té, el de student, en consecuencia va a afectar el pilar y por lo tanto va a estar dejando alguna variable que realmente no la debería estar dejando o va a sacar una variable que realmente la debería estar incluyendo.

00:37:51:12 Por qué? Porque nosotros vamos a utilizar un método que se llama pues que es un método que me permite, es un método que permite encontrar el mejor modelo, minimizando, minimizando, maximizando, dependiendo la métrica value, significancia estadística, r cuadrado, criterio de información, etcétera. Bien, entonces se ejecutó la, muestra el filtro por correlación. Bueno, en este caso no hay filtro ni una, pero aquí yo le dije que como mínimo más o menos 70 por 100, todo lo que está sobre 70% y todo lo que está menos a menos 70%, deja una de las dos variables.

00:38:30:00 Perfecto. Y ya. Como no elimino ni una, voy a aplicar el modelo. Este es perfecto y este modelos voy dejando el 15% 1% de extracción va a ser un método forward y va a aplicar un modelo logístico, un modelo login con la variable pendiente, fraude y las variables que se establecen acá sin incluir la variable muestra bien y esto lo va a ejecutar solamente para nuestra base entrenamien to de los 400 datos, porque lo otro lo vamos a dejar como muestra de validación.

00:39:33:24 Bien, entonces ejecutamos. Aquí nos deja principalmente está ejecutando, nos deja alrededor de nueve variables, nos deja cuatro variables, la cual son todas significativas al 5%, o sea al 1%. Acepto año de permanencia en el área que son 2,4% y miren algo bien novedoso de que justo las variables que salieron son variables que salieron significativas. Son variables que en el análisis previo habíamos dicho por ejemplo que habían quedado, o sea que habían que tenían pues poder primitivo para que calificaran dentro un modelo, por ejemplo, los años de permanencia, está la variable ratio de un ingreso, por ejemplo, es en cuenta la variable ratio de ingreso.

00:40:00:22 No es la más significativa, la más significativa a es año de permanencia, pero igual está en tercer puesto después de deuda. Tarjeta de crédito si observamos la deuda tarjeta de crédito se encuentra acá, por ejemplo, se dan cuenta? No fraude. Llegan más o menos de tarjeta de crédito hasta cinco, pero los fraudes llegan a más de cinco. Hay frecuencia en diez, en 15, en 20.

00:40:37:22 Perfecto. Entonces a eso es la relevancia de considerar un análisis previo para saber tener una idea de que el variable puede tener un pues tiene buen predictivo para diferenciar las clases, fraudes y números. Bien, aquí ya comenzamos a ejecutar la predicción. La predicción, teniendo un umbral como la predicción va a ser una probabilidad, tenemos que comparar el desempeño, el modelo con las mismas, con las mismas medidas de uno y cero.

00:41:06:20 No puedo comparar probabilidad con un y cero del target mostrando un poco cab. Las curvas pueden contramos de que la regresión logística dio una muestra entrenamiento 68% y una muestra de evaluación del 75%. Entonces lo idealmente estos tipos de modelo es compararlo con un modelo de machine learning que es un random flores. Como les comentaba donde este Random Forest voy puede pagar la cámara para que se escuche mejor y no ver tanto la señal.

00:41:36:03 El video, el Random Flores, como comentabas, pertenece a una de las familias, a una de las familias de los modelos de ensamble perfecto del machine learning. Existen cuatro familias de las técnicas supervisadas, cuatro familias donde el rancho Forest pertenece a la familia de los Vaughan. Hay otra familia que es toda la familia y los bustos donde está el Abu Bus seguirían en el eje boost, etcétera También en la familia.

00:42:00:24 El hermano del rancho Random Forest, por ejemplo, está el el Sweetums Forest, que más para un algoritmo semi supervisado y cada uno su algoritmo sirven para cosas diferentes, perfecto y tienen su forma que trabajan por detrás. Entonces, al ejecutar simplemente un tipo de clasificación y una integración, es decir, con 15 árboles. Por eso se llaman modelos de ensamble.

00:42:36:07 Porque no solamente ejecuta un árbol, ejecuta n árboles. Perfecto. Entonces al ejecutar n árboles, en este caso 15, lo que va a hacer al ejecutar cada uno de ellos es conjugar de cierta manera los valores que arrojaron esos árboles. Y va dado, va a dar un árbol final y la profundidad del árbol yo le doy de cinco, es decir, máximo de máxima profundidad que yo le doy, va a ser cinco perfecto, es decir, profundidad hace referencia a las ramas hacia abajo que va a generar el árbol.

00:43:28:17 Entonces, aplicando todo lo mismo, encontramos, nos encontramos que el Random Forest tiene una una muestra entrenamiento de 70% perfecto, es decir, aumentó dos puntos porcentuales, mejoró dos puntos porcentuales. El algoritmo de regresión logística, pero disminuyó la muestra de validación casi en 15 puntos porcentuales. Bien, hoy ojo con esto y esto lo digo como acotación, no siempre, bueno, no siempre o permanentemente, no siempre van a ser buenos o persistentemente, mejor dicho, los modelos de machine learning nunca van a ser persistentemente mejores que los modelos clásicos.

00:44:02:19 Bien, entonces siempre es bueno hacer challenge con un Mercedes. Es un modelo de gran esfuerzo a un modelo clásico para ver qué tan quitan, qué tan buen mejoró el modelo. Ramón Flores Con respecto a lo clásico, bien. Y por último, principalmente como tenemos una muestra desequilibrada en la muestra de clasificación, la muestra de de fraude. En este caso tenemos 129, es decir, 25% sobre 75%.

00:44:30:07 Nosotros vamos a aplicar una técnica que es de creación de dados sintéticos y esta creación de datos sintéticos existe en Python perfecto, que se llama es mutuo. Efectos lo que hace es crear datos sintéticos, pero lo que hice yo, crear un comando porque nos están stata, crear un comando que te permite ejecutar el es mutt, pero utilizando directamente el stack perfecto que yo lo llamé test mutuo.

00:45:02:24 Entonces tú dices cuáles son las variables que tú quieres crear sus datos sintéticos con la variable fraude, tu tienes que sea la clase mínima que son 106, porque 106 porque si tú solamente se lo aplicas a la muestra de entrenamiento, efectos que son 106 y el balance son 50%. Y qué quiere hacer un balance 50% que yo quiero agregar a la muestra minoritaria, es decir, a los 106 50% más no un 100% más.

00:45:49:11 No quiero que me equilibre la muestra dos 94,294 solamente quiero que me agregue 50% más a la clase que tiene menor clase más voy bien y establezco una semilla. Y la muestra que es la muestra de validación o sea de entrenamiento, solamente será ejecuto. Y al ejecutar todo esto y el ejecutar todo esto, observamos. Déjeme graficar mejor todo de una, si se dan cuenta hay graficado los tres modelos.

00:46:37:14 Por un lado tenemos la regresión logística, por otro lado tenemos un modelo Random Forest Smut y por otro lado tenemos rainforest con es mutuo. Entonces si observamos el la región logística con Random Forest, realmente la región logística es marginalmente mejor que el Random Forest. Bien, pero si observamos el pez mamut, observamos que al solamente incorporar 50% más de dato sintético donde esos datos sintético lo creo en función de los datos que ya existen y la muestra entrenamiento mejoró un 14% más con los mismos parámetros.

00:47:27:03 Se dan cuenta? Yo cuando jugué acá yo lo quité con los mismos hyper parámetros, por lo tanto, es importante destacar que cuando nosotros y ya encontramos que es muy genera un valor agregado en esto, ya lo único que nos queda sería balancear o hacer lo que se llaman crit, serch. El grid serch es crear una grilla de diferentes hyper parámetros, porque hasta el momento lo que está ocurriendo en que existe un leve, un leve o floating está vendiendo mucho o le estamos dando mucha capacidad al modelo a que aprenda los patrones de la muestra entrenamiento, pasándose a aprender los detalles.

00:47:56:07 Y lo que no queremos es que aprenda detalles, lo que queremos, que aprenda patrones, porque esos patrones idealmente los va a replicar después con nueva muestra, en este caso con la muestra de validación. Por lo tanto genera un valor, es mutuo solamente. Lo que faltaría es agregar a hacer esta grilla con diferentes hyper parámetros perfecto, donde estos parámetros traten de disminuir la diferencia del 84 y los 60%.

00:48:37:08 Bien. Y por último, principalmente es muy importante es señalar e señalar el mutuo señalar es el smooth no equipara al 100% con no equiparar al 100%. La clase comienza con 25 50, 75 y después te vas con 100% perfecto, porque agregar 100% de la muestra es mucho. Imagínate cuando tienes 2% de muestra de fraude y un 98% de no fraude.

00:49:18:03 Entonces equipararlo 98% más. Tal vez que no sea muy, muy confiable. Entonces por eso es mejor ir de forma progresiva, aumentando la muestra o aumentando la creación de datos sintéticos. Bien, creo que me pasé por un por un minuto, pero quedamos atentos a las dudas. Sin querer, como me tuve que ir, como tuve que reconectar, no se me borraron las preguntas en el chat, no sé si Erika o Elisa o Jessica me podría ayudar?

00:49:47:08 Podría ayudarnos? Claro que sí. Franco e invitamos a nuestros asistentes que nos dejen sus consultas en el chat, ya sean para Mariana, ya sean para Franco, para poder transmitirlas. En este momento tenemos una Franco. Te la voy a leer. El análisis contempla diferentes tipos de fraudes combinados o se pueden segmentar por fraude de tarjeta de crédito, préstamos de diferentes propósitos.

00:50:29:12 O sea, lo que pasa es que siempre depender del negocio. Cuando tú haces modelos en los negocios, siempre aprender del negocio y va a depender del área. Entonces, si tú estás en una área digital, por ejemplo, y necesitan el área y crear un modelo de fraude, tienen que ser un fraude digital, por ejemplo, tarjeta de crédito. Entonces ahí en parte sí, pues otros tipos de fraude, pues estás cegando un poco el target para crear los patrones para logré identificar los patrones de un fraude digital, entonces siempre depender del negocio y la necesidad que tenga el negocio.

00:51:01:18 Ok, tranquilo, muchas gracias. Invitamos nuevamente a los asistentes que nos dejen sus consultas, tenemos algunas repetidas en el chat sobre la grabación. Esta estará disponible en nuestra página web a partir de la próxima semana, entonces allí las podrán visualizar. Aquí nos están diciendo cuando las etiquetas están muy desproporcionadas, por ejemplo 100 datos de fraude y 2000 datos de no fraude es recomendado hacerlas Simulación sintética de datos.

00:51:48:00 No se siempre las. Bueno, la simulación sintética de datos es una forma o la creación de datos sintéticos son una forma de balancear las clases. Entonces tú perfectamente podrías aplicar, por ejemplo, smooth o las técnicas sintéticas, crear datos sintéticos, pero podría aplicar por ejemplo un una regresión logística, un estilo WHOIS. No habrá ningún problema. El tema es cuánto tú debes utilizar datos sintéticos y la utilización de datos sintéticos ya te queda cuando ya no te queda ninguna otra forma de poder balancear las clases o mejorar tu modelo, porque cuando uno ya comienza con los problemas es cuando tú encuentras que tu modelo es poco predictivo.

00:52:02:13 Inicio Necesitas encontrar para argumentar esa predicción. Entonces una de las formas es una y una de las últimas formas es crear datos sintéticos.

00:52:56:01 Perfecto. Aquí nos indican para claridad. El modelo es de fraude interno. O sea que cuando dice fraude interno me refiero cuando te refieres a fraude fraude personal a a su trabajador o clientes en funciona a a institución o no clientes a institución. Pero si es puede ser. Como comenté antes, va a depender y cuanto del negocio. Hay diferentes áreas de negocio donde esa área negocio va ma va a necesitar o se encarga de identificar un tipo de fraude perfecto, o un tipo, por ejemplo, del activo, un tipo de eficiencia operacional.

00:53:25:21 Entonces tú no necesitas crear un modelo que todo, todo lo operacional o todo, todo el área que conlleva a o todos los operaciones que conlleva esa área va a siempre depender de la de las necesidades que tenga el negocio. Perfecto. Creo que aquí nos hacen una pregunta para Mariana. No sé si me estás escuchando. Mariana. Sí, señor. Aquí estoy.

00:54:18:18 Perfecto. Mira, nos indican qué impacto tiene la aplicación de machine learning respecto a los métodos tradicionales para la detección de fraude. Claro, como les mencionaba inicialmente, en los modelos de machine learning nos permiten reducir tiempos y costos. Así mismo aumentamos la efectividad. Por qué? Porque, como les mencioné anteriormente, nos permite ver más relaciones entre las variables y así mismos tener en cuenta factores que aún no conocemos porque los modelos tradicionales normalmente agregamos en datos ya conocidos o controles que sabemos que hemos tener al interior de la entidad y las metodologías de machine learning nos permiten conocer patrones desconocidos o generar alertas que no hemos tenido en cuenta.

00:54:53:08 Perfecto Mariana. Y otra consulta cuando hacer uso de machine learning y cuándo trabajar modelos clásicos? Teniendo claro que no siempre será bueno aplicar machine learning? EM Esto depende de varios factores. El primero, como mencionaba Franco, del objetivo que nos propongamos cumplir con el modelo. Segundo de la cantidad de datos con los que dispongamos, porque si no tenemos una base lo suficientemente robusta, los modelos no nos van a agarro a las presiones que deseamos.

00:55:01:16 Y creo que serían principalmente esos dos temas el objetivo que nos propongamos y la calidad de los datos.

00:55:39:21 Perfecto. Aquí va otra. Para Franco nos dicen si no conozco cuáles son fraudes que puedo utilizar para encontrar los los patrones you will. Es complejo principalmente. O sea, lo que puede ocurrir es que lo que puede ocurrir es que no tenga volumetría de esperado. Bien, entonces si no tienes volumetría, te fraudes. Puedes usar un ti, un. Una especie de tipo de fraude sintético.

00:56:15:04 Es decir, sí, un fraude muy, muy específico. Trata de de asemejar un comportamiento de ese tipo de fraude que tú buscas. Den a otro lado. Entonces, principalmente, si uno encuentras un fraude que que no te sea y no tienen volumetría de tu fraude. Puedes usar un fraude sintético decir, y eso no quiere decir que sea fraude. Busca siempre un fraude que se asemeje a lo que tú buscas.

00:56:51:00 Perfecto, pero no creas uno de la nada más uno y hay y lo otro. Sí, principalmente si tiene fraude, pero muy pocos. Ya va a entrar dentro de las técnicas de de modelamiento. Muy bien. Muchas gracias. Franco, vamos aquí con otra pregunta. No sé cuál de los dos se anima a contestarla. Nos indican qué son los datos sintéticos y cómo calcularlos.

00:57:35:16 Es una persona que entró un poco tarde a la sala, pero quisiera saber como. Como calcular diferentes formas de datos. Yo digo pero. Pero usualmente lo que hace es crear. Por ejemplo, el que yo creo en stata utiliza clas e utiliza algoritmos de clase try donde su después o algoritmo de clase String tratan de asemejar un comportamiento de los de cada uno de los cluster por variable y sobre este comportamiento que es análogo a una distribución de probabilidad, se crean nuevos nuevos datos en función a ese cluster y funciona ese comportamiento.

00:58:07:13 No sé si tú mañana has visto otro otro tipo de metodologías. No estoy de acuerdo contigo y creo que ya abarcas de todo el concepto. No? Ok, acá tenemos otra consulta. Nos dicen en base a tu experiencia, cuáles son los retos más significativos a la hora de recolectar los datos? Creo que aquí para los dos que nos llegan, su experiencia de Nueva Mariana.

00:58:44:16 Gracias. Bueno, principalmente en cuanto a la recolección, depende primero llegar a la población objetivo o recolectar los datos que realmente nos aporten información para el modelo EM. Segundo, organizar de manera adecuada estos datos y realizar las transformaciones necesarias y también en que bueno, aparte de organizarlo, re llegar a la población objetivo y a las variables que deseamos e.

00:59:10:18 Se olvidó que otra cosa iba a decir, pero creo que ese son los principales retos y también tener presente realmente los tipos de variables que nos sirven, porque dependiendo del tipo de blog de que queramos identificar, no siempre nos van a aportar la información. El mismo tipo de variables es de tipo k, categórico o numérico e dicotómicas, etcétera.

01:00:00:10 Los de Franco, tú qué opinas? Claro, no? Completamente de acuerdo, claro. Y no incorporar diferentes tipos de formas funcionales y también también trabajar de forma progresiva e importante que cuando tú trabajes con tipos de modelos, lo que más existe hoy en día son variables. Por lo tanto, no te aconsejo, por ejemplo, que comiences con mil variables altiro. Comienza con un stock de variables que intuitivamente te hacen lógica para explicar lo que tú buscas y si es resultado de tus modelos, no solo lo que llegan a lo esperado y ahí tú comienzas a recolectar más variables, pero siempre ando incorporando interactivamente variables.

01:00:30:01 No comienzas con un tablón o con una sabana de datos enorme. Comienza en forma progresiva o que perfecto. Mañana Franco, muchísimas gracias. Quisiera saber si desean agregar algo antes de finalizar la sesión. Mariana de mi parte, agradecer a todos los asistentes por la atención prestada y por todas sus inquietudes que nos ayudan mucho a enriquecer un poco más la charla.

Riesgo Operacional y Aplicación utilizando modelos de Machine Learning


Actualmente las empresas se encuentran muy involucradas en la gestión de la incertidumbre y en la toma de decisiones, por los diferentes eventos que suceden en los mercados financieros. Es importante tener claro los conceptos y fundamentos para una óptima gestión del riesgo y también conocer las diferentes herramientas que permitirán administrar esa incertidumbre y la toma de decisiones.

Etiquetas relacionadas

  • Análisis de datos
  • Modelo
  • Riesgo
  • Toma de decisiones

¡Comparte este video con tus colegas!

Compartir

Ver más

Cotizar
Próximos
Eventos

X

Mis cotizaciones:

Comentarios a tu solicitud:

Cotizar