SS_Logo

Riesgo de Crédito con apoyo de Risk Simulator

Autor: Franco Andrés Mansilla Ibañez / Portafolio: Quantitative / Jue. 04 de May de 2023

Transcripción de este video

00:00:31:24 Shopper Shop, la empresa líder en la implementación de herramientas analíticas y software especializado en Latinoamérica, les da la bienvenida a esta presentación. El día de hoy contamos con el acompañamiento del instructor Franco Mansilla, especialista en entrega de Soluciones Analítica a necesidades y problemáticas del negocio, tal como inversiones, operaciones y riesgos. Académico de la Universidad de Chile en cursos de riesgo financiero del Magíster en Finanzas y Métodos Cuantitativos.

00:01:07:02 Sus temas de investigación son eficiencia de mercado, riesgo financiero, machine learning y econometría. Bienvenidos. Bueno, bienvenidos a esta nueva sesión de Guapas en la que vamos a realizar rico crédito con un léxico bien bueno principalmente. A diferencia del Oppas. Unos guapa anterior en la que vimos rico dedito pero apoyado en este dato. Aquí principalmente nos vamos. Una herramienta que es derechamente que complemento Excel en la que se pueden hacer diferentes y aplicar diferentes métodos para gestionar el riesgo.

00:01:39:02 Entonces, principalmente lo que quiero enfocarme hoy día es introducir un poco que la gestión del riesgo en términos introductorios, para que podamos después podamos pasar a Haritz para comenzar, ver cómo se construye un modelo rico crédito de la forma principalmente tradicional. Perfecto, porque hoy en día hay personas que están aplicando cierto metodología más avanzada con el machine learning para la gestión de riesgo o sobre todo para el rico crédito.

00:02:16:14 Pero pero siguen habiendo instituciones en la que siguen trabajando con metodologías tradicionales para la construcción de estos modelos? Bien. Entonces principalmente hoy en día todas las instituciones financieras principalmente que necesitan gestionar su riesgo. Bien. Y existe principalmente una relación directa de de rentabilidad. Y lo que son denominadas conceptos de riesgo. Y por eso existen un abanico de diferentes tipologías de riesgo.

00:02:50:06 Por ejemplo riesgo mercado, riesgo, crédito, riesgo, liquidez, entre otros. Que en parte todo eso tipologías de riesgo pertenecen dentro del ruido financiero perfecto y dentro y a la par de riesgo financiero existen otros tipos de riesgo que estratégico, etcétera. Entonces, principalmente el que vamos a ver es el que en parte nos vamos a concentrar, sobre todo en la cuantificación y cómo se puede gestionar el riesgo con diferentes tipos de modelo que hoy en día existen.

00:03:17:02 Nos vamos a concentrar en lo que es el rango de crédito. Bien, entonces principalmente el riesgo de crédito no es más que. No es más que, supongamos una salida con amigos en un restaurant en la que cuando llega el momento de pagar uno, uno toma la cuenta y uno es el encargado de pagar la totalidad de la cuenta.

00:03:42:22 Le dicen Oye, yo después me encargo de cobrarles a cada uno. Bien, hay algunos principalmente que que no le gusta tener deuda. Yo tengo amigos que no le gusta tener deudas y que pagan apenas sale la cuenta de depositan altiro. Hay otros que principalmente te dicen oye, tonto de pagar mañana. Perfecto, lo cumplen. Y hay otros derechamente que no pagan.

00:04:11:04 Y en ocasiones les pasco diciendo oye, hoy cuando fuimos a comer está bien. Entonces principalmente el rico crédito. Eso y principalmente surge cuando la contraparte no están dispuestas o son totalmente incapaces de incumplir sus obligaciones contractuales. Bien. Y eso en parte en que en ocasiones el rico crédito se ha confundido en parte con el riesgo operacional. Por qué?

00:04:39:10 Porque si es una empresa que debe perfecto, que es distinto a lo que yo debo y estando en mora, perfecto. Y y qué sucede cuando yo como empresa soy incapaz de pagar? Lo que sucede es que principalmente, qué riesgos se considera? Se considera un riesgo porque yo como empresa realmente estoy dispuesto de pagar. Es decir, no tengo capacidad de pago de mis obligaciones.

00:05:16:14 O entra bajo el concepto de riesgo operacionales que en parte en analista, que cuando me evalúo para asignar el crédito, esta persona derechamente se equivocó o algo hizo mal y me dieron crédito con un perfil no correspondiente o con una tasa no no adecuada o con un nivel de provisión en agua. Entonces hay que definir derechamente cada vez cuando hablamos de tipos de riesgos, tenemos que definir claramente la la diferencias y las políticas que conlleven a cada uno de ellos.

00:05:45:06 Entonces, principalmente nosotros, en riesgo de créditos, podemos observar dos tipos de formas o separarlo en dos tipos de activos uno activo, que son más del estilo financieros bien y otro que son activos más de tipo crediticio y principalmente de activos que son crediticios. Están todos los que son crédito en cumplimiento de carteras comerciales, cartera hipotecaria es cartera de consumo y otros tipos de activos.

00:06:19:08 Y por el lado de activos financieros está todo lo que son papeles bancarios para el privado, derivados, bonos, etcétera Bien, y para cada uno de estos, principalmente activos, existen diferentes métodos para cuantificar el tráfico directo que hay detrás. Entonces es una forma principalmente cuantificar. Está esta pérdida esperada principalmente por este incumplimiento tabla que es la fórmula tradicional que es la fórmula de pérdida esperada, en la que tú quieres representar el costo de participación en el negocio.

00:06:45:14 Entonces, para calcular, llegar a calcular principalmente la pérdida esperada, tú necesitas de tres componentes principales uno, que es la edad, que es el monto puesto, el momento en default, es decir, ahora se puede tener como default. También hay una definición de default, es decir, no es que pase un día y otro un default en una mora, si de un día, pero no necesariamente estar en default.

00:07:24:15 Incluso las normativas principalmente se se concentran en definir bien lo que es default y los diferentes tipos de mora que existen desde cartera irregular, que creo que de treinta a noventa tengo tenido que es de uno a noventa, cartera vencida noventa ciento ochenta y que esté castigada que sobre ciento ochenta días. Entonces y cada par para cada uno de esos tramos principalmente demora en lo que nosotros aplican ciertas gestiones de comerciales o mejor dicho, en vez de gestión comercial en gestiones de cobranza.

00:07:58:02 Perfecto, que hay diferentes tipos de canales en la que va el banco, la institución que contrató el banco para ir a cobrar, independientemente del de la de la cartera en que se encuentra. Entonces, por ejemplo, una cartera principalmente que tenga otra vencida y ya están a punto de liquidar de antes la deuda. Existen otros cobradores y desde el punto de vista legal, entonces hay detrás un juego, un juego que es una estrategia que tienen que considerar las intrusiones o áreas de cobranza para comenzar el cobro.

00:08:50:17 Y es el cobro no lo toma la persona que debe, que en parte sí, pero pasa también por parte del banco, que al principio tiene que ir pagando hasta que la contraparte le logre cancelar el pago perfecto. Entonces está el monto expuesto al momento de el, está la tasa de recuperación perfecto, es decir, cuánto yo estoy dispuesto, cuánto yo voy a capturar del monto que está expuesto, que entró en default perfecto, y si yo le calculo uno menos de eso en lo que se llama la RGB, bien, y está por el otro lado, lo que es la probabilidad que el cliente incumpla perfecto, que usualmente es un cálculo, que hay diferentes formas de calcularlo.

00:09:26:22 Aquí vamos a hacer algunas. Perfecto. Y la parte práctica también, que es encontrar y encontrar. Cuál es la probabilidad de despegue de que el cliente principalmente incumpla un pago perfecto? Entonces, de qué forma se puede calcular esta apuesta al incumplimiento? Y esto comenzó con el modelo de Deadman en el sesenta y ocho, que principalmente Al lo que hizo fue un análisis discriminante con una especie de técnica multi variantes perfecto de las cuales él utilizó sesenta y seis.

00:10:01:18 Empresa. Él no lo hizo para personas, sino lo hizo para empresas directa sesenta y seis empresas consideró veintidós variables variables predictores que expliquen principalmente para predecir el riesgo GIR perfecto. El no no se concentró precisamente en lograr capturar el incumplimiento, sino más bien la quiebra. Y encontró que principalmente de estos veintidós predictores, cinco de estos calificaron de los cuales está lo que es capital de trabajo sobre activo.

00:10:36:10 Tales utilidades retenidas sobre activos totales e vida sobre activo, tales valor de mercado sobre pasivos, venta sobre activos totales. Y más adelante, como vieron que esto en parte era bien innovador, la metodología que utilizó para poder capturar ese riesgo quiebra comenzaron a mejorar, es decir, ya no solamente consideraron empresas de un de un tamaño, sino empezaron a introducir empresas de media, ni en mediano y grande empresas de.

00:11:19:20 De empresas del sector no no no manufacturero razones financieras y contables perfecto. Y principalmente esto a este modelo comenzó a ir mutando de cierta forma y mutando la aplicabilidad y aplicándolo en diferentes tipos de contextos que uno de estos conceptos fue aplicar estos tipos de modelo utilizando lo que es para capturar la probable incumplimiento específico. Bien, hoy en día principalmente, como les comenté, existen muchos modelos de los cuales de los cuales tomó el son bien utilizados, pero los negocios, el punto de vista bancario está muy normado.

00:11:51:15 La construcción de modelos. O sea no solamente por lente regulador, si no sí, sino por ejemplos. Fuera por ejemplo, un banco Santander entre el Banco Santander. Chile también está regulada por no solamente con la CMF Chile, sino también está regulada por lo que es Santander, España, Santander, España se rige por toda la normativa europea, entonces está bien, está bien, pero enfatiza lo que es la construcción de modelos y que técnicas poder utilizar.

00:12:19:06 Perfecto, solamente que hoy en día como salió en todo este mundo el machine learning, salieron un sinfín de técnicas que lo que tratan de es mejorar. El poder predictivo es el poder primitivo de estos modelos tradicionales que utilizan y que es un modelo tradicional, un modelo regresión logística, por ejemplo, pero solamente que los entes reguladores no tienen los los compendio de las normas para poder regular la construcción de estos modelos.

00:12:50:22 O derechamente el corporativo que dice oye, de qué forma te puedo regular o puedo verificar o validar tu modelo que lo hiciste con Machine Data, entonces aún no tienen. Es un cuaderno metodológico que te permiten validar si este modelo es bueno o no es bueno en comparación a lo que se hace actualmente. Bueno, pero principalmente como bien les comenté, la puedo al incumplimiento?

00:13:24:24 No, no, la única gestión que se de se desarrolla a través de modelos. Perfecto también. Y como les comenté, para lo que es cobranza perfecto. Y qué canal y cuándo cobrarle clientes son? Se pueden trabajar mediante modelos y no solamente a través de la expertise de los cobradores. Perfecto. Para que? Para que sea una, principalmente para que sea una cobranza mucho más efectiva a la hora de ir al cliente y que el parte de paguen bien sin afectar también la reputación de la institución.

00:13:55:14 Perfecto entonces. Tan también, por ejemplo, que son y una de estas metodologías que se utilizan para abordar esos temas son las denominadas cadenas de Markov también. Bien, entonces si yo por ejemplo, si yo estoy como le comenté en un ciclo o en una cartera, por ejemplo, y regular, bien de treinta o de un día a noventa días, cuál?

00:14:34:06 Cuál es la probabilidad que ese cliente estén en la cartera regular? Pase a una cartera vencida de noventa ciento ochenta? Perfecto. Entonces si hay alta la probabilidad, yo aplico más inteligencia, una estrategia a esos clientes que son altamente probables a que pasen de una cartera a otra. Bien. Y esa metodología es principalmente una metodología que yo la puedo abordar a través de cadenas de que es el deterioro de cartera principalmente.

00:15:00:05 Entonces principalmente lo que lo que propone Markov y las cadenas de Markov son principalmente probabilidad de transición. Cuál es la probabilidad de que yo, estando un estado, pase a un siguiente estado o me mantenga en el mismo estado o que retroceda estado? Porque si de, por ejemplo estoy un estado dos, es decir, tuve una cartera que vencía de noventa, ciento ochenta.

00:15:37:19 Cuál es la probabilidad que yo paso una cartera irregular o pasa el día perfecto? Entonces yo puedo también retroceder la transición. También se puede ver mixta la transición de un estado anterior al que actualmente estoy o derechamente mantener, mantener el mismo estado. Bien. Y por último, es lo que hoy día principalmente se utiliza son los modelos de elección cualitativa formada al ochenta y tres, en la que principalmente lo que lo que trata de medir, lo que trata de modelar es el comportamiento de pago derechamente.

00:16:04:14 Y cuál es la probabilidad que este cliente caigan en, en, en una, en un default derechamente? Entonces, la importancia de definir primero qué es el default es lo que te va a ayudar poder construir este modelo a este modelo de elección cualitativa. Bien, entonces tú puedes definir como un una variable, como tu variable o tu clase de interés.

00:16:37:16 Son los que entran, entran en default. Todos los define como uno perfecto, donde ese uno pueden ser clientes activos, clientes que superan las ciento ochenta días de mora, etcétera, etcétera donde todas esas exclusiones o todos esos criterios más, más que todos sus criterios, hacen un cliente de características, default, aspecto. Y el cero no es un buen, no es un cliente bueno, es un complemento, es un no default, o sea, un cliente que no entra en default.

00:17:08:01 De hecho. Y este principalmente esa variable es explicada por un set de características como lo vamos a ver dentro un rato en el excel. Entonces la forma principalmente de estimar estos parámetros usualmente se utiliza en los modelos logísticos, la regresión logística y no una regresión lineal, porque principalmente las reacciones lineales tienen ciertos problemas. Por ejemplo acá de que te pueda dar una probabilidad superior a la unidad e inferior a la unidad perfecto.

00:17:56:13 Por lo tanto toman modelos no lineales para que principalmente como nosotros, nuestra variable es una variable dicotómica y una variable continua va a estar acotados entre cero y uno. Perfecto. Entonces hay quien parte no me puede dar una probabilidad o un valor estimado por el modelo mayor a la unidad o inferior a cero. Perfecto. Entonces, principalmente lo que hago yo o lo que hace el modelo es transformar esa estimación que en términos que la entrego en términos lineales, a una probabilidad que esté acotada entre cero y uno mediante uno sobre uno más la exponencial de la de la suma producto entre los de las variables y los Vedas.

00:18:21:08 Perfecto. Entonces esta transformación, si tú la dejas así como está, te va a dar un valor que esté sobre la unidad inferior. Pero si haces la transformación te va a transformar ese valor en una probabilidad o true o más, más que probabilidad tiene un valor entre cero y uno. Pero qué es lo que sucede de que yo en ocasiones yo no gestiono el cliente?

00:18:51:07 Yo no, yo no gestiono el cliente mediante la probabilidad, yo gestiono el cliente mediante un score perfecto. Por lo tanto, yo puedo transformar esa probabilidad a un escoger entre cero y mil perfecto para amplificar un poco más el rango y así poder definir ciertas estrategias sobre los campos o sobre los o sobre los coord que me den en función a esa probabilidad.

00:19:24:02 Perfecto. Entonces yo voy a transformar esa probabilidad de default o de probabilidad incumplimiento a un score con esta ecuación quinientos que en la base más veinte puntos, que es lo que dobla el score sobre logaritmo de dos por logaritmo de la pro por la logaritmo de la probable incumplimiento la probabilidad de fail. Y eso por ejemplo, si yo tengo mi cartera escoria, todos mis clientes a partir de la probabilidad yo puedo definir ciertos semáforos.

00:19:55:10 Entonces, por ejemplo, porque te bajo a los cuatrocientos cincuenta y cuatro puntos, caen en una roja todo lo que está entre cuatrocientos cincuenta y cuatro puntos y los quinientos cuarenta y seis puntos tan son amarilla y zona verde. Sobre los quinientos cuarenta y seis puntos o mayor. Y esto principalmente se pueden definir acorde al apetito o riesgo que tenga la institución, con el riesgo que tenga la institución en función a la cartera que esté o el segmento que se encuentre.

00:20:25:11 Sabe que en segmentos más altos tenga más apetito que en segmentos más bajos, por ejemplo. Bien, entonces pasemos acá a la parte práctica. Yo acá tengo una variable, una base de datos, donde esta base de datos tengo una variable target que ya en parte viene construida, que está perfectamente, puede ser el default, bien, donde acá tengo aproximado nueve variables de las cuales una variable es la variable default perfecto que ya viene marcada como un uno y un cero.

00:20:55:20 Y también tengo ocho variables que van a explicar esta edad número educación, año de empleabilidad, año de dirección actual, ingreso del hogar, deuda, ingreso o saldo, ratio de ingreso, deuda, tarjeta de créditos, otras deudas perfecto que son variables. Acá yo podría tener no solamente esta ocho variable, sino podría tener cien variables más y mediante mis técnicas analíticas poder hacerlo, poder ir filtrando variables para para ir trabajándolo.

00:21:42:21 Entonces por lo largo de la de la demostración con Riggs, no quiero ir haciéndolo perfecto, se lo quiero ir mostrando y explicándole los pasos que voy haciendo entonces en toda base de datos, en toda base de datos. Bueno, antes de yo guía esta marca, yo llegué a esta marca principalmente con un criterio, es decir, oye, yo default, yo lo defino con mayor moral de ciento ochenta días, por ejemplo, entonces todos los que cumplen esos criterios van a tomar uno, en el caso contrario van a tomar cero, porque a mi me interesa modelar lo que pueden ver, incumplir bien y como base de datos reales yo voy a tener ciertos datos missing value que se llama

00:22:07:00 perfecto. Cada una de las variables está van a tener un valor en mi sin varios perfecto. Y también lo que es son datos atípicos o datos extremos en mi base de datos. Perfecto. Entonces yo antes de poder comenzar a trabajar sobre mi base de datos y hacer cualquier modelo, necesito comenzar a poder trabajar en la limpieza a mi base.

00:22:39:21 Perfecto. Entonces yo aquí, como yo necesito entrenar un modelo para ese modelo, ponerlo en producción. Yo establecí siete pasos. Uno. El primer paso es la identificación de tratamiento de datos atípicos, inicio sin tratamiento y mi sin varios más tratamiento variación filtro por correlación Hay un análisis previo que me gustaría ver modelos y evaluación de desempeño. Entonces lo que primero tengo que hacer es lograr hacer la identificación y tratamiento de los datos atípicos.

00:23:27:14 Y qué es lo que sucede con los datos atípicos? Que en ocasiones estos datos atípicos o estos datos que en parte pueden estar mal digitado, derechamente pueden pueden generar que al momento de incluir ese dato típico de dato, dos extremos pueden incluir que se modifique o merced que el parámetro perfecto y como me hace sacar el parámetro me va a afectar lo que es el test, porque para yo comenzar, eliminar o alejar variables tengo que usar una prueba, una hipótesis sobre el parámetro para saber si es rechazo no se rechaza, el bus es nula, la ese parámetro es igual a cero, distinto cero que en otras palabras, es saber si esa variable explica o no

00:24:14:00 explica mi variable de interés, que es de facto perfecto. Entonces, al dejar datos atípicos o datos erróneos que en parte yo no puedo saber si son datos erróneos o no, yo comienzo con un tratamiento o primero con una identificación de datos atípicos para luego hacerle un tratamiento. Entonces acá yo tengo mis variables. Perfecto. Entonces aquí, aquí usted puede utilizar n técnicas como existen para identificar datos atípicos desde promedios y medianas que yo no estoy haciendo acá, hasta box plot infantil y una infinidad de métodos de detección de auto típicos.

00:24:46:01 Pero podría utilizar una sencilla y qué es y qué? Principalmente es es la media, el promedio y la mediana. Por qué uso es apto para detectar? Porque el como el promedio es una medida sensible a los datos atípicos y la mediana no cuando la media se me dispare o es muy distinta a la mediana, eso quiere decir que hay un dato atípico que está haciendo que la promedio se dispare para arriba, para abajo.

00:25:14:23 Cambio la mediana no, porque es una mediana, una medida sensible más conocida con el percentil cincuenta, que es insensible a los datos atípicos o los datos extremos. Entonces, si yo calculo una variación porcentual sencilla sobre el sobre promedio y la mediana y este supera el quince por ciento de variación, es porque es una variable que es posiblemente acorde a tratar bien.

00:25:44:04 Simplemente estoy utilizando conceptos básicos de estadística para encontrar datos atípicos. Bien, entonces aquí, por ejemplo, observar la DAP año y dirección actual de ingreso son variables que parten, están siendo afectadas por datos atípicos porque la variación está siendo inferior al quince por ciento. Usted puede definir diez por ciento cinco por ciento. Yo utilizo quince porque siempre he utilizado quince.

00:26:16:18 Bien, entonces la en cambio, los años de educación actual, ingresos, hogar, deuda, tarjeta de crédito y otras deudas principalmente son variables que tienen presencia de dos atípicos. Perfecto. Pero ojo que hay variables, hay composiciones de variables, por ejemplo el número de educación, el número, el nivel de educación es una variable categórica o me dejó claro que acá te daba un cuarenta y tres por ciento?

00:26:42:04 Variación, pero lógico que tenía cuarenta y seis por ciento variación Por qué? Porque son variables categóricas. Entonces obviamente que la variación entre una y otra va a ser alta y es raro que existan datos atípicos. Dado que esta variable está acotada entre uno y cinco, entonces hay variables que las dije bueno, años de empleabilidad como que se como cuatro imaginan lo necesario estar eliminando datos.

00:27:25:10 Atípico. Claro que hay que tener también un nivel de tolerancia pequeño, pero tener cambia los miembros. Por lo tanto esta variable se descarta como un tratamiento de datos atípicos, pero por lo tanto ingreso, hogar, deuda, tarjeta de crédito y otras deudas. Perfecto. Entonces aquí lo utilicé para hacer el tratamiento de datos atípicos. Es un. Es una técnica que se llama Winsor Ización y lo que propone la Winsor ización de tu variable dice Mira Franco, como en la visualización lo que te dice es achata a un valor acorde perfecto.

00:28:11:07 Entonces ese valor acorde yo lo puedo definir, por ejemplo mediante el teorema Ketchup, que es más o menos tres desviación estándar y decir mira, yo mi variable la voy a dejar como intervalo superior y promedio más tres Desviación estándar y superior más inferior Menos promedio menos tres Desviación estándar y superior Promedio más tres Desviación estándar Entonces todo lo que supere e intervalo superior lo voy a tratar a promedio más tres de intervalo de confianza, que es lo que hice académicamente bien, que es promedio menos tres desviaciones standard y acá es promedio más tres desviación estándar.

00:28:45:16 Entonces todo lo que esté sobre el ciento cuarenta y cuatro en la variable ingreso hogar, lo voy a tratar en ingreso. Pero ojo, bueno, y lo mismo también con deuda, tarjeta de crédito y otras deudas. Pero ojo, que al hacer tratamiento de datos atípicos todo tiene sus pros y sus contras. Claro, está concentrando mucho más la variable, pero a la misma vez están dejando afuera datos que posiblemente cuando tu implemente este modelo pongas en producción tu modelos aparezcan esas personas con esos datos atípicos.

00:29:24:11 Por lo tanto ahí tal vez que el modelo no no actúe tan bien. Bien, entonces hay que tener, hay que conocer los pro y los contras de hacer ciertos tratamientos. Bien, entonces con eso hicimos el primer paso del tratamiento de los datos atípicos, el otro paso, mis inválidos, aquí observamos que bueno, aquí ya se, se, se limpiaron los los datos atípicos, por eso no hay datos atípicos, pero el que tenía datos atípicos era la variable en educación, edad y lo que es también deuda, tarjeta de crédito perfecto.

00:30:00:11 Y esto principalmente en tratamientos de missing values. Es bien importante porque cuando se construye un modelo, usualmente el más inválido se considera como información sin datos, pero es considerado una información. Bien, entonces, de alguna forma, como los modelos, cuando yo tiré el modelo me va a decir oye tu, va a ser hasta con valores, con consulta vacía, no puedo arrojar la regresión de alguna forma.

00:30:46:18 Yo tengo que hacer representar esos datos en esos datos mis inválidos, porque lo mismo inválidos también son información, pueden representar una cuota de información en función a todo tus variables. Bien, entonces y acaba con la diferencia entre tratamientos de mis inválidos de variables discretas, continuas, o sea, discretas, categóricas y variables. Tratamiento variable continuo, variable continua. Por ejemplo, podría ser la mediana, la mediana de los valores observados bien, pero en cambio, cuando son variables de estilo categórico del estilo categórico dicotómico, que es cero uno o cero uno dos tres, yo puedo representar el missing values con la categoría faltante.

00:31:20:19 Entonces, por ejemplo, si esta variable en educación va de uno a cinco, yo puedo colocar como categoría faltante el mes inválido como seis, porque en seis representa todo el grupito de información de variables que le falta. Un dato perfecto. Y por último, es todo lo que son entrenamiento y validación. Perfecto. Por qué? Porque yo me tengo que asegurar de que antes de poner el modelo en producción, yo tengo que asegurarme que el modelo funciona.

00:31:50:12 Por lo tanto, para asegurarme que el modelo funciona y predice bien a observaciones que no utilizó para entrenarse, yo separo la masa. Entrenamiento y validación. Entonces acá usualmente se usan tres muestras, pero yo acá por la cantidad observaciones que tengo que observaciones las valen treinta, setenta perfecto, pero usualmente son tres por entrenamiento, validación y fuera de muestra que es dep jol out y out of time y luego Top of time.

00:32:23:18 Usualmente es un año completo. Si tú estás, por ejemplo, tomando dos mil diecinueve, dos mil veinte, dos mil veintiuno y dos mil veintidós, la la de hijo, el out, la tomas del dos mil diecinueve hasta dos mil veintiuno y toda la muestra o dos time va a ser dos mil veintidós. Perfecto. Una muestra más alejada. Por qué? Porque yo quiero que mi modelo no se calibre, no se deteriore al año, porque un modelo, construir un modelo de esto es caro.

00:32:45:06 Por lo tanto, que esté pagando todos los años setenta, setenta mil dólares. Supongamos para construir el modelo VAR a calibrar el modelo nos sale a cuenta. Por lo tanto, para asegurarme que el modelo por lo menos me va a durar un par de años, o por lo menos uno o dos años, tengo que establecer una muestra fuera periodo, una muestra más alejada en tiempo y para eso establezco una muestra o dos años.

00:33:11:02 Bien, en términos de correlación observamos, yo no creo tener variables. Bueno, acá son nueve variables, pero eventualmente yo podría tener cien variables que alguna de ellas tengan el mismo comportamiento. Por lo tanto, yo no quiero tener mi base de datos previo al modelado, variables que tengan el mismo comportamiento o que me expliquen lo mismo, porque ya tengo una que me está explicando para qué necesito dos.

00:33:36:16 Por lo tanto aplico filtros por correlación, que esto en parte para técnicas tradicionales o modelos logísticos pro Vitti, entre otros. Es recomendable hacerlo, pero modelos ya son más de machine learning. Dentro de los parámetros DNL existen parámetros de penalización que te permiten controlando este efecto de la correlación. Perfecto. Sí que está bien hecho asignado el valor, el valor de libre parámetro.

00:34:12:05 En este caso no tengo ninguna correlación que esté superior o sea inferior a los setenta por ciento. Perfecto. Por lo tanto, no, no elimino ni uno. Me gustaría también. Esto es lo que me gustaría a mi me gustaría tener modelos o variables y por eso análisis previo. Me gustaría tener variables que discriminan de la mejor forma, variables que están en Me gustaría tener variables que discriminan de la mejor forma.

00:34:49:09 Buenos pagadores y malos pagadores o default o no default. Por lo tanto, una forma de filtrar variables es haciendo esto un gráfico simple que también ustedes lo pueden hacer comprar diferencias de medida y decir mira, yo acá tengo una variable, esta variable es deuda, ingreso, ratio de ingreso y esta variable es el dato. Entonces, cómo yo me puedo dar cuenta que una variable es buena en el sentido de que es me discrimine?

00:35:40:12 La clase de buenos pagadores y malos pagadores es que al dibujar la variable, en este caso deuda, deuda ratio del ingreso, yo esperaría que la distribución de los malos pagadores, es decir, acá en caso serían los uno la parte naranja y de los buenos pagadores estuviese separada afecto. Si se dan cuenta que las medias también separa. Hay una parte que se trasladaba que esta parte que estoy mostrando con el mouse foto que se traslada bien, pero yo no puedo tener variables que estén así, eso es lo ideal, pero obviamente van a haber variables que se trasladen un poco, idealmente no mucho, pero es mi ideal.

00:36:10:24 Que variables? Que cuando yo haga este gráfico de histogramas entre los buenos pagadores o default y no default, yo esperaría que esto en parte se separara. Perfecto, porque esta es una buena variable que logre discriminar o tiene datos o información que me logre discriminar entre los malos pagadores y los buenos pagadores. En cambio la edad no, si se dan cuenta los malos, la edad, la edad de los malos pagadores.

00:36:39:21 La naranja está prácticamente sobre la edad de los de los buenos pagadores. Perfecto. Por lo tanto, esta variable no tiene poder discriminatorio, por así decirlo. Una forma de decirlo que me logre discriminar entre los buenos y los malos pagadores. Por lo tanto, lo más probable, pero más probable, que esta variable no califique como variable final en la construcción de mi modelo de probable incumplimiento.

00:37:13:02 Y esta variable quizás, si bien me imagínense que esto yo lo hice sin ver el resultado final, por si acaso. Bien, entonces ya haciendo tu análisis previo, esto lo puedes hacer con muchas variables, no solamente con doce. Para ejemplificar con tabla dinámica, tú acá y comienzas a construir tu modelo y utilizas lo que es el. La funcionalidad es la herramienta que tiene Singleton.

00:37:46:06 Ojo con ojo. Me faltó, me faltó decir algo acá cuando ustedes hagan de tratamiento y mis varios se tienen que asegurar, se tienen que asegurar de que no, la modificación son, o el tratamiento o la imputación. En el agrupamiento de tus datos atípicos no modifique el comportamiento idiosincrático que tiene la variable. Qué quiere decir eso?

00:38:20:10 Qué quiere decir eso de que yo, al momento de hacer el imputación de los datos perdidos en este caso, supongamos que fueron o diez datos al imputar estos diez datos. Valores perdidos, no muy fique el comportamiento o la distribución de la variable. Por lo tanto. Por eso se se recomienda es que si la variable, por ejemplo tiene más de diez por ciento de missing values, no es una variable que sea recomendable imputar.

00:39:00:15 Por qué? Porque prácticamente vas a estar inventando, vas a estar imputando valores y posiblemente vas a cambiar la idiosincrasia del comportamiento de la variable. Bien, entonces ya construyendo el modelo, utilizando lo que es acá, si ustedes se van a ustedes acá utilizando solamente la muestra entrenamiento, van a pronósticos de Ricks, pone modelo de máximo de finitud y les va a parecer una explicación.

00:39:24:19 Perfecto está decir cuál es tu variable pendiente, en este caso el target o la variable default y todo tu demás variables son las independientes y aplicar un modelo lógico y esto al apretar ok te aparece todo lo bueno que tiene Ricks es que te va ofreciendo explicación. Es que es qué es lo que estás ejecutando? Perfecto, hay que instaló y provee enorme todo y TIC bien.

00:40:01:23 Y aquí está los resultados. Entonces Como yo acá estoy utilizando un una técnica principalmente tradicional, yo puedo comenzar eliminando variables que están altamente sean altamente no significativas. Por ejemplo, la variable en edad, o sea en educación, es una variable no significativa de efectivo, comenzando eliminando variable por variable. Acá te queda la variabilidad, el modelo tres, la variable otras deudas y aquí te que la variable ingresos en ingreso del hogar.

00:40:34:04 Y por último el modelo cinco se te queda en la otra variable, incluso si se dan cuenta ratio de ingreso mira que es significativa al uno por ciento. Y claro, y acá creo que ese fue edad, pero aquí se fue que la variable que acá en en x previo encontramos que no tenía información para poder explicar tu variable, tu variable falta.

00:41:19:15 Entonces ya teniendo tu modelo final sencillo, parsimonioso, tú comienzas a evaluar tu modelo. Y qué es lo que se conoce hoy en día como los modelos? Es que es pasar esta se usa la estimación utilizando los los parámetros entregados por Logic y tú después de la transformación para transformarla en una probabilidad. Perfecto. Aquí tienen la estimación. Se dan cuenta al menos uno coma dos que esto parte no es interpretable y acá en parte te da la probabilidad, utilizando la transformación que le había comentado que la exponencial de la del valor estimado sobre uno mal exponencial de valor estimado perfecto.

00:41:48:03 Pero qué es lo que usted ve? Que usualmente cuando se hace gestiones yo no utilizo la PRO la probabilidad o no lo hizo pasando la probabilidad a un valor de cero y uno. Lo que hay en visto mucho hoy en día es que cómo evaluar un modelo es transformando esta probabilidad a un uno y a un cero perfecto, porque con el uno cero usted los puede incorporar con el target.

00:42:13:14 Bien, eso tiene sus pros y sus contras. Y la contra es que derechamente, qué pasa si tienes un desbalance de las clases? Lo e el problema que tiene estos modelos de reduc esto es que tú lo que entran en default es una clase muy pequeña, es cinco por ciento dos por ciento de la cartera en comparación con lo que no entra en default, que son el noventa y cinco por ciento.

00:43:00:11 Entonces tienes un desbalance muy grande. Perfecto. Entonces pasar de utilizar el cero cinco como umbral para pasarlo a uno o pasarlo a cero y comparar el modelo no es muy, no es muy, no es muy buen ebitda cuando tienes desbalance de las clases, por lo tanto lo que se utiliza es pasar esta probabilidad a un score. Como les comenté que es quinientos puntos más en los veinte puntos sobre el logaritmo natural de dos por la logaritmo natural de la probabilidad no pasan a puntajes bien y van haciendo tramos y van a decir mira, yo acá voy a utilizar la métrica KS y la métrica KS, yo voy a separar.

00:43:45:21 Entramos tramos de dos ochenta y cuatro a dos, noventa y ocho, de quince puntos de catorce, junto a razón de dos, noventa y nueve a tres trece y así hasta el máximo. Perfecto. Voy a contarte lo que los que no entraron te falto cumpliendo el tramo y los que entraron en default entrando el tramo y así. Aquí tengo los trescientos cincuenta observaciones que tengo mi muestra entrenamiento de la masa, entrenamiento bien, y para yo calcular este KS lo que yo hago es derechamente calcular una una una frecuencia relativa de los default y los no default que haga una frecuencia acumulada.

00:44:09:06 Esta frecuencia acumulada lo que hago después es aplicar una diferencia de la frecuencia acumulada de los lo que no entró en default y lo que entró en default y lo que hago, lo que tengo acá es el KS, el KS por tramos. Entonces yo elijo el máximo y da cuarenta y uno coma ocho y es el KS del modelo.

00:44:41:05 En la muestra el tratamiento es de cuarenta y uno coma ocho y acá usted puede observar que la máx, que la diferencia acá sería más o menos como por acá las jugadas que más se diferencian. Bien, entonces esto mismo lo podría aplicar para la muestra de validación. Perfecto. Y acá la muestra de variación me da un cuarenta por ciento es bueno, el malo me mano idealmente que sobre cincuenta por ciento perfecto.

00:45:00:10 Pero pero es difícil que estos modelos de rico crédito te den un KS sobre el sesenta por ciento sesenta y cinco por ciento. O sea, si te da un modelo un KS ochenta por ciento es porque un modelo muy muy bueno, perfecto, pero usualmente son capaces de cincuenta y seis por ciento, cincuenta y ocho por ciento, sesenta, sesenta.

00:45:32:02 Eso bien, y lo que hice también acá es construir un PS y un índice de estabilidad de la población. Y lo que mide este BCI es la estabilidad del modelo entre las muestras, porque les comenté que yo quiero modelos estables en el tiempo, por lo tanto. Por lo tanto. Cuál sería la estabilidad del modelo en la muestra en la poblaciones de la muestra de entrenamiento y en la muestra de validación?

00:46:16:06 Y acá me dio un cero coma cero ocho que acá dice que si el índice de estabilidad te da menor a cero uno, es un modelo que es estable, perfecto, que no necesita cambios, perfecto. Pero si el modelo PCI te da sobre cero, dos o te da entre cero y uno cero dos o mayor a cero dos, ya el modelo se descalabro o prácticamente si llega acá se deterioró y ahí tu puedes comenzar a hacer el modelo desde cero prácticamente, porque ya tus variables o claro tus variables y tus parámetros ya no son representativos a lo que está, a los eventos que están sucediendo hoy día o la situación económica está sucediendo hoy en día.

00:47:07:19 Bien, y esto si quieren, si se dan cuenta, yo lo trabajé a nivel de score desglosado a niveles, lo agrupó en cierta manera, pero no tan agrupado de ser tan tajante entre cero y uno. Bien que si yo por ejemplo acá utilizo un método en definir un método umbral, que acá yo definí un cero dos perfecto, acá podemos observar de que la ayuda si setenta y cuatro por ciento en entrenamiento y en validación, pero si se dan cuenta como tengo mayor proporción de ceros el aquí, así lo que está es lo que está haciendo es que está capturando mal la participación de los unos.

00:47:52:12 Por qué? Porque son son de clase minoritaria. Entonces en parte en la que está, están parte está subvencionado lo que no está capturando o lo correctamente clasificados en lo que entran en default. Y al observar el recordá, el positivo, observamos que es claramente bajo, es decir, captura puede capturar muy bien los ceros, pero no así los unos y yo al combinar estas dos métricas observamos que fue una score, me da veinticinco por ciento que es muy bajo, que en parte no se asemeja nada a lo que dice la que una si y acá en la muestra variación en la muestra validación le fue un veintisiete por ciento.

00:48:18:12 Bien, pero si se dan cuenta este método es mucho más tajante que al observar esto. Por qué? Porque en parte tú no estás acá desglosando, tu acá derechamente estás trabajando sobre las propias con con una etiqueta o con una marca, el score perfecto y sobre eso tambaleando el modelo. En cambio, caro, aquí lo estás pasando tajantemente entre cero y uno.

00:48:50:22 Si es mucho, gracias. No sé si hay dudas. Me imagino que si uno analiza si me podrías ayudar. Claro que sí, Franco, muchas gracias. Igual invitamos a uno de sus asistentes, uno de en sus consultas en el chat de mi tira Franco. Cuál es la diferencia entre el modelo Project Logic y Toby para el cálculo de probabilidades? Principalmente es la distribución entre el AI y Project.

00:49:22:24 Es lo que es el él, la distribución del error. Una está tomando una instrucción normal y la otra una instrucción logística. Pero Toit es principalmente lo que trabaja el el sesgo o el sesgo de censura perfecto. Y hay otro cuento para hacerlo. Entonces, principalmente se enfoca el Toby, al igual que Hetman, son para datos censurados, por ejemplo también.

00:49:53:05 Perfecto. Cuál es la diferencia entre el VAR y el se VAR? Como se pueden calcular en RS? Son principalmente el VAR es el valor viejo y el se var como el con. Dicho en el var que es el var es como cuál es el la? Cuál es el BARTEK? Calcula las pérdidas esperadas, pero es las pérdidas esperadas. Ellas estando en pérdidas.

00:50:24:24 Efecto. Por qué? Porque el VAR tiene ciertos problemas en términos de intensidad de las pérdidas. Porque una medida de ubicación dentro de la distribución de ganancia, entonces ubican el VAR tuvi ubica una posición pero no se concentra más allá del lado izquierdo, por lo tanto la izquierdo puede haber más pérdidas. Por lo tanto, lo que no te pueda estar reflejando el var es es esa intensidad de las pérdidas.

00:50:55:08 Por lo tanto, tal se var que dices? Bueno, cuál es el promedio de las pérdidas más al lado izquierdo de lo que te señala el VAR? En pocas palabras, porque por acá nos preguntan qué tamaño de muestras adecuada para el cálculo de las pérdidas esperadas y no esperadas usualmente. Usualmente esto se calcula en función a tu cartera y tu cartera no son diez clientes.

00:51:44:13 Usualmente diez mil cliente, dos mil cliente y entonces usualmente puedes tener idealmente más, más de quinientos observaciones. Pero, pero no hay uno. Está escrito en piedra respecto a como calculas el PS y en PCI se calcula con se ve el excel. Cierto? Si el PCI es es la proporción del dato de validación menos el total por el logaritmo natural del del la proporción del total muestra variación sobre el total de muestra entrenamiento.

00:51:55:12 Y ahí tu vas a tener todos estos valores para cada uno y esto lo sumas y la suma en lo que te da el PS con pico completo.

00:52:23:10 Ok, por acá nos preguntan si se puede descargar el modelo aquí sufre con descargar el modelo en descargar el modelo Excel. Nos preguntan si nos pueden explicar un poco más de tarot, por favor, para completar la consulta cómo se define la desviación del modelo? Es decir, cuando hablabas de tres desviaciones algún criterio en especial? O sea, principalmente las tres desviación estándar.

00:52:50:12 Viene por el teorema HTTP perfecto. Pero esto está asumiendo que se ha hecho en forma normal. Usualmente esto no se distribuye en forma normal. Entonces podría utilizar el teorema que es Chibi Chev y otros dos autores. Perfecto, que eso cuando ya no existe en forma normal. Si estoy en forma chi cuadrado, entonces hoy podrías utilizar ese método en vez de tres desviaciones.

00:53:00:01 Pero cuando tú haces estos modelos tienen tanta información. Si tienes tantos clientes que eventualmente podrías asumir normalidad.

00:53:41:02 Vale, bueno, pero que tenemos otras preguntas. Rex Simulator puede simular una base de datos con el fin de practicar la implementación de varios modelos de simular una base ósea, lo que te permite generar escenarios posibles con muchos escenarios posibles y así generar una base de datos. Pero pero con eso no sé qué tanto te podría servir para validar un modelo, a no ser que utilice el comportamiento de cada una de las variables que ya tienes para emular.

00:54:43:07 Es distinto escenario en función a esas variables es son variable con simulación de Montecarlo sí que entendí el punto. Ok, nos pueden confirmar en el chat cuál puede ser la mejor metodología? Cuando tienes una población pequeña, población pequeña para estos modelos a mi me ha funcionado bien hacer árboles estáticos que significa un árbol estáticos es definir conceptos y establecer ciertos cortes corte de esa tomas también variables y establecer cortes en esas variables para definir y ir construyendo el árbol perfecto en función a los a la marcas que tu tengan de de la persona que entraron en default o lo que no entraron de foco.

00:55:12:13 Aunque por acá nos pregunta cuáles son los modelos de inteligencia artificial machine learning para riesgo de crédito usualmente ocupa mucho USA son casi todo lo algoritmos de machine learning y las o las net forex x que vos red neuronal super vector machine. Hay varios modelos de machine learning o algoritmos de machine learning que te sirven para poder trabajar de Guthrie.

00:55:48:09 Solamente que tu tienes que ir ajustando los parámetros de cada uno de los algoritmos porque funcionan de forma distinta, porque a estos modelos se les puede agregar variables climáticas con el fin de integrar el riesgo climático al riesgo de crédito. Sí, o sea, no he visto investigación que hagan estudios, que el efecto climático afecte el regreso. A no ser que sea una empresa que están que que lean tu deuda.

00:56:23:13 Y es una empresa que depende mucho el clima. Por ejemplo. Ahí podría explicar pero, pero si con tal que cuando pongas el modelo en producción tengas esa variable continuamente, si podría hacerlo. Ahora no sé si califique, pero se podría intentar. El simulador de riesgo es un complemento de Excel o es un programa adicional? Es un. Es un. O sea, es un programa que distinto Excel, pero funciona complementado con un complemento de Excel de.

00:56:55:14 O sea, eso funciona como complemento de ex, pero es un programa que tu lo tienes que instalar, etcétera. Perfecto. Vamos con una última pregunta, Franco, con alta volatilidad en todos los sectores, esa probabilidad de incumplimiento puede ser algo significati iba hoy que te fue con alto alta volatilidad de los sectores a que a qué sectores te refieres? No, no hay nada que decir.

00:57:32:22 Pronto nos pueden contestar vía chat economía con economía sí, o sea, claramente ante movimientos de inte movimiento económico se vea afectado la las probarían cumplimiento. Entonces por eso que tú cuando construyas el modelo, tú tienes que por lo menos tener un año, modelos de avión, modelos de comportamiento, tienes que tener un año como mínimo para capturar ciertas estacionalidad es.

00:58:02:17 Pero por ejemplo para modelos de provisiones tienes que tener mínimo diez años de historia y es lo que vi el regulador para capturar ciertos crisis económicas. Pues bien, va a depender principalmente para donde lo quieres enfocar para modelos más de gestión o modelos más de provisiones. Perfecto Franco, muchas gracias por por tu explicación. Algo que quieras agregar antes de finalizar?

00:58:49:19 Bueno, dejarlo a invitados a los próximos web obviamente, y también a los cursos que tenemos con SUT Workshop sobre ml y lo que es también automatización y estada en. Así que deja el invitado en la chica les van a compartir la que lo. Enlaces respectivos a los cursos que son sincrónicos. Perfecto franco. Bueno, muchas gracias por tu tiempo, por tu presentación a todos los asistentes igual muchas gracias por acompañarnos en el Charles de Benito dejando el enlace por donde puedan ver la grabación de esta sesión y otras relacionadas con tanto con Franco como con otros instructores e y el correo electrónico también nos pueden escribir a todos ustedes les deseamos una feliz tarde y en

00:59:18:11 este momento en pantalla la encuesta para que por favor puedan diligenciar la franco. Gracias por tu por tu presentación y nos vemos próximamente. Feliz tarde! Muchas gracias igualmente que esté muy bien. Para mayor información respecto al software o en temas relacionado, no dude en contactarnos a través del correo electrónico entrenamientos, arroba, software, guión shop, punto com o visitar nuestra página web triple punto Software Guión Ya.com.

Riesgo de Crédito con apoyo de Risk Simulator


La gestión de riesgo ha evolucionado en diferentes aristas, buscando anteponer planes de acción a la toma de decisiones. En este contexto, se debe considerar el riesgo de crédito dentro de las operaciones financieras o comerciales, ya que existe la posibilidad de sufrir pérdidas derivadas de un impago de los créditos concedidos a los clientes y deudores. En esta presentación abordaremos los conceptos, intuición y aplicaciones prácticas de herramientas analíticas para abordar la gestión de riesgo de crédito.

Etiquetas relacionadas

  • Finanzas
  • Riesgo
  • Toma de decisiones

¡Comparte este video con tus colegas!

Compartir

Ver más

Cotizar
Próximos
Eventos

X

Mis cotizaciones:

Comentarios a tu solicitud:

Cotizar