SS_Logo

Riesgo de Crédito con Stata 17

Autor: Franco Andrés Mansilla Ibañez / Portafolio: Quantitative / Vie. 03 de Mar de 2023

Transcripción de este video

00:00:30:02 Somos un equipo autogestionado, responsable, proactivo y autónomo, con gran compromiso social, aportando el pensamiento científico y el desarrollo latinoamericano, promoviendo el uso de software para investigación en todas las áreas del conocimiento. Generamos contenido de alta calidad teniendo en cuenta las distintas necesidades del mercado.

00:00:55:19 Realizamos actividades gratuitas constantemente. Abordamos temáticas vigentes, aplicaciones especializadas y elementos metodológicos que te permiten interactuar y generar redes para la difusión de tus proyectos. Contamos con servicio de asesoría, consultoría y acompañamiento personalizado, certificaciones internacionales, entrenamientos especializados y talleres prácticos.

00:01:16:13 Nuestro principal objetivo es promover el uso de tecnología en el campo investigativo, generando un impacto significativo en la región y de esta forma contribuir a la creación de comunidad para compartir conocimiento. Te invitamos a ser parte de este gran equipo Software Shop.

00:01:42:14 Visita nuestra página web y conoce nuestros servicios. Software. Yo, la empresa líder en la implementación de herramientas analíticas y software especializado para Latinoamérica, les da la bienvenida a esta presentación. Este espacio contará con el acompañamiento del instructor Franco Andrés Mansilla, Ingeniero Civil Industrial, con Magíster en Finanzas en la Universidad de Chile.

00:02:01:18 Actualmente se encuentra trabajando como analista en Gestión de Riesgos Indios del Banco Santander en Chile. Se ha desempeñado como analista en investigación económica y financiera para académicos de la Universidad de Chile y Banco Central de Chile, en temas de mercado de capitales, eficiencia de mercado, riesgo financiero, econometría y estadística.

00:02:27:15 Bienvenidos. Bueno, bienvenidos a esta nueva sesión. Una sesión que demuestra que la que vamos a estar viendo a riesgo de créditos con STOP en principalmente esta presentación, la quiero basar en dos partes una para una pequeña presentación en términos conceptuales de lo que es un crédito para poder para ir al software estado y poder trabajar con una

00:02:45:24 base de datos de crédito. Entonces, un poco en contexto, hoy en día principalmente existen diferentes metodologías para administrar dichos riesgos, pero hay que entender de que dentro de los riesgos empresariales existen tres tipos de riesgos uno, que es el riesgo de negocio.

00:03:14:27 Otro que es el estratégico y otro que es el riesgo financiero. Y dentro principalmente, el riesgo financiero se encuentra en todos los tipos de riesgo que existen, por ejemplo riesgo, liquidez, riesgo, mercado retail, crédito operacional, etcétera Y principalmente, una de las motivaciones de por qué necesitamos administrar el riesgo es porque existe una alta, una alta, un alto

00:03:35:19 cambio, principalmente en los mercados, y a causa de eso, principalmente se debe a que existen alta volatilidad en las variables financieras. En consecuencia, eso ocurre principalmente alta polaridad de precios, alta niveles de de, no pago en, por, por la contraparte, etcétera.

00:03:54:20 Bien. En términos de riesgo de crédito. El riesgo de crédito sufre cuando la contraparte están indispuestos o son totalmente incapaces de cumplir su obligaciones contractuales. En palabras simples, podemos saber que el crédito se define como una pérdida potencial ocasionada por el hecho de que un jugador.

00:04:22:25 E incumple sus obligaciones. Bien, entonces nosotros podemos separar en parte el riesgo crédito de dos formas uno, que son más ligados a los activos financieros y otro más ligado a los activos crediticios. Vieron? Del cuál de estos activos para al lado de activo financiero observamos lo que son bonos, siones, papel bancario, papel privado derivados que principalmente origina

00:04:54:20 que no tiene contraparte. Bien. Pero cuando hablamos principalmente de activos crediticios está todo lo que son carteras comerciales, carteles hipotecarias, cartera de consumos y otros activos que hace referencia más el crédito de incumplimiento bien de una obligación. Entonces, principalmente nosotros podemos trabajar o cuantificar el riesgo de crédito mediante una pérdida esperada, donde esta pérdida esperada está calculada

00:05:18:26 principalmente por una posición. Actual, principalmente al momento en que fue traído esos valores que me debe traer esa valor presente multiplicado por uno menos o multiplicada por la leche o uno menos la tasa recuperación. Por la probabilidad entrando en default.

00:05:48:08 En efecto. Entonces, principalmente hoy existen muchas metodologías, muchas metodologías que permiten cuantificar lo que es la probabilidad de incumplimiento o la famosa probabilidad de falta. Y una de éstas principalmente comenzaron con el modelo de Escort Deadman en 68, que en parte él quería o lo que hizo fue utilizar un análisis discriminante como técnica estadística para predecir la

00:06:07:20 quiebra de los quiebres de las empresas. Analizando principalmente 66 empresas y esto fue en el año 68 y principalmente lo que hizo fue aplicar este método, que es un análisis discriminante para encontrar una combinación lineal entre las características.

00:06:37:27 Bien para poder discriminar entre la empresa que posiblemente quiebre y las que no quiere. Entonces él propuso con 67 empresa y 22 predictor, es decir, 22 variables. Hizo un modelo de las cuales de esas 22 variables calificaron solamente cinco y cinco variables fueron capital de trabajos sobre activos totales Utilidades retenidas sobre activos totales Editas horas totales Valor

00:07:03:23 de mercado sobre pasivo Ventas sobre activos totales. Estas horas fueron las cinco variables, en parte que discriminaron de mejor forma las empresas que posiblemente o tenían mayor probabilidad de entrar en quiebra. Hoy en día principalmente ocurre con el ejemplo que les voy a mostrar ahora para calcular esta probable incumplimiento, den para y así poder calcular la pérdida

00:07:23:04 esperada. No solamente existen para el mundo empresas, y no solamente en términos de poder analizar la quiebra, sino también cuál es la probabilidad de que un cliente entren, entren en default, es decir, que no me paguen bien. Y es lo que les quiero mostrar con un ejemplo en esta etapa inicial.

00:07:55:22 En un segundo. Todo en. Si. Se ve estaba cierto. Las dos pantallas se podían confirmar. Sí, Frank. Perfecto. Bien, entonces lo que tenemos acá. Es un Duffy. Excepto por tema de tiempo. Me gustaría ir por ahí llamándoles para ir explicándoles.

00:08:15:24 Pero principalmente, lo que les voy a mostrar acá es una base de datos. Bien. Es una base de datos que. Es otro. Es una base de datos que en parte son alrededor de 13 variables, la cual está la variable default.

00:08:35:08 Es la variable que yo quiero encontrar, variables que me expliquen esta variable. Esta variable aún podría ser por ejemplo. Personas que cayeron en mora, es decir, que hay personas que cayeron en default y caer en default no necesariamente es que la persona pasó un día y no pagó.

00:09:00:18 O sea, la definición de default puede estar definida o por la. Las TMS del. Regulador, y también está definida también por otro la organización derechamente que es entrar en default. Entonces nosotros acá podemos decir que entró un default o es una persona uno cuando por ejemplo, la persona que nace para conducir 80 días, es decir, ya pasó

00:09:22:27 sobre los 180 días y el persona ahí se marcó como que le fue bien y cero. Puede ser que pueden haber otras criterios para definir esa marca de default perfecto. Pero la más clave es en parte en función a lo que tú quieres estudiar para poder revisar el modelo y los que son marcados un cero decir las

00:09:50:20 personas que no entra un default o vamos a decir los buenos y los no buenos bien son personas que posiblemente o empresas que están bajo el o niveles de mora de 180. Y es cierto. Entonces yo con una ingeniería datos que usualmente tienen las empresas, yo tengo que ser capaz de lograr juntar.

00:10:08:16 O machacar la probabilidad o decir la marca de default en función a sus características y sus características. Edad. Ni el de educación. Años de permanencia de la empresa Ingresos del hogar ratio deuda. Ingreso de la tarjeta de crédito.

00:10:33:25 Otras deudas. Perfecto y yo puedo tener un sinfín de variables más porque en parte si tú tienes la información del cliente puedes tener información de cliente. Por ejemplo, en términos transaccionales, cuál es la máxima transacción? Un día, en un mes, tener evolutivos, etc Tú puedes tener un sinfín de variables que tú puedes intuir que podrían explicar tu

00:10:54:27 variable de. Bien. Ahora existen variables. Que por normativa tú no puedes colocar. Es decir, por ejemplo, tú no puedes provocar sexo si es hombre o mujer. Por qué? Porque eso en parte puede inducir a una multa por el supervisor, porque es una variable que puede ser discriminatoria.

00:11:11:22 Perfecto. Puede ser muy buena variable, estadísticamente hablando. Que puede discriminar entre los buenos y malos pagadores. Pero es una variable que induce la discriminación. Por lo tanto, lo que no quiere el regulador, a pesar que sea muy buena variable.

00:11:38:07 Discriminador, discriminatoria. Estadísticamente hablando. Entonces, principalmente, como toda base de datos va a tener ciertos problemillas, por ejemplo, como missing varios. Ya, o datos a ti o datos atípicos que nosotros tenemos que ser capaces de poder hacer tratamiento sobre estos datos atípicos y estos tratamiento de mis invasivos.

00:11:58:00 Entonces vamos a comenzar. Y acá, si hacemos una tabulación de lo default, tenemos la variable fort. Tenemos uno. Son 129 sobre 500. Que representa un 25% de la muestra que entrará en default y un 74% que entraron que no entraron bien.

00:12:14:04 Claramente son que tienen que ver mucho más datos y mucho más variables, pero por termino de ejercicio, esto ya después se puede extrapolar a más información y a más variables. Entonces vamos, lo que vamos a comenzar a hacer es hacer separar una muestra.

00:12:36:22 Bien. Y que es separar una muestra? Es derechamente decir oye, yo necesito separar, tener una muestra de estas 500 observaciones y tener una muestra que año me permita entrenar mi modelo. Bien donde este modelo logre encontrar patrones. Entre los para discriminar entre los buenos y malos pagadores.

00:12:57:24 Y también necesito tener una muestra de validación. Perfecto. Y para qué me sirve esta muestra de validación? Para validar si realmente mi modelo aprendió o no mantuvo patrones? Porque yo no puedo. E inducir a un riesgo modelo que se llama hay que implementar un modelo si este modelo yo no lo he validado.

00:13:19:08 Entonces una forma de validar los sin ponerlo en producción es poder separar las muestras entre el entrenamiento y validación. Yo acá utilicé una proporción 80 20, es decir, voy a utilizar 80%. De la muestra de los 500 observaciones para entrenar mi modelo y un 20% de los 500 para validar el modelo.

00:13:43:25 Y esto que conlleva? Esta es. Es decir. Voy a tener. Voy a tener 400 400 observaciones como más entrenamiento y se muestra para mostrar validación. Bien. Y acá en parte ya voy utilizando ciertas herramientas que te ofrece Statham, es decir, yo voy a cargar todas las variables que yo tengo eventualmente.

00:14:04:05 Claro, yo acá tengo 11 variables, pero en alguna ocasiones puedo tener 100 variables en esta variable. Entonces para yo trabajar no una por una, sino cargarlas o trabajar. Con todas al mismo tiempo. Yo almaceno todas estas variables desde un blog.

00:14:25:23 Entonces este comando que hace llamar todas las variables que cumplan estas características, me tira un tanto. Es decir, que tomo esto. Y no, no considera estas variables. Entonces muéstreme todas las variables que no sean estas tres. Bien. Son todas estas y todas estas variables?

00:14:38:07 Carguen dentro esta variable global que se llama X. Bien, esto es lo primero que vamos a comenzar a hacer. Es un tratamiento de datos atípicos. Y cuál es el tratamiento que yo utilizo para datos atípicos? Es algo bien sencillo.

00:14:54:02 No es nada sofisticado. Es simplemente. Yo voy a calcular una variación porcentual. Entre la media. Y la mediana. Perfecto. Por qué? Porque recuerden de que la media es una medida sensible a los datos atípico y la mediana no?

00:15:14:27 Por lo tanto, si yo observo que hay una alta variación. En el la variable. Yo puedo decir de que la variable tiene dato satírico porque está creando que la media se acerque. En efecto, y si no ocurre eso, la variación va a dar muy poco.

00:15:30:29 Va a dar 1%. 2%. Pero si es una variación de 50%. Eso me está diciendo que hay algún dato dentro de esa variable que está generando que la media se me disparó? Perfecto. Entonces si la variación porcentual es mayor al 15%.

00:15:55:22 Y de que voy a hacer es una wish, un método que se llama Winsor Ización y Winsor Ización lo que hace, dice Voy a tomar el 1%. El 1% o el 1%, o el percentil 99% hacia arriba. Todo lo que está sobre el percentil 99%, que lo acepte o que lo lleve al intervalo superior.

00:16:20:15 Y qué es el intervalo superior? Es. La media más tres veces más tres. Desviación estándar. Perfecto. Entonces yo lo que hago en parte es todo lo que está sobre el. El percentil 99 lo achaco a lo que es el intervalo de confianza superior, que es la media más tres desviación estándar.

00:16:38:06 Entonces todo esto es lo que va a ir, va ir recorriendo. Susana te va a ir recorriendo todas las variables. En este caso van a ser estas variables que guarden la variable global, van x. Bien y acá en parte lo que va diciendo.

00:17:00:20 Mira lo años de permanencia dice que hay cero 0,17. Bien por 100, o sea un 17% de. De. Un 17% de variación. Entonces esta variable lo que va a ser va a entrar dentro este proceso de tratamientos de datos atípicos.

00:17:28:27 Bien. También está lo que es ingreso, hogar. A quitar el ratio de tu ingreso deuda TC. Otras deudas. Bien, osea, casi casi la mayoría está sobre ese cero, 15 o 15%, mejor dicho. Bien, entonces luego que ya tengo mi talón limpio de datos atípicos, lo que yo voy a ir haciendo, haciendo el tratamiento de mis símbolos y

00:17:43:00 existen diferentes formas. Por ejemplo, yo cuando estaba trabajando en el banco, iba haciendo los modelos de riesgo de crédito. Existe, había un cuaderno metodológico donde ese cuaderno metodológico lo que hacía era proponer un cálculo o un tratamiento del mismo en varios.

00:18:02:11 Pero no imputando el mis címbalos, es decir, no reemplazando la celda vacía por un valor, sino lo que hacía y iba agrupando los valores. Y le iba colocando un peso. Entonces ese mismo Valium podía caer dentro un grupo.

00:18:27:21 De valores. Que en parte toda esa variable al hacer ese tratamiento tenía que cumplir una función que era lo monopólico. Bien que tiene esa monotonía. Entonces es importante poder saber los distintos métodos y los distintos supuestos para saber cómo hacer el tratamiento de mis inválidos.

00:18:52:26 Bien, yo hace tiempo hice una, hizo una. Es un blog. Y como una columna. Por ejemplo en en que cuáles son los supuestos que se deberían cumplir para ser un óptimo? Tratamiento y missing values sin modificar. El comportamiento de la variable y si introduce ruido a la variable, bien ya de por sí hacer un tratamiento de mis

00:19:12:16 címbalos, introducir ruido. Pero lo que tú quieres es introducir menos ruido en el sentido, sin modificar la comportamiento de la variable. Bien, entonces. Para esto tenemos que separar dos variables las variables que son dicotómicas categóricas y la variable que son de estilo continuo.

00:19:37:15 Entonces, las variables categóricas o dicotómicas, y si esa variable tiene, por ejemplo, un missing values? Tú le pones una categoría adicional. Es decir, si tú tienes variables dicotómicas cero y uno y ese mix y hay varios que le pones a ese values dos, porque tú lo que estás haciendo con eso que tú le estás representando, que el

00:19:56:15 missing values es un valor y ese valor tú lo estás representando con esa categoría. Dos. Bien. Y cuando digo valor es que puede ser referente o puede ser semejante a información. Esa información en parte es el yo la veo representada con una categoría adicional.

00:20:17:06 Y por otro lado, cuando tengo las variables que son más estilo continua, por ejemplo la edad, en este caso que tengo mi címbalos es existen diferentes formas, formas mediante regresiones, formas del estilo. Por. Por medias, por mediana, por agrupamiento.

00:20:39:26 Y lo hice acá yo en este caso es si la variable DAP. Cuando el default es igual a cero, calculan un promedio. Ven acá. Es decir, aquí calculé un consumara. Es una estadística efectiva en que voy a sacar el promedio cuando el default diga igual a cero.

00:20:57:27 Es decir, reemplacé lo missing values. De la variable edad. Cuando el default de cero con el promedio de los ceros. Y reemplacé el promedio y la edad. Cuando el default es uno con el promedio de los uno perfecto.

00:21:23:05 Pero hay algo importante que tu vas a reemplazar siempre y cuando los valores. Si tu variable no supera el 15%. De los missing backs. Por qué? Porque si tu variable supera el 15% del mínimo sin valiums, corres el riesgo de introducirle o cambiar la comportamiento de la variable.

00:21:43:14 Y lo que come. Como les comenté. Lo que no queremos es cambiar el comportamiento. La variable es hacer este entrenamiento porque ya se está representando por otra variable del chart. Bien, aquí repasamos lo de la edad. Y aquí, bueno, acá me dice que la variable edad y la variable educación son los que tienen varios.

00:22:05:11 Bien, y si dividimos 18 sobre 432 eso es menor al 15% o disculpen 5% y 19 sobre cuatro 81 es menor a 100%. Hacemos tratamiento? Sí, el mayor. No, no hacemos tratamiento y bla, bla. Podemos eliminar esa variable porque es un riesgo.

00:22:23:00 Bien, que introduzca ruido. Mucho ruido al modelo. Y aquí reemplazamos el nivel de educación perfecto en educación está como dicotómico o categórico. Por lo tanto, como categórico calculo el máximo. Es decir, si el máximo nivel de educación es cinco.

00:22:41:24 En mi sim Valium. Le voy a hacer el cinco más uno. Es decir, iba a poner un seis. El mismo lo va a representar como un seis. Bien. Entonces ya tenemos en parte muestras de desarrollos. Tratamiento de mis inválidos y lo que es el.

00:23:02:11 Datos atípicos. Ahora bien, cuando nosotros hacemos un modelo, idealmente poder hacer un análisis previo, claramente ahora tenemos pocas variables, pero en ocasiones tenemos muchas variables. Yo en mi caso, yo he hecho modelos por poseer egocéntrico ni mucho menos, porque en parte la ingeniería, el dato.

00:23:18:21 Provee esa cantidad de esa cantidad. Es decir, mil variables, 1500 variables, 600 variables. Por lo tanto, tú no puedes llegar y arrojar mujeres con 600 variables. Tienes que hacer un filtro y uno de los filtros que tú podrías hacer es un filtro por correlación.

00:23:38:05 Por ejemplo. Ya que en parte, a causa de esta variable casi ninguna está correlacionado sobre el 70%. Pero otra forma principalmente de eliminar variables es mediante una hipótesis. Y acá les voy a mostrar que es esta hipótesis. Lo que yo quiero.

00:23:57:24 Lo que yo quiero. Déjeme ver. Dónde está? Un lápiz? Yo no tengo lápiz. Lo que yo quiero es discriminar. Suena fuera la palabra, pero yo quiero discriminar entre los yo digo, yo quiero tener variables que discriminen entre los buenos pagadores y los malos pagadores.

00:24:28:19 Exacto. Esas son las variables que yo quiero. Perfecto. Entonces este análisis preliminar. Lo que te dice que estadísticamente. Cuáles son las variables? Que son, que estadísticamente son, que logran discriminar como buenos y malos pagadores. Y una forma de hacerlo es una prueba de diferencias de media o con un análisis gráfico.

00:24:48:05 Es decir, la lástima que no tengo la reserva, pero. Pero bueno, esto se lo explico. Si mi la imaginación espero que sirva que si yo grafico una variable, por ejemplo la variable variabilidad. Y tengo dos jugadas. Dos distribuciones de Gauss.

00:25:11:07 Uno de la misma variable edad y creo discriminar entre los mal pagadores y buenos pagadores. Yo esperaría que las dos gatas que una simboliza los malos favores y otra la buenos pagadores, las dos guapas no estén sobrepuestas. Yo esperaría que estas dos variables estuviesen hacia el lado.

00:25:33:01 Estas dos huacas estarían no sobrepuestas, sino un poco como no trasladadas. Así, sino principalmente un poco más separadas. Y qué significa esto de que principalmente la variabilidad. Tiene información que me puede discriminar entre los buenos pagadores y los mal pagadores.

00:25:50:22 Pero por qué? Si está sobrepuesta esta variable no tiene información? Porque la misma datos que están abajo, donde se concentra la cúspide de la distribución, en parte explican el mismo comportamiento en mi momento. Y buenos pagadores y mal pagadores.

00:26:07:04 Pero si están así. Ten. Tengo diferentes medidas. Por lo tanto, tener diferentes medias. Tengo información para lograr discriminar entre los malos y los buenos. Bueno, eso es un análisis gráfico visual, pero también lo puedo hacer de unos términos estadísticos.

00:26:26:25 Entonces yo hago la media de los grupos humanos, es decir, de los malos pagadores y grupo medias dos, que son de los malos pagadores. Y para hacer este grupo yo necesito hacer una prueba de fichar un análisis de varianza y con esto yo puedo hacer la diferencias de grupo, la prueba hipótesis, diferencias de grupo.

00:26:52:02 Y acá me dice principalmente que la hipótesis nula es que las medias son iguales. Entonces. Y la hipótesis alternativas que son distintas. Por lo tanto. Al tener valido de un 11%. Ya puedo decir que la edad no es una buena variable que me discrimine la variable de.

00:27:12:24 Por qué? Porque no estoy. No estoy rechazando la hipótesis nula. Y eso quiere decir que las medias de los malos pagadores y los buenos pagadores de la variabilidad son iguales, estadísticamente hablando. Bien. Al observar lo que está en el cero están los años de permanencia.

00:27:40:07 Cuál es la diferencia entre sexo anal? Los años de permanencia y los años de permanencia en el área se basan. Entonces tenemos los años de permanencia. Que discriminatoria, que buena variable para discriminar los buenos en malos pagadores. Tenemos la variable año de permanencia en el área y años de permanencia y el ratio deuda ingreso bueno y la

00:27:57:16 deuda tarjeta de crédito y otras deudas. Pero si observamos el test, el mayor T en valor absoluto es ratio del de ingreso, o sea la de este stock de variables que yo tengo. La variable que mejor discrimina los buenos y malos pagadores.

00:28:19:15 Esta variable ratio de ingreso. Bien. Entonces hoy puede ser otra herramienta que a mí me permita poder eliminar variables. Entonces vamos a estandarizar las variables dejando en un rango entre cero y uno. Disculpen. Estandarizar la variable. Es decir, va a quedar entre tres y tres.

00:28:45:04 No normalizar. Normalizar rango, serie. Pero estandarizar. Tenemos -3 a 3. Bien. La gran mayoría de las veces hay un 99% de las veces. Bien. Hoy escandalizamos y arrojamos el primer modelo. Y yo lo que voy a utilizar acá va a ser un método que me ofrece Stata, que se llama el método Estibaliz, y este es que hace

00:29:10:00 y dice Oye Franco, entrégame todas las variables que tu tengas, entrégame tu variable y tu variable default y entrégame todo el stock de variables independientes o todos variables x y señálame la muestra de entrenamiento. Entonces lo que va a hacer en partes iguales es que va a ser una especie de de optimización.

00:29:39:06 Ya iba a comenzar a iterar diferentes modelos, diferentes combinaciones de modelos, o sea, diferentes combinaciones de variables. Con tal que cumpla la estadística. Es decir que. Si va a sacar variables que las saque al 10% y si va a dejar variables que las deje al 5% de significancia y también un ciertos criterios de métrica de ajuste.

00:29:54:21 Perfecto. Entonces lo que me va a arrojar va a ser el mejor modelo, la mejor combinación de modelos con tal que cumplan estos parámetros que le comenté. Bien. Al ejecutar esto encontramos que de las 13 variables que existen.

00:30:20:24 Nos dejó. Deuda TC. Deuda, años de permanencia, permanencia en el área, ingresos de hogar, radio de ingresos. Y se dan cuenta son tan significativas y coincidentemente. Son las mismas variables que quedaron significativas acá y que les quiero decir.

00:30:38:07 Adicionalmente, esto de que no es necesario, si tú quieres ver el impacto de algunas variables o de un stock de variables, no es necesario que arrojes un modelo. Acepta diferencias de media y ya te va a dar una idea de cuáles son las variables que discriminan los buenos y malos pagadores.

00:31:00:04 Perfecto. Y principalmente el pseudo cuadrado es de un 24% porque es cuadrado, porque esto es una fusión logística no lineal, no es una de las redes lineales, perfecto, por eso es un pseudo recuadro. Entonces vamos a calcular la probabilidad.

00:31:19:07 Y al ver la probabilidad no dice ay, mira este cliente. La probabilidad de que entren en default es de un 52%, este es un 23%, este de un 1,195%. Y así es que abajo. Bien. Entonces para yo saber qué tan bueno es mi modelo.

00:31:38:16 Yo tengo que comparar lo que hemos observado con respecto con la probabilidad o lo estimado por el modelo. Pero qué es lo que sucede? De que lo observado está entre cero y cero uno. Pero el modelo me estimó una probabilidad algo está entre cero y uno.

00:32:02:19 Entonces yo tengo que para poder comparar el para evaluar el primer modelo. Yo tengo que en parte. Transformar esta probabilidad al mismo lenguaje o la misma magnitud o escala. Que la variable de fatto. Que tengo que pasar la probabilidad a o cero o uno.

00:32:18:26 Por lo tanto. Yo tengo que definir un umbral y este umbral puede ser cero cinco. Es decir, todo lo que está sobre cero cinco es uno, y todo lo que está bajo cero, cinco o 50% es cero. Pero qué es lo que sucede?

00:32:46:26 De que eso es bueno, siempre y cuando. Siempre y cuando yo tenga un balance. Entre las muestras. Entre mis clases cero y uno. En este caso siempre en la vida real. Hoy siempre va a existir un balance raro, que exista un balance, es decir, una misma cantidad observaciones para cero y para uno.

00:33:09:04 Bien. Por lo tanto, aquí, como tú apuntas más un modelo de gestión de riesgo, no un modelo académico que quiere encontrar causalidades. Tú puedes utilizar un umbral distinto al cero cinco. Entonces. Para no ir probando. Cero 503 020 607.

00:33:31:19 Yo voy a utilizar la bondad de la del blog. Entonces yo voy a probar un umbral de ceros, de ceros hasta ceros X y que ya es del 5% del 5% hasta llegar A06. Entonces lo que voy obedeciendo es que va a ir probando diferente umbral y me voy a ir calculando lo que es la curva roca

00:33:52:10 Perfecto. Que es una probabilidad. Vean, veámoslo al principio como un acierto. La curva os va a decir Oye, mira, tu modelo tiene un acierto. No es eso precisamente. Pero veámoslo para. Para entenderlo sencillamente un acierto. Entre más cercano a uno, mejor.

00:34:13:04 Entre más cercano a cero, peor. Bien, entonces voy a ejecutar esto. Y acá probó. Aquí se dan cuenta hasta la curva roca para la muestra de entrenamiento. Para la muestra de validación. Entonces lo que me va a guardar es esto, estos valores.

00:34:32:00 Bien aquí probó con otro umbral 75 para entrenamiento, 70 para validación. Aquí otro umbral y me da valor. Y esto lo aguardando bien en este frame. Y ahora yo lo voy a graficar. Déjenme mostrarle acá como quedó la base.

00:34:56:01 Aquí está lo diferente umbral 026 25. Y esto es lo que dio en la curva como acierto. Cero 25 Dio esto. Cero tres dio esto. Cero 35 Digo esto entonces para ver cuál umbral considerar. Yo lo grafico. Bien.

00:35:28:20 Y acá podemos observar lo siguiente. Entonces acá lo que tenemos, la curva, la curva azules, entrenamiento en cierto entrenamiento y la roja es la variación. Entonces el cero dos principalmente da una buena métrica, así como 102, porque de partida no tiene mucho distancia entre lo entrenamiento y validación, porque si tiene mucha distancia significa que yo me he

00:35:45:14 estado beneficiando el modelo que significa o que está aprendiendo mucho de la muestra entrenamiento, pasándose los detalles y cuando esos detalles lo aprende y lo valía con la muestra de validación no son los mismos porque los detalles son de la muestra evaluación no nomás.

00:36:06:10 Por eso es importante que aprenda patrones y no detalles, porque los patrones se pueden extrapolar a otras muestras. Entonces evaluando distancias y que las dos líneas estén lo más superior posible, observamos que lo mejor sería cero tres. Porque esto da.

00:36:28:01 76% en la muestra de aviación y 75 en la muestra de entrenamiento. Perfecto, porque si ya pasó a cero 35 ya observamos que hay mucha distancia y si pongo cero cuatro claro, no hay distancia, pero bajo A0A0 72 y entonces prefiero dejarlo acá en cero tres.

00:36:46:27 Entonces el umbral va a decir todo lo que esté sobre A03 va a ser uno, y todo lo que sea inferior a A03 va a ser cero. Bien. Entonces lo que tengo ahora, la probabilidad la pasé a la misma escala.

00:37:10:12 Que la mueve. La muestra de. De la variable. Perfecto. Entonces en parte el modelo final, o sea, este modelo que nosotros probamos con cero tres, tenía 75% de acierto, entrenamiento y 76% aleación. Buen modelo de un buen modelo fue aprobado por el negocio.

00:37:27:11 El negocio y le gustaron las variables que quedaron por Portfolio Manager. Entonces eso pongámoslo en producción. Perfecto. Pero antes de ponerlo en producción. Tenemos que ejecutar el modelo final. Y que es el modelo final? El modelo sin muestras de entrenamiento y sin muestras de validación.

00:37:43:09 Porque recuerden que nosotros utilizamos las muestras para poder entender el modelo y encontrar el mejor modelo. Pero ya cuando tú decides poner ese modelo en producción, tú tienes que ejecutar el modelo final que es utilizando las muestras. Entonces.

00:38:02:11 Utilizando las mismas variables que calificaron. Hago la predicción. Bien. Y esta es la fricción del modelo final. Y aquí está el modelo final, en parte con utilizando las 500 observaciones. Bien, si se dan cuenta, dio prácticamente lo mismo y un poquito mejor de pseudo cuadra.

00:38:39:02 Desconocido Bien. Y acá están. Las probaría. Derecha. Ant. Entonces usualmente. Usualmente el negocio. No vela por usar la probabilidad. Lo que vela es por tener un score crediticio. Es decir. Dicen Oye. Cuando Franco va al banco a pedir un crédito, ellos no dicen la probabilidad en cumplir de Franco es de un 50%.

00:39:01:29 No? O sea, en parte sí, pero ellos. Ellos lo ven con un socorro. Pero ese score se construye con la probabilidad. Entonces yo voy a ese escort, lo voy a construir. Vas a 500 que doble score. Perfecto. Entonces 500 más 20 sobre el logaritmo natural de dos por la probabilidad.

00:39:26:10 Y acá. Voy a tener esta probabilidad. Traspasada o representada a través de un score. Entonces el score por es bueno el score porque el score definen semaforos. Y los semáforo están. Zona Verde. Zona gris. Zona roja. Entonces ellos dicen.

00:39:41:15 Y eso es lo que están en zona verde. Si van a estar sobre los 500 o los 500 puntos, zona gris va a ser entre los cuatro, 50, 500 y zona roja va a estar en bajo los cuatro 50.

00:40:00:14 Y eso es lo definen en función a la riesgo que tenga. Perfecto. Entonces, claro, los que están en verdes pasan directo. Los que están en gris lo evaluamos por un analista de riesgo que lo guía, que están en rojo derechamente, pues han rechazado.

00:40:31:24 Bien, entonces ellos traducen esa probabilidad a este score crediticio. Perfecto. Y por último, para terminar, es importante siempre que al momento de que ustedes desarrollen los modelos, este modelo esté validado por el negocio. Porque el que está construyendo el modelo es un área técnica donde esta área técnica va a utilizar, va a entregar el modelo al área

00:40:56:19 de negocio que usualmente son los porfolio manager y van a decir me gusta el modelo, cumple con la restricción, con los requisitos, no discrimina, tiene bajo riesgo reputacional si utilizamos tal variable, etcétera bien. Por eso es importante cada vez que uno desarrolle un modelo, siempre variando con el laria que levantó la necesidad de ese modelo.

00:41:17:18 Bien. Así que voy a dar el pase a las consultas. A las dudas. No sé si. Elisa. Me podrías ayudar? Sí, que sí, que consultas. Claro que sí, Frank. Por acá tenemos algunas. Muchas personas están solicitando de pronto el código.

00:41:38:15 El archivo que estás presentando se lo podríamos compartir. Soy Ed. Ok, hagámoslo. Probando uno. Exacto. Entonces, si gustan. Me pueden decir al correo que he enviado en el chat y con mucho gusto se los hacemos llegar. Y por acá porque no?

00:42:09:25 La variable gerber? Disculpa. Nos dicen, porque de pronto lo que estábamos en en respecto a lo que estabas mostrando. Nos preguntan por qué no la variable year there? Los años de permanencia. Lo que pasa es que lo años de permanencia va a depender, recuerden, en función a la estadística, a la estadística que basta, a la táctica inferencial

00:42:33:10 de la significancia estadística. Sir Steve Way dice que esa mujer, si es en esa variable, no califica estadísticamente hablando, no la va a incluir dentro como la mejor propuesta. Porque por acá nos preguntan los puntos de corte de la selección haríamos en función al error alfa y beta que.

00:42:53:00 Los puntos de corte, o sea, los puntos de corte. Para. Para. Para acortar las probabilidades y basarlas de uno cero. O los puntos de corte de tolerancia al frío. Para definirlo, los Cort de hoy se podrían quebrar. Ok.

00:43:16:12 Nos pueden ayudar en el chat. Acá nos piden el favor si puedes explicar otra vez la fórmula del score. Perfecto. El score. Principalmente lo que lo que. Propone es. Transformar la probabilidad aún es A1A1 valor o un rango que va entre cero y mil.

00:43:35:09 Entonces, usualmente, o por lo menos como lo hacíamos donde yo estaba trabajando, era transformar esa probabilidad en base a 500. Perfecto. Entonces todas las probabilidades que me va a entregar el modelo lo va a traducir en ese score.

00:43:53:17 Entre se viene. Bien. Usualmente el mínimo es 400 y el máximo es 600. Bien, pero nunca llega a cero o nunca llega. Siempre va a ser entre 400 y 600 y pico más o menos. Perfecto y es el negocio lo que lo utiliza.

00:44:17:19 Hace un semáforo con esa distribución del score y define esos valores o colores verde, amarillo y gris, gris y amarillo. O que nos preguntan si se puede analizar la relación de la variable edad. La variable edad es una variable.

00:44:39:05 Recuerden de que no, no califico. No calificó dentro de lo de lo que es el análisis previo, sean cuales sean cosas que se acuerdan de un 11% de vibranium. Entonces al dar un 11% de varios significa que la medias entre grupo uno y grupo dos causan referencia a la al cero y uno de foul.

00:44:59:06 Son iguales, estadísticamente hablando. Incluso cuando nosotros arrojamos el modelo final. Se dieron cuenta en ningún momento pareció como que calificó la variabilidad. Entonces, el análisis previo igual nos sirve para filtrar ciertas variables, no todas, pero por lo menos nos sirve para filtrar alguna variable.

00:45:14:10 O que Franco, en complemento a la pregunta que te ha hecho anteriormente, nos dice que sean los puntos de corte para determinar si cumple o incumple. Ahí se genera un error alfa o beta, comparándolo como el costo de oportunidad del modelo.

00:45:32:23 Sí, lo que comenté en parte es siempre hay un tema con el balance de las clases. Por lo tanto. Si tú pones 105. Este cero cinco va a ser muy muy a sido muy estricto en funcion a la naturaleza de tu base de datos.

00:45:58:21 Por eso uno tiende a poder. A poder suavizar ese cero cinco en función. A no favorecer el uno o a la clase minoritaria, sino principalmente a encontrar un óptimo. Y ese óptimo tú lo encuentras optimizando lo que él desempeño en el pensamiento y en la muestra de validación.

00:46:19:03 Gracias, Frank. Con respecto al R cuadrado, piensas que es bueno para el modelo final que obtuviste? O sea, el era cuadrado a partes, un seis al cuadrado. Y recuerden el problemas que tiene el cuadrado que los cuadrado. Recuerden que tienen un problema de.

00:46:38:16 De no ver, de no lograr discriminar las variables que realmente importan o que realmente están entregando información al cuadrado. Va a aumentar siempre y cuando. Tú le agregas más variables independientemente si esa variable que tú estás agregando es buena o mala, el va a aumentar igual.

00:46:57:04 Por eso existe el recuadro ajustado que tiene el mismo problema, pero tiende a disminuir un poco. Es una buena medida, pero preliminar. No me guiaría para poder discriminar si me quedo o no me quedo con el nuevo. Ok, vamos con otra consulta.

00:47:15:24 Cuando se hace la prueba de diferencia de medias con el ANOVA, qué tipo de modelos está asumiendo entre la explicativa y las respuesta? Lo que pasa es que yo hice. Recuerden el análisis. Yo hice el análisis previo. Con una diferencia de medias.

00:47:35:09 Entonces, como yo estoy haciendo una pre diferencia de medias, el stata me pregunta Oye. Estos grupos tienen apariencias iguales o desiguales. Entonces yo. Para poder responder qué poner ahí? Tengo que hacer una prueba de diferencias, una prueba de varianza que es ahora utilizo derechamente como fichero.

00:47:51:24 Bien. Y con eso hago el análisis preliminar. Perfecto. Acabamos con una última consulta que nos hacen en el chat. Dicen de dónde salen los valores que se colocan en la fórmula del score, es decir, en 20 y el logaritmo de dos.

00:48:08:08 Pero eso usualmente es un estándar. Es decir, yo utilizo el 20 para doblar el score. Si tú le pones diez, los tramos de score entre uno y otro van a ser más pequeños. Entonces yo lo coloco el 20 para dólares.

00:48:28:13 Entonces va a tener más amplitud. Bien. Si tú puedes hacer la prueba, haz la prueba con 5,10 y con 50. Y te das cuenta de que ahí te va a ampliar más los rangos del escorpión. Ok. Tenemos aquí otra consulta para modelos logísticos.

00:48:51:22 Qué porcentaje de la curva se considera adecuada? Usualmente eso. Eso se responde en función. A cuanto es aceptable por tu. Por tu departamento, por tu departamento técnico, lo cual no metodológico dicen 60 70. Y eso es muy bueno.

00:49:12:27 Perfecto. En ocasiones usualmente se utiliza lo que se llama el KS Urb. Gini y la curva ROC. Perfecto. No se utiliza solamente la vulva, también se utiliza como al contar Ginny, ks y A es el KS da 60%, 50 50% y bueno, 55% esta vez.

00:49:30:05 Y eso es lo que te queda, porque tratas de mejorarlo, trata de mejorarlo, pero aumenta poco. Por eso en parte ahora están los nuevos modelos de machine learning, algoritmos machine learning que vienen a ofrecer mejorar el poder predictivo que tienen los modelos clásicos logísticos.

00:50:01:18 Bien. Solamente que todavía el regulador. No está en ánimos de crear. Los compendio de las normas utilizando modelos de machine learning. En concreto. Bien. Por eso todavía no se pueden utilizar bien. Vale. Y por último, Franco, nos piden que si puedes indicar la dirección del blog en el que hiciste el análisis de imputación del mismo Vallejo, mire

00:50:16:07 dentro. Yo tengo una web personal donde hay ustedes pueden. Hay una parte que se llama Columnas. Las columnas lo van a dirigir a lo que son todas las columnas que he publicado. Técnicas y no técnicas. Es lo más memorizado.

00:50:33:09 El dice columnas a las columnas técnicas y las columnas no técnicas. Y ahí van a encontrar uno que se llama Supuestos. Para el tratamiento de los símbolos. Perfecto Franco. De momento no tenemos más consultas que les agregara algo antes de finalizar esta sesión.

00:50:55:08 Bueno, agradecer por la participación. Recuerden que hay cursos que hemos trabajado por software con temas de machine learning y también temas de programación conectada para que lo puedan visualizar hoy. Ahí les voy a mandar el link de esos cursos a Sincrónicos.

00:51:15:10 Muy buenos y a la vez baratos. Para mayor información respecto al software o en temas relacionados, no dude en contactarnos a través del correo electrónico, entrenamientos a software, guion, ya.com o visitar nuestra página web triple OLE o punto Software Guión Ya.com.

Riesgo de Crédito con Stata 17


Hoy en día la gestión de riesgo de crédito ha evolucionado en diferentes aristas para anteponer planes de acciones a la toma de decisiones basadas en información. En esta presentación abordaremos los conceptos y aplicaciones de herramientas analíticas para realizar la gestión de riesgo de crédito esto mediante un ejemplo práctico en Stata.

Etiquetas relacionadas

  • Datos
  • Excel
  • Gestión de Riesgos
  • Minimización
  • Pronósticos
  • Riesgo
  • Simulación de Montecarlo

¡Comparte este video con tus colegas!

Compartir

Ver más

Cotizar
Próximos
Eventos

X

Mis cotizaciones:

Comentarios a tu solicitud:

Cotizar