SS_Logo

Aplicaciones de los algoritmos de aprendizaje no supervisado: Clasificación de riesgos ambientales con Stata

Autor: Felipe Benavides Martínez. PhD / Portafolio: Quantitative / Vie. 22 de Abr de 2022

Transcripción de este video

00:00:45:21 Somos un equipo autogestionado, responsable, proactivo y autónomo, con gran compromiso social, aportando el pensamiento científico y el desarrollo latinoamericano, promoviendo el uso de software para investigación en todas las áreas del conocimiento. Generamos contenido de alta calidad teniendo en cuenta las distintas necesidades del mercado. Realizamos actividades gratuitas constantemente. Abordamos temáticas vigentes, aplicaciones especializadas y elementos metodológicos que te permiten interactuar y generar redes para la difusión de tus proyectos.

00:00:55:19 Contamos con servicio de asesoría, consultoría y acompañamiento personalizado, certificaciones internacionales, entrenamientos especializados y talleres prácticos.

00:01:10:26 Nuestro principal objetivo es promover el uso de tecnología en el campo investigativo, generando un impacto significativo en la región y de esta forma contribuir a la creación de comunidad para compartir conocimiento.

00:01:51:00 Te invitamos a ser parte de este gran equipo Software Shop. Visita nuestra página web y conoce nuestros servicios. Software Shop La empresa líder en la implementación de herramientas analíticas y software especializado en Latinoamérica, le da la bienvenida a esta presentación. En esta oportunidad tendremos el acompañamiento del instructor Felipe Benavides, PhD e instructor del portafolio cuantitativo en Soft Workshop, con experiencia en la aplicación de modelos estadísticos para las ciencias de la salud biomédicas, agrícolas y ambientales.

00:02:25:23 Felipe ejerció la docencia universitaria en maestría y doctorado y realiza asesoría científica a grupos de investigación, sectores gubernamentales, ONG y empresas privadas para la creación, validación y aplicación de diseños experimentales y modelos bio estadísticos. Bienvenida. Hola, buenos días y el día de hoy vamos a trabajar este webcast que se llama Aplicaciones de los algoritmos de aprendizaje. No super no supervisado para clasificación de riesgos ambientales.

00:03:02:19 Constatado específicamente. Entonces vamos a usar una algoritmo de aprendizaje automático no supervisado o machine learning no supervisado para hacer la clasificación de unos eventos ambientales y poderlos jerarquizar en diferentes categorías de riesgo, ya sea un riesgo alto, un riesgo medio, un riesgo bajo, etcétera. Tenemos participantes del Ministerio de Economía de Colombia, de la Universidad de Guadalajara en México, del Instituto Colombiano Agropecuario en Bogotá.

00:03:09:00 Desde Antioquia. Desde Bogotá. Desde Durango en México. Desde Lima, Perú. Muy bien.

00:03:44:28 Bueno, hemos entonces en este título. Vemos en este título del webcast la palabra clasificación, la palabra ambiental y la palabra riesgo, pero de la palabra algoritmo de aprendizaje automático. Y vamos entonces a empezar a ver algunos detalles de cada uno de estos tres temas que son principales para poder luego, cierto, sí, pasar a un ejercicio práctico con los datos en stat primero.

00:04:25:10 Entonces vamos a hacer la revisión de algunos conceptos básicos muy sencillos antes de pasar a la parte práctica. Entonces, qué? Qué es la clasificación de riesgos ambientales? Primero que todo, la clasificación de riesgos ambientales es una tarea fundamental en ciencias ambientales en general. Por qué? Porque permite. Le permite a las poblaciones humanas. Y también animales y vegetales manejados, adaptarse y mitigar, realizar acciones de adaptación, imitación en caso de desastres o en caso de cambios ambientales fuertes.

00:05:19:06 Así mismo, permite optimizar presupuestos. Entonces, si se viene un riesgo ambiental, por ejemplo, una inundación o un incendio que no afecta de manera igual a todas las localidades, por ejemplo de una región, sino que afecta diferencialmente a esas localidades. Uno puede optimizar el presupuesto y saber cuánto asignarle a cada localidad. Si estamos hablando, por ejemplo, de un puesto de un presupuesto estatal en prevención de riesgos, permite priorizar, permite priorizar acciones en el sentido de que ya con ese presupuesto optimizado sí que es lo primero que yo tengo que hacer, que es lo más urgente, que es lo más necesario y lo más importante en el tiempo.

00:06:01:02 Y qué puedo dejar para después? Permite tomar decisiones robustas, que son aquellas decisiones, por ejemplo, de adaptación, las cuales tienen estabilidad ante diferentes factores externos. Si se mantienen firmes, independientemente de lo que pueda pasar y lo más importante que nos permite salvar vidas. Ahora bien. Que es clasificada. Nosotros clasificamos todo el día. El mismo lenguaje humano es un ejercicio intrínseco de clasificación.

00:06:38:20 Nosotros lo clasificamos todo, clasificamos horas, clasificamos peligros, clasificamos especies, clasificamos personas, clasificamos necesidades. Cierto. Y esta clasificación de lo que se trata es de agrupar entidades en función de los atributos de esas entidades. Por ejemplo, aquí lo que tenemos es unos objetos rojos. Cierto que por esa, por ese atributo de ser rojo, los hemos agrupado en un solo conjunto.

00:07:13:00 Tenemos estos objetos que son verdes y además son hexágonos 12345, pentágonos. Y como son pentágonos verdes, pues pertenecen a un los hemos agrupado en un conjunto y tenemos otras que son estrellas amarillas. Sí, entonces hemos utilizado la forma y el color de esos elementos para poder clasificarlos. O también se dice para poder discriminar los discriminarlos entre sí, para que, por ejemplo, para poder tomar decisiones sobre esos objetos.

00:07:49:27 En el caso de las ciencias ambientales, si éstas son, por ejemplo ecosistemas, o si son micro cuencas o si son especies, lo que necesitamos es saber cómo clasificarlos en función de unas variables que pueden ser críticas para tomar decisiones sobre ellos. Por ejemplo, para saber cuál es la especie que necesita ser más conservada, tener un estatus de riesgo más alto o cuál es, por ejemplo, una cuenca en la que hay más urgencia de reforestación y restauración?

00:08:54:28 Ecología, restauración ecológica para recuperación de caudal. Descontaminar remediación, etcétera. Cualquiera. Cualquier ambiental. Cualquier acción ambiental que ustedes se puedan imaginar tiene previamente. En el caso de que tengamos varios elementos, cierto? Tiene previamente entonces una acción de haber clasificado y una vez que hemos clasificado podemos priorizar entonces estas dos actividades de clasificar y priorizar siempre van de la mano en el sentido de que cuando priorizamos lo que hacemos es que jerarquizar una serie de eventos en función de un criterio, por ejemplo, un un riesgo que puede ser alto, un riesgo que puede ser bajo un riesgo que puede ser medio o cero riesgo, por ejemplo, algo seguro si estamos hablando por ejemplo de ecoturismo a diferente

00:09:51:04 parques o zonas protegidas, parques naturales. El ecoturismo tiene como como ejercicio obligatorio hacer una clasificación y una prioridad y una priorización de riesgos. Por qué? Porque no es lo mismo ir a este lugar de acá o a este tipo de lugares que tienen alto riesgo, que a este tipo de lugares que tienen riesgo cero y riesgo de que el riesgo de cualquier amenaza que por lo tanto se caracteriza y que se caracteriza como un evento en negativo, ya sea para la salud o para la vida de las personas, una inundación, una quema, problemas de seguridad, de orden público, por ejemplo, cualquier cosa que vaya contra nuestra seguridad a la salud o a la vida.

00:10:26:23 Entonces cuando, cuando tenemos jerarquizados estos elementos en función a este criterio, podemos tomar decisiones robustas en función de cuantos recursos económicos tenemos, cuántos recursos humanos tenemos, cuánto logística tenemos, cuál es nuestro logística y cuánto tiempo tenemos? Tenemos saludos desde Honduras, la Escuela Agrícola Panamericana, desde más desde Bogotá, desde Valledupar, cesar la tierra del vallenato en Colombia. Qué bueno!

00:11:11:24 Desde Caldas en Manizales, Manizales en Caldas, perdón, desde la Universidad del Pacífico en Perú. Muy bien, recuerden hacer sus preguntas cuando quieran, dice Sixto. Podemos recibir la presentación, por favor? Cuánto costaría acceder a la herramienta esas respuestas? Respuestas nos puede ayudar Érika o Jessica en el a través del chat? Ese tipo de preguntas? Bueno, ahora vamos entonces con esta otra palabra, este otro concepto del título que son los algoritmos de aprendizaje automático no supervisado, este tema del machine learning es hoy casi que una moda.

00:11:46:19 Todos están usando machine learning, se está utilizando machine learning para el tema del corona virus, se está utilizando machine learning para cambio climático, se está utilizando machine learning para redes sociales. Las redes sociales básicamente gozan todos nuestros datos para para hacer machine learning, para predecir, por ejemplo, lo que nosotros compramos, las que las herramientas de aprendizaje automático o machine learning son muy poderosas, muy, pero muy poderosas para hacer predicciones.

00:12:37:27 Sí, para poder predecir el resultado de de un fenómeno, de una acción o de una combinación de variables. Vale, entonces es una. Es una rama de la del data seis. Cierto que junto con la estadística, junto con la modelación estadística, pues ayuda mucho, al menos en el caso de las ciencias ambientales, a poder tomar decisiones robustas. Sin embargo, el machine learning básica básicamente tiene dos ramas aquel que es supervisado, que básicamente es tenemos unos datos con unas variables y además tenemos una EC, tenemos una etiqueta para esos datos, o sea, la clase una o, por decirlo de otra forma, una variable categórica o de agrupamiento.

00:13:10:01 Sí, fíjense aquí que tenemos tres variables dependientes e independientes o dependientes, y el caso en este caso llamémoslo atributo. Es cierto, tenemos n observaciones, tenemos tres atributos y tenemos dos clases la clase uno y la clase dos. Por lo tanto, los algoritmos de aprendizaje supervisado lo que buscan es predecir la clase en función de estos atributos o características.

00:13:44:17 Y luego vamos a ver si ese algoritmo acierta en la clase real que tenemos como etiqueta en nuestros datos, mientras que en el aprendizaje no supervisado nosotros no tenemos una etiqueta de clasificación. Fíjense que aquí, fíjense que aquí no hay la variable clase, por lo tanto, los algoritmos de clasificación de aprendizaje automático no supervisado justamente lo que hace es obtener esa clase.

00:14:15:27 Si vamos a utilizar estos atributos de estas entidades u objetos para poder predecir una posible clase a la que pertenece. O dicho de otra forma, vamos a ver cuál es la mejor forma de agrupar estos elementos. Si estamos hablando de, por ejemplo, de micro cuencas, que es el caso que vamos a ver con los datos de hoy. Y cada una de estas micro cuencas tiene un atributo cierto.

00:14:47:00 Y si esos atributos de una u otra forma se relacionan con eventos ambientales que determinan amenazas, riesgos ambientales, pues nosotros vamos a poder utilizar esos esos atributos para poder primero categorizar en grupos y luego jerarquizar. Por ejemplo, vamos a saber cuáles de las micro cuencas implican un mayor riesgo ambiental ya y cuáles no, no son. No tienen un riesgo tan alto.

00:15:46:19 Por lo tanto, por ejemplo, no necesitan acciones tan urgentes. El ejemplo entonces ya pasando al ejemplo, si alguien tiene alguna pregunta hasta hasta aquí, podemos intentar responderla a través del chat y de lo contrario entonces vamos a saber de qué se tratan estos. De qué se trata este ejemplo? Tenemos el río Magdalena en Colombia, que ustedes saben, es uno de los ríos más grandes de Colombia y de Latinoamérica, y está y este río Magdalena tiene varias cuencas que son varios ríos, varios pequeños ríos que son tributarios o y esos ríos están en el contexto de unas micro cuencas.

00:16:24:07 Entonces en este fue un una un proyecto de investigación en el que participé hace algunos años. Por lo tanto tengo estos datos, he son datos abiertos. Lo que se hizo fue subir por encima de la cota de 2500 metros en la Cordillera Central y en la Cordillera Oriental de Colombia, y empezar a caracterizar estas micro cuencas utilizando diferentes herramientas como análisis satelital, sensores remotos, datos históricos, etcétera.

00:16:56:02 Cierto, entonces se hizo esa caracterización. Se ve a cada una de estas micro cuencas que creo que son en total como 40 micro cuencas. Es cierto, se le asigno un valor para diferentes variables ya. Y lo que necesitamos entonces es clasificar esas micro cuencas en función de algunos de los atributos que se tomaron ahí. Vamos a ver adelante que son, por ejemplo precipitación e historia de inundaciones.

00:17:38:16 Historia de incendios, infiltración, velocidad del viento, diferentes, diferentes cosas que por supuesto cada cada una como cada una de estas variables en la micro cuenca tiene un dato que es resumen, o sea un promedio, o sea un total o en el caso del caudal, por ejemplo, es un total en un tiempo determinado, siendo el caudal el promedio mensual o la precipitación también total, el promedio mensual, etc uno tiene que saber decidir también cuál es la dimensión espacial y temporal para los atributos que le va a medir a cada uno de esos objetos.

00:18:07:01 Entonces, repito, es sencillamente un contexto ambiental que son una cuenca y unas micro cuencas, unos objetos que en este caso son unas micro cuencas y unos atributos que se le ha medido a cada una de estas micro cuencas. Cuál es el objetivo? Clasificar las micro cuencas en función de algunos atributos para poder priorizar cuál esta de cuál tiene más riesgo de amenazas ambientales y cuáles tienen menos riesgo.

00:18:48:21 Bueno, algoritmos de aprendizaje automático no supervisado. Hay muchos. Voy a nombrar algunos ejemplos. Tenemos el camins, tenemos el CAP Median, tenemos el análisis de Kloster jerárquico, tenemos el el Random Forest para casos de no supervisado, etc Si lo que vamos a utilizar hoy es un camino o algoritmo de CA medias para poder encontrar un cierto cómo se clasi?

00:19:28:01 Cómo podríamos generar una clasificación de estos de estas micro cuencas? Y un dato importante es que la entidad con la que se trabajó estos esta investigación quería a priori cierto categorizar las amenazas en una escala de máximo de 1 a 5, siendo siendo cinco la aquellas micro cuencas con mayor riesgo, mayores riesgos ambientales y uno aquellas micro cuencas más seguras o con menores riesgos ambientales.

00:19:41:08 Este fue un criterio, pues a priori de la investigación. Bueno, vamos a abrir, es esta ta. Entonces yo tengo aquí algunas cosas, voy a cerrarlo y voy a volverlo a abrir.

00:20:21:08 Como bien decía mi compañera Erika Stata es un software de de análisis cuantitativo muy intuitivo en mi. En mi concepto personal es el más intuitivo que existe en el mercado y que más mayor facilidad otorga al usuario. En cuanto a su interfaz para realizar análisis cuantitativos en Ciencias Ambientales, básicamente se compone de un menú gráfico, de un menú que tenemos acá archivo, edición, datos gráficos, estadísticas, usuario, ventana.

00:20:54:27 Tenemos luego unos accesos directos a algunos de estos favoritos. Luego tenemos una ventana de revisión que es esta que está acá. Voy a usar un un lápiz para poderlo mostrar mejor. A ver, aquí está. Tenemos una ventana de revisión. Que es todo esto? Aquí nos va a aparecer el historial de los comandos que que utilice, que estemos utilizando, ya sea porque sabemos los comandos y los escribimos o porque nos los entrega STATA automáticamente cuando utilizamos el menú.

00:21:30:25 La interfaz gráfica. Entonces aquí tenemos el menú, el menú con sus con sus accesos directos. Perdonen mi pulso que es muy malo. La ventana de revisión donde aparece el historial, tenemos la consola que es donde vamos a ver todo lo que es resultados numéricos, resultados de valores, tablas, estadísticas. Tenemos la ventana de comandos que es una de las opciones donde podemos escribir nuestros comandos.

00:21:58:29 Otra opción es hacerlo directamente aquí con un du fail, pero lo podemos hacer aquí. Podemos ir escribiendo nuestras líneas de comandos. Tenemos una ventana de variables de aquí. Nos van apareciendo todas las variables, ya sea que las carguemos o que las creemos o que se nos generen automáticamente. Y aquí esta ventana, que es la ventana de propiedades de las variables.

00:22:26:16 Sí, esas son básicamente las ventanas de Stata. Y una de las cosas que yo siempre resalto destacar a las personas que van a empezar a trabajar con Stata o que ya trabajan con Stata. Es el software número uno en el mundo que permite una retroalimentación pedagógica entre manejo de menús de interfaz gráfica y manejo de comandos. Es esta acá?

00:23:00:10 Por qué? Porque cuando yo uso los menús de interfaz gráfica y hago por ejemplo, un plot de dispersión, si él me genera automáticamente el comando aquí, o sea, como voy aprendiendo de los comandos que stata me va generando, yo la próxima vez, quizá para ahorrar tiempo, ya utilice solamente la línea de comando y no tenga que hacerlo a través del de la interfaz gráfica o lo puedo hacer a través directamente de los comandos.

00:23:32:07 Entonces esto esta retroalimentación entre interfaz gráfica y comando tiene un efecto pedagógico increíblemente rico en la curva de aprendizaje de de estadística, de análisis estadísticos, de gráficos, de todo lo que es ciencias cuantitativas para para el ambiente. Así que lo recomiendo. Recomiendo que utilicen stata absolutamente. Bueno, muy bien. Ahora que ya hicimos esta pequeña introducción al software, vamos a cargar nuestros datos.

00:24:30:27 Los datos se llaman micro cuencas, están con una extensión de CSV. Entonces voy a darle aquí archivo importar datos delimitados csv porque está guardado así. Voy a ubicarme aquí tengo este archivo que se llama Micro Cuencas. Voy a darle abrir y puedo ver una previsualización y ok. Entonces me me indica que se codifica automáticamente las variables con este formato y son siete variables de 80 observación una es perdón, no eran 40 microcuentos, son entonces 80 micro cuencas las que se caracterizaron.

00:25:04:14 Vamos a lo primero que vamos a hacer. Entonces ahora es observar nuestros gráficos, a observar nuestros datos. Vamos a ir aquí a datos, vamos a ir a editor de datos y vamos a darle clic en explorar los datos. Simplemente vamos a ver de que constan. Entonces tenemos desde uno hasta 80 micro cuencas. Cada una de las pilas es una micro cuenca en la cuenca del río Magdalena en Colombia, y tenemos unos atributos.

00:25:39:00 Vamos a ir viendo de qué se trata cada uno de estos. Primero tenemos una pendiente, o sea la inclinación, cierto, la inclinación del terreno, y esto está medido en grados, o sea, fíjense, 82 grados, esto es casi, casi que una, una pared, mientras que tenemos otras. Por ejemplo, vamos a ver de 27 grados, que es una inclinación muy leve, tenemos el porcentaje de suelo desnudo.

00:26:08:24 Ah, perdón, por qué la. Por qué la pendiente es importante? Porque la pendiente entre más pendiente haya en un en una micro cuenca, pues más riesgo hay. Por ejemplo, de movimientos en masa o de deslizamientos. Tenemos el suelo, el porcentaje de suelo desnudo, o sea, aquel suelo donde no hay cobertura vegetal es el suelo desnudo. Tenemos 10%, por ejemplo, varía como 10%, otros de 12%.

00:26:40:11 Fíjense la variabilidad que tenemos aquí y por qué es importante el suelo desnudo? Porque cuando un suelo esta descubierto, cubierto de vegetación, tiene mayor riesgo, primero de, por ejemplo, de erosión, pero también de movimientos de deslizamientos en masa. Porque? Porque son las raíces de la vegetación lo que afirma el suelo y no permite que este sea arrastrado o sedimentado.

00:27:15:26 Luego tenemos la historia de los deslizamientos en los últimos 50 años. Entonces siempre esta es una variable simplemente de conteo en esta micro cuenca. Aquí en particular tiene una. Hubo un deslizamiento en esta hubo dos. Por aquí hay unas que tienen cuatro deslizamientos y así, etcétera. Luego tenemos un índice de un índice de diversidad Shannon que es un índice que lo que mide la diversidad en este caso de especies vegetales.

00:27:49:16 Ustedes saben que la diversidad vegetal es uno de los elementos de los ecosistemas que otorga estabilidad a esos ecosistemas. Entonces entre mayor sea la bueno. Hasta cierto punto, porque la el crecimiento no es, no es lineal, sino que es tiene una asíntota entre mayor sea la riqueza de plantas en una, en este caso en una micro cuenca, pues las funciones ecosistemas, las funciones ecosistémicos son más estables en cuanto a su regulación temporal.

00:28:00:20 Por ejemplo, una cuenca con más especies vegetales tiene un caudal más estable. Eso está demostrado. Tiene también unas tasas de descomposición más rápidas.

00:28:41:19 Entonces, esta diversidad vegetal tiene que ver con los servicios, la estabilidad de los servicios ecosistémicos. Luego tenemos una precipitación, pues hay micro cuencas donde llueve más y esto también es un riesgo de la inundación. Esto está medido en milímetros promedio por mes. Luego tenemos un índice de incendios que se calculó de 0 a 1. Cierto que la probabilidad de que ocurra un incendio en en este en cada una de estas micro cuencas.

00:29:22:01 Y finalmente tenemos la velocidad del viento del. El viento tiene que ver con los riesgos ambientales por el hecho de que provoca, por ejemplo, erosión. Si hay viento es muy fuerte. También provoca un desmembramiento desaparición de la capa vegetal, etcétera Así que esas son nuestras variables de atributos y vamos a utilizar una un algoritmo de hoy de aprendizaje automático no supervisado para ver cómo podemos qué agrupaciones se nos forman de estas micro cuencas en función de estas de estas variables.

00:30:18:26 Por lo pronto voy a ver si hay preguntas dice Sixto los datos para alimentar el programa cuando se inicie desde cero en una micro cuenca poco estudiada de donde se extraen, por ejemplo, se extraen de datos de sensores remotos, o sea, datos satelitales. Hay fuentes como la NASA, como la NOAA, como Copérnico, como Bio Clem, que ofrecen en diferentes resoluciones espaciales variables de las cuales uno puede extraer información que puede ser útil, no en este caso la precipitación, por ejemplo, si es decir, eso es en campo lo la la probabilidad de incendios se calculó con imágenes satelitales la velocidad del viento.

00:30:57:11 Si es en campo, el índice de si es en campos. Los de los deslizamientos es histórico. El porcentaje de suelo desnudos se determinó con imágenes satelitales también y la pendiente también se determinó con un modelo de elevación digital. Esa es la pendiente promedio de la micro cuenca. Bueno, Felipe, bueno, tenemos otras preguntas acá. Nos pregunta Marvin como miden la cercanía entre los elementos, la cercanía a cercanía?

00:31:27:22 No sé Marvin, si se refiere a esa cercanía espacial o cercanía estadística. Es decir, si me puedes aclarar a qué tipo de cercanía te refieres, con gusto te respondo la pregunta. Perfecto. Bueno, si quieres avanzamos con otro par de preguntas que tenemos acá. Mientras Marvin nos aclara eh? Juan nos pregunta cómo saber cuál es la mejor alternativa de clasificación entre camino CA Median.

00:32:04:09 Por ejemplo, hay algunos criterios estadísticos que verifiquen la mejor técnica. Sí, pero en realidad la mejor forma de hacerlo es hacer los dos y fijarse en los resultados. Por ejemplo, del del doble VCS, que es el WiZink Group sum of squares, aquel, aquel método que nos genere una una mayor suma de cuadrados entre grupos. Yo me quedaría con ese pero digamos, a priori no hay una mejor técnica a priori, sino es esa posterior.

00:32:39:25 Y decía quédate con aquella que te que te genere los mejores resultados y en cuanto a costes computacionales, básicamente no, no hay. O sea, el camino se hace en un segundo y a medias también. Y también depende mucho de la de la experiencia del investigador perfecto en un Marvin, profundiza. Frente a su pregunta nos dice cercanía en términos de cómo se determina qué ciertos elementos son parecidos entre ellos y otros no?

00:33:12:28 Y como compara el Cory Owen, eso lo vamos a ver en adelante. Se utiliza una distancia, un índice de distancia que puede ser euclidiano, puede ser Manhattan, puede ser más allá, no puede ser ya hacker. O sea, hay un índice de de distancia que uno debe escoger para correr el algoritmo. Y cómo? Cómo compara el algoritmo? Y en este caso lo que hace es formar grupos.

00:33:36:07 O sea, en el caso del camino, qué es lo que vamos a hacer hoy? Lo que hace es formar grupos en función de aquellos elementos que estén más cercanos en ese hiperespacio de variables. Por ejemplo, si 11 utilizo la distancia euclidiana, pues a través de esa distancia euclidiana él va a haber cuáles son los elementos que están más cercanos entre sí para formar grupos.

00:34:04:17 Cierto? Y calcula un un índice de un de de agrupamiento. Por ejemplo, nosotros podemos utilizar el doble VCS, que es el within sum within group sum of squares, que es a través del cual yo puedo comparar el algoritmo. O sea, puedo compararlo en cuanto a si utilizo dos group 22K o tres k o 5KK, es el número de grupos que yo quiero encontrar.

00:34:31:06 Entonces para encontrar k yo tengo dos posibilidades. Una posibilidad es que yo he establecido el K de forma apriorística como es este caso. Recuerden que necesitamos una clasificación de 1 a 5 de riesgo, pero por lo tanto yo aquí sé que son cinco grupos, pero hay casos en los cuales yo no sé cuál es el cuál es la mejor cantidad de grupos.

00:34:59:04 En ese caso lo que hago es correr el algoritmo con diferentes números de grupos. Si en un rango, por ejemplo de 1 a 20, y voy viendo en cuál de estas corridas el índice de de varianza entre grupos es más alto, entonces aquel que maximice la varianza de grupos es el número de K con el cual yo me quedo perfecto.

00:35:46:12 Felipe Bueno, tenemos acá otra pregunta Cuál es la diferencia con el análisis de clúster tradicional? El análisis de Kloster Bueno, no sé si te refieres al análisis de Kloster jerárquico que he jerarquizado cluster análisis, no sé si no sé si sea el más tradicional. Es. Es como el más usado. La diferencia del camino con el cluster, con el jerárquicas cluster, es que en el camino solamente vamos a encontrar unos grupos, mientras que en el en el K, en el Kloster, análisis jerárquico vamos a encontrar grupos, pero además grupos que están dentro de otros grupos.

00:36:21:21 O sea, podemos encontrar dos grandes grupos, cierto? El grupo A y el grupo B, y en el grupo A vamos a encontrar tres grupos y en el grupo B vamos a encontrar cuatro grupos, por ejemplo, eso es agrupación jerárquica. En el camino no tenemos esa jerarquización, sólo tenemos un número a secas de grupos y listo, perfecto. Fiver nos hace una, una pregunta, que es una pregunta que también se hacen muchos investigadores, no sólo de de tu área, sino en general de otras áreas.

00:36:52:00 Con relación al análisis de componentes principales, cuáles serían como esas diferencias a A ver. Muy buena pregunta. Todas han sido muy buenas preguntas y uno escoge el algoritmo siempre en función de la pregunta de investigación de qué es lo que uno quiere responder. Un análisis de componentes principales tiene un objetivo diferente de un camino, aunque algunas cosas puedan ser similares.

00:37:32:17 Un análisis de componentes principales busca reducir dimensionalidad. O sea, si tengo muchas variables, el análisis de componentes principales me ayuda a reducirlas como primero formando nuevas variables que son combinaciones lineales de mis variables originales, cierto? O segundo ayudándome descartar aquellas variables que tienen poca influencia en esos componentes. Entonces yo empiezo con 17 variables, hago un análisis de componentes principales, he identificado que que por ejemplo para mi pregunta de investigación solamente son cinco las importantes, pues me quedo con esas cinco.

00:38:11:08 Si entonces, luego, luego con esas cinco. Como yo tengo una ordenación de las entidades de investigación o de las unidades de investigación o experimentales en ese espacio de esas cinco variables, pues yo puedo, yo puedo al menos visualmente, ver cómo se están agrupando. Ya, pero es nada de esto me permite hacer el análisis de el algoritmo Camins. El camino solamente me identifica los grupos, pero no me dice en función de qué variables están construidos esos grupos.

00:38:45:18 Bien, Philippe, bueno, vamos a hacer una pausa respecto a las preguntas para que puedas continuar la presentación y vamos a continuar acá recopilando sus dudas para poder hacerle las preguntas a Philip en otro espacio designado para esto. Muchas gracias. Vale, muy bien, gracias. Gracias por las preguntas. Entonces he. Vamos entonces a construir el análisis de caminos para esto.

00:39:49:10 20 GM Borrar primero esto que dibujé por acá. Ok, vamos a ir a estadísticas y en estadísticas vamos a ubicarnos en el menú que dice Análisis multi variante. Luego vamos a ubicarnos en aquí donde dice análisis de conglomerado y luego nos ubicamos donde dice conglomerado de datos. Fíjense que aquí tenemos diferentes opciones, tenemos el CA medias, el CA medianas, encadenamientos, las en promedio tenemos diferentes algoritmos, pero como no tenemos tiempo para todos y la idea es mostrarles a ustedes, digamos como muestra un botón de todo lo que puede hacer es Stata, pues vamos a utilizar este este análisis de ca medias, CA mi por qué se llama CA medias?

00:40:16:21 CA es la cantidad y medias es el promedio de un sen se refiere al promedio de un centroide. Voy a tratar de demostrárselo así gráficamente, aquí en un pais, si tenemos un hiper espacio de variables a, pero más bien, más bien creo que tengo una diapositiva con las que pueden mostrar. Esto es si tenemos un hiper espacio de variables aquí con unos elementos.

00:40:51:13 Por cierto, cuántos k hay aquí k se refiere? Entonces Camins se refiere a un número de promedios que son el promedio de un centro y de cuántos k hay aquí? Pues hay uno, hay dos y hay tres ya. Y a qué se refiere con mil? Se refiere al promedio de al promedio de los promedios de todas las variables que me ayudaron a encontrar este, este agrupamiento o en otras palabras, a un centroide.

00:41:22:29 Entonces también se conoce como k centroide. Esa es la razón de ese nombre. Entonces cuando muy bien, cuando llamamos entonces a nuestro análisis de Kloster Mis Camins, lo que nos pide primero es cuáles son las variables con las que yo quiero trabajar y pues en este caso yo quiero trabajar con todas pendiente. Suelo desnudo. Deslizamientos. El índice de diversidad vegetal, la precipitación en la probabilidad de incendios y la velocidad del viento.

00:41:54:02 Luego me pide y por aquí está la respuesta a la pregunta que hacía alguien cuál es la medida de similaridad? De similaridad? Entonces puede ser euclidiano, puede ser cuadrado o cuadrado euclidiano, un valor absoluto, un valor máximo, etcétera. Fíjense que hay diferentes tipos de de medidas o de distancias y al mismo tiempo puede ser continuo. Cuando tengo variables continuas puede ser binario cuando tengo variables de tipo binomial o pueden ser, puede ser mixto.

00:42:30:02 En este caso, fíjense que todas las variables son cuantitativas, así que lo voy a dejar como continuo ya me pide perdón. Aquí me salté, me pide el número de grupos? Sí, cuántos grupos tengo que asignar? Y esta sí es una pregunta para ustedes. Si han prestado atención a la presentación, con toda seguridad van a saber cuál es el número de grupos para este ejemplo en particular.

00:43:18:26 José María Gutiérrez, Juan Vea han respondido correctamente también Oscar FL, que no alcanzó a ver a Oscar Flores? Si, correcto. Cinco. Por qué son cinco? Porque podría ser cualquiera. Yo puedo generar cualquier cantidad de grupos mientras que el algoritmo me lo permita, pero en este caso son cinco, porque en el ejercicio de investigación cierto se quiere clase, se quiere jerarquizar cinco niveles de riesgo con un nivel uno que es bajo, un nivel dos que es bajo medio, podríamos decirlo, y así sucesivamente hasta que llegamos a un nivel cinco, que es el riesgo más alto.

00:43:43:10 Por qué? Bueno, puede ser por varias razones en este caso. En este caso se hizo así porque ayudaba mucho, por ejemplo, a definir, a categorizar también el presupuesto con el que había que intervenir estas micro cuencas. Entonces, si yo tengo muchos grupos, por ejemplo, si yo tengo 20 grupos, pues digamos me va a quedar, me va a quedar como difícil tomar una decisión.

00:44:10:06 Decisiones diferenciales para 20 grupos de micro cuencas. Si yo tengo solamente dos, pues me voy a quedar corto, sí, pero por análisis previos, previos que se habían hecho para este contexto ambiental particular, se sabe que si se manejan los riesgos ambientales espacio temporalmente de 1 a 5 los resultados, los resultados son bastante robustos, así que voy a dejarlo en cinco cierto?

00:44:47:10 Y le voy a dar ok, así de simple. Y me sale un resultado que dice cluster me genera una nueva variable cluster naive que se llama Kloster uno. Entonces yo voy a datos a fíjense que aquí me la creo, me creó esta variable que se llama Kloster uno, esta sí, yo voy a datos editor de datos explorar. Yo puedo ver que en mi tabla de datos, en mi set de datos ya está creada esta variable.

00:45:17:08 Qué es lo que me dice? Me dice, por ejemplo, que está este esta primera micro cuenca se asigno al grupo dos, la de la segunda micro cuenca al grupo dos, y así yo voy bajando. Fíjense cómo cada micro cuenca fue asignada a uno de los cinco grupos que yo especifiqué ya. Fíjense ahora que que yo ya tengo aquí, ya tengo la clasificación.

00:45:36:18 Qué creen ustedes que nos falta hacer la clasificación? Ya está perfectamente, perfectamente generada, así de fácil con esa, con esa distancia de similaridad. Ahora nos falta ver entonces, para el contexto de este ejemplo de los riesgos ambientales que es cada grupo, no?

00:46:31:11 Entonces para hacer eso yo tengo varias opciones, puedo empezar a ver gráficos de cada variable en función de este kloster, por ejemplo. Vamos a hacer un ejemplo de eso. Voy a ir a gráficos, gráficos de barra, ya voy, ya voy a pedirle que me haga una variable de promedio, por ejemplo, para todas las variables para pendiente, para suelo desnudo, para deslizamientos, para cada una voy a darle ok, ahí está corriendo.

00:47:01:20 Lo que pasa es que mi computador es un poco lento y se demora, se está demorando en generar estos gráficos. Entonces aquí fíjense que me ha generado un gráfico para cada variable, para poder comparar los ah, perdón, perdón, me faltó, me faltó algo importantísimo y es la variable de agrupamiento, o sea, el clóset, gráficos, gráficos de barra, si no, no tiene sentido.

00:47:37:10 Y aquí donde dice categorías, el grupo con el que voy a agrupar, a graficar es Kloster uno. De dónde sale el Cluster? Uno Del análisis de caminos. Ya, fíjense que tengo el gráfico, pero de todas formas no, no es no, no se puede observar muy bien. Por qué? Porque las variables están en unidades diferentes. Entonces tenemos esta variable de aquí que es la precipitación, mientras que estamos comparando otra que es una probabilidad que va de 0 a 1, no tiene mucho sentido.

00:48:20:17 Así que voy a actualizar este gráfico. Sí, gráficos nuevamente gráfico de barra y lo voy a hacer un primer gráfico, por ejemplo, solamente con la pendiente y puedo hacer unos uno segundo con el suelo, veamos con esos dos y luego continuamos con otras variables. Fíjense que es lo que nos pone, nos pone las los promedios, cierto, los promedios de cada grupo para cada una de las variables.

00:49:07:24 Sin embargo aquí nuevamente me mezcla al como me está mezclando nuevamente unidades que que no son comparables. Lo que voy a hacer es lo siguiente voy a generar solamente un gráfico. Hay fíjense aquí si podemos ver entonces los cinco grupos, cierto, fíjense y e vemos la pendiente. Entonces este, este grupo de aquí, este dos, fíjense que tiene las mayores pendientes, son esas micro cuencas que tienen las mayores pendiente.

00:50:05:03 Voy a grabar por ejemplo este primer gráfico aquí lo voy a grabar con déjeme ver, voy a grabarlo con un nombre, le voy a poner por ejemplo Gráfico uno, simplemente voy ops, creo que uno va entre paréntesis, ahí está. No, no, no iba la coma, entonces grabo el gráfico uno y lo que hago es volver al historial. Hago clic en la última línea del historial, me vuelve a crear, a generar todo el código y simplemente aquí lo voy a cambiar por la siguiente variable.

00:51:05:22 Lo voy a hacer con suelo desnudo, cierto? Y voy a llamarle Gráfico dos y así voy a hacerlo para todas las, para todas las variables y luego las analizamos. Entonces suelo desnudo. La que sigue este es Le samientos lo grabo como gráfico tres, luego sigue Shannon Índice índice de diversidad vegetal shannon para vegetal logrado lo guardo como gráfico cuatro sigue precipitación ups creo que creo que sobre escribí hace sobre escribir tres.

00:52:08:15 Tengo que volver a generar ah tengo que eliminar a ver yo sobre escribí el de ya no un vegetal, no sobre escribí Cuando les pase eso no hay problema, simplemente lo los sobrescribe otra vez. Y aquí sí es el gráfico cinco, el que es para incendios y finalmente como gráfico seis el que es para velocidad del viento. Y finalmente, y yo quiero combinar todos estos gráficos en un solo panel para poder analizar de forma simultánea todas estas respuestas.

00:53:53:28 Escribo la función Graph Combine y de ahí en adelante pongo los nombres de los gráficos 1G2 GPS, 4CC5G6. Déjeme ver una cosita, porque no me está generando el gráfico a no existe. A ver, no sé por qué no quedó guardado este cuando lo guardo. Si se guarda, pero no sé por no me está quedando group display C por eso si me puede echar una mano ahí Erika porque no me está guardando los los gráficos con un Felipe.

00:54:46:12 Erika ya no está con nosotros en la sección. Bueno, no, no hay problema. Lo que les iba a mostrar es una combinación de todos los gráficos, pero no me está aguardando. Por alguna razón los gráficos, así que no hay problema. Vamos a irlos viendo uno por uno para llegar a la parte que es la jerarquización. Entonces, por ejemplo, cuando uno ve estos promedios, recuerden que el camino es con promedios, cuando uno ve el promedio de la pendiente.

00:55:17:18 Habíamos ya que identificamos ese grupo. Dos Recuerden que estos grupos son formados por el algoritmo Camino y nos está diciendo que este grupo dos es el que tiene mayor pendiente. Si lo vemos con la siguiente variable que es el porcentaje de suelo desnudo que habíamos visto que el porcentaje de suelo desnudo en una cuenca tiene influencia sobre la erosión y sobre la retención de suelo.

00:55:47:18 Entre más cobertura vegetal haya, menos riesgo hay, por ejemplo, de movimientos en masa. Y vemos que también es el grupo dos. Cierto, el que tiene ese mayor porcentaje de suelo desnudo. O sea, esa es todas esas micro cuencas, todas aquellas micro cuencas que se clasificaron como como parte del grupo dos, cierto, tienen más pendiente y al mismo tiempo tienen mayor porcentaje de suelo de esto.

00:56:23:14 Cuando lo hacemos con deslizamientos, esto es, fíjense que con deslizarse con deslizamientos no hay un grupo que tenga dominante mente, dominante mente una historia de mayores deslizamientos. Si aquí por ejemplo, el uno si, recuerden que esto es estos son promedios, estamos hablando de un promedio de un poco más de 1.5 deslizamientos, lo cual es, digamos, uno punto es 1.5 de deslizamiento para una variable que es de conteos.

00:56:56:14 No, no existe. Sin embargo, cuando lo comparamos con el dos, la diferencia es muy sutil. Cierto? Qué es lo que podemos decir? Que en promedio, todos estos. Todos estos grupos de micro cuencas han tenido al menos más de un deslizamiento, eh? En los al menos en los últimos 20 años. Por lo tanto, no creen? No, no parecería que sea una variable que tenga mucha importancia, ya que no hay ninguno de los grupos que tenga una dominancia evidente sobre otros.

00:57:33:01 Vamos con el grupo E la agrupamiento para el Índice de Diversidad Vegetal. Fíjense que aquí aquellos grupos, aquellas micro cuencas que están en el Grupo cuatro, son las que mayor diversidad tienen, lo mismo aquellas cuencas que están en el grupo cinco, cierto, y estos este grupo dos, que ya teníamos algún indicio de que son las de las de más riesgo, tienen una diversidad vegetal baja en comparación a estas que son dominante mente más diversas.

00:58:10:07 No se parece mucho más al grupo uno. Luego. Luego vamos con la precipitación y fíjense que en la en la precipitación nuevamente las micro cuencas del Grupo dos tienen el mayor promedio, o sea la del grupo dos, tienen más pendiente, tienen mayor porcentaje de suelo desnudo, tienen baja diversidad vegetal y también llueve más. Vamos a verlo con la probabilidad de incendios.

00:58:50:02 Esa, esa, esa precipitación. Esa precipitación es para la época húmeda entre agosto y septiembre. Pero estas cuencas en el río Magdalena tienen una época muy seca, muy marcada entre noviembre y febrero. Entonces luego resulta también que estas micro cuencas del Grupo dos tienen una probabilidad, una probabilidad de incendios mucho mayor, dominante mente mayor que las otras micro cuencas, que las micro cuencas de los otros grupos 134 y cinco.

00:59:23:24 Y finalmente, la velocidad del viento. Nuevamente hay una dominancia de este grupo de grupo de micro cuencas del grupo dos, donde la velocidad del viento es mayor en promedio y dominante mente mayor en comparación que en los otros grupos de micro cuencas en general, que podemos ver que hay una dominancia cierto de de de estas cuencas del grupo dos.

00:59:54:19 A tener valores para estas variables ambientales que de una u otra forma implican más riesgos, tiene más pendiente, tiene mayores precipitaciones, tiene mayor cantidad de suelo desnudo, hay mayor probabilidad de incendio, también hay mayores promedios de velocidad del viento, cierto? Por lo tanto, en una escala de 1 a 5, este grupo de micro cuencas del Grupo dos correspondería a una categorización jerárquica de uno, perdón?

01:00:31:01 De cinco. Cierto. Estas son las cuencas más riesgosas. Entonces, por qué son más riesgosas? Porque la probabilidad de un evento de un desastre natural en el caso, por ejemplo, de que hayan personas, asentamientos humanos, asimismo mismo equipos de investigación, así mismo, instrumentos de registro de variables. Sí, es más riesgoso a perder vidas humanas y también equipos e instrumentos, etc Cierto.

01:01:10:11 Y de ahí en adelante uno podría entonces continuar con la la categoría la categorización jerárquica. Para el resto de micro cuencas. Pero lo importante por ahora es que ustedes se fijen que ésta. Estas cuencas del Grupo dos son aquellas con la la categoría de cinco. Ahora algo adicional pero también muy enriquecedor que yo puedo hacer es complementar, complementar este análisis con algo que se llama análisis discriminante, o puedo complementarlo también con un análisis de varianza multi variante.

01:01:35:13 Si yo quiero hacer un análisis discriminante, entonces ya yo voy a poder ver específicamente si con un criterio estadístico, cuáles son esas variables que me están definiendo los grupos. Por lo tanto, no solamente voy a poder jerarquizar el riesgo de 1 a 5, sino que voy a ver cuál es la variable que me está influyendo más en la generación de ese riesgo.

01:02:09:12 Y eso lo hago, por ejemplo, yendo a estadísticas nuevamente, el análisis multi variante, voy a análisis discriminante. En este caso, por ejemplo, puedo hacer uno lineal análisis discriminante de lineal e tipo de análisis discriminante lineal. Las variables van a ser todas y la variable de agrupamiento va a ser el cluster. El cluster que fue identificado con el tamiz.

01:02:59:14 El resto puedo dejarlo por ahora estándar como está, no necesito cambiar nada, doy ok, es cierto y me sale por lo pronto una tabla que me indica una tabla de una matriz de confusión que me indica cuáles según y según las variables que estoy utilizando. Cuáles micro cuencas fueron correctas, clasificadas. Pero si yo quiero ver la importancia de las variables, voy a estadísticas o estimación y aquí en post estimación yo tengo muchas opciones, reportes y gráficos de análisis discriminante.

01:03:26:09 Tengo la tabla Ma Nova. Sí, tengo las funciones de clasificación, tengo la tabla de clasificación, que esa es la que nos aparece ahí. Tengo las predicciones, o sea, la probabilidad de pertenecer a uno de los cinco grupos. Tengo otros reportes. Sumario de estadísticas para la muestra de la estimación. Vamos a ver esto. Cuando yo le doy clic ahí en abril, vamos a ver coeficientes canónicos.

01:04:13:07 Aquí te damos clic en los coeficientes canónicos y me muestra esta tabla. Tenemos, fíjense todas las variables, cierto, todas las variables, tenemos las funciones discriminante y además tenemos la importancia de cada una de estas variables en cada una de las funciones discriminante. La regla aquí es muy sencilla, independien temente del signo, que puede ser negativo o puede ser positivo, independientemente del signo aquella que tenga el mayor valor es la variable que tiene importancia en la en la jerarquización de estos riesgos.

01:04:54:13 Sí, repito aquella variable que tenga mayor valor que son es el loading. La carga o la importancia estandarizada es aquella variable que más determinación tiene sobre la categorización de esos, la jerarquización de esos riesgos ambientales. Si nos ponemos a ver, fíjense, la que mayor valor tiene es la precipitación, pero también la pendiente. Si está por ahí cerca el los incendios están por ahí cerca, o sea, la cantidad de lluvia que recibe una micro cuenca.

01:05:22:11 La probabilidad de un incendio en la época seca y la pendiente son las que están determinando la jerarquización de esos riesgos ambientales, mientras que otras variables que tienen loading o cargas muy bajas, por ejemplo la diversidad vegetal 0.06. Que no tendría ninguna casi ninguna importancia en comparación a las otras. También el suelo desnudo tiene un valor muy bajo.

01:05:51:01 Sí, y la velocidad del viento también tiene un valor muy bajo. Y la función discriminante uno es aquella que agrupa o que conglomerado. La mayor parte de la variación entre esas categorías de riesgos. Por lo tanto, yo puedo quedarme con la con la interpretación de la función uno para una explicación general de lo que está pasando en esas micro cuentas.

01:06:14:00 Y si quiero mayor cantidad de detalle, puedo irme a la función dos. Función tres y así sucesivamente. Sí. Entonces puedo empezar a analizar qué pasa en la función dos, a ver si hay alguna otra variable que no fue, cuya varianza no captada en la en la función uno. Vamos a ver cuál es la que tiene el mayor valor aquí.

01:06:42:18 Sin embargo, en la función uno el la la, la pendiente, fíjense, sigues teniendo el mayor, uno de los mayores valores. La precipitación está como a la mitad, todas las demás son bajas. Sí, es la es la pendiente, o sea, de una u otra forma, como habíamos visto en la función uno, la pendiente de la micro cuenca es una de las variables más importantes para la clasificación y jerarquización de.

01:07:30:21 Esos riesgos ambientales en esas micro cuentas, repito, si quiero más detalles puedo ir a ver a través de todas las funciones discriminante. Si entre más grupos tenga en el camino, más funciones voy a más funciones voy, discriminante voy a tener en el análisis de funciones discriminante para analizar la importancia de estas variables. Entonces, recopilando lo que hemos hecho, qué podemos decir que puede utilizar un análisis de caminos para clasificar grupos en función de unos atributos, en este caso, clasificar micro cuencas en función de unas variables ambientales.

01:08:23:22 Cierto? Segundo, voy a ver, voy a analizar los promedios, voy a comparar los promedios de esos grupos que me generó Camins, cierto, para poder relacionarlos, para poder relacionar su escala con la existencia de un de un riesgo ambiental. Y finalmente voy a utilizar un análisis discriminante. O podría ser, o podría ser también un análisis de varianza multi variante que vamos a obtener esta misma tabla para poder analizar o determinar la importancia que cada una de las variables por individual tiene o determina sobre esos sobre esos riesgos ambientales que he previamente clasificado y así que eso ha sido todo por hoy.

01:09:00:25 Espero que verdaderamente sea pueda ser de utilidad para su conocimiento en estadística, su conocimiento en machine learning y sobre todo para que pueda ser enriquecedor en sus investigaciones, en sus proyectos o también en sus actividades pedagógicas. Sí, si es que dictan clases, si tienen más preguntas. Con todo gusto intentaré responderlas. Y por lo pronto, muchas gracias por su atención y por su interés en aprender ese tipo de cosas.

01:09:33:23 Perfecto, Felipe. Bueno, vamos a retomar un par de preguntas que han quedado y las preguntas que serían posteriormente. Oscar Flores nos pregunta En caso de que tengamos missing en algunos datos, cómo se podría proceder? Una opción es imputar los missing. Hay muchos algoritmos de imputación, por ejemplo el maíz o el M o un Random Forest que te estiman ese valor faltante.

01:10:03:22 Esa es una. Una opción bastante razonable. Otra opción es omitirla. Esta app stata da opciones para omitir datos faltantes. Cierto? Y otra? Otra opción en el caso de que no haya ninguna de estas dos, simplemente eliminar u omitir toda la fila. Entonces toda la fila para la cual haya algún dato faltante en una, para una, para una o varias de las variables.

01:10:38:27 Perfecto, nos preguntan también. Y Juan nos dice He escuchado que se usar el análisis de siluetas para determinar los grupos, pero como funciona este análisis o que se debería buscar? Disculpa, no conozco el análisis de siluetas. Me parece que es un análisis para determinar la cantidad de grupos. No, no estoy segura. Y de pronto está allí, de pronto exista con otro nombre.

01:11:36:22 Pero. Pero así como de análisis no lo conozco. Bueno, vamos a esperar. Si quisiera tanto nuestros este ente nos puede profundizar al respecto. Bueno, nos dice Daniel, David Meza si existe alguna ecuación diferencial parcial que pueda modelar estos datos de una ecuación diferencial parcial. Sí. Um. A ver, pues estoy tratando de digerir un poco la pregunta. Las ecuaciones diferenciales parciales, a diferencia de las ordinarias, modelan fenómenos en el espacio, o sea, determinan el cambio del valor de una variable en el tiempo y además en el espacio.

01:12:11:23 Por lo tanto, honestamente, no le veo como la aplicación de una, la aplicación de una, de una ecuación diferencial parcial para para un caso de para un caso de eso. Además, las funciones diferenciales parciales son. O sea, tú construyes la. La ecuación diferencial parcial de forma teórica no? Y luego tú tendrás que probar esa teoría en función de que existan datos para poder y la la.

01:13:13:20 El approach. La aproximación acá es que es filosóficamente diferente. Es es aprender a través de los datos. O sea, como se dice, omite completamente la teoría. Al aprendizaje automático no le importa en absoluto la teoría, cierto? O por eso justamente prescinde de las distribuciones, prescinde del tipo de relación funcional entre variables para poder construir un modelo proyectivo. Entonces quizá, claro, en ese viéndolo así, la aproximación filosófica para responder esta pregunta de las micro cuencas con el aprendizaje automático es totalmente opuesto a lo que tú puedes hacer con una con una ecuación diferencial, sea ordinaria o parcial, porque ahí tú empiezas desde la teoría y luego tienes que buscar los datos a ver si valida esa

01:13:42:23 teoría. En el caso del aprendizaje automático y esto aplica solamente para el también, sino para todos los algoritmos de aprendizaje automático. Justamente la diferencia es que no necesitas teoría. O sea, vamos a ver qué dicen los datos. Perfecto, Felipe. Bueno, Juan nos pregunta cómo garantizas que sea agrupa o por riesgo y no por otro criterio. Disculpa, se cortó un poquitito ahí.

01:14:15:23 Podría repetirme la pregunta, por favor? Por supuesto. Cómo garantizas que agrupado por riesgo y no por otro criterio? Porque el ver el riesgo lo estoy. El riesgo lo estoy adjudicando. Digámoslo. Digámoslo. Utilicemos esa palabra. O más bien, asignando el riesgo. Lo estoy asignando yo. E En función del conocimiento que tengo de ese sistema de micro cuenca. Si aquí no hay, fíjense que no hay ninguna variable que se llame riesgo.

01:14:44:02 La variable la construí yo. Después de analizar todas las variables anteriores que yo tenía, por ejemplo, si, si el gobierno se, una entidad gubernamental, decide tomar decisiones y te contrata para clasificar los riesgos de unas micro cuencas, vamos a seguir con el tema de las micro cuencas y te da, por ejemplo un mes para hacerlo, porque se necesitan tomar decisiones rápidas.

01:15:11:03 Por ejemplo, porque viene fenómeno de la niña. Cierto, lo más probable, y es que si son micro cuencas, además poco estudiadas como de las que habían aquí, tú tendrás que trabajar con lo que hay, o sea, con lo que pueda recopilar de información histórica, de información secundaria en campo e, información satelital, que hoy en día eso ayuda mucho, pero nunca no, pero no vas a no vas a tener una variable que se llama riesgo.

01:15:46:19 La variable riesgo es un concepto construido en función de unas percepciones. El riesgo siempre está en función de unas, de unas percepciones. Por ejemplo, te pongo te pongo como ejemplo para el caso del riesgo más alto. En estas micro cuentas, la variable precipitación y pendiente son las más importantes. Porque? Porque si llueve mucho y tienes una pendiente muy alta, pues ahí posiblemente tengas una, un movimiento en masa o una haya o una A o una avalancha.

01:16:23:23 Sí, pero eso es porque la percepción en el contexto de alta pendiente y alta te lo muestra como un riesgo, pero en una E, pero en una planicie o en una o en una, en la costa, en una costa? Pues no, no es la misma percepción, no, no, no percibes la pendiente como un riesgo y tampoco percibes la la precipitación como un riesgo, porque se decanta todo se si se va al mar, entonces el riesgo en este caso es una variable que uno siendo percibida en el contexto de esas micro cuencas.

01:17:02:01 Dos La estás computando haciendo la interpretación, haciendo la interpretación de cuáles son promedios dominantes de esas variables para cada uno de los clusters que construimos. Pero no hay ninguna variable que que se llame riesgo. Entonces, cómo la si digamos respondiendo en resumen tu pregunta cómo? Como era como no confundir riesgo con con que era la agrupación por riesgo y no por otro criterio, yo decía ponlas claro, respondiendo en resumen, digamos sinóptica.

01:17:59:23 Esta pregunta es tú estás computando el riesgo a partir de otras variables ambientales que son percibidas como como amenaza o como lo contrario? No si fuera oportunidad. Por lo tanto, ahí es donde tú estás interpretando el riesgo perfecto. Felipe Bueno, Fabio Hincapié nos pregunta si estandariza todas las variables. Antes podría graficar todas las variables al mismo tiempo, sí, pero también si no las estandariza, si las estandariza es lo que hay que hacer, es un panel, pero si las estandariza, entonces, por ejemplo, si utilizas una estandarización tipo Z en la que divides por la desviación estándar, vas a tener todas las variables en las mismas unidades y por lo tanto vas a poder.

01:18:50:20 Ahí sí van a ser comparable. Esa es una opción que hay. No siempre se debe hacer, digamos, la estandarización es más requerida o más útil cuando tienes efectivamente variables cuyas unidades sean muy diferentes. No sé, por ejemplo, toneladas, si o estás viendo alguna o kilogramos, por ejemplo mil, 2010 mil kilogramos y estás viendo otras que que tienen escala por ejemplo de de mililitros 0.1 o ese tipo de valores que son tan diferentes entre sí que por lo la estandarización sí ayuda mucho, por lo menos a esa visualización gráfica.

01:19:29:19 Entonces, si haces un solo, un solo gráfico de barras, efectivamente ahí puedes, puedes visualizarlo y compararlo de forma más fácil. Ok. Bueno, nos preguntan como determinó el CA óptimo en casos que no son de riesgo y núcleos de lización de clientes, el cao óptimo lo determinas utilizando e este. Voy a escribirlo aquí. No sé si está viendo mi pantalla todavía, si aún estamos viendo tu pantalla, este.

01:20:16:18 Este es un índice fino Robson que recordemos viene del. Viene de la nova. Perdón, estoy. Estoy aquí. Sí. Recordemos que estos dos conceptos vienen del Anova, no? Que es la varianza entre grupos y la varianza dentro de los grupos. Son. Son, son inversas. Entre mayor sea la varianza entre grupos, menor va a ser la

Aplicaciones de los algoritmos de aprendizaje no supervisado: Clasificación de riesgos ambientales con Stata


Los algoritmos de aprendizaje automático no supervisado (Unsupervised Machine Learning) permiten clasificar unidades experimentales u observacionales a posteriori, sin información previa sobre su origen, naturaleza o tipificación. Esto los hace extremadamente útiles para clasificar y jerarquizar riesgos ambientales, cuando se cuenta con datos que no tienen una variable de respuesta identificable. En esta presentación abordaremos, desde un ejemplo aplicado, algunos conceptos y procedimientos para el uso de estos algoritmos y su utilidad para el análisis avanzado de información en cualquier área del conocimiento.

Etiquetas relacionadas

  • Algoritmos
  • Aprendizaje
  • Enseñanza
  • Estadística
  • Investigadores
  • Riesgo

¡Comparte este video con tus colegas!

Compartir

Ver más

Cotizar
Próximos
Eventos

X

Mis cotizaciones:

Comentarios a tu solicitud:

Cotizar