SS_Logo

Stata y Jupyter Notebook: potencialidades y comandos de interacción

Autor: Franco Andrés Mansilla Ibañez / Portafolio: Quantitative / Jue. 01 de Feb de 2024

Transcripción de este video

00:00:37:04 Software Shop, la empresa líder y la implementación de herramientas analíticas y software especializado en Latinoamérica les da la bienvenida a esta presentación. El día de hoy contamos con el acompañamiento del instructor Franco Andrés Mansilla, especialista en entrega de soluciones analíticas a necesidades y problemáticas del negocio, tal como inversiones, operaciones y riesgos. Académico de la Universidad de Chile en cursos de riesgo Financiero del Magíster en Finanzas y Métodos Cuantitativos.

00:01:17:09 Sus temas de investigación son Eficiencia de mercado, Riesgo financiero, machine Learning y econometría. Bienvenidos. Bueno, bienvenidos a este año 2024, una nueva serie de Walk Huacas sería Lo que vamos a ver en esta sesión. Es lo que comentaba Elizabeth, es como lograr integrar Stata con Júpiter y vamos a revisar un poco de todo bien principalmente. Primero, como primera etapa quiero mostrar que Júpiter y después pasarnos derechamente en un Júpiter para poder lograr así integrarlo con estar perfecto.

00:02:03:09 Yo vi principalmente una herramienta que el común denominador del lenguaje que se trabaja dentro de Júpiter es es Python, bien Python dentro de lo que se puede trabajar, se puede trabajar en diferente interfaz y lo que ofrece principalmente Júpiter es una interfaz, una interfaz sencilla de leer, ordenada y principalmente la utilizan los cientista de datos o los famosos Data Science para desarrollar distintos análisis, modelos distintos, tipo de modelo, distintos tipos de análisis descriptivo, exploratorio, etcétera.

00:02:37:18 Bien y principalmente Stata vio la posibilidad en su momento como es una herramienta que de fácil acceso gratis y además es un cuaderno. Es un cuaderno principalmente vio la facilidad de poder integrar y porque vio esa facilidad, porque no solamente tú vas a poder trabajar en una misma interfaz. Júpiter con lenguaje o con Stata, sino también vas a poder combinar tanto Python como Stata en un mismo nota.

00:03:04:17 Bien, entonces, como le comenté, Júpiter Notebook no es más que un cuaderno. ¿Aquí por ejemplo, ustedes van a documentación y usted para observar acá de que en cada uno acá arriba van a ver diferentes pestañas donde cada una está pestañas es un notebook distinto y yo acá al ladito tengo todos mis notebook por así, o mi Júpiter no?

00:03:39:24 Bien, y sobre cada cada cuaderno que yo tengo puedo trabajar de forma interactiva, haciendo gráficos, llamando base de datos o haciendo modelos o o lo que cada uno quiere hacer en En efecto, este por ejemplo, hay diferentes tipos de Júpiter el notebook, el clásico este. Está el Júpiter Labs, que llama, que es principalmente, que te abre mucho el Júpiter dentro de una misma pestaña.

00:04:09:24 Y hay otros también que son más avanzados, pero eventualmente uno que trabaja en esto como que el normal te podría servir sin ningún problema. Hay otras competencias como Google o Apps que de Google que tienen la misma interfaz, tienen el mismo sentido, pero se trabaja de forma diferente, te presta diferentes recursos informáticos para poder correr los procesos, por ejemplo en un Google.

00:04:45:16 O bien entonces, pasando a la parte yo acá por ejemplo tengo mi repositorio allí, por ejemplo tengo mi Google Drive donde mi bolígrafo Google Drive, tengo toda la carpeta de software Chop, el webcast, y aquí tengo cargado un punto aquí en la notebook y la extensión del El notebook es esa IP y griega en EB y mi base de datos bien, un punto desde un punto de de A y un punto de R a efecto.

00:05:07:08 Y es lo que yo tengo cargado en el Google drive principalmente. Solamente que en vez de estar viéndolo por una pestaña de Mac, lo estoy viendo en en derechamente el repositorio de Júpiter. ¿Por lo tanto, cuando yo pincho cada Júpiter, lo que me va a ver es es esto es tu cuaderno perfecto y por qué es un es un cuaderno?

00:05:43:06 Principalmente porque tu vas anotando ordenadamente lo que lo que tu quieres ir colocando. Bien. A diferencia de, por ejemplo un un Visual Studio Code o a un spoiler o un auto u otros en la que tu vas programando y te aparece esa típica pantalla negra o pantalla de un color específico en la que tu vas señalando forma de tu entendimiento de cómo se va o como va quedando el código.

00:06:40:11 Bien, aquí en aquí en el notebook lo que te ofrece es poner títulos, poner descripciones, por ejemplo yo acá por ejemplo a cada una de estos índices que vamos a ver hoy día, yo perfectamente acá le puedo colocar una descripción, por ejemplo, una descripción específica. Bien, entonces esto es principalmente lo que hace uno en el cuaderno, bien, va a destacar una letra, va a ser mayor que otras, voy colocando ecuaciones bien de aquí yo voy a llamar a lo que es latex, donde latex yo puedo fácilmente en una celda, por ejemplo, acá voy a agregar una celda y acá puedo llamar a punto text y poder escribir alguna ecuación para Hace tiempo que no escribo

00:07:28:18 algo acá más si sale algo bueno, pero eventualmente uno podría escribir con latex cualquier ecuación o cualquier fórmula y plasmarla. Hay que ver que se utiliza mucho en lo que es la enseñanza o cuando uno está aprendiendo Python lo profesores usualmente opa y tono o o estadista aplicada o machine learning aplicado utilizan estos interfaz porque es más sencillo que el estudiante vaya viendo el paso a paso y con lo cual colocando comentario, etcétera bien, entonces lo que vamos a ver hoy día va a ser una instrucción del notebook.

00:07:56:21 Las conexiones de Stata a Júpiter, un ambiente, Júpiter el notebook y lo vamos a ir viendo los primeros pasos de manipulación de datos, estadística descriptiva. Vamos a trabajar de definir distinto, distinto, macros como global local, matrices. También vamos a ver lupa y algún modelito bien, y como esto nosotros lo podríamos combinar utilizando stata y entonces para ello estará.

00:08:38:04 ¿Tuvo que haber haber adecuado una librería que principalmente nos permita trabajar derechamente, o una librería que mediante Jupiter Notebook yo la necesito llamar para poder configurar stata dentro de un twitter, no? Perfecto. Entonces yo acá principalmente lo que estoy haciendo, voy a llamar un paquete que se llama o que me permite principalmente direccionar una carpeta de mi computador y esta carpeta de computadores donde yo tengo estaba instalado en aplicaciones estatal y me meto dentro de utilidades y ahí yo puedo estar.

00:09:31:22 Lo que hace Júpiter es que va a ir a rescatar la información que necesita dentro de esa carpeta. Luego yo acá tengo que configurar el stata que yo usualmente uso, yo utilizo, recuerden que está acá, tiene como tres versiones MP ese y otro más que no recuerdo cual es, pero yo como utilizo el multi procesador y yo coloco MP, si eventualmente ustedes tienen un ese tiene que volverse y así pusieran y eso te lo pueden ver cuando inician Stata Ahí le aparece MP Perfecto, acá el mismo en el mismo estado bien o en la parte área de donde sale la versión y la edición de Estado perfecto, entonces uno va comenzando a ejecutar, yo acá

00:10:06:01 ejecuto esto, ejecuto esto y lo que va a aparecer es mi estaba por hacer, él estaba diciendo que hoy mira tu estado ya está cargado en paint, o sea en Júpiter. Bien, y son lo mismo en la misma interfaz que yo tengo que le mostré acá abriendo derechamente esta acá, pero con el acceso directo a estado temp. Entonces para poder trabajar en Stata yo necesito dos cosas principales.

00:10:42:14 Bien, necesito comprender cómo yo llamar a un código, a un comando UT estando en Júpiter un comando de estaba bien porque a pesar que yo cargué estaba dentro Júpiter. Júpiter sigue trabajando con un lenguaje por default. ¿Pipe si usted suena, se dan cuenta? Acá está trabajando con Python tres. Bien, yo quiero ejecutar algún comando. ¿Estaba yo tengo que lograr anteponer o le tengo que decir a Júpiter que lo que yo estoy ejecutando es lenguaje stata?

00:11:11:03 No en lenguaje Python. Por lo tanto yo le tengo que poner como prefijo signo, signo porcentual, stata double signo porcentual stata o signo porcentual es uno por su diferencia entre uno y otro. Es que un signo porcentual es que yo es solamente una línea y dos signos porcentuales que hay de correr múltiples líneas dentro de una misma celda.

00:12:04:13 Bien, por ejemplo, acá yo estoy cargando si ius auto bien que la clase la clásica base datos de stata y abajo le estoy diciendo mis listener el uno y el dos. Bien, si yo eventualmente en una celda voy a correr dos códigos, puedo hacer esto o puedo simplemente colocar un signo más acá, borrar este y dejarlo acá abajo con Si hago esto, le estoy diciendo que toda esta celda o todo lo que está debajo de este stata va a correr con un comando Stata perfecto y acá le podemos dar el y lo que te arroja son las primeras dos filas del ESTA, listando las primeras dos filas de la base.

00:12:50:09 Datos de auto que cargó bien aquí a diferencia de Stata uno tienes el browser donde tu puedes ver tu base de datos Viento acá tu tienes que llamar o utilizar los comando stata que te permiten ver qué variable hay cargadas, cuanto a observaciones, hay promedios, qué etiquetas tiene, etcétera Tú lo tienes que llamar mediante comandos. ¿Por qué? Porque no tiene esa interfaz, esa interfaz como tienes tada por el acceso directo como interactivo, con cuadro de diálogo que te permita ir pinchando y ver la base de datos, las etiquetas, etcétera.

00:13:30:17 Bien, entonces yo acá voy a cargar una base de datos que me va a decir estoy compartiendo todo, todo. La pantalla de un software en pantalla, un contacto así, Entonces yo acá voy a abrir mi y aquí yo voy a cargar esta primera base de datos bien, está cargando y esta es la primera base de datos que yo voy a cargar.

00:14:10:23 Bien, son una base de datos por región y por país. Ahí está el crecimiento de la población, el logaritmo de la experiencia y una variable común. Indicador seis Poder perfecto solamente para poder ir haciendo el ejercicio y mostrándole diferentes funciones. Entonces yo nuevamente cargo el prefijo importo al igual, de la misma forma que yo importo. Base de datos en stata import delimitado csv Entrego la URL y le coloco abajo.

00:14:40:22 Es tarea de Skype. Lo corro bien. Entonces me dice mira, tiene cinco variables. 29 observaciones y estas son los tipos de variables y el formato que tiene. Pero ahora lo que puedo hacer es un append. Quiero cargar una nueva información donde esa información que tiene append está un formato de tema. Por lo tanto yo acá no abro o no importo.

00:15:17:18 Esa nueva base a los que le quiero dar a ven como dta. Simplemente llamo a Stata a ben using y pongo la url bien y le coloco esta tarea. Escribo mi. Entonces aquí pasó de 29 observaciones a 61 68 observaciones. Perfecto. Manteniendo el número de variables y de la misma forma yo le voy a hacer un merge bien donde este merge está como un punto de deal fuerte y aquí me sale match.

00:16:06:09 Me dijo mira, agregué, agregué el parche perfecto y cruzaron las 68 observaciones. Encontró su par. Entonces yo aquí podría, por ejemplo, borrar el merge, la columna merge y comenzar todo el proceso a lo que es el tratamiento de de mi címbalos. Perfecto. Aquí ya derechamente podría correr un misil y una tabla de valiums en la que encuentro que hay 28 mi címbalos para la variables seis water y cinco cinco más que cinco variables cinco observaciones del PIB per cápita.

00:16:48:29 Perfecto. Tiene 29 Valores Valore únicos 62. Valore Único Mínima. Perfecto. Claro. Repito aquí, aquí. Si tú no te sabes este comando claramente te va a doler. Te va a costar saber la funcionalidad que tiene Stata. ¿Por qué? Porque perfectamente tú tendrías que ir a Stata e ir a lo que es datos en datos e irte a la parte, por ejemplo, específicamente missing values y ahí ver cuál es el comando y cómo funciona el comando.

00:17:22:18 ¿Respecto a que derechamente, claro, ya tienes que tener un dominio de estándar con tal que te ayude a facilitar esto porque sí, si tú no logras saber el comando o cómo se estructura el comando, qué parámetro necesita el comando stata para hacer? Para que funcione obligatoriamente le tienes que volver a stata, cargar nuevamente la base de datos, hacerlo, etcétera y poder hacer lo que quieras hacer de capturar lo el lo missing valioso.

00:18:08:18 ¿Entonces uno se pregunta bueno, entonces por qué no lo hago todo en Stata? ¿Sí, por qué nos hace todo en Stata? Porque en ocasiones y por ejemplo, que a mí me ha pasado que eventualmente, en ocasiones yo a veces combino ciertos métodos o por ejemplo para mi stata, para la manipulación y la administración de la base de datos es muy bueno, es muy intuitivo, es muy fácil manejar base de datos conectada, muy fácil, pero eventualmente cuando yo hago el tratamiento de mi base de datos, la limpio, la ordeno, hago lo análisis que tengo que hacer y luego necesito hacer algún modelo.

00:18:50:04 Por ejemplo, o algún algún TS estadístico específico, o algún modelo de machine learning, o cualquier cosa que eventualmente no lo podría tener. Stata lo tiene Python. Bueno, lo que hago es correr y correr. El correr stata primero el mismo Júpiter para pues sda a que está guardada memoria de Stata, pasarlo a un data frame pandas perfecto. Y yo con un data frei panda voy a poder aplicar cualquier otro análisis, un modelo, etcétera Que no, que algún método que no tenga stata.

00:19:18:10 Perfecto. Entonces por ejemplo aquí ya voy aplicando ciertos y ciertas estrategias en términos de tratamiento de mis inválidos, por ejemplo a un summary aquí aplique el doble el doble porcentaje para imputar los missing values. Digo bueno, voy a hacer un sub Maurois de esta variable que tiene 28.000 címbalos y le voy a reemplazar la media a los valores más inválidos.

00:19:40:10 Bien, entonces esto si se dan cuenta calculó el su Marais y esta media que calculó acá representado por este R min lo va a reemplazar dentro de este mi címbalo o punto vacío en Y cuál fue esa media 76,1, que es la misma medida que reportó el SO.

00:20:17:11 Hay otros. Hay otro análisis que yo podría ser que eventualmente Stata no tiene cargado, que es el comando nec level soft. Bien que estos comandos a mi me permiten, claro, como dice acá, de calcular valores únicos. Perfecto. Y acá lo que hace el del soft es dictarme todos esos valores únicos como una lista. Bien. Entonces si yo como estos no son paquetes creados por esta mismo, yo los puedo instalar, sacar esto y vivo en instalarlo sin ningún problema.

00:20:46:04 Bien, pero como ya lo tengo instalado, ya no necesito volver a instalar. Bien, entonces lo que voy a hacer. Voy a calcular Ionic de región y el Level Soft de de región. Perfecto. Entonces aplico. Me dice Mira, tu variable región tiene tres valores únicos, ni en total tiene 68. Sus ecuaciones bien y el level soft me está diciendo mira en tu variable, en tu categoría región.

00:21:19:17 Estos tres valores únicos son Europa, Asia, Norteamérica, de Sudamérica. Perfecto. Y acá en parte lo que estoy haciendo estoy en creando la variable de región y que es en Kodiak tabular, tabular cada uno, o sea, por cada categoría que yo tenga, le voy a voy a crear n cantidad de variables con unos y ceros. Bien, entonces prácticamente lo mismo que yo podría hacer en esta pasando ya una estadística descriptiva.

00:21:54:27 Aquí yo puedo aplicar un código. Entonces aquí voy a ver, bueno, la frecuencia, los números único, el formato, etcétera Más especifico que ir uno por uno. Después algo como más descriptivo, el término más con más, con más información puedo calcular su percentiles, su desviación estándar y su tercer y 4.º momento. Ejemplo. Bien. Y luego para cada una de estas observaciones.

00:22:29:28 Entonces, por ejemplo, a mí en su momento me gustaría crear una marca donde esta marca le voy a colocar un uno si la región es Norteamérica y cero si es otro o otra región, y le puedo hacer una suma de marca bien pasando ya lo que son los global y lo local. Aquí nosotros podemos listar con este comando de S, lo que permite hacer el listar todas las variables que yo tengo y esa list, el listar esas variables que yo tengo la guarda en una macro que se llama r var list.

00:22:58:04 Perfecto, entonces ese r var list yo lo voy a guardar en un global llamado var x. Entonces yo ejecuto esto. El DS me dice mira, cuando yo ejecuto el DS todas las variables, cuando son tipo numérico, me dice mira, está esta variable, no herimos la experiencia. Soy water PIB per cápita, región y marca son variables que cumplen este criterio.

00:23:21:23 Bien, aquí yo podría decir en vez que sea numérico sean string, por ejemplo, o lista de todas las variables que comiencen con este prefijo. Bien, es un comando muy bueno el comando DS. Y yo lo que hago ahora simplemente como es tu comando, de ese guardo está el y este listado de variables en una variable macro llamado r var list.

00:23:47:14 Lo que hago yo es crear un global para que no se me borre llamado var x donde sea, guarde todas las variables guardadas en este rebalse. ¿Entonces, por qué hago eso? Porque yo puedo hacer, por ejemplo, un foreach, entonces voy a hacer un loop en que vaya recorriendo esto verano y cada uno de los componentes de ese contenedor.

00:24:24:09 VAR x donde este bare x tiene este estado, Todas estas variables y cada cap por cada vez que pase por variable hago un sumario. Viene como lo más sencillo. Entonces ahí estoy haciendo un sub Maurois para crecimiento de la población logaritmo la experiencia sea igual yy per cápita región está bien, entonces aquí ya se comienza a poner más difícil, porque imagínense que yo ahora de todo esto quiero ir guardando por cada una de estas variables que vaya recorriendo este operador y del contenedor var x donde están guardados las variables.

00:24:54:12 Quiero que me vaya sacando la media, la desviación estándar, el mínimo, el mínimo y el máximo y lo vaya y lo vaya guardando en una matriz, por ejemplo. Entonces yo acá tengo que primero crear una matriz donde esta matriz va a estar compuesta de seis, de seis g, de seis filas, cuatro columnas y que la rellene con puntos.

00:25:23:23 Perfecto. Quiero que la matriz, la fila de la matriz AB que creé acá arriba le coloques la los nombre de las variables que están guardadas en el contenedor var x en el global var x y las columnas las re nombres con media desviación estándar mínimo y máximo. Perfecto. Aquí estoy creando mi contenedor o como mi mi baúl de resultados.

00:25:55:01 Claro, yo acá tengo seis variables donde cada una de las variables a guardar cuatro y cuatro columnas en 20 me puedo borrar diez minutos. Si lo hago a mano bien, pero es distinto. Por ejemplo, si tengo, no sé, 100, 100 variables y necesito guardar diez columnas, entonces ahí ya no lo voy a hacer a mano. O sea, lo puedo hacer a mano, pero no demorar mucho más y induce mucho más error.

00:26:39:12 Por lo tanto, por eso aprovecho acá las bondades de de Júpiter, o sea de Estado y de los LUB. Y aquí lo voy haciendo, voy diciendo y voy a un operador y que vaya recorriendo cada una de las variables. Perfecto, calcule el estadístico, luego que calculo el estadístico va a sacar la media, la desvía la media y la va a guardar en la columna 1F1, que significa el F, el F, porque yo a medida que vaya moviendo o que el operador I vaya cambiando la variable, la variable uno.

00:27:09:09 Supongamos que es el logaritmo de la experiencia está en la primera fila. Por lo tanto, cuando pase la primera fila tengo que el operador iba a pasar a la segunda variable, por ejemplo seis cuatro y eso después. Yo lo que tengo que hacer es que cuando guarde la información pasa a la segunda fila. Perfecto. ¿Entonces, quién se va a encargar de pasar a la segunda fila?

00:27:32:06 El operador F. Entonces cae cada vez que termine de pasar o de completar la fila de la primera variable, al F se le va a sumar un uno. Eso significa el más, más. Entonces va a pasar a la segunda variable y en la fila dos va a completar a la segunda variable después de la fila tres con toda la variable la fila cuatro y así hacia abajo.

00:28:03:23 Me dan un segundo. Vengo el tiempo, claro. Franco. Aprovecho para comentarle a los asistentes que en el chat devenido, dejando el enlace por el cual ustedes van a poder ingresar en el transcurso de la próxima semana a realizar la grabación de esta sesión, igual van a encontrar otras grabaciones de presentaciones anteriores que también se han realizado con el apoyo de esta clase.

00:28:43:13 Gracias a todos por ese apoyo. Bien entonces y así lo que voy teniendo es esto. Entonces lo que yo tengo es esto como matriz vacía con las seis columnas, cuatro observaciones y lo que hace esto, ir guardando esta información hasta acá se va recorriendo todas, todas las variables necesarias y después termina inclinándome esto. Entonces tengo la variable crecimiento de la población con todas sus variables logaritmo, todas sus variables de la marca, con todas sus variables, o sea, todo cuenta y bien.

00:29:16:08 La segunda forma en que lo podría hacer es mediante un frame. ¿Bien, y qué es lo que hacen los frame? Es decir, bueno, cuando usted trabaja en Stata acá este es un frame. Bien, donde el test, los datos como el stata más o menos 15 antes del stata 15. Nosotros podríamos trabajar solamente con una base de datos o una sesión de estado y una base de datos bien después del estada 15 creo que fue el estado de diseño.

00:29:45:13 17. Stata comenzó a introducir los frame. ¿Y qué dice Freud? Dicen que tú en una misma sesión de stata puedes cargar múltiple, pase datos bien. Entonces, si yo por ejemplo no sé si me saldrá, pero como tengo nada cargado, entonces aquí hay solamente un único frame que es el default, que está el que está. Es este el que está por defecto al abrir stata.

00:30:36:00 Si yo por ejemplo, cargo y le pongo rendir, me va a decir mira tu frente FAL tiene tu base de datos de auto que tiene 74 filas y 12 columnas. Yo aquí en el mismo puedo crear un frente a Y y le pongo por ejemplo resultados, entonces yo le pongo rendir directorio de frames. Me va a parecer que tengo dos frame, tengo el frente default y el frente resultados, entonces yo acá si yo pongo el browser me aparece la base de datos de auto y si yo la pongo acá, frame change results me va a aparecer el frame, resultado que no tiene nada porque lo crea, sin nada me así yo voy a ir cambiando

00:31:08:17 de frame sin ningún problema. Vea entonces yo lo que voy a hacer acá, en vez de cargar o hacer exactamente lo mismo. En esto lo que voy a hacer es que lo voy. Voy a guardar los resultados no en una matriz, sino en un frame nuevo. Entonces en ese frame nuevo yo lo llamé a resultados estadísticos. Entonces aquí lo que estoy haciendo es que le estoy creando las columnas al frame en estoy colocando media.

00:31:57:07 Este estándar mínimo y máximo. Le pongo esto, le pongo rendir, me dice que ahora hay tres. Entonces yo le pongo Fein Change resultados estadístico Me va a mostrar el plano de con agregado, pero tiene cuatro columnas creadas. Perfecto. Entonces acá lo que está haciendo exactamente lo mismo y se dan cuenta. Miren la la abreviación de código. Al utilizar un frame voy a recorrer todas las variables, el operador va a recorrer todas las variables que está en el contenedor X, va a calcular su submarino y lo va a guardar en R En la primera columna R desviación estándar, la segunda columna R Mí en la tercera y así.

00:32:33:24 Y aquí le pongo ejecutar y simplemente ya lo guardo bien. Y acá yo lo que puedo hacer, por ejemplo, es pasar los datos. Si por ejemplo, eventualmente a mí me gustaría guardar estos resultados, esta matriz en un en un data freight pampas, yo lo que podría ser utilizar nuevamente la librería creada por Stata para Júpiter. Bien y utilizaría lo que es el el data frames desde un punto data 11.

00:33:05:19 Yo lo que hago acá es tengo mi el mismo resultado, la misma matriz que yo creé ahí arriba, pero ya ha pasado en un era un pandas y a esto yo lo podría trabajar con un lenguaje byte, incluso para llamar esto utilizó un lenguaje byte y esto ya lo podría guardar, guardar o exportar en un en una, en un x ls, en mi, en mi escritorio perfecto.

00:33:40:29 También se pueden hacer otras cosas. Por ejemplo un modelo y extracción de extracción de datos del modelo. Tengo mi base de datos de auto, puedo hacer una regresión perfecto. ¿Donde esta regresión? Lo que voy a hacer es listar todas las variables. ¿Se dan cuenta? Voy ahora. Lije, liste todas las variables el punto de ese pero que no incluya en ese listado la variable main y la variable PRISM no lo incluya.

00:34:12:08 Y todas las que me liste, guárdelo en este container, en este contenedor X. ¿Entonces se dan cuenta? Me alistó todas las variables menos Mac y PRISM. Entonces lo que hago yo acá separar un split en esta base de datos de auto lo voy a separar. En un split voy a dejar 30% como una entre una muestra entrenamiento y otro 30 con una validación lo ejecuto.

00:34:40:14 Me dice así de las 74 observaciones dos que ahora en el grupo uno y 22 quedaron en el grupo dos Bien, y acá lo que voy a ir haciendo, voy a ir creando. Nuevamente voy a listar con DS que me liste todas las variables menos Make this sample bien y que la guarde en esta global o contenedor que se llama individual efecto.

00:35:11:28 Y acá en este lugar, lo que voy a ir haciendo es crear nuevas variables. Aquí voy crear variables cuadráticas. Entonces todas las variables que estén listada en este lugar se van a elevar al cuadrado. Bien, y ahí van no solamente las variables que estaban, sino también ahora hasta la otra variable, pero elevadas al cuadrado, porque tal con el prefijo 4.º de cuadra Bien, hoy ya no tengo 12 variables, tengo 24 variables.

00:35:36:21 Supongamos y lo que voy a hacer, voy a crear un frame donde esté Francia me ha resultado de métricas. Voy, te voy a poner el número de variables, el mapeo en ese mapa y el tren y en ese mapa de test. Y lo que voy a hacer, voy a hacer un proceso iterativo en la que vaya guardando. Bueno, aquí, aquí.

00:36:12:13 Solo voy a mostrarte lo que voy a ir haciendo. Es que va a ir. Va a colocar tu variable J, tu área ósea, tu local bar J, va a listar una variable y va a guardar la variable que guardó anteriormente en local. Bien, va a ser una regresión entre el prise y la variable var j para tu muestra, cuando es uno que toma tu entrenamiento y vas a hacer una proyección bien.

00:36:40:08 Y aquí simplemente lo que vas a calcular es el ls mapeo el asimétrico mapeo perfecto para tu muestra entrenamiento y para tu muestra de validación. Así se calcula como a mano se escribe y después and guarda la cantidad de variables que utilizaste, el modelo o ese mapa y tu y tu métrica de error de test y después borra para que vuelva a correrlo con la siguiente iteración.

00:37:16:06 Ejecutamos esto, vamos a vamos a cambiarte de frames 50 al otro y lo que estamos haciendo acá nuevamente es pasar de este punto de T a donde está guardado. Todos los resultados van a estar, se van a arrojar en un punto pandas. Entonces se dan cuenta acá el modelo en la regresión empezó con una variable. Esta variable tuvo esta métrica de error en tren y esta métrica de error en test esta según después la segunda iteración fue con dos variables, estas dos variables.

00:37:50:00 Esta fue la métrica de error del tren y esta fue la que llegaron el test tres variables y así bien hasta las 19 variables que tenía. Perfecto. Yo esto lo podría. Por ejemplo aquí si se dan cuenta ustedes lo que estoy haciendo es que estoy utilizando ya Python desde este instante. Cuando declaré que iba a pasar los resultados a Python, ya estoy trabajando con Python y acá estoy importando una librería que sea más proclive que para hacer gráficos.

00:38:24:15 Ni ejecuto. Y este es como el gráfico brasilero, entonces con con, bueno, no existe más cinco variables, pero por ejemplo con cinco variables tiene 131 error de un error de entrenamiento y un error de validación. Bien, con diez variables tiene un error de entrenamiento y un error de validación y así sucesivamente. Y esto a mi me gustaría porque lo hago, porque me gustaría ver un cuanto yo podría hacer el modelo, por ejemplo, con tantas variables.

00:38:54:18 Y aquí puedo decir bueno, yo podría ser el variable entre seis variables a nueve variables. ¿Por qué? Porque la métrica de entrenamiento de validación están muy cercanas a diferencia, por ejemplo diez lo hago con 15 que con 15. Claro, tengo menor error en la muestra entrenamiento, pero la muestra validación se me dispara, pero entonces prefiero algo que esté más up que en este caso puede ser entre seis variables a nueve variables.

00:39:37:03 Bien, entonces y con esto termino principalmente lo que permite por utilizar stata en Python dos en Júpiter es para hacer estas combinaciones de cosas. Usted me podrían decir oye, pero esta regresión simple o por mínimos cuadrados dinámicos perfectamente la pudo haber hecho en estado. Si, pero, pero es un ejercicio. Imaginate que después tu tenga que hacer un modelo, una red neuronal, por ejemplo, y la red neuronal no la tiene en Stata como tan profundiza, tan profunda como te lo ofrece un tensor flow, un queras o quizás un sticker, una mierda.

00:40:18:02 Entonces esas manipulaciones a la hora facilitan a la hora de hacer modelo, de desarrollar nuevas cosas. Muchas gracias por por atenderme Lisa por ahí. Gracias y consultas. Gracias Branco, Lo invitamos a nuestras sesiones que nos dejen sus consultas. En este espacio tenemos una que nos hacen por acá. Hay alguna manera de utilizar algo, algún paquete python cuando ya estas en el entorno de programación de Stata o el beneficio de esto es solo en el entorno en Júpiter, que facilita el orden y la gestión de carpetas.

00:40:45:28 Si, o sea, o sea, como te comenté, dentro del mismo Júpiter tu puedes trabajar cosas de Python, cosas de stata y acá en tu carpeta tu acá perfectamente puedes tener 1.1 tope y griega que un lenguaje de pacto de chat, pero puedes combinar muchas cosas y eso es lo bueno que tiene Status quo integrado a Júpiter, porque yo en ocasiones tenía que pasar de descargar CCD.

00:41:21:27 Ya he tratado y pasarlo, por ejemplo a Júpiter para trabajarlo con Python. ¿Si necesita una librería específica de Python que en Júpiter Notebook se parece al dude stata y no específicamente si es como el do fa el de Stata, pero pero como cuaderno o algo más ordenado? Bien, eso es lo que te ofrece Júpiter, a diferencia de de un de un de un spider, de un ratón, de un vice.

00:41:58:29 El Studio Code, que es lo que te ofrece Júpiter, es codear, hacer código, pero en forma más ordenada, más, más, más bien. Y eso fácilmente después te va a permitir presentarlo, presentarlo a estudiantes, presentarlo en cualquier lado donde necesitas presentarlo. Perfecto. Voy a leerte otra pregunta antes de de esto voya a dejar la encuesta en pantalla para que los asistentes puedan oirla en diligenciar y cuantas variables se puede trabajar.

00:42:34:14 ¿Hay un límite específico? No sea el límite específico, va a depender derechamente de la capacidad de tu computadora. O sea, si tu estás utilizando, por ejemplo, Google colapsa, el Google colapsa, utiliza recursos del propio Google colados, es decir, un color te dice mira, si tu estás utilizando mi interfaz, yo te doy recursos tanto de tanto de de RAM, tanto de GPU, etcétera.

00:43:03:22 ¿Bien, entonces acá derechamente en cubierta, utilizando los recursos de tu computadora, si tu tienes de RAM 16 va OK, te va a caber 16 en giga de datos, giga de auto ok, si tengo un dataset en stata y otra en python, como sería el merge por ejemplo? Va a depender, o sea, no puedes, no puedes combinarlos con distintos lenguajes.

00:43:24:03 No es que tu tengas un una base de datos, un dta y estás trabajando con ese tema y lo vas a hacer match con pandas, lo tienes que centralizar todo en uno. Entonces podría llevar el python stata a tu base de datos de Python de pandas a stata o de panda, o de espada o de tea a pandas.

00:43:48:12 De ahí juntarlos perfecto, pero no puedes hacer la unificación con estando con diferente los base de datos en diferentes lenguajes. Por eso en diferentes lugares no tienes que unificar en un lugar para unificar, pero no es necesario abrir otro Júpiter, lo puedes hacer el mismo Júpiter, unificarlo o estandarizar lo en el mismo lenguaje.

00:44:27:04 Perfecto. Franco. Bueno, no tenemos más consultas en el momento. Voy a dejar la encuesta unos minutos más en la pantalla para que puedan diligenciar. ¿Algo que quieras agregar antes de finalizar? Bueno, con software chavo hace tiempo que tenemos unos cursos, unos pulso asincrónico no hacen crónicos de Stata Machine Learning. Son cursos que ya fueron creados hace tiempo, o sea, y al parecer son bien demandados no solamente por personas individuales sino también por instituciones.

00:44:53:22 Así que hay y lo invito a que lo revisen a ver si algún tópico, algunos cursos le interesa. Bien, gracias Británico. Y lo mejor de todo es que son baratos, son muy económicos. Acabo de dejar el enlace en el chat para las personas que deseen revisar la información, igual cualquier duda adicional nos pueden también contactar y les daremos la información que cada uno de ustedes requiera.

00:45:19:00 Franco, muchas gracias por este espacio, por habernos acompañado el día de hoy. Estaremos por acá prontamente con nuevas nuevas temáticas y pues a todos ustedes les deseamos un feliz resto de día tanto muchas gracias, muchas gracias. Que estén muy bien. Un abrazo igualmente Franco, Hasta pronto y feliz tarde. Bueno, para mayor información respecto al software o en temas relacionados, no dude en contactarnos a través del correo electrónico.

00:45:28:03 Entrenamientos, arroba, software, guión ya.com o visitar nuestra página web Triple OLE o punto Software Guión Ya.com.

Stata y Jupyter Notebook: potencialidades y comandos de interacción


En la actualidad, se cuenta con diferentes herramientas y lenguajes de programación que facilitan la aplicación de diferentes métodos analíticos. En esta presentación se abordará la utilidad de integrar una herramienta estadística robusta como Stata en una plataforma que permita no solo observar el código de forma ordenada y limpia, sino también combinarla con un lenguaje de programación como Python.

Etiquetas relacionadas

  • Análisis de datos
  • Estadística
  • Programming

¡Comparte este video con tus colegas!

Compartir

Ver más

Cotizar
Próximos
Eventos

X

Mis cotizaciones:

Comentarios a tu solicitud:

Cotizar