SS_Logo

Análisis de Componentes Principales en Stata 17

Autor: Andrés Raúl Cruz Hernández / Portafolio: Quantitative / Jue. 09 de Feb de 2023

Transcripción de este video

00:00:41:05 Somos un equipo autogestionado, responsable, proactivo y autónomo, con gran compromiso social, aportando el pensamiento científico y el desarrollo latinoamericano, promoviendo el uso de software para investigación en todas las áreas del conocimiento. Generamos contenido de alta calidad teniendo en cuenta las distintas necesidades del mercado. Realizamos actividades gratuitas constantemente. Abordamos temáticas vigentes, aplicaciones especializadas y elementos metodológicos que te permiten interactuar y generar redes para la difusión de tus proyectos.

00:01:07:26 Contamos con servicio de asesoría, consultoría y acompañamiento personalizado. Certificaciones internacionales, entrenamientos especializados y talleres prácticos. Nuestro principal objetivo es promover el uso de tecnología en el campo investigativo, generando un impacto significativo en la región y de esta forma contribuir a la creación de comunidad para compartir conocimiento.

00:01:40:04 Te invitamos a ser parte de este gran equipo Software Shop. Visita nuestra página web y conoce nuestros servicios Software Shop. La empresa líder es la implementación de herramientas analíticas y software especializado en Latinoamérica. Les da la bienvenida a esta presentación. Esta sesión contará con el acompañamiento de Andrés Cruz, instructor del Portafolio Cuantitativo en Software Shop Profesionales Finanzas y Comercio Internacional de la Universidad de La Salle.

00:02:38:09 Magister en Investigación de Administración. Énfasis en Finanzas de la Universidad de los Andes. Acreditado con la certificación Internacional en Administración de Riesgos Cuantitativos se QRM, otorgada por el Instituto EPE. Actualmente adelanta estudios de Doctorado en Administración en la Universidad de los Andes en Colombia. Bienvenidos e. Bueno, primero que todo quiero saludar a todos nuestros asistentes participantes a esta sesión de hoy y nuevamente a darles la bienvenida y extenderles la invitación, pues para que se sientan libres de realizar las preguntas que vayan surgiendo y en la medida de lo posible las iré respondiendo en el desarrollo de este evento e como ustedes bien lo pudieron notar de parte de la convocatoria al componer en el tema

00:03:30:17 que nos atañe en la sesión de hoy, es Componentes principales que hace parte de esta línea de webcast que hemos venido desarrollando utilizando STATA en su última versión versión 17 y desarrollando temáticas de provenientes de la estadística, la econometría, métodos cuantitativos y demás. Entonces vamos a dedicar unos minutos primeramente para revisar un poco, pero primero las bases contextuales, las bases teóricas para entender un poco qué es esto de componentes principales y procederemos luego a realizar una aplicación bastante sencilla, pero que va a permitir un poco entender mejor esto que vamos a ver.

00:03:57:29 Primero un teórico y cuando hablamos de componentes principales vamos a hablar de algo un poco más grande. Vamos a iniciar hablando un poco de algo que es un poco más grande, como una sombrilla, por así decirlo, que se conoce como el análisis factorial de la sombrilla y debajo de esas sombrillas, pues vamos a de esa sombrilla vamos a encontrar componentes principales.

00:04:32:29 Entonces vamos a empezar primero por definir y saber entender lo que es el análisis factorial y es una herramienta, es una técnica que se utiliza en diferentes ciencias sociales, se utiliza en el marketing, se utiliza en la gestión de productos, en investigación operativa, en economía, en psicología. Quizá también haya muchas ciencias que digan que la principal característica es que tratan o manejan grandes cantidades de datos.

00:05:13:03 De acuerdo, entonces, si usted es un profesional de alguna de estas áreas o de otras que yo no mencione y usted en su trabajo, digamos que en su se manejan bases de datos en donde tiene muchísimas variables. ¿Esto le sirve? ¿Le podría servir a usted de qué manera? ¿Es una técnica estadística utilizada para reducir datos? Ojo, cuando yo digo datos hablo de variables, no de observaciones de registros que tengan ustedes en sus bases de datos, sino reducir el número de variables y ya lo vamos a ver más adelante, un poco a nivel gráfico.

00:05:40:06 Entonces, lo que busca el análisis factorial es reducir esos datos, reducir el número de variables que yo tengo en mi base de datos, en términos de un número menor de variables que se van a llamar factores y ya vamos a verlo más adelante, que es eso. Estos factores son aquellos elementos que no se pueden observar pero que están en común, algo que tienen en común todas estas variables.

00:06:16:19 Entonces aquí hay que tener cuidado un poco, y es que yo tengo unas variables que son observadas, cierto, porque las tengo registradas y las voy a reducir en unos factores que no son observados, es decir, van a ser como conceptos como algo más conceptual. Estos factores, pues, también se conocen como variables latentes y lo que yo busco con esto es desenmascarar o encontrar una idea.

00:06:42:19 Por eso digo yo que es algo más conceptual, no algo que tienen en común esas variables, algo que tienen en común un factor común. Por eso es análisis factorial, un factor, algo que tienen en común. Vamos en la búsqueda de ese algo que puede ser aquello que tienen en común estas variables, que me permite agruparlas en ese factor.

00:07:08:06 Hay una ambición de resumir en una o dos o bueno, pueden ser más variables o factores, pues todas esas variables. Y es importante que esas, esas variables que se agrupen, por así decirlo, en esos factores, pues deben tener una relación. Por eso es ese factor común. Yo no puedo unir estas dos variables que no tiene nada que ver, no puede encontrar un factor común, entonces debe tener alguna relación.

00:07:36:22 Bien sea una relación positiva que si esta aumenta, esta de acá también va a aumentar, o una relación negativa que si esta disminuye y la otra va a aumentar. Por ejemplo. Resumir implica que responde. No están asociadas a un concepto o idea que no se observa directamente de nuevo. Entonces aquí vamos a encontrar un concepto, una idea, algo que no se puede observar fácilmente, no?

00:08:14:28 Y aquí ya les doy un ejemplo como para que lo vayan aterrizando. Por ejemplo la inteligencia. La inteligencia no se puede medir per se, no existen diferentes variables que yo puedo medir, identificar, cuantificar, observar, tratar, que puedo cuantificar muchas variables o cualificar también muchas variables. Y con estas variables yo puedo encontrar o definir. Digamos que la inteligencia no, pero yo no puedo ir a medir la inteligencia directamente de nuevo.

00:08:41:18 Entonces aquí solo se observan variables, no se van a observar ideas o conceptos de acuerdo o no ese otro concepto, por ejemplo el amor. Yo puedo identificar variables, cierto? Cuantificar o cuantificar algunas variables que me pueden indicar el nivel de amor, por así decirlo, que puede tener una persona. No? Pero yo no puedo medir el amor como tal.

00:09:14:20 En el análisis factorial hay una varianza que es específica para cada variable, es decir, cada una de las variables cuenta con una varianza, pero también va a haber una varianza explicada por ese factor común. Ya lo vamos a ver más adelante. Entonces acá quizá con un un gráfico, por ejemplo, acá yo tengo un modelo no? Y quiero descubrir o estudiar este concepto.

00:09:52:06 Por ejemplo, la autoestima, no la autoestima de una persona. Por eso yo les decía este tema también aplica quizá para psicólogos, para personas, psicólogas no, no para, para vehículos. Un factor la autoestima, no? Cómo puedo yo medir la autoestima de una persona? Es una idea, es un concepto que no puede ser medible fácilmente. Lo que puedo hacer es medir o identificar otras variables que me pueden llevar a mí a entender ese concepto de autoestima, no?

00:10:21:17 Entonces, por ejemplo, la variable uno puede ser el peso de una persona. La variable dos puede ser la estatura de una persona variable. Tres. No sé, por ejemplo, el número de padres que tiene vivos, por ejemplo, o el número de hermanos que tiene. No mucho. Factores. Por ejemplo, no sé el nivel de escolaridad de la persona. Todo eso yo lo puedo observar, ¿no?

00:10:53:22 ¿Son factores o son variables? Perdón, van a ser variables que de una u otra forma me van a poder ayudar a explicar o a entender la autoestima. Van a estar relacionadas, cierto? Entonces de nuevo, yo tengo todas esas variables. En este ejemplo tengo 14 variables, pero las voy a agrupar en un solo factor que va a hacerla autoestima, y eso me sirve para comprender mejor todos estos conceptos o ideas que no se pueden medir.

00:11:25:25 Entonces para eso me puede servir el análisis factorial. Claramente cada una de estas variables va a tener un nivel de error aún en toda medición estadística estamos propensos a que haya un nivel de error. Por ejemplo, ese error puede venir de la digitación de los datos o layers. Datos atípicos, por ejemplo, diferentes factores que me van a terminar afectando el error fueron vistos.

00:11:55:26 Entonces este es un modelo con un solo factor. Aquí se explican los factores o elementos que afectan la autoestima en un grupo de adultos. Eso fue lo que dije. Supongamos el caso más simple, el único factor que da cuenta de esas relaciones y entre las 14 variables. Es decir, aquí yo voy a estar mirando, estadísticamente hablando, yo voy a estar mirando las correlación es las covarianza que tienen estas variables, estas 14 variables.

00:12:38:02 Por eso yo les decía que es importante que tengan un nivel de correlación o de covarianza, tengan algún nivel de conexión. No pueden ser cosas totalmente aisladas, no? Qué tal, por ejemplo, para medir la autoestima he aquí incluir el precio del petróleo o incluir la tasa de la serie tiempo de tasas de interés del Banco Central. No, nada que ver con no tiene nada que ver, por ejemplo, con el nivel de hermanos de una persona o con la estatura de una persona, o con las enfermedades que tenga nada que ver, o sea, es decir, para poder hallar un buen factor común, entonces debe tener un nivel de correlación.

00:13:14:29 Por lo tanto, entonces la parte que estas 14 variables comparten entre sí, ese factor se le puede atribuir a una variable latente o a un mismo, o un factor que es lo mismo variable latente o un factor variable latentes. Porque digamos que conceptualmente es eso como que está ahí, pero no, no está, no es del todo claro. No es fácil ver, entonces eso es de acuerdo, bueno, aquí tenemos un segundo modelo, no?

00:13:51:19 Y aquí ya tenemos cuatro dimensiones, por ejemplo de la autoestima. Y entonces, por ejemplo, ya no tenemos un solo factor como este que teníamos acá, sino ahora vamos a Después de hacer el análisis factorial, encontramos que hay cuatro factores, cuatro cosas en común siguen siendo las mismas 14 variables de acuerdo, siguen siendo las mismas 14 variables, pero con el análisis factorial encontré que, por ejemplo, la variable uno, dos y tres están asociadas a un componente físico estatura, peso, color de los ojos.

00:14:31:29 Por ejemplo, se me ocurre que estas otras variables tienen algo en común otro factor común, por ejemplo un factor emocional, un factor familiar, un factor social. Por ejemplo, ¿cuántas veces a la semana sale con sus amigos? Puede ser un factor familiar el número de hermanos, por ejemplo, o si cuenta con padres divorciados también, eh? Bueno, no, no quiero entrar a divagar en todo esto, pero el punto es que en eso consiste el análisis factorial, en encontrar factores que agrupen mis variables originales.

00:15:03:22 Bueno, esto ya lo dije, el factor latente nunca explicará en su totalidad la variabilidad de los ítems. De acuerdo? Es decir, lo que yo les decía, cada variable tiene per se un error en su medición desde el punto de vista estadístico, no? Entonces este factor no va a explicar en su totalidad eso. Esa variabilidad en sus errores, por así decirlo, no explicará una parte de pero no todo.

00:15:31:21 Bueno, entonces, como ya lo he mencionado, el análisis factorial se concentra en obtener esos factores que explican la relación entre las variables. Solo se observan las variables correlacionadas, no se observan ideas o conceptos. Eso es lo que se va a descubrir. No desenmascara esas ideas o conceptos. Se utiliza mucho. Se utilizan muchos conceptos, perdón, que no son observados, no cuantificables.

00:16:03:20 Cómo ya les daba algunos ejemplos la inteligencia, el afecto, la locura. Si uno puede decir que esa persona tiene un nivel de locura nivel cuatro o nivel dos de locura porque no es cuantificable, no? O un nivel de inteligencia, un nivel de inteligencia. Ocho diez. No existen test si estos test de coeficiente intelectual y demás. Pero ese coeficiente intelectual, por ejemplo, es una medida, una observación, una variable que puede explicar la inteligencia.

00:16:42:19 Además que sabemos que existen ya diferentes tipos de inteligencia. La inteligencia emocional musical va todas estas cosas. Entonces de nuevo, estos conceptos no son cuantificables, no son medibles, pero tenemos otras variables que nos pueden ayudar a identificar esos facto, esos conceptos. Entonces la idea es encontrar esos conceptos y se están buscando obtener factores que sean fáciles de entender y que obviamente que sean relevantes desde el punto de vista estadístico, no que sean fáciles de entender y que contengan información útil de ese conjunto de variables originales.

00:17:17:05 De acuerdo, entonces esa es un poco la contextualización, la fundamentación, por así decirlo. Claro, yo sé que esto es un tema que de pronto para muchos va a ser complejo, no? Espero que en una hora que claro, en su totalidad ya puedan ustedes salir aquí expertos en análisis factorial, pero es importante para comprender ya lo que vamos a hacer en esta etapa en unos minutos, de acuerdo?

00:17:57:11 Bueno, entonces aquí ya ese es como el preámbulo de. Y resulta que existen diferentes métodos, diferentes métodos y herramientas, metodologías para identificar esos factores, para identificar eso que tienen en común. Entonces acá yo les presento los cuatro digamos que que son más utilizados, que están en la literatura y entonces tenemos componentes principales, factor principal, factor principal y grado y máxima verosimilitud.

00:18:29:26 De acuerdo. Entonces, por eso yo les decía análisis factorial es una sombrilla grande y de bajito están estos métodos. Componentes principales, factor principal, máxima verosimilitud y de acuerdo. Cada uno de estos de estas metodologías se utilizan según los datos que yo tenga Cierto y según lo que yo quiera hallar. Entonces, no todo aplica para todo, pueden ser sustitutos y demás, pero digamos que ya son casos muy puntuales.

00:19:15:06 La idea en esta sesión es que utilicemos componentes principales. Nos vamos a enfocar solamente en componentes principales, de acuerdo, entonces eso es un poco hasta ahí la presentación en PowerPoint y ya vamos a pasar a estad de acuerdo. Entonces permítanme les comparto esta lista que deberían estar viendo ya y estable. Y para eso entonces vamos a e utilizar una base de datos.

00:20:12:12 Voy a buscarla por acá y también un momento. Me gusta utilizar esta base de datos, esto antes de entrar a trabajar, digamos con el manejo de la base de datos, pues miremos qué es lo que hay, no para para entender un poco el ejercicio y esto corresponde a una encuesta de estudiantes universitarios. Me acuerdo de una universidad aquí en Bogotá con tenemos una base de datos que tiene esa base de datos, entonces con ese comando puede ser Browse o ver browse, etc perdón pero que no lo estoy viendo aquí.

00:20:42:02 Si ya aquí tenemos una base de datos, por ejemplo, entonces son estudiantes de pregrado, de licenciatura o pregrado como como lo llaman ustedes en sus países. A propósito, nos pueden por favor apuntarse a través del chat de de qué país o de qué entidad, de qué universidad nos están acompañando en esta sesión, si así les parece y también comparan para saber con qué público estoy conversando en esta mañana.

00:21:15:05 Y entonces les decía revisemos la la base de datos. Tenemos, por ejemplo, una variable que se llama aspiración salarial. Se les preguntó a los estudiantes Oiga, cuando usted salga de la universidad, cuál espera que sea su salario, esto está en pesos colombianos. Entonces 2 millones y medio, 6.000.003, seis, cuatro. Bueno, cierto, se les preguntó, eh? Por ejemplo, esta variable de avión ¿Cuántas veces en el año usted viaja en avión y promedio uno seis 12 cero?

00:21:47:24 Bueno, cuál es la calificación o el promedio general de su primer semestre? ¿Cuál fue la calificación de 0 a 5? ¿Cuál fue la calificación promedio? ¿Cuál fue la calificación en cálculo? Una materia de cálculo, por ejemplo, eh? Calificación en probabilidad. ¿En qué año se graduó del colegio? Eh? La fecha. ¿ Cuántos? Bueno, todos son de primer semestre.

00:22:15:00 ¿En qué año se hizo esto? ¿Cuántas veces al mes? Perdón? ¿Cuántas veces al mes practica deporte? ¿Cuál es su edad? Bueno, es una encuesta de caracterización. Es una encuesta de caracterización de los estudiantes de estos. Eso es como para. Para saber qué tenemos acá y con qué nos vamos a encontrar. Tenemos estatura, género y número de hermanos.

00:22:49:06 El nivel de escolaridad de los padres, de la madre y del padre. Cuántas veces van así ni cuál es su peso y cuánto tiempo llevan en una relación sentimental, si tienen novio o no es eso es lo que tenemos acá en nuestra base de datos, Entonces pueden cerrarla y vamos a proceder acá, a realizar nuestro perfil en nuestro análisis factorial.

00:23:18:29 Entonces para eso yo voy a decirle o a darle un poco el siguiente, el las instrucciones, eso yo lo puedo hacer a través de un menú desplegable, cierto, lo puedo hacer a través de este comando Factor tiempo, Factor y aquí incluí algunas películas, algunas variables, perdón, que están relacionadas pues con su día a día, con con, es decir, variables que están en esta base de datos.

00:23:54:02 Entonces, por ejemplo, tengo película, cuántas veces van a cine al mes? Cuánto tiempo llevan en una relación? E Cuántos pares de zapatos tienen o compran al año? Perdona que están? Cuántos pares de zapatos compran al año? Calificaciones y esto y aquí le digo que con componentes principales principal componente factor. De acuerdo, entonces le voy. De acuerdo. Entonces eso que tenemos ahí.

00:24:30:16 Perdón? Eso que tenemos acá es el análisis factorial. Ese es el análisis factorial. Lo que les estaba diciendo el análisis factorial, que es la sombrilla grande. Y ahorita vamos a componentes principales que tengo acá. Entonces me gustaría que nos enfocamos en esta información. No, no vamos a poder cubrirla todo, toda por el tiempo, pero les voy a dar digamos que la intuición y qué es lo más importante que yo debo mirar acá?

00:25:11:07 Entonces me dice que corrí un análisis factorial por acá, mirandolas correlaciones. Cuantas observaciones tenemos? Ojo, yo les decía aquí no, yo estoy hablando de reducir variables, no observaciones. Cuántas filas, por así decirlo? 874 registros. Observaciones. De acuerdo. Y aquí me bota. Me dice Oiga, yo le recomiendo que todo esas variables que usted le puso acá, esas variables que usted quiere encontrar algo en común en esas variables lo agrupe en dos factores, de acuerdo?

00:25:50:02 Es decir, hay dos cosas que tienen en común estas variables de acuerdo, si me siguieron o si me di a entender más bien qué ideas podrían estar detrás, de qué conceptos podrían estar detrás de estas variables, por ejemplo, o qué factores podrían agrupar estas variables que yo puse acá son 34567 variables. Qué conceptos o qué cosas hay en común entre esas variables?

00:26:18:02 Eso me dice que son dos, que son dos. ¿Por qué dos? Vamos a ver, entonces aquí está parte de acá quiero que nos concentremos en esta parte de acá, digamos que él identifica muchos factores, intenta encontrar entre toda esa información muchos factores y dice bueno, posiblemente hay siete cosas que hallan en común, pero aquí me está diciendo cuántos factores retuvo, por así decirlo, no exactos.

00:26:53:00 ¿Cuántos factores son importantes? Dos. ¿Por qué dos? Miremos Factor uno y Factor dos. Entonces aquí nos lista en la primera columna cuántos factores identificó que podrían servir con este ejem valium que en español se conoce como valor propio? El valor propio es un poco la intuición es que determina la significancia de esos factores, es decir, determina si son útiles o no, Esa es la intuición.

00:27:28:21 Claro, si hay estadísticos acá y saben del tema y demás. No, no, no, Andrés, pero esa no es la interpretación de eso, es discutible, pero lo que yo quiero que se lleven ustedes es esa idea de la intuición. ¿Qué me dice alguien? Vale, entonces digamos que de manera genérica, todo lo que sea mayor o igual a uno, que tengo un eje válido o un valor propio mayor o igual a uno, es significativo dentro del análisis factorial de acuerdo a la intuición.

00:27:54:15 Entonces este es de uno 18, es de dos, es mayor a uno mayor o igual a uno. Por eso es que dice que son dos factores relevantes. Estos son menores a uno, por eso los deja por fuera, aunque vean que este es muy cercano a uno. Es 0.99, pero estrictamente por default es tata establece que lo que es mayor o igual a uno es relevante.

00:28:17:05 De acuerdo, más adelante vamos a se lo puede decir hasta hoy, ya sea un poco flexible y lo que sea mayor a cero 95 por ejemplo. Tómelo como significativo, de acuerdo, pero por default esta toma todo lo que sea mayor o igual a uno como significativo. Entonces aquí ya me dice que hay dos factores relevantes. De acuerdo.

00:28:56:23 Listo. Lo siguiente que yo quiero que miremos acá es esta columna de acá. Bueno, pues determina, digamos, bueno, esto es acumulativo, por así decirlo. Entonces entre los siete factores esto va sumando, digamos que el factor uno aporta el 28% de esas variables de la relación o agrupa por 12, sino el 28 28% de esas variables. El factor dos agrupa el 45% y ya con los siete factores pues está agrupando el 100% de esas variables.

00:29:33:20 No, esto no, no, no, no es como tan relevante en este momento, en ese momento. Lo siguiente que yo quiero que miremos es esta tablita de acá, de acuerdo, esta tablita acá, qué tenemos acá? Las cargas, cargas por factor, no estoy acá, Lowry Las cargas por factor. Vale, entonces esto digamos que entonces ya arriba me dice que son dos factores relevantes.

00:30:07:15 Por eso aquí sale el factor uno y factor dos. Si fueran más factores relevantes, pues aquí saldría entonces factor uno y factor dos, Esto acá, acá tenemos las variables que yo incorporé y estas son las cargas, esto que tenemos acá voy a modificar glucosa, no, esto no es esto, esto que tenemos acá son las cargas de los factores y eso que me indica primero el signo, la relación, la relación.

00:30:41:25 Vean acá el signo este es negativo, este es negativo, la relación que tiene el factor uno con estas variables. O dicho de otra forma, la relación que tienen estas variables con el factor uno. Por ejemplo, dos a mí me interesan, digamos que o cómo puedo organizar yo esta información para el factor uno es relevante? El factor uno es relevante pues las cargas que son más altas no?

00:31:23:08 Entonces, por ejemplo, película tiene una carga de casi cero, es decir, esta variable no iría con este factor. No hay una correlación, No, no hay ninguna correlación. Esto, esto es un poco la correlación que hay entre estas variables y los factores. Y acuérdense que yo les decía que debe haber una correlación, entonces factor uno no va con perdón películas, no con factor uno está acá, relación sentimental, no con factor uno casi es de cero, es negativa, pero casi es de cero, 0.04 está acá tampoco 0.03, es decir, el 3% no, pero miren que estas de acá.

00:32:00:02 Estas últimas cuatro ya tienen unas cargas más altas. 0.73 0.68 punto 72.69 no? Entonces vean que sí hay un factor que se está agrupando esas variables si hay un factor que agrupe esas variables y cuáles son las variables? Bueno, las notas en las que tiene promedio del primer semestre, la nota en cálculo y acá en cálculo, perdón, en probabilidad.

00:32:27:05 Entonces yo puedo decir, por ejemplo eh, o bueno, con este factor lo que yo busco quizá es comprender un poco la vida universitaria de los estudiantes. Se me ocurre a mí, cierto, la vida universitaria o la calidad de vida de un estudiante de pregrado se me ocurre a mí. Esa es la idea, ese es el concepto. Pero cómo puedo yo me diría eso no se puede medir directamente.

00:33:05:11 Lo hago a través de otras variables. Entonces supongamos que lo que yo quiero descubrir es la calidad de vida académica o la calidad de vida estudiantil, o la calidad de vida de un estudiante en una universidad más o menos como por allá. Cierto, a través de unas variables, a través de esas variables, cómo puedo yo identificar esa? Entonces aquí el factor uno me dice que esa calidad un poco o esa vida universitaria está compuesta por un factor académico, por ejemplo, un factor académico.

00:33:38:18 Es decir, que las notas que las calificaciones en las diferentes materias son relevantes para explicar la vida universitaria, por ejemplo. No estoy acá, yo lo puedo agrupar así. De acuerdo entonces ya sabemos que por las cargas que son estas, estas variables se pueden agrupar en el factor uno, que ese factor uno podría tener un hombre desempeño académico, ejemplo desempeño académico.

00:34:16:12 Y ahora quiero pedirles el favor de que determinen cuál es o me digan por el chat cuáles variables podrían estar agrupándose en el factor dos o para ver si me están siguiendo el discurso. Cuáles variables podrían agruparse en el factor dos y voy a revisar el chat listo. Mientras ustedes contestan yo voy a ir leyendo por acá.

00:34:51:04 Entonces Javier pregunta El análisis de componente principal se puede aplicar para información que sea representada por escalas cuantitativas? Sí, se puede utilizar tanto para información cualitativa que esté codificada. Lo que tú dices lo entiendo yo, así no información cualitativa que esté codificada o representada en escalas cuantitativas. Si está codificada, si se puede utilizar, listo. Entonces veo que nos acompañan de México, de Ecuador, Perú, España, que genial Colombia.

00:35:24:20 Comisión Nacional del Servicio Civil. Bueno Colombia también por acá de los Andes. España. Perú. Argentina, Bogotá. Visto bueno, muchas gracias por sus respuestas. Nos acompaña también del Ministerio de Trabajo, que es genial eso, eh? Bueno, por acá se puede tener acceso a una base de datos. La base de datos no creo que se les pueda compartir, es algo como por habeas data y todas estas cosas, no como es una encuesta real de estudiantes reales.

00:35:53:27 No, no les puedo compartir esta información. Listo. Eh? Entonces, volviendo acá, veo que hay otras preguntas por ahí. Voy a leer como la respuesta es a lo que les pregunté y ya me vuelvo más adelante en responder más preguntas. Factor dos Entonces me dicen películas y zapatos y por ahí alguien metió calificación de primer semestre. Bueno, qué otra cosa?

00:36:28:06 Películas, zapatos, películas, zapatos. Listo. Bueno, entonces me están siguiendo el hilo, el discurso, los que dijeron películas, zapatos, incluso relación sentimental. Puede ser por ahí. Bueno, listo. Gracias por sus respuestas, entonces. Sí, efectivamente. Vamos a validar por acá en el factor dos. Cierto, La película tiene una carga muy alta del 70 0.75, no? Y zapatos también. Esas son altas.

00:36:58:23 Entonces esas dos entran, estas calificaciones tienen una carga muy baja. Entonces no entraría. Algunas personas dijeron qué calificación primer semestre, pero si ustedes comparan estos dos factores, en cuál factor encajaría mejor calificación del primer semestre? No, pues en este, porque en este tiene una carga más alta, en este tiene una carga del punto 69. Aquí tiene una carga de punto dos, entonces tampoco iría ahí.

00:37:33:19 Entonces estas cuatro no esta. Ya dijimos que sí esta, dijimos que sí. Está de relación sentimental, pues tiene una relación más alta aquí, una carga más alta en el factor dos. Entonces, inicialmente podríamos decir en el factor dos van películas relación sentimental y número de zapatos que compra al año, no inicialmente. Entonces, así como aquí agrupamos estas variables y dijimos oiga, quizá la el desempeño académico ayude a explicar la calidad de vida académica.

00:38:22:26 Aquí está su otras podríamos llamarlo, quizá, no sé, ocio o entretenimiento o ocio. Quizá Entonces el ocio, perdón si no es lo correcto, pero lo que se me ocurre, el ocio termina siendo un factor importante en el desempeño y en la calidad de vida académica de los estudiantes. El ocio. Yo digo ocio pues porque cuántas veces vamos al cine o cuántos zapatos, cuántas veces me voy de compras para comprar zapatos, o el tiempo que yo paso con mi novio o mi novia, Cierto, mi pareja, todas estas cosas es un componente o un factor totalmente diferente a lo académico, por lo menos al desempeño académico, no?

00:39:06:26 Entonces vemos que hay dos factores, quizás incluimos más variables, vamos a encontrar más factores, pero para mantenerlo sencillo, vamos a incluir hasta acá. De acuerdo? Listo, eh? Ahora lo que yo quiero hacer es graficar, graficar esto de acá. Entonces para eso voy a decirle loading plot, es decir, un plot, una gráfica de esas cargas. Muéstreme una gráfica de esas cargas allá le di y acá ya debería estar viendo la gráfica.

00:39:43:29 Lo que no entendí en un momento acá, allá hasta la gráfica esto. Entonces aquí tenemos la gráfica de esos factores o lo que estoy graficado son los factores no estoy traficando las variables ni nada de eso. Los factores efectivamente. Vean, aquí hay un grupito de variables, hay un factor y acá tenemos otro. Y como ustedes bien lo notaron, zapatos y películas van muy bien, tienen unas cargas muy con el factor dos, ven aquí.

00:40:22:25 Pues esta era relación sentimental que era casi cero 14 cero 16 y si mal entonces vean que esto intuitivamente me estaría diciendo ojo, Vea, hay un tercer factor que usted no está considerando claro el componente académico. Bien, el componente de ocio bien. Pero hay algo que no termino de cuadrar ahí, ese, esta variable está solita y podríamos asociarlo a otra idea o a otro concepto o a otro factor de acuerdo a qué factor se le podría asociar eso?

00:40:53:09 Por ejemplo? De nuevo, si yo quiero explicar la calidad de vida de un estudiante universitario, entonces ya sí que debo tener en cuenta la parte académica, la parte de ocio, pero también la parte emocional. Por ejemplo, no la parte emocional. Resulta que quizá es importante para estudiar ese concepto grande de calidad de vida universitaria. Me estoy inventando? De acuerdo.

00:41:46:25 Listo. Entonces, ahora vamos a continuar con otra cosita. Perdón. Este. Pues me está molestando un botón Mientras me ocupe de pantallas y listo. Pues aquí ya estamos otra vez en en el estado. De acuerdo? Y vale, entonces dijimos, quizá hay un tercer factor que es relevante. No? Vamos a ver si se puede incorporar. Entonces esto lo hice. Bueno, eso fue con análisis factorial, no?

00:42:20:15 Ahora voy a hacerlo con componentes principales. Entonces vean que el comando cambia. No, antes era factor para así le haga un análisis factorial, no? Y por Typhon lo hace con componente principal e con factor principal. Perdón, que era lo que yo les mostraba. Perdónenme, perdón que me mueva tanto de un lado a otro. No veo las diapositivas, ya era lo que yo les mencionaba acá no factor principal.

00:42:51:01 O sea, por default, eso que hicimos fue como factor principal. Ahora vamos a hacerlo con componentes principales, de acuerdo? Vamos a hacerlo con componentes principales. Entonces para eso lo que les decía el comando es este de acá, pese a es similar la interpretación y el ejercicio, no? Ahora aquí arriba me habla de factores no en como lo hicimos, factores.

00:43:27:09 Aquí me va a hablar de componentes, pero a lo mismo tiempo veo que no cambia mucho la interpretación, no? Aquí eran 2.02 1.18, acá tenemos 2.02 1.18. Entonces aquí nos sigue diciendo que hay dos factores relevantes los componentes, los factores relevantes. Pero vean que aquí abajo ya me muestra más, ya me muestra más los siete o siete e me los está mostrando.

00:43:55:01 Entonces de nuevo miremos rápidamente Componente uno entendamoslo como el factor uno Componente uno van a estar el componente académico, no voy a rayar pronto, componente uno, va a estar el componente académico, claro, aquí ya como son más factores o más componentes, perdón, esas cargas se tienen que distribuir entre todas esas cargas se distribuyen. Entonces por eso fue que bajó?

00:44:37:09 No, aquí arriba estaba más alto, perdón, eran unas cargas del 69. 72, aquí ya están 48, 51 porque se tienen que distribuir, pero no importa, acá tenemos componente uno, componente académico, Componente dos zapatos. Ven, sigue acá y película Ocio podemos llamar No Componente tres. Uy, vean, estoy acá casi que el 100% 0.97 no está asociado a una relación sentimental, no?

00:45:19:28 Listo. Entonces aquí con esto lo que me puede indicar es que posiblemente con tres componentes o tres factores, yo puedo explicar mejor el fenómeno que quiero observar. Evaluar con tres. Entonces, ahora lo que le voy a decir a Stata es oiga, de nuevo, eh, hágame ese análisis. Pero he aquí con lo último que le digo en este comando es Tenga en cuenta todo lo que es superior o ese borde, ese límite es ya no que sea uno, sino que sea cero.

00:45:46:15 95, por ejemplo cero 95 y y entonces ven con cero 95. Ahora sí hay tres factores, cierto? Y aquí me lo dice tres factores. Pero por qué? Porque yo le dije esta técnica sea un poco más flexible, no me lo tome como ese valor propio, mayor o igual a uno, sino que sea mayor o igual a cero, 95 Y entonces para qué?

00:46:32:16 Pues para poder sacar un tercer factor que esté relacionado con la relación sentimental. De acuerdo, entonces. Gracias. Gracias. Entonces, con ese tercer factor termino yo dándole más soporte, más sustento a mi interpretación de acuerdo? O a ese estudio, por así decirlo, que estoy haciendo? Claro. De nuevo, eso. Esto. Esta es la idea general. Hay más cosas detrás de E, pero digamos que si ustedes con que se lleven esas nociones, esas ideas básicas, por así decirlo, de interpretación, con eso yo quedo tranquilo.

00:47:08:17 ¿Por qué? Pues porque ese data arroja los resultados, pero ya depende de nosotros los usuarios, pues la interpretación y no y pues bueno, esto fue un ejemplo aplicado con mi encuesta estudiantil, pero vayan ustedes también pensando en a partir de los datos que ustedes manejan, a partir de las variables que ustedes tienen, cómo podría yo utilizar análisis factorial independientemente de la metodología no?

00:47:59:21 ¿ Cómo podría utilizar análisis factorial para identificar conceptos o ideas o fenómenos que sean claves para el desempeño del año de su área de trabajo? No, esto sería un ejercicio muy valioso y es para que ustedes vayan aplicando, es decir, que esto les sea útil para su día a día. Bueno, voy a devolver pues a las preguntas. Entonces, aprovechando que nos quedan unos minutos, veo que hay unas personas que levantan la mano, pero pues por respeto un poco a las preguntas que se han venido haciendo por el chat, entonces les agradezco si ya hicieron sus preguntas por el chat se las respondo por ese medio.

00:48:33:22 Pues un poco como para respetar a las personas que lanzaron sus preguntas. Listo, entonces voy a volverme por aquel chat. Creo que está bien. Quedan unas preguntas por aquí arriba. Eh? Dice Sí, pero cabe. Bernabé

pregunta: Veo que la mayoría de datos son cuantitativos. ¿Cómo sería el análisis de PSF? Respuestas cualitativas o tipo Likert? Y acá en la base de datos, claro, no hice.

00:49:03:08 No, no utilicé esas variables cualitativas. Pero por ejemplo, tenemos el nivel de estudio de la madre y el nivel de estudio del padre, y no obtenemos el género. Y eso está codificado, no? Uno si es mujer, cero si es hombre, por ejemplo, o el nivel de estudio, entonces, si solamente hizo primaria, entonces se codifica como uno, si son secundaria o bachillerato.

00:49:34:10 Dos. Si hizo un pregrado, una licenciatura tres, es decir, esas variables que son cualitativas y que están cuantificadas, codificadas de manera cuantitativa, se pueden incluir ahí, por ejemplo, para ver si la calidad de vida académica de un estudiante varía o depende de su género. Ejemplo si es hombre o mujer no hay y en qué factor podría estar por ahí metido.

00:50:09:10 ¿Se puede hacer? Claro que se puede hacer. Se pueden hacer muchas otras cosas, pero no por tiempo. No, no lo hacemos. Salvador pregunta Se puede realizar Rotación Barinas y también obtener el segundo gráfico de sedimentación. ¿Podemos hacer rotación de factores? Sí y no lo hice. Pues por qué tendría yo que. Es decir, tenía más tiempo de consulta, más tiempo, pero un poco pues para responder tu pregunta sí se puede hacer rotación de los factores a través de Barinas también se puede.

00:50:42:21 E Los gráficos de sedimentación son también? No estoy seguro de la prueba que me mencionas que veo. No estoy totalmente seguro, pero las dos primeras sí. Eh? Eduardo

pregunta: ¿ Necesariamente se deben utilizar variables numéricas? Ya lo respondí. No se pueden. Es decir, se pueden utilizar variables cualitativas siempre y cuando estén codificadas. Si tú pones variables no numéricas, es decir, variables que estén en texto o algo así, No, no va a funcionar.

00:51:14:16 Entonces debes modificar o codificar más bien esas variables que quizás están en el texto, debes codificar. Es cierto que queden como variables de Mis variables categóricas y ahí sí las puedes trabajar. No puedes trabajar con texto listo. Qué otras preguntas hay por acá? Ya voy bajando en el chat y pregunta Luis Guillén Cuál es la diferencia entre análisis de componentes principales y análisis factorial?

00:52:13:09 Bueno, esa es una muy buena pregunta y perdón, eh. La diferencia, y digamos que la principal diferencia es que el análisis de componentes principales y esos componentes no, que se pueden entender también como factores, pero van a ser componentes. Esos componentes se calculan como combinaciones lineales de las variables originales. Entonces en componentes principales yo tengo mis variables originales y los cálculos, sus componentes como combinaciones lineales en el análisis factorial o como con el otro método que es el componente componente de factorial es que se me va el nombre de factor principal, factor principal con el factor principal o el análisis factorial.

00:52:49:07 Esas variables originales se definen un poco o se calculan como las combinaciones lineales de los factores. ¿Cierto? Entonces es un poco la una de las diferencias está en cómo yo calculo esos componentes o esos factores hacia dónde van las relaciones, las correlaciones, las combinaciones. Cierto, un poco es eso. En el análisis de componentes principales, la meta está en explicar un poco la proporción de la varianza en esas variables, que no lo explique, pero el componente de las varianzas es importante.

00:53:28:22 Entonces en componentes principales yo busco explicar esa porción de varianza y en análisis factorial lo que busco es explicarlas, covarianza. De acuerdo, entonces de nuevo ahí, ahí, como otras diferencias, ¿no? Componentes principales, varianzas y análisis factorial o varianzas de nuevo no, no quise entrar mucho en esto, pues por por por tiempo y demás, pero esas serían como las principales diferencias y vamos a ver, búsqueda tiempo, sí, pero más preguntas, eh?

00:54:11:16 Ok, bueno, cuál es la diferencia entre el comando PCF y PSA? Ya lo expliqué. Componentes principales y factor principal He visto un minuto Colombia por Lourdes. Pregunta. Lourdes Ramos El análisis factorial sólo aplica para variables numéricas de las uno. Eso también lo respondí en Lourdes. Pueden ser variables dicotómicas binarias de cero uno funciona también correctamente. Y Laura Hincapié pregunta si utiliza PSA en segmentación.

00:54:45:04 ¿De qué manera? A ver, no entiendo muy bien la pregunta. No sé si me la puede formular. De pronto está como muy generalizada. Sí, lo puedes hacer de pronto un poco más específico y el concepto podría ser esparcimiento. Sí, perfecto. Yo lo estaba llamando como opción, pero puede ser esparcimiento. Y Stiven cómo se podría involucrar el factor temporal en el análisis?

00:55:16:06 Es decir, si lo puedes hacer entrar de manera periódica a que ella se debe hacer análisis para cada año? Listo. Es decir, si tú tienes una estructura. Entiendo la pregunta de esta manera. Steven pregunta si yo tengo no una encuesta de un solo año, por ejemplo, si no tengo la misma encuesta a lo largo de los años, esto ya se constituye en una estructura diferente que viene a ser datos panel no longitudinal.

00:55:46:10 Si no estoy mal es en ese. En ese caso, cuando ya la estructura de la información cambia, se puede también seguir haciendo análisis factorial. Pero pues de nuevo la metodología entonces también tendría que cambiar un poco. ¿Por qué? Pues tú mismo lo mencionas, hay que involucrar el factor o el factor tiempo, entonces ahí ya entrarían otras metodologías quizá y ya no sería tan útil.

00:56:09:07 Por ejemplo componentes principales, pero sí sería de pronto más útil. Máxima verosimilitud, ¿no? Es decir, cambia el ejercicio, se puede hacer, sí, pero, pero cambia.

Pregunta: Se puede computar el PIB válido para valor de factor o correlación para las significaciones de correlación?

00:56:42:11 A ver, bueno, eso ya hay como que me pones a pensar, porque claro, yo les dije quizá interpreten este valor propio de un valium como si fuera de cepillo A11 poco la la interpretación y respondiendo a la pregunta, a ver si se puede identi o calcular más bien un PIB al y para esto de acá y ahí si me corchos la respuesta sería no sé, no sé por qué.

00:57:09:12 Digamos que implícitamente es lo que está representando ese pi o algo no? Si es igualito, tú lo utilizas en pruebas, hipótesis y dice si es menor o igual a el 5% o el 10% dependiendo de ese nivel de confianza. ¿Es significativo no? Ese es el PIB año. Aquí lo que estamos haciendo es algo similar, no si es mayor a uno es significativo, no?

00:57:35:20 Y así como tú puedes ser flexible, vez nueve en el momento de determinar esa significancia estadística, porque quizá tú terminaste ese PI varió el 5%, pero. Pero resulta que tienes un PIB del cero punto o del 5.1, el 5.2% y tú dices bueno, voy a ser flexible y entonces voy a decir que es significativa. Eso lo puede hacer el investigador, ¿no?

00:58:11:07 Claro, dándole un soporte teórico, profesional y demás se puede hacer. Aquí fue lo que hicimos también y le dijimos oiga, flexibilice un poco y no tome ese límite, por así decirlo, ese umbral al uno, sino al cero 95, esto y bueno, cómo sería el gráfico si se tuvieran tres factores e Sí, bueno, no sé si tengo por acá, eh, se puede sacar?

00:59:04:07 No tengo a la mano el cómo se llama a eso el código EM, pero se puede sacar si quieres a 1005 minutos aún uno no? Pues debería ser el mismo. Acabe de hacer la última pregunta. Se le debe decir con tres factores uno no tres, es decir que son tres factores y a saber si lo sacan. Estoy probando Cam e, si lo saco es que les voy puedo compartir la cam así se vería un poco ese gráfico con tres factores, así se vería eh?

00:59:33:17 Factor uno. Entonces tenemos acá un perdón, las calificaciones Factor dos, tenemos zapatos, películas E y Factor tres, pues tenemos que relación está por ahí solita, no en todos los escenarios Relación está por ahí solita un poco claro. Podemos entrar más en detalle acá podríamos entrar, pero digamos que así qué haría? O yo lo puedo sacar también por la mitad, ¿no?

01:00:05:01 Eh? Con cómo es un espejo, entonces podría sacar también esto por la mitad, pero más o menos así se vería, eh? Bueno, uf, creo que quedan muchos más. ¿Quedan más preguntas? Perdón. No, no alcanzo a responderlas todas. Em, vamos a leer así como por encima y les doy un comentario mis comentarios finales eh? Bueno, no sé. O sea, hay unas preguntas muy puntuales, muy específicas.

01:00:43:10 Si uno se nos va el tiempo se nos fue entonces. No obstante, si tienen, si quieren un poco ahondar en estas preguntas, ¿me pueden escribir a mi correo por favor? Se lo voy a escribir por acá en el chat. Andrés Punto Cruz arroba software so punto com ahí agreguen el punto com tres punto cruz arroba error super 11 punto com Perdón, me pueden escribir por ahí?

01:01:16:10 Saben que otra otra, otra cosa que me gustaría saber de ustedes es si están trabajando Stata En qué temas lo están trabajando o si quieren implementar esta data, en qué temas lo quieren implementar? Esto nos serviría mucho también a nosotros acá, pues para para mirar la, digamos, una línea en dónde se podrían empezar o continuar desarrollando temas aquí como como esto de acá.

01:01:51:11 Entonces si quieren pueden escribir aquí por por el chat también econometría, segmentación, nos dicen por acá, pero pues bienvenidos todas sus sugerencias, sus recomendaciones también, eh? La invitación que les quiero hacer es que estén pendientes de la agenda de la programación que está haciendo Soft Workshop, también en diferentes webcast, eventos y demás, que se inscriban a que participen o que lo divulguen entre sus compañeros de trabajo, estudio y demás.

01:02:22:24 Y bueno, muchas gracias nuevamente por su tiempo, por su participación, su asistencia. Perdón. Sé que hay muchas personas que levantaron la mano, que escribieron preguntas, pero se nos acabó el tiempo eh? Nuevamente muchas gracias y pues que tengan un excelente resto de día. Andrés, muchas gracias. Para las personas que se están preguntando por la grabación durante el evento he venido dejando el link por dónde podrán ingresar la próxima semana.

01:02:47:02 Acabo de dejarlo nuevamente en el chat. Allí pueden encontrar esta presentación y otras relacionadas que ha hecho Andrés y otras personas de nuestro grupo de instructores que también pueden ser de su interés. También les voy a compartir el enlace que los llevará a los cursos de sincrónicos en con apoyo estatal que tenemos también disponibles. Allí pueden revisar toda la información en la página web y los esperamos en una próxima oportunidad.

01:03:12:25 Andrés, muchas gracias a todos nuestros asistentes. Gracias y les deseamos un feliz resto de día. Hasta pronto. Hasta luego. Gracias. Para mayor información respecto al software o en temas relacionados, no dude en contactarnos a través del correo electrónico. Entrenamientos arroba, software, guión shop punto. Com. O visitar nuestra página web. Triple o punto. Software Guión shop. Punto. Com.

Análisis de Componentes Principales en Stata 17


El Análisis de componentes principales es una técnica estadística utilizada para reducir el número de variables observadas (datos) en términos de un número menor de variables no observadas (llamadas factore). Este procedimiento es usado dentro del Análisis Factorial, y es empleado en diferentes ciencias aplicadas que tratan con grandes cantidades de datos. En este webcast se hará una introducción a los otros métodos que existen para extraer dichos factores y se analizarán las principales características del método de Componentes Principales utilizando Stata.

Etiquetas relacionadas

  • Análisis factorial
  • Datos
  • Econometría
  • Estadística
  • Gestión de datos
  • Optimización

¡Comparte este video con tus colegas!

Compartir

Ver más

Cotizar
Próximos
Eventos

X

Mis cotizaciones:

Comentarios a tu solicitud:

Cotizar