SS_Logo

Propensity Score Matching con Stata : Validez de estudios observacionales

Autor: Camilo Alarcón / Portafolio: Quantitative / Vie. 12 de Abr de 2024

Transcripción de este video

00:00:33:01 Software Shop, la empresa líder en la implementación de herramientas analíticas y software especializado en Latinoamérica, les da la bienvenida a esta presentación. Instructor Camilo Alarcón, Ingeniero Industrial, economista con doble titulación de la Universidad Autónoma de Manizales. Magíster en Economía Aplicada de la Universidad de AFIC y Doctorando en Administración de la Universidad de los Andes. Experiencia en la docencia y la investigación en áreas como economía, administración y finanzas.

00:01:07:22 Cinco años en el sector privado, donde ha desempeñado roles de consultor en programas de protección social. Líder de procesos en áreas de logística, compras y costos, como también la coordinación del desempeño de indicadores de control en el área de soporte a clientes. Bienvenidos. Bueno, buenos días para todos. Si están en otro país con diferencia horaria. Buenas tardes. Bueno, entonces la idea es que hoy hablemos un poquito sobre los algoritmos de emparejamiento.

00:02:18:11 ¿Eh? Específicamente de lo que es el el score máximo, el Pi esm, que es una teoría que es relativamente nueva para, eh, para, eh. Modelos o, eh, datos experimentales. ¿Específicamente, lo que trabajamos acá, eh? De tal manera que podamos hacer algunas identificaciones, eh, especiales en términos del uso de, eh, de de los datos o las herramientas para mirar alguna evaluación de impacto en términos de de analizar estos emparejamientos y poder y poder entender como tenemos otras alternativas de identificación, de evaluación, de impacto, en este caso para para poder eh hacer ese análisis eh en estos términos, si eh, les decía que son para estudios no experimentales o estudios cuasi experimentales, es decir que podemos tener

00:03:02:06 algunos, generalmente hacemos uso de de del sitting o de estos algoritmos de emparejamiento cuando eh queremos, eh, Digamos que tenemos algunos problemas del sesgo cierto de de la selección o o problemas en nuestros datos que no podemos corregir mediante modelos o o identificación de de de modelos más especiales como. ¿Como ya son modelos experimentales como tal, entonces podemos también utilizar EH este tipo de herramienta, eh este tipo de identificación de o o análisis de datos para evaluación de impacto, eh?

00:03:38:00 De tal manera que podamos digamos que hacer una aleatorización y un emparejamiento entre ellos para poderlos eh para poderlos analizar y mirar cuáles son los resultados que podemos obtener. ¿Listo, entonces poco ahí la introducción eh? Quiero que miremos eh, especialmente que es el cierto. Entonces aquí vamos a mirar. Voy a hacer estimaciones de efecto causal de un tratamiento y lo que vamos a hacer es utilizar dentro de unas unidades tratadas uno los tratamientos.

00:04:06:18 Eh, vamos a hacer. Vamos a como obtener un clon con unas características similares que nos ayuden a hacer el análisis con esas variables. Que no perdón, con esas unidades que no fueron, que no fueron tratadas. ¿Entonces la idea es que dentro del sistema de estata o del programa como tal eh podamos hacer la creación de de de estas eh?

00:04:39:20 Eh, de de de estas características relevantes de uno y otro para poder hacer la la diferenciación entre ambos. ¿Listo? ¿Eh intuitivamente tendría sentido comparar los resultados de cada unidad tratada con los de su respectivo Eh clon eh? Y mirar las diferencias. ¿Entonces, cuando hacemos esas diferencias de la exposición del tratamiento, vamos a tener, eh, eh, situaciones semejantes a lo que hacemos cuando corremos unos mínimos cuadrados ordinarios, eh?

00:05:06:04 O cuando también utilizamos un, eh, una variable o o corremos un modelo de variables instrumentales, porque la idea de esto es traer con base en los datos que tenemos, hacer una aleatorización de los datos y poder empezar a hacer comparaciones entre esas, eh características relevantes entre cada EH, entre cada unidad o cada persona que estamos analizando para poder estimar cuáles son los más cercanos.

00:05:39:07 Hoy solo vamos a trabajar uno de los EH de los algoritmos de emparejamiento, que es el de el vecino más cercano. Existen otros que se los voy a mencionar para que lo puedan revisar y puedan hacer como características, y esto con el fin de que puedan hacer un análisis mucho más exhaustivo de lo que es este el el propósito y porque digamos que eh esta metodología eh tiene, mmm digamos que varias críticas en la en la literatura.

00:06:13:04 Entonces, eh, eh, es importante conocerla, es muy, muy interesante saberla, porque en algunos casos puede servir de identificación o metodología o método para para revisar específicamente cosas que están muy, muy, muy perdidas en lo que queremos encontrar, pero que al final del día es funcional y pues nos da unos resultados que podemos obtener si estamos en en en áreas como la economía o ciencias sociales un poco más estrictas en metodologías eh cuantitativas.

00:06:43:21 Mmm Hay que tener mucho cuidado en la justificación y la argumentación de por qué se usa este, eh, este método. Listo. Entonces, como les decía, eh, existen, eh, supuestos que son muy parecidos a, eh al a lo que trabajamos cuando hacemos regresiones lineales o o trabajamos mínimos cuadrados ordinarios. ¿Y entonces para esto, eh? Pues uno de los supuestos más importantes es el supuesto de independencia condicional.

00:07:12:23 Y es que, eh, claramente el mi variable independiente, pues va a perder mi variable dependiente, va a estar condicionada a a todo lo que a todas esas características que tenemos. ¿Entonces por eso, eh? Lo más importante dentro de una evaluación de impacto que vamos a tener acá en términos de tratados y no tratados o tratamientos y controles, que es lo que vamos a trabajar, lo más importante dentro del efecto que vamos a poder.

00:07:39:16 Ese coeficiente que queremos encontrar es el efecto promedio del tratamiento que hace referencia a al, al, a, t, Así a la C y entonces este condicional en el vector de todos los X van a ser esos resultados potenciales. Eh de la asignación al tratamiento. Entonces, de forma equivalente, vamos a ver que lo que está condicional a esos X es asignación del tratamiento.

00:08:22:17 Es como si fuera aleatoria. ¿Entonces, lo interesante de este, de esta propuesta, de este método, es que vamos a hacer una pequeña aleatorización dentro de los datos que tenemos para poder hacer digamos que una confirmación dentro de de de esos eh, emparejamientos más parecidos que son relevantes en esas características y así tener una pequeña, eh, identificación y vamos a ver cómo podemos encontrar o podemos obtener temas de validez como menos sesgo en algunos casos que ahorita vamos a ver o más sesgo y menos eh vamos a tener más sesgo del del de del de los supuestos de independencia o el modelo como tal, eh?

00:08:46:16 Y menos eh, varianza. Entonces, eh, digamos que este es el supuesto más importante que necesita validar dentro de lo que hacemos para poder. ¿Para poder estimar esto, eh? Y el otro es que, eh, vamos a trabajar el soporte común, donde tenemos que garantizar que cada observación del en el grupo de los tratados puede ser reproducida entre los no tratados.

00:09:11:07 Entonces aquí lo que podemos hacer es ver como vamos a tener dos colitas. ¿Cierto? Y en esta región. Y ahora lo vamos a ver en en la en una gráfica con los datos que vamos a construir. Eh, eh. Vamos a ver cómo debajo de las colas entre P1 y P2 puede reducir la validez externa, es decir, que los efectos del tratamiento son condicionales a ese soporte.

00:09:46:16 Como. ¿Qué quiere decir esto en español? Básicamente que lo que esté por fuera de ese soporte común, pues nos va a servir para para poder hacer la estimación y por eso debemos hacer como la EH, la distinción de ese soporte en el cual encontremos todos esos, esos, esas unidades o esas personas o si esas unidades que tenemos ahí que compartan unas mismas características, tanto controles como no perdón, tanto controles como tratamientos para poder hacer esa evaluación.

00:10:06:18 Y el resto pues si nos toca digamos que sacarlo de ahí, porque si no eso nos va a a dar en digamos que nos va a dañar un poco los problemas o vamos a tener problemas en los supuestos, específicamente en el supuesto de necesidades, donde pues vamos a tener esos outliers que nos van a hacer mucho ruido en el modelo.

00:10:40:19 Bien, entonces aquí este es como un paso a paso de como el el el pues sugiere que vamos a hacer esa estimación, que son varias etapas y entonces aquí es importante saber que vamos a utilizar varias herramientas, porque al final de esto del día esto es una probabilidad y es la probabilidad de de de que de de cómo eh vamos a a tener un efecto sobre otro respectivamente a lo que estamos buscando.

00:11:10:11 ¿Entonces por eso vamos a utilizar dentro de este modelo un Logic Pro o un MPL, que es un un modelo de probabilidad lineal eh? Pero esto no lo vamos a utilizar el día de hoy. ¿Vamos a utilizar el para poder, como dice acá, incluir esas variables que afectan tanto la asignación del tratamiento como la variable de resultado y mmm verificar también eh esos vectores de X que son nuestros controles eh?

00:11:48:18 O esas características de las unidades que necesariamente tenemos que incluir como la edad, como el la situación eh de bueno diferentes controles que podemos utilizar allí el el salario que pueden, que son muy importantes para poder eh buscar ese estimador más confiable que queremos encontrar acá y ver cómo son esas características más relevantes, entre otros. Listo. Luego vamos a definir esa región soporte y luego vamos a hacer el emparejamiento de grupos de tratamiento y control en función de ese el propósito.

00:12:30:05 Y como tal, cuando nosotros obtenemos el el coeficiente del City, no vamos a tener un resultado dentro de los errores estándar que sea beneficioso porque va a tener muchos problemas. El City tiene ese ese problema y entonces no nos va a servir como ese nivel de confianza dentro del City y por eso vamos a utilizar una herramienta que es muy criticada, pero es la que seguimos utilizando en la actualidad, que es el bus Boots bus Bootstrap y en el Bootstrap ya vamos a encontrar esa relación de los errores estándar necesarios para poder hacer la estimación del efecto promedio del tratamiento.

00:13:04:08 Entonces, como el paso a paso que nosotros necesitamos para esto y o lo utilizamos de esta manera, bueno, creo que esta se me fue. Esto es lo mismo. ¿Bueno entonces para poder entrar en materia y conocer un poco qué es lo que vamos a realizar hoy, vamos a utilizar el ejemplo de estos autores Arce, Nox, Gerber y Green, donde ellos buscan responder a la pregunta Cuál es el efecto de incentivar a las personas a votar por medio de llamadas telefónicas sobre la participación electoral?

00:13:35:21 ¿Entonces, eh, digamos que un poco el trabajo que hacen ellos esta esta información eh? Al final les tengo la bibliografía para que le saquen como un screenshot si quieren y especialmente pues pueden utilizar este ejemplo. Los datos están eh eh, están en en la web eh disponibles para que los puedan utilizar. Entonces el estudio principalmente lo que hace es una aleatorización y se selecciona unas personas al grupo de tratamiento.

00:14:00:22 El tratamiento era una llamada que incentivaba el voto y no todas las personas asignadas al al grupo de tratamiento contestan en la llamada. ¿Entonces, qué quiere decir esto? Eh, Lo que estamos buscando es que el tratamiento es que estamos haciendo una llamada y habían personas que contestaban, recibían la llamada y otras que solo contestaban pero colgaban. Entonces ahí tenemos como esas diferenciaciones y las otras que simplemente no contestaron.

00:14:31:19 ¿Entonces ahí podemos eh, como entender bien, eh? Como ese tratamiento eh, va a generar, eh, una intención a que se haga el voto y a que se lleve adelante, como si no es así. Listo, listo. Entonces vamos a ver la implementación. Vamos a estimar la ecuación de participación. Obtener la probabilidad predicha a participar. Restringir, Eh, La muestra de análisis al soporte común.

00:15:00:20 Implementar un algoritmo de emparejamiento, evaluar la calidad del emparejamiento y vamos a, eh, estimar el efecto del tratamiento con los errores estándar estándar corregidos por el bootstrap. Listo. Como les mencionaba al inicio, vamos a trabajar el día de hoy vecinos más cercanos y lo vamos a trabajar vecinos más cercanos, con reemplazo y sin reemplazo. ¿Vamos a entender cómo cómo se trabajan, eh?

00:15:25:23 No vamos a trabajar los otros dos que son de distancia máxima o de radio o el de kernel. ¿También existe el de estratificación, eh, que son? Digamos que el el el programa como tal estata nos nos da la las las herramientas o los comandos para poder trabajar estos dos, pero son un poco más eh pesados en el sentido de que tenemos que hacer unos trabajos adicionales.

00:15:51:17 Entonces por eso vamos a trabajar solamente vecinos más cercanos y la tarea es que ustedes pues puedan corroborar esta misma metodología que utilizamos con vecinos más cercanos y las puedan contrastar con distancia máxima de radio, de kernel o de estratificación. Pues que si buscan en, en, en, en los, en diferentes eh, bloques o cosas que tenemos para trabajar, este pues lo pueden obtener.

00:16:32:00 Y ahorita hablamos de lo que es el sesgo y la varianza. Una vez tengamos esto listo, este es el el el. El artículo que vamos a trabajar hoy no vamos a trabajar con todos los datos que tienen ellos, pues con con el fin de optimizar la cantidad, porque son demasiados datos, pero pues pueden utilizar esta herramienta para para poder eh analizar como lo hicieron ellos, de que, como lo trabajaron, cuáles fueron esos resultados potenciales que que obtuvieron y eh de una vez también como hacer el análisis de de de cómo utilizar el método para esto.

00:16:39:03 ¿Listo? Bueno, entonces aquí me voy a ir a.

00:16:47:16 Eh, a trabajar en estata.

00:17:27:09 Esto bien, entonces aquí está mi panel, eh, principal del estata. ¿Vamos a trabajar los datos que ya les tengo acá, cierto? ¿Entonces acá simplemente vamos a trabajar, eh? El dos, que es el voto en las elecciones. Es decir, esto es mi variable dependiente, esa es la variable que vamos a a trabajar y este es el contacto que es mi variable dependiente de que vamos a evaluar específicamente es ese a que ese coeficiente de promedio de EH de promedio para tratados.

00:17:37:21 Cierto que es el que me interesa, ese coeficiente que vamos a revisar sobre este. Entonces, si hacemos acá un.

00:17:46:19 Si le hacemos acá me escribe, entonces vamos a poder ver mejor estas.

00:18:21:11 ¿Eh? ¿Nuestras variables, cierto? Entonces voz y voto en las elecciones del 2002. En este caso conoci dos. ¿Eh? No. ¿Eh? ¿Y el tratamiento? El real. Que es la asignación aleatoria con el contacto, que es la exposición efectiva, es decir, si recibe la llamada o no la recibió. Y aquí pues tenemos el resto de variables que nos interesan, que pueden ser variables que podemos elegir como variables de control como la edad, el género, el estado en el que se encuentra, eh, la competitividad.

00:18:57:09 ¿Bueno, esto no nos interesa, esto es para otro tipo de análisis, eh? ¿Y el County que el County es como el el condado en donde se encuentra? Porque este es un estado con un estudio en Estados Unidos específicamente. Entonces lo primero que vamos a hacer es revisar el tratamiento real versus hacer un tap cross. Sí, donde podamos analizar, eh, el lo que pasa entre el tratamiento real y el el el contacto que se hizo entonces acá.

00:19:28:07 Discúlpenme un segundito que se me fue la base de datos. Listo. ¿Bueno, entonces aquí lo que podemos ver es el tratamiento, cierto? La asignación aleatoria, el tratamiento y la exposición efectiva. ¿Se recibe la llamada? No. Entonces lo que podemos analizar es que quienes no fueron tratados claramente no contestaron la llamada. Y pues, eh, el los que se llamaron pues no contestaron la llamada.

00:19:59:19 ¿Entonces aquí tenemos nuestro nuestro, nuestro es nuestro control eh? ¿Donde podemos analizar este? Y eh acá tenemos nuestro tratamiento donde podemos analizar quienes fueron llamados pero no contestaron que estuvo en un 12% y un 87%, quienes efectivamente fueron eh llamados y pues contestaron sí. Entonces aquí podemos ver el análisis de de esto que que queremos analizar. Aquí vemos el 100%.

00:20:31:14 ¿El que utilizamos acá dentro del top cross es para poder ver este porcentaje que cumpla el 100% en cada una de las filas eh? Y podamos ver cuál es el porcentaje también de el tratamiento que podamos tener. ¿Entonces, digamos que en términos de lo que tenemos, que son 172.000 eh, eh, registros, cierto? Entonces podemos ver que pues nuestro tratamiento y lo que nos interesa analizar, pues está realmente en un porcentaje alto de lo que queremos ver.

00:21:08:07 ¿Listo, eh? Bien, lo otro es que vamos a construir por un global, sí. O con el global lo que hacemos es, eh, simplemente meter en una bolsita todos los esas variables que queremos caracterizar luego para no tenerlas que poner todas. Y vamos a utilizar estas variables que habíamos visto anteriormente como variables El el x que les mostraba en las diapositivas que van a ser nuestros controles y van a ser esas características que nos van a ayudar a identificar esas esas características, valga la redundancia, más relevantes entre cada uno de las de las personas o de los agentes.

00:21:33:03 Pues que estamos analizando en este momento. Listo. Y para esto, entonces, como les decía, vamos a hacer una estimación del probit. Sí. Y vamos a hacer el predict de tal manera que con esto podamos ver, eh, como, eh, pues primero hallar la probabilidad de que haya un contacto bajo estas, eh, de que haya un contacto, eh, a las a las personas.

00:21:58:14 Y uno simula llamado no. ¿Y la el incentivo a la llamada, eh? Si contesto o no es el tratamiento real. ¿Y entonces vamos a ver cuál es la probabilidad de que cada una de estas personas, pues haya tenido un contacto, no? Y para para poder hacer la estimación que queremos hacer más adelante, si perdona como dos preguntas. ¿Buenos días consultante Filo, estás solo para el ejercicio cierto?

00:22:29:17 ¿Lo puedo compartir por el chat no? No se puede compartir Ever. ¿Buenos días a partir de qué versión de Stata es posible hacer PSM? Carlos Tengo Stata 18, yo lo trabajé con desde Stata 16. No sé si desde atrás hayan más más eh otras versiones, pero desde Stata 16 yo lo he trabajado, sí. Entonces no sé si te sirva esa esa respuesta.

00:22:34:05 Bien.

00:23:02:05 ¿Listo, Carlos? Muy bien. Bueno, entonces lo que hacemos acá es mirar los coeficientes. Cierto. Acuérdense que esto pues no nos dice nada. Lo que nos interesa saber. ¿Como cuál es esa dirección de la probabilidad que tienen estos datos? Y entonces, básicamente esto es lo que lo que tenemos y vamos a hacer el predict para poder convertirlo, esto es el predict y convertimos solamente esa, esa probabilidad de que pase lo que necesitamos.

00:23:30:15 ¿En este caso que haya en un contacto, cierto? Es lo que nos interesa, la probabilidad de que exista un contacto y lo guardamos con este nombre para luego poder hacer nuestro nuestro tratamiento de la información. ¿Listo, Entonces aquí simplemente lo vamos a guardar, eh? Bueno, ahora vamos a pasar al segundo paso. ¿Aquí ya hicimos todo nuestro primer paso, que es el análisis del cumplimiento, cierto?

00:24:06:08 Entonces analizamos la probabilidad. Mmm, Corregimos todo eso que necesitamos. Ahora vamos a ver cómo, eh. Es el, el el la restricción. ¿O miramos cómo es ese soporte común? Entonces para esto podemos utilizar, eh, eh, la densidad del City. Con este perdón, con este comando que es el cap, eh, el en Y diez match dos. Sí. Eh, Y con base en eso, pues podemos hacer el análisis de lo que queremos hacer más adelante en el en el sitio.

00:24:34:05 Sí. Para esto quiero que miremos la gráfica. Y entonces, con este comando del Graph vamos a obtener en los tratados el contacto el P score, que es la probabilidad de que ocurra, eh. Bueno, todos estos comandos que nos dan pues información específica para la construcción de la gráfica y entonces lo que vamos a tener acá, eh, es simplemente la relación entre los tratados y los tratados.

00:25:03:10 Entonces miren que lo que podemos encontrar en esta parte, eh, es es nuestra, eh, estos son tratados, estos no son, estos son no tratados. Y entonces digamos que aquí podemos ver claramente que hay existe como ese soporte común, esa esa área donde hay hay temas comunes entre tratados y no tratados. Pero lo que podemos ver es que por acá empezamos a ver algunos daños.

00:25:12:01 Si yo no sé si esto se pueda agrandar, creo que no. Para que ustedes puedan ver.

00:25:16:04 ¿Eh?

00:25:50:18 ¿Listo, eh? Bueno, y entonces miren que acá vemos que hay como unos, unos, eh, tratados, sino tratados, cierto como unas unos unidades por acá que están salidas, que no tienen concordancia entre ellos y por eso tenemos que hacer la limitación entre ambos. ¿Listo entonces eh? Acá les quería mostrar gráficamente esto lo voy a dejar ahí. Entonces lo que vamos a empezar acá es a hacer el análisis de esos, esas, esas personas que son como esos outliers que no nos interesa tener.

00:26:21:10 ¿Entonces aquí este ya lo habíamos hecho eh? Podemos ver en la las variables, entonces aquí con el el cuando hacemos el summary del de del score que fue el que utilizamos, el que hallamos allá, el que estimamos con con el, con el probit, entonces podemos analizar eh la información que tenemos, cierto para los que fueron, los que no fueron contactados, que fueron 150.000 personas y los que fueron contactados, que fueron 21.000.

00:26:48:20 ¿Entonces, cuál es la relación? Lo que nos interesa saber de esto especialmente son los mínimos y los máximos. Miren que el mínimo es el mínimo, es igual entre los tratados y los tratados, pero mire lo que pasa con los máximos. Aquí tenemos diferencias. ¿Entonces lo que tenemos que hacer acá es tener, eh, como hacer la la reducción dentro de ese soporte, como que me interesa, listo como desde el máximo, cierto?

00:27:19:00 También puede pasar que los mínimos sean diferentes, entonces en el caso que los mínimos sean diferentes, lo que tendríamos que hacer es, digamos que hacer como la delimitación del soporte común entre ese mínimo para que llegue a uno parecido y el máximo también. ¿Cómo lo hacemos? ¿Pues simplemente vamos a utilizar estas herramientas de de soporte común, eh? Aquí vamos a a generar este este contact cero que es el que nos interesa disminuir.

00:27:48:17 Luego vamos a generar este soporte común y miren que aquí le estamos dando, eh, la la directriz de que me coja el el pi score, el del máximo que sea menor a ese máximo sí. Y entonces aquí lo lo realizamos, hacemos la generación de esa nueva variable y hacemos un tap del soporte común. ¿Y en este caso pues ya tenemos que simplemente eh, como nos corrige cuáles son esas personas que ya no van a estar ahí en ese soporte?

00:28:20:05 ¿Listo, eh? Perfecto. ¿Entonces de esta manera es que hacemos, eh, el contacto, eh? Bueno, hacemos como la restricción de la muestra y lo que dice es que hay una persona que es tratada fuera del soporte común, entonces esa persona es la que la sacamos de ahí y entonces eh, dentro de esto, ya esto que aparece acá ya delimitamos lo que es nuestro, nuestro soporte común, que hace parte de los supuestos que necesitamos para para ello.

00:28:51:09 ¿Listo? Muy bien. Bueno, eh, Ahora el tercer paso, como lo teníamos acá, ya hicimos la estimación de la condición de participación y obtener esa probabilidad predicha de participar. Entonces ya estamos. Hicimos una predicción. Lo que hicimos ahora fue la restricción de la de la muestra Análisis de soporte común y lo que vamos a hacer ahora es la implementación de un algoritmo de emparejamiento.

00:29:23:12 Listo. Entonces el algoritmo que vamos a utilizar hoy especialmente va a ser el de emparejamiento de vecinos más cercanos. Si. Entonces lo primero que tenemos que hacer es poner en un orden aleatorio. Cierto. Hacer como la aleatorización y ponerlo en un orden. ¿Por qué? Porque pongamos el ejemplo que he. Eh. No sé. Liza y yo somos muy parecidos.

00:29:49:00 Cierto. Entonces. Tenemos características muy parecidas. Pero, eh, Erica. Erica y yo también tenemos, eh, características parecidas. Sí. Entonces, eh. Lo que hacemos con esto es hacer la aleatorización de la información de tal manera que podamos hacer la construcción cuando yo lo ordene, pueda tomar el vecino más cercano a mí. Cierto. En este caso, sí. Primero está Liza y luego está Erica.

00:30:14:21 Entonces lo que va a hacer el sistema es tomar primero a Liza y pues a Erica la la emparejada con otro. ¿Y con eso hacemos como esa semilla, Eh? La idea es que ustedes siempre utilicen la misma semilla para. Porque al final les voy a hacer la conclusión de cómo tenemos que construir esto. Y es que, mmm, tenemos que hacer varios, varios tipos de emparejamiento para poder determinar ese coeficiente más importante que necesitamos.

00:30:42:11 Sí. Pero entonces para eso siempre es importante que ustedes utilicen una misma semilla de tal manera que no desmaya. Eso no tiene muchos efectos. Pero eh, es importante que ustedes manejen como un orden cuando lo están utilizando. Listo. ¿Entonces aquí simplemente vamos a a darle flow a esta semilla, eh? Y simplemente con esto vamos a determinar cuál es esa, eh, esa distancia que se toma, que aparece primero en la base de datos.

00:31:09:19 ¿Listo? Bueno, entonces ahora sí vamos a hacer el emparejamiento. Tenemos el emparejamiento con reemplazo y sin reemplazo. Entonces, eh, cuando hablamos de un emparejamiento sin reemplazo, vamos a utilizar el diez, el diez Match dos, que es el que nos va a ayudar a hacer el score. Sí. Aquí vamos a tener nuestra variable. ¿Eh, que nos interesa, cierto? ¿La variable que necesitamos contrastar, eh?

00:31:44:23 ¿Y los controles que van a ser esas características, cierto? El outcome que es nuestra variable dependiente, que si vota o no eh La cantidad de vecinos que yo quiero, en este caso yo puedo poner uno. ¿Pueden ser más vecinos, pueden ser 2345, los que sean, dependiendo de como usted este haciendo la identificación de su, de su, de su modelo, eh eh, el común pues que darle como el el sentido a esto y no es lo que nos va a ayudar a darle sentido, no?

00:32:13:01 ¿Entonces para el el el vecino más cercano sin reemplazo lo vamos a utilizar más en observaciones y esto se va a traducir en que exista menos varianza emparejamiento entre personas más distintas, cierto? Es decir, que solamente me va a utilizar lo que les decía ahorita cuando estábamos hablando del límite. ¿Si yo queremos quienes están acá para ponerlos de ejemplo, eh?

00:32:57:15 ¿Bueno, por ejemplo Carlos Ember, cierto? Entonces el más cercano lo que va a hacer cuando lo hago no o sin reemplazo, es que simplemente con este vecino más cercano uno directamente me va a a emparejar con esa persona que está más cercana a mí en las características que estamos reemplazando. Listo. Y esto pues va a tener algunos inconvenientes, porque aunque va a mejorar, eh, vamos a va a existir menos varianza, pues vamos a tener un poco más de de sesgo en en, en, en el modelo, dado que pues no sabemos si las características entre Carlos y yo, pues van a ser parecidas.

00:33:35:15 ¿Listo? Eh Bueno, entonces vamos a correr. El pi es match, o sea que nos dice. Entonces aquí ya tenemos eh listo. ¿Entonces nos dice miren que nos nos dice el AT, que es el que nos interesa de los tratamientos, de los controles, eh? Pero miren que aquí tenemos la información de los errores estándar y aquí es cuando decimos que el Open City pues no tiene, no tiene como esa claridad porque están mal calculados, dado que ehh, digamos que en el sistema se pierde.

00:34:01:11 ¿Bueno, no sé bien qué es lo que pasa y entonces, eh, lo que hacemos es que empezamos a ignorar la incertidumbre, eh? Asociada a lo que pasa en lo que estamos prediciendo. Sí. Entonces aquí es. Es. Es lo que obtuvimos. Tenemos estos. Estos, eh, estos estimadores. Cierto. De de de los promedios del tratamiento. Que son las diferencias que al final del día.

00:34:31:18 Pues son muy parecidos a eso que utilizamos. Esa diferencia de medias que utilizamos cuando hacemos un mínimos cuadrados ordinarios y tenemos esta relación de la información. ¿Listo? Muy bien. Ay, perdón. A ver. Bueno, ya acá. Listo. Entonces aquí ya podemos ver como los pesos. Mmm, el peso de cada observación que tiene sobre sobre el el. El tratamiento. Cierto.

00:35:01:23 Sobre los tratados sobre los que no son tratados. Y al final del día. Pues, eh, podemos ver cuáles son esos mismos que tenemos en los Tratados, en los no tratados y en los en los tratados. Entonces miren que esto es lo que nos conviene y lo que nos interesa a entender, porque miren que él hizo un match entre unos tratados y eh, unos no tratados en los tratados y miren la cantidad de información, pues que estuvo por fuera dentro de ese soporte común.

00:35:29:18 Cuando nosotros tenemos estas, estas cantidades balanceadas, quiere decir pues que estamos teniendo, digamos que esa relación de que el soporte, como en el supuesto de soporte común, quedó bien hecho y entonces pues vamos a poder ya tener alguna inferencia de eso que de eso que estamos encontrando entre eh personas que son muy parecidas. Sí. Dado que en este caso estamos utilizando un vecino, cada vecino que solamente uno.

00:35:44:14 ¿Y entonces lo que me hizo el sistema fue poner 1 a 1, Cierto? Ese clon que estábamos buscando entonces lo encontró entre, eh, los no tratados o los controles y los tratados list.

00:36:16:21 Bueno, no era. Listo, entonces aquí podemos ver el estatus de la muestra. Mmm. Entonces decimos que todos los tratados tienen un vecino más cercano. No hay ningún tratado en el soporte común sin vecino más cercano. Uno tratado puede servir de control para un solo tratado. Y hay 128.001 tratados que no son usados como controles list. Entonces aquí tienen como la la respuesta de el análisis que estamos haciendo acá.

00:36:46:02 Listo. Bueno, ahora lo que hacemos también es el emparejamiento, pero con reemplazo, Sí. Entonces el emparejamiento con reemplazo va a hacer referencia específicamente a que todos se emparejan con las personas más parecidas. Sí. Entonces aquí ya podemos hacer emparejamiento. Miren que aquí en el comando, lo que vamos a hacer es quitarle el No, no el non replacement. Simplemente lo quitamos y ya.

00:37:16:13 Lo que vamos a hacer aquí es mirar esa probabilidad de que de que existan pues personas más parecidas, cualquiera con las características más parecidas. Lo que vamos a disminuir aquí es el sesgo, pero vamos a aumentar la varianza, entonces también vamos a tener ese problema. Entonces lo que vamos a hacer acá es simplemente utilizar el PI, es vamos a obtener esta misma información, miren que vamos a tener el HT de lo que necesitamos.

00:37:50:06 El este es, perdón, el el el el, la información, el coeficiente que nos interesa eh Aquí nos dice el support que son la cantidad de personas que fueron tratadas o no tratadas de igual manera. ¿Ustedes pueden aquí utilizar la cantidad de vecinos que les interesa que quieran porque lo pueden utilizar de esa manera eh? Y entonces lo que podemos saber acá es que todos los tratados dentro del soporte como tienen vecino más cercano y esto puede repetirse en los tratados.

00:38:24:06 Miremos esta estimación. Ah, ya, mírenlo acá, entonces miren que lo que él hace es que hubo una interacción de 285 personas entre no tratadas entre 20.725 no tratadas. Entonces esos fueron los vecinos más cercanos de los no tratados con los tratados, los que más parecen. Y aquí tenemos esta cantidad de missing. Miren que tenemos igual 111 tratado que pues no tenía como emparejamiento con nadie y 148.000 Miren que este aumento sí.

00:38:59:23 ¿Entonces cuando esto aumenta eh? Dice pues son datos que no utilizamos como controles y aquí es por eso que la varianza eh disminuye, perdón, aumenta y empezamos a tener, eh, menos sesgo. Sí. ¿En este caso vamos a utilizar les voy a dejar acá para que ustedes vayan encontrando, eh? Pues vayan ahí como tomando screenshot y puedan hacerlo. Bueno, los que lo que les decía que pueden hacer de tarea es revisar esta distancia máxima del radio.

00:39:38:08 ¿También pueden utilizar el de kernel o pueden utilizar el de estratificación, que pueden mirar esto? ¿Pues una tarjeta que deja uno acá para que lo revisen, eh? Lo que hacen acá simplemente es ponerle un radio de hiper de esta. Esta dimensión. Y lo importante de esto es que hagan el análisis de de esto. ¿Bien, entonces hasta aquí llevamos todo el análisis de la creación del del del ATÉ, o sea, generando lo que es la el el tratamiento cierto?

00:40:07:14 ¿Eh, como esos coeficientes que nos interesan conociendo cuáles son más cercanos a unos a otros para poder entender, eh como lo como se están como relacionando con las características que necesitan, eh? Y Pero hasta aquí no podemos hacer ninguna inferencia estadística. ¿Por qué? Pues porque sabemos que el sistema nos está entregando unos errores que están mal calculados. Sí.

00:40:42:19 ¿Entonces ahora mediante, eh, el bootstrapping o el Bootstrap, lo que vamos a hacer es evaluar esa calidad de el emparejamiento, eh? Vamos a hacer aquí la estimación de de de los match que hicimos. ¿Entonces lo que nos interesa saber de este test o esta prueba de validez, eh? Que es la misma prueba de validez de diferencia de medias que podemos utilizar en o que utilizamos en en mínimos cuadrados ordinarios.

00:41:12:19 Y lo que nos interesa acá son las emes y lo que podemos ver acá es que esto es no significativo. Entonces es que no se rechaza la la hipótesis nula. Y eso es lo que nos interesa saber que no se rechaza la hipótesis nula en los que hicieron match. Entonces podemos ver que aquí podemos rechazar las hipótesis nula de eh estos match que se buscaron y en general de todo el el el el el modelo como tal, pues tenemos que tampoco se cumple.

00:41:41:00 Entonces ahí podemos hacer ese análisis de validez sabiendo que hubo un match de donde podemos encontrar que que esas variables efectivamente pueden ser características especiales entre cada individuo que estamos analizando. Listo. Y ya para poder estimar el efecto, ahora sí, saber qué es lo que nos dice esto y corregir los errores estándar por Bootstrap. Entonces lo que vamos a usar es el comando bootstrap.

00:42:13:09 Sí. Y con el el comando bootstrap ya vamos a hacer el análisis de los path que encontramos anteriormente. ¿Por eso es importante hacer todo este proceso, porque necesitamos encontrar esos coeficientes de, ehh esos coeficientes de de de tratamiento, cierto? De del del del promedio de los tratados. Para poder entender que al final como podemos sacarlo y traerlo y hacer ese bootstrap para poder hacer nuestra inferencia estadística.

00:42:47:07 ¿Qué es lo que nos interesa al final? Entonces aquí lo que tenemos es este ehh este R. Que está por acá ya. Entonces el R que simplemente lo que les decía, como vamos a analizar esos esos ehh coeficientes que encontramos anteriormente, el Dots, que como esa es, nos pinta como un punto entre la interacción, si fue exitosa, si no fue exitosa, que, que, que conversión, que no conversión.

00:43:11:12 Todo eso que tenemos acá, el cluster de condado, entonces cuando se haga la aleatorización se haga por la sea estratificada y lo haga por Condado y el Reps que es el número de repeticiones que yo quiero que haga acá. ¿Es muy importante que ustedes siempre utilicen un reps grande, cierto? De mil de 2000. Yo solamente voy a usar cinco.

00:43:38:23 Acá usemos diez. Pues un defecto por defecto usamos diez a esto. Bueno, somos cinco, usemos cinco, pero generalmente uno hace mil o 2000. No lo voy a hacer acá. Pues porque se demora un montón haciendo todo el bootstrap, pero eh, es la idea. ¿Entonces si nosotros corremos este Bootstrap de cinco, Ah, bueno, y aquí lo que vamos a utilizar eh?

00:44:14:20 Bueno, aquí es hacer nuestro peaje más de diez match dos de eh, el que habíamos hecho sin sin reemplazo. Si, para poder que el obtenga toda esta información que me interesa acá, entonces miren acá me está haciendo el bootstrap, me dice que hizo cinco replicaciones, acuérdense que lo réplicas, entonces lo importante es que ustedes miren más de cinco, o sea, miren mil, 2000, hagan digamos que muchas réplicas para poder que este error estándar sea, digamos que cada vez más más lógico.

00:44:51:11 Listo, digamos que más que, que que se calcule mejor, porque entre más interacciones nosotros podamos hacer, pues podemos generar esto. Listo, ya podemos tener un coeficiente y podemos tener, eh, un coeficiente que podemos con el cual podemos hacer inferencia estadística. ¿Y pues también digamos que el el el trabajo acá, cierto? Entonces eh, vemos que esto es estadísticamente significativo y simplemente acá esto nos está diciendo que, eh.

00:45:34:18 ¿Nos está diciendo que, eh, la probabilidad de votar si me me llega, pues si me llaman y la llamada efectivamente entra, entonces es del 4.1 puntos porcentuales, cierto? ¿Entonces, ante un incremento de una llamada que sea efectiva, pues yo voy a votar en 4.1 puntos porcentuales y ese es el análisis que yo hago desde ya, desde el Bootstrap, ya tengo un análisis desde inferencia estadística para poder hacer eh, ya digamos lo que me interesa, que en este caso es si hubo no bajo, si me entra la llamada o no me entra la llamada, cierto?

00:46:12:04 Entonces si me incrementa el número de llamadas que entran, entonces voy a aumentar la, eh, La probabilidad de que la gente vote en 4.1 puntos porcentuales. Si esta es la. Este es el el el el modelo como tal. Cierto la identificación de del modelo Eh. Aquí podemos tener que como estamos haciendo aleatorización de datos, también podemos hacer un análisis desde la desde las variables instrumentales y desde el mismo MCO.

00:46:50:18 Cierto es de una regresión lineal normal porque vamos a tener supuestos similares. ¿Cierto? Entonces lo que podemos hacer es comparaciones con este tipo de con este tipo de de especificación con ambos para mirar cuál es la relación que existe, cierto. En términos del coeficiente mientras no tengo el el ítem, pero tengo el rango, entonces aquí lo que podemos ver es simplemente que miren este me da 0.30 el el IP me va a dar como 0.2 la probabilidad y este medio 0.4, o sea 0.04.

00:47:38:09 Entonces lo que podemos ver ahí es que puede ser que el el sitio score matching a veces tiene que tiene muchos problemas como de consistencia. Si. ¿Sin embargo, pues es una buena estrategia que se puede utilizar para poder hacer los análisis que que que se necesitan acá eh? Y de tal manera que ustedes puedan hacer como una interpretación que es importante que para que ustedes hallen este coeficiente tienen necesariamente tienen que hacer eh, no solamente vecinos más cercanos, sino que lo tienen que comparar con radio, lo tienen que comparar sea con kernel, y de esa manera pueden identificar cuál es el el el coeficiente que les da más parecido entre uno de ellos y con

00:48:09:09 ello les ayuda a mitigar mucho esos errores estándar o o esos problemas de inconsistencia que tiene el modelo. ¿Listo? Bueno, voy a responder preguntas por acá. Hay una literatura basada en estata para hacer, en decir ver la que te di y te sirve el libro de, eh, Raquel Bernal. Sí. ¿Que es este, eh? Ahí tienen, eh, pruebas en en estadística, perdón, en en City.

00:48:32:08 El libro de Raquel Bernal les sirve mucho para eso el capítulo seis específicamente. Ahí les enseñan a hacerlo todo listo. ¿Nos podría compartir el Duffy? No puedo compartir Oscar. El material correspondiente a la sección. Lo encontrarás a partir. Bueno, gracias. Muchas gracias. Por favor, recuerden la página donde encontrar el material. Gracias. ¿Listo? Eh, Aquí Ya se los compartieron.

00:49:06:08 La interpretación del 0.041 es como unos ratios. La interpretación del coeficiente implica el grupo de control. También. No, señor. Acuérdate que como estamos haciendo Javier, como estamos haciendo los AT. Cierto es el el el promedio de los tratados. ¿Entonces lo que lo que lo que puedes utilizar, eh? ¿Tú estás haciendo la interpretación para los tratados? Sí. Entonces porque acuérdate que es la diferencia de medias para los tratados.

00:49:32:13 ¿Por eso estamos utilizando el AT esté acá, cierto? ¿Entonces la interpretación es, es es, eh, en puntos porcentuales? Si es en porcentaje específicamente, porque mira que nuestra variable dependiente si o no, que queremos que la gente sí vote cuando nosotros la llamemos, por eso es una TT ya. ¿Entonces, cuál es la respuesta? ¿En la medida que aumentan las llamadas, cierto?

00:50:09:08 Hay mayor probabilidad de que la gente vote en 4.1 puntos porcentuales. Entonces ahí no tenemos ningún análisis desde los ratios, porque los ratios lo usamos, es para modelos logísticos. Listo Víctor. Claro que se puede utilizar para para el sector salud. Cuando tú tienes quieres mirar, por ejemplo, eh, temas de, eh, de placebos, efectos, placebos. ¿Lo puedes utilizar también si eh Augusto, es correcto utilizar la data emparejada para estimar efectos de otras covariables mediante algún modelo?

00:50:46:01 ¿GLM Eh, Si es es esta este trabajo que que propones? Yo no lo conozco muy bien, pero he estado buscando y existe, eh, algunos documentos que puedes explorar buscas así como, eh, identificación o especificación de modelos GLM, PSM Así aparece GLM, PSM y puedes encontrar identificaciones con eso para para estimar algunos efectos. Eso lo puedes usar Julián. Cuando el resultado de la TT se lee en desviaciones estándar mil gra.

00:51:07:17 Cuando allá cuando el resultado de AT se leen desviaciones estándar, cuando llegas acá, cuando lo haces en el bootstrap, porque cuando estás acá no lo puedes leer en desviaciones estándar, porque acuérdate que las los errores estándares están mal calculados. Listo, entonces los haces acá.

00:51:46:04 ¿Eh Bien, eh, Julián? Con gusto, Eh, Fredy, para no experimentales en el soporte. ¿Como que usar kernel, eh? No, lo que pasa es que aquí ya estamos haciendo, eh, modelos no experimentales. Sí. Entonces el soporte común lo vas a tener que utilizar si o si para las diferentes especificaciones que vayas a utilizar, ya sea para para vecinos comunes, perdón, para vecinos, ser más cercanos, para kernel, para el radio vas a necesitar el soporte como Sí, es la pregunta que me estás haciendo.

00:51:58:17 Bueno, no sé si tiene más preguntas.

00:52:28:15 Ah, okay, Eh, ya tendría que mirar, porque eso ya es otra especificación. Ya tendrías que mirar, eh, Los el el, no el Astete, sino el Treatment. Bueno, el otro. Pero yo creo que con esta metodología no te sirve para evaluar los, los, los los grupos de control, porque lo que tú estás haciendo es convertir los grupos de control en el clon de los tratados.

00:52:53:09 Sí. ¿Entonces yo creo que solamente para esta esta especificación de modelos o este método utilizado solamente se utilizan los AT o es lo que yo te recomiendo?

00:53:02:19 Bueno, no sé más preguntas.

00:53:35:02 ¿Bueno, Camilo, mientras damos unos minutos más para consultas, voy a dejar en este momento la encuesta en pantalla para que nuestros asistentes puedan ir resolviendo, eh? Igual recordarles que que en nuestra página web podrán. Podrán encontrar eh, videos de la la próxima semana, el video, esta presentación y otros también relacionados. En este momento voy a dejar en el chat el enlace donde pueden acceder.

00:54:11:08 Por acá también nos están llegando más preguntas. Camilo te dice En el modelo logit algunas variables de control no salían significativas. ¿Es normal eso? ¿En cual modelo lógico? Bueno, hemos trabajado modelos logit. No entiendo la pregunta. Jessica.

00:54:47:16 En el modelo. Pero. Ah, ya. No, no, no tiene. No tiene. Ya, ya te entendí. Si tú haces referencia a este cierto, a este modelo, acá. Listo. No, no, no tiene problema. Porque mira que tú estás haciendo la relación entre tú estás haciendo la relación entre, eh, los los. La variable dependiente si, perdón, la variable independiente más importante que son los tratados y no los tratados con los controles.

00:55:14:10 Entonces seguramente, pues por eso estás haciendo ahí un probit. Pero no, no, no importa que esto esté, porque aquí acuérdate que esto no estamos haciendo ninguna inferencia estadística con esto. Lo que nos interesa de esto es poder obtener cada uno de estos coeficientes de la probabilidad de que estas, eh estas características tengan que ver con la llamada Sí, pero no tiene nada que ver el el el esto porque no hace parte.

00:55:43:06 Nosotros no estamos haciendo inferencia estadística en este momento. ¿Listo Flavio, Qué problemáticas o oportunidades puede resolver el PS y cuál es el requisito de las variables? ¿Si existen, eh? Okay, bien, un requisito de las variables digamos que vas a tener vas a necesitar los mismos requisitos de un modelo eh de regresión lineal o cuando estás haciendo estimaciones por MCO.

00:56:11:18 ¿Si en este caso estamos viendo evaluación de impacto, entonces pues que hayan tratado sino tratados, cierto? Y vas a utilizar esos mismos mismos eh supuestos si los supuestos que vimos al inicio. ¿Y por otro lado, mmm bueno, qué desventajas tiene esto como tal eh? Vamos a ver, que no hay como unas reglas específicas para para seleccionar esos algoritmos.

00:56:46:17 ¿Entonces digamos que como que vamos a necesitar justificar muy bien porque, porque llegamos a ese, a ese coeficiente, sí, Entonces por eso tenemos que hacer muchas pruebas, eh? ¿Digamos que debemos converger como hacia un mismo resultado, eh? Digamos que el uso del bootstrapping, que ha sido como muy criticado en los últimos años para calcular esos errores, pues digamos que tiene problemas, pero sigue siendo como el método más utilizado.

00:57:28:08 ¿Entonces tenemos esos problemas listo Freddy El balanceo entrópico es necesario para mejorar eso, porque como lo puedes utilizar? Claro, lo puedes utilizar de cuando tú puedas. La manera de mejorar el el soporte común va a estar en que las. En que haya más características que puedan incluirse en el análisis de las personas que tenemos. Sí y eh. Digamos que delimitar cierto tener esa delimitación de que hay personas que son parecidas en cantidad y pues utilizar el balanceo entrópico si lo quieres usar también listo, Muy bien.

00:57:50:15 Perfecto. Camilo Bueno, creo que no tenemos más preguntas en este momento. Invitar a los asistentes a que nos dejen sus respuestas de la encuesta que visite nuestra página web y los esperamos en este espacio en una próxima oportunidad. ¿Camilo algo que quieras agregar antes de finalizar? ¿Eh? No, no, yo creo que todo salió muy bien. ¿Creo que les gustó eh?

00:58:18:19 Y que no utilicen mucho. Este nos sirve para para. A mí los métodos de bootstrapping me gustan mucho porque digamos que logran hacer esos emparejamientos chéveres o bueno, o el o el análisis de los emparejamientos, porque nos ayuda también como a identificar algunas características importantes de modelos que queramos ver en temas muy específicos. Entonces la como la recomendación eh especial que tengo para eso no es más, muchas gracias.

00:58:46:15 Perfecto Camilo, gracias a ti por acompañarnos en este espacio. A todos nuestros asistentes igual muchas gracias por asistir, les deseamos un feliz resto de día y nos veremos en una próxima. Hasta pronto. Para mayor información respecto al software o en temas relacionados, no dude en contactarnos a través del correo electrónico. Entrenamientos arroba Software Shop puntocom o visitar nuestra página web Triple W punto software Guion Shop punto com.

Propensity Score Matching con Stata : Validez de estudios observacionales


El Propensity Score Matching (PSM) es una técnica estadística poderosa utilizada en la investigación para equilibrar grupos de tratamiento y control en estudios observacionales. En este espacio, exploraremos los fundamentos del PSM, su aplicación en diversos contextos de investigación, sus ventajas para mejorar la validez interna de los estudios y las posibilidades con que cuenta Stata para llevar a cabo este procedimiento.

Etiquetas relacionadas

  • Aprendizaje
  • Estadística
  • Investigación

¡Comparte este video con tus colegas!

Compartir

Ver más

Cotizar
Próximos
Eventos

X

Mis cotizaciones:

Comentarios a tu solicitud:

Cotizar