Cuando la participación se convierte en dato

Reflexiones sobre la inteligencia artificial y el futuro de la evaluación participativa

por Angie Pereira Calvo

Hace algunos meses, me senté durante más de dos horas con un grupo de mujeres para escuchar su experiencia con un programa. No había grabadora encendida en ese momento. No había formulario en mis manos. Había silencio, pausa, chocolate y una confianza que llevo semanas construir. En esa conversación aprendí más sobre los determinantes reales del acceso a servicios de salud que en cualquier base de datos que había procesado antes.

Me pregunto, genuinamente, qué parte de esa conversación habría capturado un sistema de inteligencia artificial. Y me pregunto también que parte de ella habríamos sacrificado si el énfasis metodológico hubiera estado puesto en la eficiencia del procesamiento de datos en lugar de en la calidad de la escucha. Esta es, a mi criterio, la pregunta central que la comunidad evaluadora latinoamericana debe hacerse ahora, antes de que la adopción de herramientas de IA redefina silenciosamente lo que entendemos por participación.

La evaluación participativa no nació como un método. Nació como una postura política, surgió del reconocimiento de que los modelos evaluativos convencionales reproducían relaciones de poder asimétricas. La evaluación participativa prometió invertir esa lógica, prometió que quienes viven los efectos de una intervención tienen también el derecho y la capacidad de nombrarlos, interpretarlos y juzgarlos. Prometió que la producción de evidencia podría ser en si misma un proceso emancipatorio, no solo un insumo técnico para la toma de decisiones de otros.

Es una promesa que, con honestidad, la práctica evaluativa ha cumplido de manera desigual. Muchos procesos llamados participativos han sido, en el mejor de los casos, consultas bien intencionadas; en el peor, ejercicios de legitimación de decisiones ya tomadas. Pero la promesa sigue siendo valiosa. Y es precisamente esa promesa la que está en tensión hoy.

“La participación no es un método que se aplica. Es una relación que se construye. Y las relaciones no se escalan sin transformarse”.

La promesa de la inteligencia artificial aplicada a la evaluación es seductora y, en parte, legitima. En un contexto donde los presupuestos se contraen, y donde se exige cada vez mas evidencia con menos recursos, la IA ofrece algo difícil de rechazar: mayor capacidad analítica, menor tiempo de procesamiento, síntesis de volúmenes de información difíciles de gestionar manualmente.

Herramientas como los modelos de lenguaje de gran escala pueden procesar cientos de documentos de política, transcribir entrevistas en múltiples idiomas, identificar patrones temáticos en datos cualitativos, generar borradores de matrices de hallazgos. Son capacidades reales que, bien utilizadas, pueden liberar tiempo evaluativo para lo que más importa: el análisis crítico, el juicio, el dialogo.

El Grupo de Evaluación de las Naciones Unidas (UNEG) reconoció esta realidad en su Asamblea General de 2025, aprobando un conjunto de principios éticos para el uso de la IA en evaluaciones del sistema ONU. Es un avance relevante. Pero los principios, por si solos, no resuelven la tensión de fondo.

El problema es el tipo de participación que la IA puede procesar. Los sistemas de inteligencia artificial aprenden de datos. Y los datos que existen en volumen suficiente para entrenar modelos representan, abrumadoramente, ciertas formas de conocimiento: el conocimiento que fue escrito, transcrito, digitalizado, publicado, indexado. El conocimiento que circuló en idiomas con presencia masiva en internet. El conocimiento producido bajo las categorías conceptuales dominantes en la academia y en el sistema internacional del desarrollo.

El conocimiento que emerge de una conversación de dos horas con mujeres no esta en esas bases de datos. No porque sea menos valido, sino porque no fue diseñado para ser procesado en escala. Porque su potencia reside precisamente en su especificidad, su contextualidad, su resistencia.

Cuando un sistema de IA analiza datos cualitativos, identifica patrones. Y los patrones son, por definición, lo que se repite. Lo que es singular, lo que emerge una sola vez en un relato especifico de una experiencia especifica, tiende a desaparecer en el análisis. Pero en evaluación, frecuentemente es lo singular lo que mas importa.

“La IA puede identificar que el 73% de las entrevistadas menciono barreras de acceso. No puede capturar por que una mujer especifica guardo silencio durante veinte minutos antes de nombrar la suya”.

Hay un riesgo adicional que merece atención particular en el contexto latinoamericano: el sesgo estructural de los modelos de IA. Los modelos de lenguaje de gran escala fueron entrenados predominantemente con textos en inglés, bajo categorías conceptuales que reflejan una epistemología especifica, una forma de saber. Cuando estos modelos se aplican a la evaluación de programas en comunidades indígenas, en contextos rurales de América Central, en poblaciones históricamente excluidas de la producción de conocimiento, el riesgo de reproducir sesgos no es teórico. Es metodológicamente real.

Un sistema de IA que no comprende la lógica de la reciprocidad en las comunidades andinas puede clasificar una práctica de intercambio como una barrera a la implementación cuando es, en realidad, una forma de cohesión social que el programa debería haber reconocido desde el diseño. Un modelo sin sensibilidad para el contexto político de ciertos silencios puede generar interpretaciones que son técnicamente consistentes y culturalmente equivocadas.

La literatura más reciente sobre IA y pueblos indígenas lo señala con claridad: el imperialismo cognitivo, la imposición de categorías de conocimiento desde afuera, encuentra en la IA un mecanismo de reproducción especialmente eficiente, porque opera con la apariencia de la objetividad. Un algoritmo no tiene ideología visible. Pero fue construido por personas con perspectivas específicas, en contextos específicos, con datos que reflejan jerarquías específicas de lo que cuenta como conocimiento valido.

La crítica no implica rechazo. Implica precisión sobre los roles. Hay tareas en las que la inteligencia artificial puede contribuir genuinamente a fortalecer la evaluación participativa, no a reemplazarla. La transcripción automática de entrevistas libera tiempo que antes se destinaba a trabajo mecánico y puede ahora dedicarse al análisis. La síntesis de revisiones documentales extensas permite a los equipos contextualizar sus hallazgos con mayor rigor. La identificación de patrones temáticos en grandes volúmenes de datos cualitativos puede ser un punto de partida valioso, siempre que no se confunda con el análisis mismo.

La clave está en la secuencia y en la jerarquía epistémica: la IA como herramienta que amplía la capacidad de quien evalúa, no como árbitro de lo que la evaluación debe concluir. El juicio evaluativo, la interpretación contextualizada, la ponderación de evidencias contradictorias, la construcción de recomendaciones que sean políticamente viables y culturalmente pertinentes, permanece irreductiblemente humano.

Y la participación, la creación de condiciones para que quienes viven una intervención puedan nombrar su experiencia con sus propias categorías y en sus propios términos, no es una etapa del proceso evaluativo que pueda automatizarse. Es su fundamento ético.

“No se puede escalar la confianza. No se puede optimizar la escucha. No se puede automatizar la presencia”.

América Latina tiene una tradición evaluativa propia, con raíces en la investigación acción participativa, en las epistemologías propias. Es una tradición que nos da recursos conceptuales y metodológicos para navegar este momento con mayor claridad que la que ofrece la adopción acrítica de marcos producidos en el Norte. Desde esa tradición, propongo tres orientaciones.

Primero, adoptar la IA con criterio propio. No esperar a que los marcos éticos lleguen desde UNEG o desde la OCDE para decidir como usarla. Construir, desde la práctica evaluativa latinoamericana, estándares de uso responsable que incorporen la perspectiva de los pueblos y comunidades que son sujeto de las evaluaciones. La soberanía de datos indígenas no es un tema técnico; es un tema político que debe estar en el centro de cualquier conversación sobre IA en evaluación.

Segundo, resistir la presión de la eficiencia cuando va en detrimento de la participación real. Los donantes y clientes institucionales van a pedir evaluaciones más rápidas y más baratas. La IA hace técnicamente posible producirlas. Pero nuestra responsabilidad como evaluadoras y evaluadores es ser explícitos sobre lo que se pierde cuando la velocidad del procesamiento reemplaza la lentitud necesaria de la escucha participativa. Esa honestidad no siempre es cómoda. Es, sin embargo, parte del rigor.

Tercero, posicionarnos como productores de conocimiento evaluativo, no solo como usuarios de herramientas. Los modelos de IA se mejoran con los datos que los alimentan. Si la comunidad evaluadora latinoamericana permanece pasiva frente al desarrollo de estas herramientas, los modelos seguirán siendo entrenados predominantemente con datos que no representan nuestra realidad. Participar en los debates internacionales sobre IA ética en evaluación, en UNEG, en EvalPartners, en la red EvalIndigenous, es una forma concreta de incidir en esa dirección.

Vuelvo a aquella tarde de silencio y de chocolate. A lo que no está en ninguna base de datos. Esa mujer, al final de nuestra conversación, me dijo algo que no pude incluir en el informe de evaluación porque no había forma de hacerlo sin descontextualizarlo hasta vaciarlo de sentido. Me dijo, en sus propias palabras, que el programa había llegado a su comunidad hablando de soluciones, pero sin entender que que lo que ellas vivían no era solo falta de soluciones. Era falta de tierra. Era falta de agua limpia. Eran brechas estructurales que los indicadores de impacto captaban vagamente.

Eso no es un dato que la inteligencia artificial pueda producir. Es conocimiento que emerge de la relación, de la confianza construida con tiempo y presencia, de la disposición a escuchar lo que el diseño evaluativo no anticipo. La evaluación participativa, en su mejor versión, crea las condiciones para que ese conocimiento emerja y sea reconocido como evidencia legitima. La inteligencia artificial, en su mejor versión, puede ayudarnos a procesar y comunicar la evidencia que ya tenemos. Pero no puede sustituir el proceso por el cual esa evidencia se produce.

Esa distinción no es solo metodológica. Es ética. Y mientras la mantengamos con claridad, tendremos algo que ningún algoritmo puede reemplazar: el criterio para saber cuándo el dato no es suficiente, y cuándo lo que la evaluación necesita es, simplemente, y complejamente, escuchar.