Los evaluadores son intérpretes. ¿Y ChatGPT?

cartoon
Silva Ferretti

Los evaluadores son intérpretes. ¿Y ChatGPT?

8 min.

¿La inteligencia artificial es lo suficientemente inteligente como para facilitar nuestra labor de evaluación? ¿Hasta dónde podemos llegar utilizándola?

Los evaluadores son intérpretes. La gente utiliza un lenguaje sencillo y corriente en sus conversaciones cotidianas. Los evaluadores las traducen a la jerga que se usa en charlas e informes sobre desarrollo (y en virtud de la cual se “empodera”, “conciencia” o “moviliza” a la población, que “crea plataformas” o “reclama sus derechos”), a fin de adecuarlas para su análisis e intercambio.

Cuando empecé a utilizar vídeos en mi trabajo —que capturaban fragmentos de estas conversaciones— descubrí cómo profesionales del desarrollo y la ayuda humanitaria poco acostumbrados a tratar con gente corriente (y demasiado habituados a la jerga) no siempre logran comprender el trasfondo que subyace a la sencillez del lenguaje cotidiano. Por ejemplo, en un vídeo aparecía una mujer que se había beneficiado de la construcción de unos pozos de agua cerca de su hogar. Gracias a este proyecto, ya no tenía que recorrer distancias kilométricas para buscar agua. Al preguntarle por el cambio que habían supuesto estos nuevos pozos, mostró con orgullo y cierta socarronería la bebida que estaba compartiendo con otras mujeres: “¡Ahora tengo tiempo para tomar café con mis amigas!” No mencionó sus quehaceres. Disfrutaba de su tiempo libre y su vida social. Un resultado maravilloso e inesperado. Pero... este vídeo cayó en saco roto. Me preguntaron: “¿Qué tiene que ver el café con un proyecto relacionado con el agua?” Y no fue un comentario aislado. Los cambios “sutiles” suelen ser difíciles de percibir y valorar. Subyacen bajo palabras y expresiones cotidianas, es necesario interpretarlos. Y se pueden apreciar mejor cuando se traducen a la jerga.

Así que es cierto: los evaluadores deben ser intérpretes y leer entre líneas. Han de traducir los logros y desafíos a la jerga utilizada por la comunidad humanitaria y de desarrollo para que los cambios significativos puedan valorarse y apreciarse, así como para facilitar el análisis.

Me picaba la curiosidad: ¿lo conseguiría la inteligencia artificial? ¿Sería una buena intérprete?

Pedí a ChatGPT que tradujera frases sencillas a la jerga humanitaria/de desarrollo:

Juguemos a un juego. Imagina un profesional/burócrata experimentado que trabaja en el ámbito del desarrollo. Solamente entiende la jerga del sector y está habituado al lenguaje utilizado en informes y propuestas de proyectos. No comprende ningún término o expresión coloquial. A continuación, te presentaré algunas frases pronunciadas por gente corriente. Deberás traducirlas a la jerga utilizada en el ámbito del desarrollo para que el profesional/burócrata pueda entender su significado. ¿Está claro?”

“Sí”, me contestó ChatGPT de forma decidida.

Y la verdad es que lo hizo bien.

chat

E incluso fue capaz de ir más allá. Le pedí que comprobara si las frases se ajustaban a unos criterios preestablecidos. Y realizó una labor excelente, pudiendo incluso generar formatos adecuados para exportar la información a Excel. ¡Pero trataré este tema en otro artículo!

En vista de lo anterior, ¿qué podemos hacer nosotros?

En primer lugar, recabar las frases.

Las frases utilizadas como ejemplo son el resultado de la interacción humana: estar físicamente presentes, generar confianza, detectar cualquier giro significativo en la conversación y tirar del hilo con curiosidad, escuchando de forma activa. ChatGPT es muy bueno traduciendo frases, pero no tanto (¿aún?) dirigiendo conversaciones o captando los aspectos más significativos. Dicho lo cual, las herramientas de inteligencia artificial son capaces de proporcionar una buena lista de preguntas estándar. Los chatbots enlazados pueden facilitar y analizar conversaciones fluidas sobre temas predeterminados. Pero, sin duda, aún les falta la presencia, el instinto y la conexión que pueden convertir una sucesión de preguntas en una conversación. Y carecen de las emociones que —en última instancia— forjan las conversaciones y generan confianza.

Descubrir nuevos criterios.

El análisis cualitativo se puede basar en criterios predeterminados, comprobando si las evidencias coinciden con estos o de qué manera lo hacen.  Los criterios de evaluación estándar y las preguntas de evaluación establecidas se pueden examinar con este tipo de análisis deductivo. Este enfoque funciona bien cuando sabemos qué buscamos. El análisis cualitativo también se puede utilizar para revelar patrones, temas o ideas que no resultan evidentes en un principio. El análisis cualitativo inductivo es un enfoque completamente diferente: es más exploratorio y receptivo a posibles hallazgos inesperados. ChatGPT puede buscar nuevos criterios. Pero esta búsqueda y la identificación de las evidencias continúa siendo todo un arte. ChatGPT se centra en patrones estadísticamente recurrentes. Y al hacerlo, incluso podría ayudarnos a revelar nuestros propios sesgos. Los seres humanos también utilizamos nuestra curiosidad, intuición y capacidad de percepción para descubrir pistas no evidentes y aspectos destacables, anomalías o carencias. Nuestra subjetividad e intuición funcionan mejor en situaciones complejas. En palabras de ChatGPT: “si los datos están estructurados y son cuantitativos, mi capacidad para identificar nuevos criterios —y algunos tipos concretos en particular— puede ser más limitada. Por ejemplo, identificar fenómenos sociales o culturales complejos que requieren un conocimiento detallado del contexto o experiencia en ese ámbito me puede resultar difícil”.

Identificar ideas innovadoras.

En relación con lo anterior, ChatGPT podría deducir rápidamente que un grupo determinado es un grupo de “autoayuda” ... pero le costaría descubrir por qué es único, cuáles son los desafíos a los que se enfrenta o cuál es su potencial. En cambio, los evaluadores experimentados pueden leer entre líneas (e ir más allá). Al centrarse tanto en tendencias y patrones explícitos, ChatGPT corre el riesgo de homogeneizar sus respuestas. Si bien puede aportar todo tipo de ideas genéricas de improviso, le cuesta mucho más descubrir aspectos verdaderamente innovadores: para ello es necesario estar al corriente de la realidad y conectado con ella. Seguimos siendo mucho mejores en encontrar aquello que es único, en percibir caminos novedosos (ChatGPT también está de acuerdo en esto: “Aunque puedo identificar rápidamente tendencias y patrones, puedo tener dificultades para identificar ideas únicas o innovadoras que no encajen en categorías o marcos preexistentes. La intuición y la creatividad humanas continúan siendo esenciales para reconocer y apreciar ideas novedosas”).

Desterrar las interpretaciones estandarizadas.

ChatGPT puede parecer perspicaz, pero... ¡no piensa! En realidad, no “comprende” nada. Se limita a recombinar palabras para generar secuencias creíbles: aquellas combinaciones más probables basadas en la enorme cantidad de información que ha asimilado. Incluso su ensayo más profundo es producto de la estadística, no de la realidad. Sus resultados están determinados por ideologías y visiones predominantes en el conjunto de conocimientos que ha adquirido, y por los formatos utilizados en su formación (que, por cierto, no se dan a conocer). Es muy importante tener esto en cuenta. Cuando pedimos a ChatGPT que interprete evidencias, estamos introduciendo un sesgo, ya que recurrimos a estructuras de pensamiento dominantes. Cuando nos parece que realiza una buena labor procesando y resumiendo evidencias —como en el caso anterior— es porque lo hace de la misma manera que las organizaciones y estructuras en las que trabajamos. Replica nuestro lenguaje de forma artificial, pero no porque sea el que mejor se comprende. ¿Cuáles son los posibles riesgos? Pasar por alto epistemologías y heurísticas alternativas, así como otras perspectivas y visiones. Puede que no sean tan sofisticadas, pero sí más significativas y relevantes. Con el tiempo, las futuras versiones de ChatGPT podrían nutrirse de narrativas y visiones alternativas. Pero para ello es necesario disponer de productos y materiales que exploren realidades y posibilidades diversas y articular interpretaciones diferentes. ¡Podría convertirse en un círculo vicioso! La comunidad de evaluación puede desempeñar un papel importante a la hora de dar a conocer perspectivas y conocimientos alternativos, ya que está expuesta de forma única al cambio. Más aún, los evaluadores que trabajan en proyectos humanitarios, de desarrollo y de consolidación de la paz están expuestos a diversas culturas y contextos y situaciones muy complejas.

Hacer las cosas exactamente “al pie de la letra” es —al mismo tiempo— la principal fortaleza y el mayor defecto de ChatGPT. Podríamos optar por lo fácil: continuar haciendo “más de lo mismo” con mayor velocidad de procesamiento. Pero si acumula una cantidad creciente de conocimientos basados en las mismas estructuras, ChatGPT podría ser más reacio a nuevas interpretaciones. Quizás podríamos aprovechar el tiempo que nos ahorra: una vez que nos ayude a identificar “hallazgos o interpretaciones habituales”, podríamos sacar partido a nuestra intuición, imaginación y percepción de la realidad para dirimir si son o no válidos. ¿Debemos interpretar las evidencias de otra forma diferente, con otro enfoque distinto? ¿Qué opiniones y perspectivas debemos valorar más? Si nos ceñimos a la evaluación convencional, las nuevas versiones de ChatGPT pronto serán tan buenas como nosotros. Y probablemente nos sustituyan en gran parte. Pero si liberamos nuestro pensamiento y creatividad y adoptamos enfoques alternativos, quizás podamos colaborar con ChatGPT para adquirir conocimientos más profundos.

  • Dear Silva, you are absolutely right. Evaluators are mainly interpreters of what has happened, and consequently not only a "tick the box" in a "multiple choice" questionnaire. Of course we have to fill some forms and tables, organize information in a pre-agreed way, but the most important work is when we are able to find a "non previewed" result or impact. Most of our work is "standard work" and it has to be "up to standard", but there is a piece of "original work" that is what adds brightness to the evaluation work. And that cannot be done by AI, as AI always is an "average" of previous experiences.

    Best

    Vicente Plata

  • Hi Silvia! 

    Thank you for the blog. Your review of the ChatGPT that highlights the strength and weaknesses of this software is greatly insightful. We shared the blog through the European Evaluation Society Newsletter today so that more members of evaluation community can participate in the discussion on technology and evaluation you raised through this blog.

    Referring to the question you posed on whether AI in general is smart enough and can make our evaluation work easier, my answer is yes if we as evaluation practitioners understand its application and limitations.

    Firstly, good evaluation always starts with the right evaluation questions and the methodology designed to answer these questions that take into account contextual factors, limitations, sensitivities, etc. I understand, that your example about coffee suggests that the value should have been placed on “time saving” and not on less “chores”. Methodologies such as Social Return on Investment (SROI) could go further in this example and place value, even financial, on the social activity of drinking coffee with friends beyond “time saving” if this is relevant to answer evaluation questions. This to say, “extra free time” and enriched “social life” should be of interest for the evaluation before the decision on whether to use AI technology for data collection/analysis and the search of the most appropriate software package.

    Secondly, it is important to understand the limitations of applying AI and innovative technologies in our evaluation practice. To provide more insights into the implications of new and emerging technologies in evaluation, we discuss these subjects in the EvalEdge Podcast I co-host with my EES colleagues. The first episodes of the podcast focus on the limitations of big data and ways to overcome them.

    Thirdly, the iterative process of interaction of evaluator and technology is important. As a good practice, data collected through innovative data collection tools triangulated with data collected through other sources. Machine learning algorithms applied, for example, to text analytics as discussed in one of the EES webinars on “Emerging Data Landscapes in M&E” need to be “trained” by human to code documents and to recognise the desired patterns.

    Best regards,

    Alena

  • Bonjour Silva,

    Merci beaucoup pour le lancement de cette discussion sur l'évaluation et Chat GPT. Je suis pressé de lire les réactions car ce sujet sera probablement abordé lors de la 5e édition du Forum international francophone de l'évaluation que le RFE (Réseau francophone de l'évaluation) organise avec la SOLEP (Société luxembourgeoise de l'évaluation et de la prospective), les 4, 5 et 6 juillet prochain, à Luxembourg.

    Si le français n'est pas un problème pour toi, je t'invite à soumettre une proposition d'intervention d'ici le 30 mars. Cette invitation à nous adresser des propositions d'interventions vaut également pour l'ensemble des membres de la communauté EvalForward. Les dépôts se font en ligne : www.fife2023.rfevaluation.org.

    Le thème de l'événement est "Évaluation et révolution numérique".

    Jean-Marie Loncle

    Secrétaire permanent du RFE