Evaluaciones de impacto: ¿cuánto hemos avanzado?

casava seedlings

Evaluaciones de impacto: ¿cuánto hemos avanzado?

8 min.
Un desafío para la comunidad de evaluación. 

Cuando comencé mi tesis sobre las evaluaciones de impacto hace 15 años, observé una nueva tendencia, caracterizada por el rigor de esta modalidad en el ámbito del desarrollo internacional. La eficacia de la ayuda al desarrollo se ha cuestionado durante décadas. Por ejemplo, la Declaración de París sobre la eficacia de la ayuda al desarrollo (2005) hizo un llamamiento para que las intervenciones de desarrollo estuvieran basadas en evidencias. Las evaluaciones de impacto se han convertido en una herramienta valiosa para potenciar la rendición de cuentas y determinar la verdadera eficacia de las intervenciones de desarrollo. Sin embargo, la comunidad internacional de evaluación no ha alcanzado todavía un consenso sobre los instrumentos y metodologías ideales que deben se deberían utilizar en estas evaluaciones.

Un sobresalto en la comunidad de evaluación. 

En 2006, el Centro para el Desarrollo Mundial (CGD, por sus siglas en inglés) publicó el informe “When Will We Ever Learn?” (¿Cuándo conseguiremos aprender?), a fin de aclarar algunas cuestiones e instar a que las evaluaciones de impacto fueran cada vez más precisas. El CGD puso de manifiesto la baja calidad de las evaluaciones realizadas por entonces, carentes del rigor necesario para formular afirmaciones causales. Y abogó por que las evaluaciones de impacto pudiera atribuir directamente el “efecto neto” a un programa de desarrollo. El informe del CGD hacía referencia al modelo médico de ensayos clínicos como práctica habitual en este ámbito, y en virtud de la cual ningún médico responsable se plantearía recetar medicamentos sin evaluar adecuadamente su impacto o sus posibles efectos secundarios. Este enfoque experimental se aplicó a evaluaciones de intervenciones de desarrollo. Los denominados ensayos controlados aleatorios asignan al azar individuos a grupos de tratamiento y comparación, creando así un elemento contrafactual. El informe afirma que la evaluación de impacto se pregunta por la diferencia entre lo que ha ocurrido con un programa y lo que habría ocurrido de no haber existido éste. Este “efecto neto” se suele centrar en un único parámetro (que aumenta o disminuye) y su intervalo de confianza, dando pie a nuevos cuestionamientos y sugerencias de métodos alternativos. La comunidad de evaluación respondió rápidamente. Se creó la Red de redes para la evaluación de impacto, de carácter bilateral y multilateral, a fin de proporcionar orientación sobre este tipo de evaluación, no sólo sobre el efecto neto de los ensayos experimentales, sino también sobre un enfoque metodológico integrado. Asimismo, se puso en marcha la Iniciativa internacional para la evaluación del impacto (3ie), con la finalidad de generar evidencias y promover la creación de un repositorio de evaluaciones de impacto..

Revisión del modelo médico.
En medicina, los experimentos tienen también sus limitaciones. Por ejemplo, la medicina personalizada y el foco en medicamentos poco habituales intentan generar evidencias más allá de los experimentos. De ahí que el uso crítico de éstos sea igualmente importante en las evaluaciones de impacto.
La continuidad de las evaluaciones de impacto rigurosas. 

Más recientemente, varias organizaciones multinacionales han puesto en marcha estrategias de evaluación de impacto. Por ejemplo, el Fondo de las Naciones Unidas para la Infancia (UNICEF) elaboró la Estrategia y Marco de Acción de la Evaluación de impacto (2022-2025). La Oficina del Alto Comisionado de las Naciones Unidas para los Refugiados (ACNUR) está a punto de publicar su estrategia. El Programa Mundial de Alimentos (PMA) lanzó la Estrategia de Evaluación del Impacto del PMA (2019-2026). La terminología es similar a la del CGD. La Estrategia insta a generar evidencias sólidas y realizar evaluaciones de impacto rigurosas, que midan el “efecto neto” de las intervenciones para determinar si algo funciona o no. Asimismo, hace un llamamiento a las organizaciones académicas de investigación (y no a los departamentos de evaluación) para que aporten sus conocimientos especializados a las evaluaciones de impacto. Entre otros, la Estrategia hace referencia a:

  • La iniciativa 3ie (véase más arriba);
  • El Laboratorio de Acción contra la Pobreza Abdul Latif Jameel (J-PAL, por sus siglas en inglés). Los fundadores del J-PAL —Esther Duflo y Abhijit Banerjee— recibieron el Premio Nobel de Economía por utilizar metodología experimental en el desarrollo internacional; y
  • El  Departamento de Impacto en el desarrollo del Banco Mundial (DIME, por sus siglas en inglés), que ha destacado en la realización de evaluaciones experimentales en todo el mundo.

El enfoque del PMA es un poco más sutil, ya que hace referencia también a la Política de Evaluación del PMA (2016-2021), que alinea la definición de evaluación de impacto con la definición de impacto del Comité de Asistencia para el Desarrollo (CAD) de la Organización para la Cooperación y el Desarrollo Económicos (OCDE). Así, define esta modalidad como la evaluación de los cambios —positivos y negativos, directos o indirectos, intencionados o no— en la vida de las poblaciones afectadas, destinatarias de las intervenciones del PMA. También pretende aprovechar las mejores herramientas posibles para recopilar y analizar datos sobre qué funciona mejor, de qué manera lo consigue y a quién pretende favorecer.

Sin embargo, la Estrategia del PMA se centra posteriormente en los conceptos “contrafactual” y “efecto neto”, que se asemejan a la definición experimental de impacto utilizada por el CGD en 2006 y promovida por el DIME y el J-PAL. En resumen, parece haber diferentes vías parcialmente interrelacionadas. Sería importante aclarar la posición exacta en la siguiente versión de la Estrategia del PMA.

Glosario del CAD de la OCDE (únicamente disponible en inglés):  
Efectos de nivel superior de los resultados de una intervención. Efectos finales o cambios a más largo plazo como consecuencia de una intervención. Estos efectos pueden ser intencionados o no, positivos o negativos.
¿Cuánto hemos avanzado? 

En los últimos 15 años, el debate sobre la evaluación de impacto no se ha zanjado completamente, pero ha dado lugar a una cierta armonización de perspectivas que permite que cualquier evaluación de impacto (experimental) se beneficie de otras metodologías para aumentar su pertinencia y uso. Basándome en mi análisis de dicho debate, sugiero las siguientes buenas prácticas:

  1. Sopesar las diferentes herramientas para la evaluación de impacto. Lo ideal sería examinar las diferentes opciones al comienzo de cada evaluación. Se debería considerar el enfoque experimental, pero también todo el conjunto de metodologías de las ciencias sociales que contribuyen al análisis causal.
  2. Comenzar la evaluación en una fase temprana. Las evaluaciones se deberían iniciar pronto, idealmente en la fase de planificación de las intervenciones, y no durante su ejecución, ni después de ésta. Esto también garantiza que los evaluadores puedan recopilar datos de referencia y ajustar los procesos de evaluación, en caso necesario.
  3. Comprender el impacto (cualitativamente). Toda evaluación experimental o cuantitativa incluye componentes cualitativos. Por ejemplo, el evaluador debe aclarar (cualitativamente) las preguntas de evaluación, evaluar los conocimientos previos, interpretar las conclusiones, etc. Los evaluadores deben tener capacidad para interpretar cualitativamente la información, a fin de comprender y evaluar el impacto de una intervención.
  4. Ampliar la base de evidencias. Una evaluación de impacto experimental da respuesta —en su mayor parte— a preguntas relacionadas con los efectos (el “qué”), no con las causas (los “porqués”) ni la forma de lograrlo (el “cómo”). Por tanto, cualquier evaluación de impacto cuantitativa se beneficia de la integración de herramientas cualitativas que permiten ofrecer una perspectiva más completa del impacto. El uso conjunto de múltiples instrumentos de la caja de herramientas metodológicas garantiza que los resultados de la evaluación sean más sólidos que si se utiliza solamente un único método.
  5. Garantizar la pertinencia. Al combinar herramientas para la evaluación de impacto, los evaluadores consiguen que sus evaluaciones sean más pertinentes para las partes interesadas. Aplicar los resultados de una evaluación de impacto a otros contextos o pasar de un ensayo piloto a un alcance más amplio requiere una teoría del cambio sólida. Se trata de una tarea cualitativa.
  6. Formar equipos de evaluación que puedan usar múltiples métodos. Aunar diferentes habilidades en un equipo encargado de realizar una evaluación de impacto permite utilizar diferentes metodologías.

Siguiendo estas buenas prácticas, es más probable que las evaluaciones de impacto tengan repercusión.

  • Dear Rahel,

     

    Thanks for posting this blog about how far "we" have come on impact evaluation. Let me be terse with my answer: not much, if at all. And for the following three reasons:  

    1. CGD's "When Will We Ever Learn" (WWWEL) is a throw back to Vedungs' first scientific wave of evaluation   - Vedung, E. (2010) Four Waves of Evaluation Diffusion, Evaluation, Sage Publications, 16: 263 pp. 263-277. During the 1960s and even earlier, advanced evaluative thinking and practice was driven by a notion of scientification of public policy and public administration. It was argued this would make government more rational, scientific and grounded in facts. Its technocratic thrust sought to isolate public policy decisions from the messy, complex world we live in. Evaluation was to be performed by professional academic researchers (often masquerading as evaluators).Spitting roast for the labs and units you list, and many others. Towards the mid-1970s, confidence in experimental evaluation faded however. Voices started communicating how Evaluation should be more diverse and inclusive. Those other than academic researchers should be involved. Ring bells for today's debates on de-colonisation, localisation and Indigenous Evaluation?  

    2.  CGD's self-serving basic thesis:

    • "persistent shortcomings in our knowledge of the effects of social policies and programs reflect a gap in both the quantity and quality of impact evaluations.’ 
    • the authors argued: An “evaluation gap” has emerged because governments, official donors, and other funders do not demand or produce enough impact evaluations and because those that are conducted are often methodologically flawed.” They ascribe the evaluation gap to the public good nature of impact measurement; and
    • "that governments and development agencies are better at monitoring and process evaluations than at accountability or measuring impact"’  - this may be so but, monitoring, long neglected by the evaluation community, as practiced by most govts and dev agencies, is done far from well and is deliberately held down as routine reporting process (pers comm Michael Quinn Patton, April 2024). 

    James Morton in his 2009 paper "Why We Will Never Learn" provides a wonderfully lettered critique of the above: the Public Good concept is a favourite resort of academics making the case for public funding of their research. It has the politically useful characteristic of avoiding blame. No one is at fault for the ‘evaluation gap’ if evaluation is, by very its nature, something that will be underfunded. Comfortable as this is, there are immediate problems. For example, it is difficult to argue that accountability is a public good. Why does the funding agency concerned not have a direct, private-good interest in accountability?

    Having effectively sidelined Monitoring and Processes, WWWEL goes on to focus, almost entirely, on measuring outcomes and impact. This left the "monitoring gap" conveniently alone. While avoiding any discussion of methodologies: randomised control trials, quasi experimental double-difference, etc. many discussions WWWEL encouraged were the abstruse, even semantic nature of the technical debates which dominate discussion about impact measurement. 

    3.  Pawson and Tilley's expose - through their masterful 1997 publication "Realistic Evaluation"  of experimentalists and RCT's intrinsic limits as defined by its narrow use based on the deficiency of its external validity. They challenge orthodox view of experimentation: the construction of equivalent experimental and control groups, the application of interventions to the experimental group only and comparisons of the changes that have taken place in the experimental and control groups as a method of finding out what effect the intervention has had. Their position throws into doubt experimental methods of finding out which programmes do and which do not produce intended and unintended consequences. They maintain it not to be a sound way of deriving sensible lessons for policy and practice. 

    In sum then, CGD's proposition of RCTs, to cite Paul Krugman. is like a cockroach policy: it was flushed away in the 1970's but returned forty years later along with its significant limits intact; and CGD missed the most significant gap. From the above, one could get the impression that development aid has lost the capacity to learn: it suppresses, not takes heed of, lessons.

    I hope the above is seen as a constructive contribution to the debate your blog provokes; and my seeming pessimism simply qualifies my optimism  - a book was launched yesterday on monitoring systems in Africa.

    Best wishes and good luck,

    Daniel   

     

     

     

     

  • Dear Binod! I very much agree with your critical comments regarding 'net effect' impact evaluations, especially in related to long-term effects. I am currently exploring qualitative-investigative methodologies that could be useful for capturing those longer-term effects.

  • Thanks for recommending good practices - they are very helpful. 

    I find the concept of 'net effect' (medical model!) challenging in some areas that are not visible in a short duration. How would we measure the net effect if we have short-term empowerment programs or climate change interventions? I also find it difficult to generalize randomized control trials for the areas that have wide impacts, such as air or water pollution. We can have qualitative data justifying the effects. However, the evaluation may need to challenge the programs that look for a quick-fix for a long-term problem!