L'évaluation de l'impact: où en sommes-nous?

casava seedlings

L'évaluation de l'impact: où en sommes-nous?

7 min.

Le défi de l'évaluation de l'impact pour la communauté de l'évaluation.

Lorsque j'ai commencé ma thèse sur l'évaluation de l'impact il y a 15 ans, j'ai observé la nouvelle tendance consistant à mettre en œuvre des évaluations de l'impact rigoureuses dans le domaine du développement international. L'efficacité de l'aide fait l'objet de critiques depuis des décennies; la déclaration de Paris sur l'efficacité de l'aide au développement de 2005 (Paris Declaration on Aid Effectiveness) préconisait par exemple des interventions de développement s'appuyant sur des éléments de preuves. L'évaluation de l'impact est devenue un outil précieux pour mieux rendre compte et déterminer la véritable efficacité des interventions de développement. Toutefois, la communauté internationale de l'évaluation n'est pas encore parvenue à un consensus quant aux méthodologies et aux instruments idéaux que ces évaluations de l'impact devraient appliquer.

Un rapport marquant pour la communauté de l'évaluation. 

En 2006, le Centre pour le développement mondial (Center for Global Development [CGD] a publié un rapport intitulé “When Will We Ever Learn?” (Quand apprendrons-nous?) pour que les choses soient apparemment claires, en prônant des évaluations de l'impact de plus en plus rigoureuses. Le CGD mentionnait la faible qualité des évaluations récentes, qui manquaient de la rigueur nécessaire pour formuler des liens de causalité. Les nouvelles évaluations de l'impact renvoyaient au modèle médical des essais cliniques comme norme médicale: «aucun médecin responsable n'envisagerait de prescrire des médicaments sans évaluer correctement leur impact ou leurs effets secondaires potentiels» (p.3). Cette approche expérimentale a été appliquée aux évaluations des interventions de développement. Les essais contrôlés randomisés répartissent de manière aléatoire les sujets dans un groupe de traitement et dans un groupe de contrôle – créant ainsi une situation contrefactuelle: «L'évaluation de l'impact examine la différence entre ce qui a eu lieu avec le programme et ce qui aurait eu lieu sans lui.» (p.12). Cet «effet net» se concentre en général sur un seul chiffre (à la hausse ou à la baisse) et sur son intervalle de confiance – ce qui ouvre la voie à de nouvelles critiques et à des suggestions de méthodes alternatives. La communauté de l'évaluation a répondu rapidement: le Réseau des réseaux de l'évaluation de l'impact (Network of Networks for Impact Evaluation), bilatéral et multilatéral, a été créé pour orienter l'évaluation de l'impact, tant sur l'effet net des essais expérimentaux que sur une approche méthodologique intégrée. L'initiative 3ie (International Initiative for Impact Evaluation) a été lancée pour développer les éléments de preuve et promouvoir un répertoire des évaluations de l'impact..

Le modèle médical revisité.
Les expériences en médecine présentent également des défauts. Le mouvement de la médecine personnalisée et l'accent mis sur les médicaments rares s'efforcent par exemple de produire des preuves au-delà des expériences. Une utilisation critique des expériences est donc tout aussi importante dans l'évaluation de l'impact.
La poursuite des évaluations de l'impact rigoureuses. 

Plus récemment, différentes organisations multinationales ont lancé des stratégies d'évaluation de l'impact. L'UNICEF a élaboré par exemple une stratégie et un cadre d'action (Strategy and Action Framework) concernant l'évaluation de l'impact (2022-2025). L'UNHCR publiera d'ici peu sa stratégie. Le PAM a quant à lui lancé sa stratégie d'évaluation de l'impact (WFP Impact Evaluation Strategy) (2019-2026). Sa terminologie est similaire à celle du CGD. La stratégie préconise de «solides éléments de preuve» (p.4) et une «évaluation de l'impact rigoureuse» (p.15), mesurant l'«effet net» d'une intervention pour comprendre si quelque chose fonctionne (p.6). Elle appelle les «organisations universitaires de recherche» (et non les ateliers d'évaluation) à apporter leur expertise en évaluation de l'impact (p.24). La stratégie mentionne entre autres:

  • la 3ie (susmentionnée); 
  • le laboratoire Abdul Latif Jameel Poverty Action Lab (J-PAL). Les fondateurs de J-PAL, Esther Duflo et Abhijit Banerjee, ont reçu le prix Nobel en sciences économiques pour l'utilisation de la méthodologie expérimentale en développement international; 
  • l'Unité de la Banque mondiale pour l'évaluation de l'impact et le développement (World Bank’s Development Impact Evaluation [DIME] Unit) qui excelle dans la conduite d'évaluations expérimentales dans le monde entier.

L'approche du PAM est un peu plus nuancée, dans la mesure où elle s'appuie également sur la politique de l'évaluation du PAM (2016-2021), qui aligne la définition de l'évaluation de l'impact sur la définition de l'impact du CAD de l'OCDE, à savoir «les évaluations des changements positifs et négatifs, directs ou indirects, intentionnels ou non dans les vies des populations touchées qui ont bénéficié des interventions du PAM» (p.8). Elle porte également sur les «instruments potentiellement les meilleurs pour appréhender et analyser les données», sur «ce qui marche le mieux et pour qui» (p.15).

Toutefois, le document se concentre ensuite sur la situation «contrefactuelle» et l'«effet net» – termes qui ressemblent à la définition expérimentale de l'impact, telle qu'elle a été utilisée par le CGD il y a dix ans et promue par la DIME et J-PAL. En bref, les différents volets de l'évaluation de l'impact semblent s'entremêler de manière quelque peu floue. Il serait important de clarifier la position exacte dans l'itération suivante de la stratégie du PAM.

Glossaire du CAD de l'OECD:  Impact 
«Les effets de niveau supérieur induits par une intervention. Les effets ultimes ou les changements de long terme induits par une intervention. De tels impacts peuvent comprendre les effets de niveau supérieur intentionnels ou non, positifs ou négatifs.»
Où en sommes-nous? 

Au cours des 15 dernières années, le débat sur l'évaluation de l'impact n'a pas été entièrement tranché, mais il a conduit à un rapprochement des perspectives selon lesquelles toute évaluation de l'impact expérimentale tirerait profit d'autres méthodologies pour accroître sa pertinence et son utilisation. Sur la base de mon analyse des débats sur l'évaluation de l'impact, je suggère les bonnes pratiques suivantes: 

  1. Évaluer les différents instruments d'évaluation de l'impact possibles: Idéalement, au début de chaque évaluation de l'impact, la question des instruments possibles se pose. Ne prenez pas uniquement en compte l'approche expérimentale mais aussi l'ensemble des méthodologies des sciences sociales qui contribuent à l'analyse causale.
  2. Évaluer tôt: Veillez à ce que l'évaluation commence tôt, idéalement dès la phase de programmation des interventions, et non pas pendant voire même après la mise en œuvre. Cela permet également aux évaluateurs de collecter les données de référence et d'ajuster les processus d'évaluation, si nécessaire.
  3. Comprendre l'impact (qualitativement): Chaque évaluation expérimentale ou quantitative comprend des composantes qualitatives. L'évaluateur doit par exemple clarifier (qualitativement) les questions de l'évaluation, évaluer les connaissances préalables, interpréter les conclusions, etc. Les évaluateurs doivent disposer de compétences interprétatives et qualitatives pour comprendre et évaluer l'impact d'une intervention.
  4. Élargir la base de données: Une évaluation expérimentale de l'impact répond essentiellement à la question «quoi», mais pas aux questions «pourquoi» et «comment». Ainsi, toute évaluation de l'impact quantitative gagnerait à inclure des instruments qualitatifs pour donner une image plus riche de l'impact. L'utilisation complémentaire de multiples instruments de la boîte à outils méthodologiques assurerait des conclusions d'évaluation plus solides que si elles ne s'appuyaient que sur une seule méthode.
  5. Veiller à la pertinence: En combinant les instruments d'évaluation de l'impact, les évaluateurs rendent leurs évaluations plus pertinentes pour les parties prenantes. L'application des conclusions des évaluations de l'impact à d'autres contextes ou le passage d'un projet pilote à une mise en œuvre plus large nécessite une théorie du changement solide – ce qui est un travail de nature qualitative.
  6. Créer des équipes d'évaluation multi-méthodes: Combiner des ensembles de compétences au sein d'une équipe d'évaluation de l'impact permet de mettre en œuvre les différentes méthodes.

En suivant ces bonnes pratiques, les évaluations de l'impact auront plus de chances d'avoir un impact.

  • Dear Daniel!

    I enjoyed reading your thoughtful comments. We agree that the CGD's report is based on a particular scientific paradigm, as Vedung (2010) called it the first scientific wave.

    Surprising to me was that the CGD report--although based on an old paradigm--startled the evaluation community widely to a high degree. Evaluation societies felt an obligation to respond. In this sense, the CGD report positively influenced the further development of more robust qualitative (causal) methods in evaluation. Evaluators developed and refined theory-based approaches, process tracing, contribution analysis and thus made a positive contribution to the evaluation field. Without the CGD report, we (myself included) probably would not have been part of such a flourishing process of tackling causality in evaluation.

  • Dear Rahel,

     

    Thanks for posting this blog about how far "we" have come on impact evaluation. Let me be terse with my answer: not much, if at all. And for the following three reasons:  

    1. CGD's "When Will We Ever Learn" (WWWEL) is a throw back to Vedungs' first scientific wave of evaluation   - Vedung, E. (2010) Four Waves of Evaluation Diffusion, Evaluation, Sage Publications, 16: 263 pp. 263-277. During the 1960s and even earlier, advanced evaluative thinking and practice was driven by a notion of scientification of public policy and public administration. It was argued this would make government more rational, scientific and grounded in facts. Its technocratic thrust sought to isolate public policy decisions from the messy, complex world we live in. Evaluation was to be performed by professional academic researchers (often masquerading as evaluators).Spitting roast for the labs and units you list, and many others. Towards the mid-1970s, confidence in experimental evaluation faded however. Voices started communicating how Evaluation should be more diverse and inclusive. Those other than academic researchers should be involved. Ring bells for today's debates on de-colonisation, localisation and Indigenous Evaluation?  

    2.  CGD's self-serving basic thesis:

    • "persistent shortcomings in our knowledge of the effects of social policies and programs reflect a gap in both the quantity and quality of impact evaluations.’ 
    • the authors argued: An “evaluation gap” has emerged because governments, official donors, and other funders do not demand or produce enough impact evaluations and because those that are conducted are often methodologically flawed.” They ascribe the evaluation gap to the public good nature of impact measurement; and
    • "that governments and development agencies are better at monitoring and process evaluations than at accountability or measuring impact"’  - this may be so but, monitoring, long neglected by the evaluation community, as practiced by most govts and dev agencies, is done far from well and is deliberately held down as routine reporting process (pers comm Michael Quinn Patton, April 2024). 

    James Morton in his 2009 paper "Why We Will Never Learn" provides a wonderfully lettered critique of the above: the Public Good concept is a favourite resort of academics making the case for public funding of their research. It has the politically useful characteristic of avoiding blame. No one is at fault for the ‘evaluation gap’ if evaluation is, by very its nature, something that will be underfunded. Comfortable as this is, there are immediate problems. For example, it is difficult to argue that accountability is a public good. Why does the funding agency concerned not have a direct, private-good interest in accountability?

    Having effectively sidelined Monitoring and Processes, WWWEL goes on to focus, almost entirely, on measuring outcomes and impact. This left the "monitoring gap" conveniently alone. While avoiding any discussion of methodologies: randomised control trials, quasi experimental double-difference, etc. many discussions WWWEL encouraged were the abstruse, even semantic nature of the technical debates which dominate discussion about impact measurement. 

    3.  Pawson and Tilley's expose - through their masterful 1997 publication "Realistic Evaluation"  of experimentalists and RCT's intrinsic limits as defined by its narrow use based on the deficiency of its external validity. They challenge orthodox view of experimentation: the construction of equivalent experimental and control groups, the application of interventions to the experimental group only and comparisons of the changes that have taken place in the experimental and control groups as a method of finding out what effect the intervention has had. Their position throws into doubt experimental methods of finding out which programmes do and which do not produce intended and unintended consequences. They maintain it not to be a sound way of deriving sensible lessons for policy and practice. 

    In sum then, CGD's proposition of RCTs, to cite Paul Krugman. is like a cockroach policy: it was flushed away in the 1970's but returned forty years later along with its significant limits intact; and CGD missed the most significant gap. From the above, one could get the impression that development aid has lost the capacity to learn: it suppresses, not takes heed of, lessons.

    I hope the above is seen as a constructive contribution to the debate your blog provokes; and my seeming pessimism simply qualifies my optimism  - a book was launched yesterday on monitoring systems in Africa.

    Best wishes and good luck,

    Daniel   

     

     

     

     

  • Dear Binod! I very much agree with your critical comments regarding 'net effect' impact evaluations, especially in related to long-term effects. I am currently exploring qualitative-investigative methodologies that could be useful for capturing those longer-term effects.

  • Thanks for recommending good practices - they are very helpful. 

    I find the concept of 'net effect' (medical model!) challenging in some areas that are not visible in a short duration. How would we measure the net effect if we have short-term empowerment programs or climate change interventions? I also find it difficult to generalize randomized control trials for the areas that have wide impacts, such as air or water pollution. We can have qualitative data justifying the effects. However, the evaluation may need to challenge the programs that look for a quick-fix for a long-term problem!