Le caractère essentiel de la réplication en sciences

Peut-on tirer des conclusions définitives à partir d’une seule étude ? Si deux études se contredisent, est-ce dire qu’on ne peut pas se fier à la science ?

Eh bien non !

Plusieurs facteurs peuvent expliquer des divergences de résultats d’une étude à l’autre, comme des différences dans la population étudiée, la méthode utilisée ou encore les analyses effectuées. Prenons un exemple fictif avec deux études portant sur l’efficacité d’un entraînement pour améliorer l’habileté à percevoir la parole en présence de bruit dans l’environnement. Si les résultats d’une seule des deux études permettaient de conclure à l’efficacité de l’entraînement, cela pourrait être expliqué par des différences dans l’âge des personnes recrutées dans les deux études, des différences dans la fréquence, l’intensité ou la durée de l’entraînement, la sensibilité des tests utilisés pour mesurer la progression, etc.

Pour mieux comprendre les phénomènes et générer des conclusions plus robustes que celles fournies par une seule étude, la science repose sur un processus essentiel : la réplication.

L’objectif de la réplication est de faire avancer les théories et les connaissances actuelles en les confrontant à de nouvelles évidences (Nosek et Errington, 2020; KNAW, 2018). La réplication permet d’apporter de la crédibilité à des affirmations scientifiques, des théories, des hypothèses ou des modèles, lorsque les résultats ayant mené à leur formulation sont reproduits, notamment dans plusieurs pays et par plusieurs équipes de recherche. Lorsque les résultats d’une étude sont contredits par les résultats d’une ou plusieurs autres études, la confiance envers les résultats de l’étude initiale doit être est limitée. Les équipes de recherche doivent alors tenter de comprendre ce qui explique les différences de résultats et effectuer des études supplémentaires pour tester à nouveau la théorie de la première étude. Les chercheurs et chercheuses peuvent aussi être amenés à proposer des modifications aux théories et modèles existants ou à en créer de nouveaux, qui permettent de mieux expliquer l’ensemble des résultats (Nosek et Errington, 2020).

Une étude de réplication peut être définie comme « une répétition indépendante d’une étude préalablement publiée, réalisée dans des circonstances similaires et en utilisant des méthodes similaires » (KNAW, 2018).

Le degré de réplication d’une étude originale peut toutefois varier, tel qu’illustré sur le continuum à la figure 1.

Figure 1. Schéma illustrant les différents degrés de réplication d’une étude originale.

La reproduction est un type de réplication qui consiste à analyser de nouveau des données déjà recueillies. La nouvelle analyse pourrait être exactement la même et ainsi permettre de voir si des erreurs ont été commises (ce type de réplication peut être fait au sein d’un même laboratoire, par un autre membre de l’équipe). Un plan d’analyse alternatif ou bonifié pourrait aussi être employé et ainsi permettre de vérifier si les résultats originaux sont robustes (Peels et Bouter, 2021).

La réplication directe consiste à recueillir de douvelles données, mais en utilisant autant que possible la même méthode que l’étude originale. Lorsque des réplications directes mènent aux mêmes résultats que l’étude originale, il est moins probable que les résultats de l’étude originale soient attribuables au hasard, à une erreur, ou à une spécificité de l’échantillon d’origine, par exemple. Ce type de réplication peut ainsi appuyer la justesse des résultats de l’étude originale. Il est particulièrement utile lorsque les hypothèses ou les modèles testés sont nouveaux (Peels et Bouter, 2021).

La réplication conceptuelle est un type d’étude qui consiste à recueillir de nouvelles données pour répondre à la même question de recherche que l’étude originale, mais en apportant certaines modifications au devis ou à la méthode expérimentale. Si les résultats sont reproduits, cela suggère que les variations méthodologiques n’influencent pas les résultats originaux. Le niveau de confiance accordé à ces résultats est alors augmenté (Peels et Bouter, 2021).

Lorsque les connaissances scientifiques s’accumulent et que la compréhension d’un phénomène s’accroît, il devient possible de tester des hypothèses de plus en plus spécifiques, et de vérifier dans quelles conditions (p. ex. avec quelles populations) les résultats originaux sont valides. Ceci peut être effectué par le biais de tests de généralisation (Nosek et Errington, 2020). Dans ce cas, les équipes de recherche répliquent des portions de l’étude, mais apportent des modifications méthodologiques pour répondre à une question de recherche plus précise.

Les études de réplication et les tests de généralisation permettent d’identifier les conditions dans lesquelles des résultats peuvent être généralisés et attendus, mais aussi les conditions dans lesquelles les résultats ne sont pas valides (Nosek et Errington, 2020). Revenons à notre exemple du début, où des équipes de recherche étudieraient l’efficacité d’un entraînement pour améliorer l’habileté à percevoir la parole en présence de bruit dans l’environnement (voir figure 2).

Figure 2. Illustration de l’apport des tests de réplication et de généralisation à l’avancement des connaissances scientifiques.

L’étude de réplication directe utiliserait la même méthode que l’étude 1 (dans laquelle l’entraînement ABC aurait été efficace pour améliorer l’habileté à percevoir la parole dans le bruit chez des personnes de 40 à 60 ans). Si l’étude originale était répliquée, l’hypothèse selon laquelle le traitement ABC est efficace serait renforcée. Si l’étude originale n’était pas répliquée, l’hypothèse serait remise en question. Dans les deux cas, la réalisation d’études additionnelles permettrait de confirmer ou d’infirmer les conclusions de l’étude originale. En fait, même lorsque des équipes de recherche tentent d’utiliser exactement la même méthode, des différences peuvent survenir. Par exemple, les études peuvent être menées dans différents contextes historiques et environnementaux (comme en période de pandémie, de guerre ou d’inflation !). Les études réalisées dans différents pays ou régions sont aussi susceptibles de recruter des personnes dont les caractéristiques sociodémographiques ou culturelles, les niveaux de scolarité et les langues parlées diffèrent. Or, toutes ces différences peuvent influencer les résultats et mener à des conclusions divergentes. Les études de réplication peuvent permettre d’identifier l’influence de certains facteurs sur les résultats, qui pouvait être jusque-là insoupçonnée. Et même lorsque deux études sont réalisées dans des contextes et avec des populations très similaires, des différences liées à la qualité méthodologique des études ou bien au hasard peuvent survenir. Le résultat de l’étude originale pourrait lui-même être lié au hasard ! C’est pourquoi plusieurs —voire de nombreuses études— sont nécessaires pour répondre à une question de recherche.

Dans le test de généralisation donné en exemple à la figure 2, le même entraînement que dans l’étude originale serait employé, mais auprès de personnes de 60 à 80 ans. Si une amélioration était observée à la suite de l’entraînement, ceci suggérerait que les résultats de la première étude sont généralisables à une autre population, c’est-à-dire des personnes plus âgées. S’il n’y avait pas d’amélioration, cela suggérerait que l’entraînement n’est pas efficace chez les personnes plus âgées. Dans ce cas, bien que les résultats semblent être en contradiction avec ceux de l’étude originale, ils seraient expliqués par des différences méthodologiques.

Bref, dans cet exemple, les résultats des tests de réplication et de généralisation contribueraient à l’avancement des connaissances scientifiques —qu’ils aient soutenu ou non ceux de l’étude originale— notamment en précisant les conditions d’efficacité de l’entraînement. Ces connaissances sont importantes pour mieux prédire les contextes dans lesquels un bénéfice de l’entraînement pourrait être attendu.

Dans la réalité, les résultats sont souvent complexes à interpréter, puisque les études peuvent se distinguer sur plusieurs critères. La réplication est donc un outil indispensable de la science pour tenter de trouver des réponses et dégager des tendances. C’est la mise en commun des résultats de plusieurs études qui permet de générer des conclusions robustes et nuancées. La mise en commun des résultats de plusieurs études est notamment réalisée dans le cadre de revues systématiques et de méta-analyses, qui sont des outils scientifiques utiles pour décortiquer l’ensemble des études menées sur une question et en tirer des conclusions plus étoffées et solides.

En conclusion, lorsqu’une étude publie des résultats novateurs, il est important d’attendre que d’autres études aient été publiées sur le sujet avant de tirer des conclusions définitives. Il est aussi attendu et explicable que certaines des études obtiennent des résultats contradictoires. C’est la somme des observations qui, avec le temps, fournira des réponses de plus en plus claires et robustes !

Références :

KNAW (2018). Replication studies – Improving reproducibility in the empirical sciences, Amsterdam, KNAW.

Nosek, B., & Errington, T.M. (2020). What is replication? PLoS Biol, 18(3): e3000691.

Peels, R., & Bouter, L. (2021). Replication and trustworthiness. Accountability in Research, 1-11.

Autres lectures suggérées :