Avez-vous déjà essayé de reproduire une recette de votre grand-mère sans parvenir au même résultat qu’elle ? Si oui, c’est peut-être signe que la recette de votre grand-mère n’est pas ou peu réplicable. En sciences, le même problème peut survenir avec une étude.

En 2016, les résultats d’un sondage en ligne sur la reproductibilité des études, complété par 1576 chercheurs et chercheuses, a été publié dans la revue Nature (Baker, 2016). Ce sondage a révélé que 70% des répondants et répondantes avaient déjà essayé de répliquer sans succès les résultats d’une étude d’un autre laboratoire. Il était aussi arrivé à plus de 50% des répondants et répondantes de ne pas réussir à répliquer certains résultats provenant de leur propre laboratoire. Ce type de constats a mené une proportion importante de chercheurs et chercheuses à parler de « crise de la reproductibilité » et à proposer des pistes de solutions pour améliorer la reproductibilité et la réplicabilité des études. Il est à noter que ces deux termes sont parfois employés de façon interchangeable ; dans cet article de blogue, nous privilégierons le terme réplicabilité lorsqu’il est question de répliquer des résultats à partir de nouvelles données (à la différence de la reproductibilité, qui permet d’obtenir les mêmes résultats à partir de nouvelles analyses d’un même jeu de données ; Peels et Bouter, 2021).

Avant d’aborder les pistes de solution avancées par les chercheurs et chercheuses pour favoriser la réplicabilité, commençons par distinguer différents types de réplicabilité (Goodman et al., 2016) :

  • Réplicabilité de la méthode

Ce type de réplicabilité réfère à la possibilité de répliquer précisément la méthode d’une étude grâce aux informations détaillées fournies par l’équipe de recherche sur le matériel et les procédures utilisés.

  • Réplicabilité des résultats

La réplicabilité des résultats réfère à la capacité de répliquer les résultats d’une étude en employant une méthode aussi similaire que possible à celle de l’étude originale.

  • Réplicabilité inférentielle

La réplicabilité inférentielle survient lorsqu’une équipe de recherche tire des conclusions similaires après avoir réanalysé les données d’une étude déjà publiée (ce qui fait référence au concept de reproductibilité), ou à la lumière de nouveaux résultats obtenus dans une étude de réplication.

Dans notre analogie avec une recette de cuisine, une faible réplicabilité de la méthode pourrait survenir si certaines précisions n’étaient pas inscrites sur la recette (p. ex. la quantité exacte de chaque ingrédient, les instruments précis utilisés, etc.), ce qui rendrait difficile de suivre exactement les mêmes étapes que votre grand-mère. Par contre, si la méthode de la recette était suffisamment détaillée et que vous suiviez à la lettre toutes les étapes sans parvenir au même résultat qu’elle, ce serait plutôt la réplicabilité des résultats qui serait faible (donc la capacité de la procédure à fournir un même résultat). Enfin, si vous étiez parvenu exactement au même résultat que votre grand-mère, mais que vous jugiez que sa recette était mieux réussie, il s’agirait plutôt d’un enjeu de réplicabilité inférentielle.

Dans le domaine de la psychologie, des sciences biomédicales et des neurosciences, étant donné la variabilité existante dans les systèmes biologiques, incluant chez l’humain (p. ex., différences entre les individus dans la structure et le fonctionnement du cerveau, dans la réponse au stress, etc.), il est illusoire d’espérer obtenir exactement les mêmes résultats d’une étude à l’autre. Néanmoins, les résultats les plus saillants et les grandes lignes de la conclusion des études devraient pouvoir être répliqués (Begley & Ioannidis, 2015).

Plusieurs facteurs ont été identifiés comme pouvant être à l’origine des difficultés à reproduire ou répliquer les résultats d’une étude (Baker, 2016; Begley & Ioannidis, 2015; Button et coll., 2013). Sur le plan méthodologique, on note le manque de vérification des résultats et de contrôle de la qualité au sein même du laboratoire d’origine (qui réduit notamment le risque que des erreurs affectant les résultats ne soient pas décelées), un manque de transparence à l’égard des procédures employées, des lacunes sur le plan des analyses statistiques, ainsi qu’une faible puissance statistique, souvent liée à de petits échantillons. Ce dernier point est un enjeu en neurosciences et dans les études de neuroimagerie, notamment en raison des coûts importants liés à la collecte de données (p. ex. pour la réalisation d’examens IRM; Button et coll., 2013) et dans les études réalisées avec des populations vulnérables, souvent plus difficiles à recruter (p. ex. des personnes souffrant de maladies neurodégénératives) où le recrutement est ardu. Même lorsque les échantillons sont suffisamment grands, une description incomplète des caractéristiques des participants et participantes peut nuire à la réplicabilité. En effet, si deux études ont une population soi-disant similaire, alors que ce n’est pas le cas en réalité (par exemple, un groupe est plus scolarisé, ou plus actif que l’autre), leurs résultats risquent de différer. Enfin, le fait que certaines méthodologies spécialisées puissent entraîner des difficultés sur le plan technique peut également diminuer la reproductibilité et la réplicabilité.

Des facteurs organisationnels sont aussi en cause, comme la pression de publier (le fameux « publish or perish »), laquelle est exacerbée par la forte compétition pour obtenir des subventions de recherche et des postes dans le milieu académique (Baker, 2016). De fait, valoriser la productivité (p. ex. en termes de nombre d’articles scientifiques publiés) plutôt que la qualité et la rigueur méthodologique, nuit à la reproductibilité des études publiées puisqu’elle n’encourage pas la rigueur. La valorisation des résultats novateurs qui génèrent de l’enthousiasme au détriment de l’établissement de faits scientifiques solides grâce à des études rigoureuses et incrémentielles peut éventuellement nuire à la rigueur scientifique (Begley & Ioannidis, 2015).

Sur le plan psychologique, le biais de confirmation peut nuire à la réplicabilité (Begley & Ioannidis, 2015), notamment la réplicabilité inférentielle. Le biais de confirmation consiste à être trop favorable aux informations qui soutiennent nos hypothèses, au détriment de celles qui la contredisent. Ce biais peut être à l’origine de conclusions différentes posées par deux équipes de recherche à partir de résultats similaires (mais ceci peut également parfois s’expliquer par la vitesse). Le report sélectif, associé au biais de confirmation et qui consiste à ne présenter qu’une partie des résultats obtenus (p.ex., ceux qui soutiennent nos hypothèses), est une mauvaise pratique scientifique qui nuit aussi à la réplicabilité des résultats (Baker, 2016).

Comme les facteurs à l’origine des difficultés de reproductibilité et réplicabilité sont multiples, il n’y a pas de solution unique permettant d’y remédier. Heureusement, plusieurs pistes de solutions ont été proposées pour les favoriser et sont de plus en plus mises de l’avant. Ces solutions engagent plusieurs acteurs, incluant les différents membres des équipes de recherche, les agences de financement, institutions académiques et les journaux scientifiques.

Solutions liées à la formation et la supervision du personnel de recherche

Une première solution proposée par les chercheurs et chercheuses (Begley & Ioannidis, 2015) est de former adéquatement les étudiants et étudiantes et le personnel de recherche en matière de méthodologie (p. ex., devis expérimentaux, collecte et analyse de données, interprétation de résultats, etc.), de métrologie (c.-à-d., l’ensemble des méthodes et des techniques utilisées pour obtenir la plus grande précision dans les mesures), et de conduite responsable en recherche (à ce sujet, un outil de sensibilisation en ligne sur les pratiques exemplaires en matière de conduite responsable en recherche est disponible sur le site Web des Fonds de recherche du Québec). Une formation adéquate sur le plan méthodologique peut parfois nécessiter de collaborer avec des collègues d’autres départements ou universités ayant des expertises complémentaires, qui pourront fournir du mentorat à l’étudiant ou l’étudiante en formation. La formation continue des chercheurs et chercheuses est aussi nécessaire considérant les développements méthodologiques constants (Begley & Ioannidis, 2015). En cours de projet, des contrôles de la qualité doivent être mis en place, incluant la vérification des données et des analyses, ceux-ci constituant un filet de sécurité pour détecter des erreurs potentielles et bonifier la formation au besoin. L’utilisation de protocoles standardisés par les membres de l’équipe minimise aussi la variabilité dans l’administration des procédures, favorisant ainsi la réplicabilité de la méthode et des résultats au sein même de l’équipe et au-delà (Baker, 2016).

Solutions liées à la transparence et au partage de données

Pour que la méthodologie d’une étude soit réplicable, suffisamment de détails sur les procédures doivent être fournis, ce qui nécessite de rapporter l’information de manière rigoureuse (Goodman et coll., 2016). Il a été suggéré que le partage de vidéos permettant de visualiser les procédures pourrait être une façon d’améliorer la réplicabilité de la méthode (Pulverer, 2015). De plus, les journaux scientifiques et les institutions peuvent encourager les chercheurs et chercheuses à partager les données brutes, les scripts d’analyses et le matériel utilisé (comme les stimuli visuels ou audio présentés aux participants et participantes dans un test expérimental ; Gilmore et al., 2017). De telles informations peuvent être partagées publiquement sur des dépôts de données (p. ex., BoréalisOpenfMRI, NeuroVault). Dans le domaine de la neuroimagerie, l’Organization for Human Brain Mapping (OHBM) a d’ailleurs publié en 2016 un rapport sur les meilleures pratiques en termes d’analyse et de partage de données lors de l’utilisation de l’imagerie par résonance magnétique (Nichols et coll., 2016).

Lorsque les données sont partagées publiquement, elles peuvent être utilisées pour réaliser des méta-analyses avec une quantité importante de données (des plateformes comme BrainMap et NeuroSynth permettent notamment de générer des méta-analyses à partir de données IRM). Les méta-analyses mesurent la variabilité des résultats entre les études, de même que la qualité des études. Ainsi, les conclusions des méta-analyses sont généralement plus robustes que celles d’études expérimentales individuelles.

Enfin, un moyen permettant de prévenir le report sélectif de résultats est le pré-enregistrement des études scientifiques (Botvinik-Nezer & Wagner, 2022 ; Baker, 2016 ; Poldrack, 2018). Le pré-enregistrement consiste à publier son protocole de recherche, incluant les hypothèses et les plans d’analyse, avant même la réalisation de l’étude. Comme les mesures principales et secondaires à analyser sont déjà précisées par l’équipe, il est attendu que tous les résultats concernant ces mesures soient publiés une fois l’étude réalisée.

Solutions liées à un changement de paradigme valorisant la qualité plutôt que la quantité

Dans le cadre du processus d’attribution des subventions de recherche et des bourses, la qualité des études, mais aussi les efforts des chercheurs et chercheuses en termes de transparence et de reproductibilité devraient davantage être pris en compte (Begley & Ioannidis, 2015). Par exemple, l’adoption de mesures de randomisation et de procédures à l’aveugle (lorsque possible et approprié) et de bonnes pratiques sur le plan statistique devrait être valorisée. Un poids plus grand devrait par ailleurs être attribué aux questions de recherche et aux méthodes, plutôt qu’aux résultats obtenus (Poldrack et coll., 2018).

Les journaux scientifiques peuvent aussi émettre des lignes directrices en matière de bonnes pratiques scientifiques et des listes à cocher par les auteurs et autrices lors de la soumission d’articles, en lien avec ces pratiques (Pulverer, 2015 ; Baker, 2016). Qui plus est, les institutions académiques peuvent récompenser la réalisation d’études réplicables et robustes et fournir des opportunités de formation continue aux chercheurs et chercheuses ainsi qu’aux étudiants et étudiantes. De telles actions sont susceptibles d’améliorer la qualité des publications scientifiques et leur réplicabilité (Begley & Ioannidis, 2015 ; Baker, 2016).

Des chercheurs et chercheuses sont d’avis que les éditeurs et éditrices de journaux scientifiques devraient également encourager la réalisation d’études de confirmation et la publication de résultats négatifs, soit de résultats qui ne soutiennent pas les hypothèses de départ et ne répliquent pas les résultats attendus (Wagenmakers & Forstmann, 2014; Ioannidis, 2006). Si plusieurs équipes de recherche tentent de répliquer sans succès les résultats d’une équipe de recherche, mais que les résultats négatifs ne sont pas publiés, ceci alimente la crise de la reproductibilité. En effet, si les résultats négatifs étaient davantage publiés, des équipes pourraient décider de se pencher sur d’autres questions de recherche plutôt que de persister à reproduire ou répliquer les mêmes études, sans succès. D’ailleurs, un certain scepticisme pour les nouveaux résultats, pourtant souvent publiés dans les journaux les plus réputés, est souhaitable (Begley & Ioannidis, 2015). En effet, tout nouveau résultat doit être reproduit plusieurs fois avant de pouvoir le considérer comme « vrai ».

Ce sont donc des actions concertées, à plusieurs niveaux et impliquant différents acteurs et actrices de la recherche qui sont nécessaires pour favoriser la reproductibilité et la réplicabilité des études scientifiques. Comme plusieurs des actions pouvant être réalisées au niveau des équipes de recherche (p. ex. meilleure formation et supervision du personnel, instauration de vérifications systématiques au sein de l’équipe, etc.) sont coûteuse en termes de ressources humaines et financières, le soutien des organismes subventionnaires, des institutions académiques et des éditeurs et éditrices de journaux scientifiques est essentiel !

Références :

Baker, M. (2016). 1,500 scientists lift the lid on reproducibility. Nature, 533(7604), 452-454. https://doi.org/10.1038/533452a

Begley, C. G., & Ioannidis, J. P. (2015). Reproducibility in science: improving the standard for basic and preclinical research. Circ Res, 116(1), 116-126. https://doi.org/10.1161/CIRCRESAHA.114.303819

Botvinik-Nezer, R., & Wager, T. D. (2022). Reproducibility in Neuroimaging Analysis: Challenges and Solutions. Biol Psychiatry Cogn Neurosci Neuroimaging. https://doi.org/10.1016/j.bpsc.2022.12.006

Button, K. S., Ioannidis, J. P., Mokrysz, C., Nosek, B. A., Flint, J., Robinson, E. S., & Munafo, M. R. (2013). Power failure: why small sample size undermines the reliability of neuroscience. Nat Rev Neurosci, 14(5), 365-376. https://doi.org/10.1038/nrn3475

Gilmore, R. O., Diaz, M. T., Wyble, B. A., & Yarkoni, T. (2017). Progress toward openness, transparency, and reproducibility in cognitive neuroscience. Ann N Y Acad Sci, 1396(1), 5-18. https://doi.org/10.1111/nyas.13325

Goodman, S. N., Fanelli, D., & Ioannidis, J. P. (2016). What does research reproducibility mean? Sci Transl Med, 8(341), 341ps312. https://doi.org/10.1126/scitranslmed.aaf5027

Ioannidis, J.P. (2006). Journals should publish all “null” results and should spar- ingly publish “positive” results. Cancer Epidemiol Biomarkers Prev, 15:186. doi: 10.1158/1055-9965.EPI-05-0921.

Poldrack, R. A. (2019). The Costs of Reproducibility. Neuron, 101(1), 11-14. https://doi.org/10.1016/j.neuron.2018.11.030

Pulverer, B. (2015). Reproducibility blues. EMBO J, 34(22), 2721-2724. https://doi.org/10.15252/embj.201570090

Wagenmakers, E. J., & Forstmann, B. U. (2014). Rewarding high-power replication research. Cortex, 51, 105-106. https://doi.org/10.1016/j.cortex.2013.09.010

,