Mathématiques

800 scientifiques s'insurgent contre l'interprétation "biaisée" des résultats dans les études

Par Camille Gaubert le 23.04.2019 à 17h39 Lecture 5 min.

Aucun seuil statistique ne peut définir à lui seul le succès ou l'échec d'une expérimentation, dénoncent 800 statisticiens et scientifiques dans un texte publié par Nature. C'est pourtant ce que l'on trouve dans 96% des publications biomédicales et de sciences de la vie.

réagir

800 scientifiques s'insurgent contre l'interprétation "biaisée" des résultats dans les études

Face à une accumulation de données pas toujours homogènes, les chercheurs sont forcés d'en faire une analyse statistique pour évaluer une seule chose : est-il possible que l'effet observé soit seulement dû au hasard ?

Steve Prezant / Cultura Creative / AFP

Commenter

C'est l'ensemble de la recherche biomédicale et des sciences de la vie qui est remise en cause. "Nous sommes franchement fatigués" de voir une utilisation trop dichotomique d'un calcul statistique standardisé, permettant de conclure à un résultat "tout noir ou tout blanc" dans les études scientifiques, expliquent 800 experts statisticiens et scientifiques dans un commentaire publié dans la prestigieuse revue Nature. En cause, une valeur arbitraire de probabilité servant depuis des décennies de seuil déterminant le succès ou l'échec d'une étude.

En sciences, les statistiques servent à prouver que le résultat n'est pas dû au hasard

Ce médicament a-t-il un effet sur la dépression ? Cette molécule provoque-t-elle le cancer ? Pour répondre à ces questions, les scientifiques testent leur hypothèse en observant un grand nombre de sujets. Face à une accumulation de données pas toujours homogènes, ils sont alors forcés d'en faire une analyse statistique pour évaluer une seule chose : est-il possible que l'effet observé soit seulement dû au hasard ?

Pour simplifier ces calculs à une époque où les ordinateurs n'existaient pas, le statisticien Ronald Fisher avait proposé en 1925 un test simple. Il s'agissait de considérer que le résultat était significatif – c’est-à-dire qu'il n'était pas dû au hasard – du moment que la probabilité qu'il soit différent n'excédait pas 5%. Ainsi, un médicament qui aurait 4% de chances de ne pas fonctionner serait considéré comme efficace, mais à 6% la conclusion serait qu'il n'est pas efficace et que son action observée est plus probablement due au hasard. On parle alors de résultat non significatif.

Un seuil statistique ne peut pas à lui seul définir un succès ou un échec

Une dichotomie conduisant à des conclusions "biaisées" et qui doit être "abandonnée", plaident 800 statisticiens et scientifiques dans un plaidoyer publié dans la prestigieuse revue Nature. "D'un côté du seuil, vous concluez une chose, et si cela passe de l'autre côté, c'est autre chose", s'irrite Blake McShane, statisticien américain et l'un des auteurs du commentaire dans Nature, auprès de la revue Science. Mais ce n'est pas comme ça que les statistiques fonctionnent. Strictement parlant, dit-il, "il n’y a pas de différence entre une valeur de 4,9% et une valeur de 5,1%".

"P". Cette estimation de significativité statistique est appelée "p" (pour probabilité). Ainsi, une probabilité de 5% que le résultat soit dû au hasard est traduite par la valeur p=0,05.

Un seuil devenu "un raccourci pour la qualité scientifique" dans 96% des publications de biomédical et sciences de la vie

Si Ronald Fisher pensait simplification, sa suggestion a eu des répercussions probablement bien plus importantes que prévues. Ainsi, en 2015, plus de 96% des articles sur le biomédical et les sciences de la vie de la base de données PubMed affichaient des résultats avec un "p" inférieur ou égal à 5%, rapporte Science. Ce seuil "est devenu un raccourci pour la qualité scientifique", dénonce Blake McShane, un prérequis qui supplante même "la qualité des données et à la conception de l’étude" auprès des éditeurs de revues scientifiques.

La valeur "p" est devenue "la devise de l'économie" scientifique, analyse Steven Goodman, méthodologiste en recherche médicale à l'université de Stanford, dans Science. Elle est ainsi largement utilisée dans les décisions concernant le financement, la promotion ou la publication de la recherche scientifique, d'après un numéro spécial de la revue The American Statistician de mars 2019 contenant 43 articles sur le sujet.

FORMATION. En utilisant la valeur "p" par défaut au seuil de 5% dans leurs logiciels informatiques, les scientifiques "n’ont pas développé les capacités scientifiques nécessaires" pour interpréter l'incertitude forcément présente dans les résultats scientifiques, ajoute Steven Goodman. Un réflexe "très, très difficile à modifier", car "le monde de la science n'est pas gouverné ou dirigé par des statisticiens."

Regarder d'autres paramètres que ce seuil statistique pour décider de la valeur des résultats

L'objection la plus entendue contre le retrait de ce seuil de significativité statistique, c'est la nécessité "de décider par oui ou par non", relatent les auteurs du commentaire dans Nature. Toutefois, "dans les environnements réglementaire, politique et professionnel, les décisions basées sur les coûts, les avantages et les probabilités de toutes les conséquences potentielles dépassent toujours celles prises uniquement en fonction de leur signification statistique, observent-ils.

Avec les ordinateurs, les scientifiques ont maintenant des options plus poussées que le simple seuil de 5% comme balance de succès ou d'échec. Mais quel que soit le test statistique choisi, un scientifique ne devrait pas définir un seuil qui serve de raccourci vers une conclusion en noir ou blanc. Pour ces experts, "les scientifiques doivent adopter l'idée du gris statistique". "Quelle est la qualité de vos données ? À quoi ressemble votre plan d’étude ? Avez-vous une compréhension du mécanisme sous-jacent ?" cite Blake McShane, "ces autres facteurs sont tout aussi importants, et souvent plus importants, que des mesures telles que les valeurs de p". Sans ce seuil automatique, les auteurs du commentaire dans Nature espèrent que "les gens passeront moins de temps avec les logiciels statistiques et plus de temps à réfléchir".

Savoir interpréter plus finement plutôt que supprimer cette valeur seuil

Il ne s'agit pourtant pas de supprimer le "p", mais de ne plus l'utiliser de manière dichotomique - pour décider si un résultat réfute ou appuie une hypothèse scientifique. "Cette limite donne une fausse impression de certitude quant aux résultats", explique Blake McShane. "Les statistiques sont souvent perçues à tort comme un moyen de se débarrasser de l’incertitude", dit-il, alors qu'il s'agit plutôt de "quantifier le degré d’incertitude". Les gens attendent de la science des réponses claires, par oui ou par non, explique à Science Julia Haaf, méthodologiste en psychologie à l’Université d’Amsterdam aux Pays-Bas. Ils veulent savoir qu’une expérience a "trouvé" quelque chose, même si ce n’est jamais vraiment le cas… Car il y a toujours de l'incertitude dans les résultats scientifiques.

Commenter