Journée Reproductibilité de la Recherche

Journée Reproductibilité de la Recherche

Cette journée aura lieu le 5 février 2021 (tout ou partiellement en visio).

Informations de connexion

La journée aura lieu à : https://bbb.visio.inrae.fr/b/nat-hbw-kmj-57n (mot de passe : 513109).

Informations complémentaires extraites du tchat de la conférence :

Programme

  • 8h50-9h00 : tests visio et accueil
  • 9h00-9h45 : Boris Hejblum et Loic Desquilbet Introduction à la reproductibilité pour la recherche en biométrie

Résumé : Reproductibilité, réplicabilité, robustesse, généralisabilité : ces termes, bien que proches, recouvrent des concepts différents quand ils sont appliqués dans le domaine de la recherche. Après avoir les avoir définis, nous illustrerons leur importance dans la recherche à travers quelques situations fictives cauchemardesque, ou au contraire bien réelles et rencontrées.
Références :
    • Desquilbet L, Granger S, Hejblum BP, Legrand A, Pernot P, Rougier NP, Vers une recherche reproductible : Faire évoluer ses pratiques, Bordeaux : Urfist de Bordeaux, 2019. ISBN: 979-10-97595-05-0
    • Hejblum BP, Kunzmann K, Lavagnini E, Hutchinson A, Robertson DS, Jones SC, Eckes-Shephard AH. Realistic and Robust Reproducible Research for Biostatistics. Preprints 2020060002, 2020. DOI: 10.20944/preprints202006.0002.v1
    • Desquilbet L. Enhancing Clinical Decision-Making: Challenges of making decisions on the basis of significant statistical associations. J Am Vet Med Assoc 256(2):187-193, 2020. DOI : 10.2460/javma.256.2.187

  • 9h45-10h30 : Valérie Orozco : « How to make a pie? » ou comment améliorer nos pratiques pour aller vers une recherche (plus) reproductible ?

Résumé : Les recherches empiriques nécessitent la manipulation de nombreux fichiers : différents jeux de données, de multiples programmes, qu'ils soient destinés à la manipulation de données, aux traitements statistiques, aux estimations ou à des simulations, et de nombreux fichiers successifs de résultats. Maitriser l’ensemble des étapes du projet de recherche est indispensable si l’on souhaite pouvoir reproduire ou répliquer les résultats à long terme. Cette rigueur est désormais de plus en plus exigée par notre profession ainsi que par les éditeurs de revues scientifiques. Nous déclinons ici trois grands principes pour mener une recherche reproductible : organiser les étapes du projet et les fichiers, écrire des programmes clairs et documentés, et automatiser le plus possible les opérations jusqu’au document présentant les résultats. Ces principes sont alors illustrés par différentes bonnes pratiques, en allant des plus simples au plus sophistiquées, avec un focus particulier sur les fonctionnalités des logiciels les plus courants en économie (Stata, R, SAS, Matlab, Mathematica, Gams).

  • 10h30-11h : pause
  • 11h00-11h45 : Anne-Laure Boulesteix & Sabine Hoffmann : « The multiplicity of analysis strategies jeopardizes replicability: lessons learned across disciplines »

Résumé : In recent years, the scientific community and, perhaps more consequentially, the general public have come to the disturbing realization that research findings quite frequently fail to replicate on independent data. Researchers from many disciplines agree that one of the main reasons for this problem is the multiplicity of possible analysis strategies: for a given research question of interest, there are many different analytical pathways that are acceptable according to the scientific standards of the field. However, it is common to report the results of only one of these pathways, and the choice of the reported analysis strategy may often be driven by the desire to achieve publishable results. The flexibility of the analysis strategy combined with selective reporting can lead to an increase in false positive results, inflated effect sizes, and overoptimistic measures of predictive performance. Here, we define a general framework on common sources of uncertainty arising in computational analyses that lead to this multiplicity, and apply this framework within an overview of approaches proposed across disciplines to address the issue. Armed with this framework, and a set of recommendations derived therefrom, researchers will be able to recognize strategies applicable to their field and use them to generate findings more likely to be replicated in future studies, ultimately improving the credibility of the scientific process.

  • 11h45-12h30 : Wilfried Heintz : « FAIR : des principes pour une gestion durable des données de la recherche »

Résumé : La reproductibilité de la science passe par une mise à disposition des jeux de données et des traitements qui les accompagnent. Cette ouverture des données (Open data) doit idéalement se faire dans le respect des normes et standards internationaux, dans une souci d'interopérabilité. Des bonnes pratiques de gestion des données sont également proposées à la communauté scientifique, dont les les principes "Findable, Accessible, Interoperable, Reusable" (FAIR). Nous présenterons ces principes FAIR en insistant sur leur mise en œuvre pratique au travers d'outils et exemples concrets.

Les orateurs

BorisHejblum

Boris Hejblum is Associate Professor in Biostatistics at the Bordeaux School of Public Health (ISPED), and is part of the SISTM research team from the Bordeaux Population Health Inserm research center and the Inria Bordeaux Sud-Ouest research center. His main research focus is on the longitudinal analysis of high-dimensional biomedical data, in particular for applied vaccine research. His latest projects include gene set analysis of longitudinal RNA-seq data, statistical processing of (longitudinal) flow-cytometry data through Bayesian nonparametric modeling and optimal transport, probabilistic analysis of high-dimensional data from Electronic Health Records, and methods development for multi-omics integrative analysis. He also has a strong interest for repoducible science and how it can be more widely enacted in biostatistics.

LoicDesquilbet

Loic Desquilbet is Professor in Biostatistics and Clinicial Epidemiology at the National Veterinary School of Alfort (near Paris). His teachings include basics in biostatistics, epidemiology for clinical research, causality in medicine, risk factors identification, survival analysis, sample size calculation, ability to critically appraise scientific literature. Before being a teacher at the veterinary school in 2009, he carried out his research on the effects of HIV treatments as well as on the association between HIV infection and the presence of a phenotype of aging (frailty). Since 2009, he has been working on aging in dogs, by using the dogs as a model of human aging. He is the Head of the Biological and Pharmaceutical Sciences teaching Department at the Veterinary School, as well as an export in Basic Sciences for the European System of Evaluation of Veterinary Training (ESEVT).

ValerieOrozco

Valérie Orozco est ingénieure en statistique-économétrie au sein de l’INRAE dans l’unité mixte de recherche TSE (Toulouse School of Economics). Elle travaille en économie de l’alimentation et plus particulièrement sur les relations entre consommation alimentaire et santé. Elle est responsable de données, de leurs traitements et de leurs analyses au sein des travaux de recherche de son équipe. Très sensible à la démarche qualité appliquée à la gestion et à la préparation des données, elle s’intéresse également à la reproductibilité des travaux en économétrie et économie appliquée en préconisant des bonnes pratiques. 

AnneLaureBoulesteix

Anne-Laure Boulesteix studied engineering at Ecole Centrale Paris and mathematics at the University of Stuttgart and obtained her PhD in statistics from the University of Munich in 2005. After her postdocs in medical statistics, she was appointed as junior professor (2009) and then professor (2012) of biometrics at the Medical School of the University of Munich. Her research interests include the statistical analysis of complex biomedical data with a focus on prognostic modelling and high-dimensional data as well as metascience at the interface between statistics/data science and medicine. She is one of the founding board members of the Open Science Center of the University of Munich and steering committee member of the STRATOS initiative. 

SabineHoffmann

After obtaining a Master's degree in Psychology from the Ludwig-Maximilians Universität Munich (LMU), a Master's degree in Epidemiology from the University of Rennes 1 and a diplôme d'ingénieur in Statistics from the Ecole Nationale de la Statistique et de l'Analyse de l'Information (ENSAI), Sabine Hoffmann did her PhD at the Institut de Radioprotection et de Sureté Nucléaire where she developed a Bayesian hierarchical approach to account for exposure measurement error in proportional hazard models. She is currently working as a postdoctoral researcher at the Institute for Medical Information Processing, Biometry, and Epidemiology of the LMU. In her research, she focuses on Bayesian hierarchical approaches to model complex phenomena and on projects to quantify and to report the effect of researcher degrees of freedom due to model, data pre-processing and method choices. 

WilfriedHeintz

Ingénieur agronome spécialiste en géomatique et gestion de données spatiales, Wilfried Heintz s’intéresse aux méthodes et outils pour la structuration, la mutualisation et l’interopérabilité des données de la recherche, plus particulièrement sur les thématiques de la biodiversité et l’écologie forestière. Il s'investit dans plusieurs projets collectifs pour faciliter la mise en œuvre des principes FAIR à INRAe, au travers notamment d'une infrastructure de données géographiques (IDG) institutionnelle.

Aller plus loin...

Pour ceux qui le souhaitent (doctorants et post-doctorants), l'après-midi sera consacré à un atelier pratique sur la reproductibilité. Les inscriptions (obligatoires) sont limitées à 15 personnes maximum. Lien pour s'inscrire.

L'atelier sera animé par Élise Maigné et Tifenn Corre.

EliseMaigne

Elise Maigné est ingénieure en statistiques à l'INRAE, au sein de l'unité de recherche MIAT (Mathématiques et Informatique Appliquées de Toulouse). Elle prépare et analyse des données biologiques (données de séquençage, expression de genes...) et fournit un appui au développement d'approches nouvelles en statistique et analyse des données. Elle travaille sur la question de la reproductibilité du traitement de données depuis plusieurs années en explorant les solutions et sensibilisant ses collaborateurs sur la question.

TifennCorre

Tifenn Corre est ingénieure en statistique, économétrie et bases de données au sein de l'unité de service Observatoire du Développement Rural (US-ODR). Elle gère les données (2nd pilier de la PAC, MSA...) qui seront intégrées dans le système d'information des systèmes et politiques agricoles de l'ODR. Elle intervient de la réception des données à leur utilisation dans les calculs d'indicateurs en passant par leur préparation et leur mise à disposition. Tifenn développe des chaînes de traitement de données ainsi que des applications web, dans une démarche de reproductibilité et réplicabilité la plus automatisée possible.