Mots-Clés
Robustesse
équité algorithmique
apprentissage fédéré
intégration multimodale,
deep learning, génomique
imagerie médicale
Description
Contexte
Le Centre National de Recherche en Génomique Humaine (CNRGH) du Commissariat à l’Energie Atomique (CEA), localisé au sein de la Genopole d’Evry, a comme objectif principal de faire avancer la recherche en génétique des maladies humaines.
A cette fin, le CNRGH a développé des laboratoires et des plateformes technologiques de pointe en génomique. Les technologies disponibles au CNRGH vont de plateformes de génotypage à haut débit complètement intégrées à des plateformes de séquençage nouvelle-génération. Les activités incluent des études d’association génome entier, d’expression pan-génomiques, épigénétiques, de génomique fonctionnelle et de séquençage génome entier.
Au sein du Laboratoire de Bio-informatique et d’Informatique du CNRGH/CEA, nous recherchons un étudiant, actuellement en Master 2, pour effectuer un stage de recherche d’environ 5∼6 mois qui débutera décembre 2025. Le stage, dont le détail est décrit ci-dessous, se déroulera dans un contexte dédié aux développements de solutions pour prédire les sous-types des cancers à partir des données génomiques et de l’imagerie.
Objectifs du stage
L’objectif principal est de concevoir, évaluer et améliorer des modèles prédictifs pour la classification des sous-types de cancers, à partir de données hétérogènes (génomiques et imagerie), en se focalisant sur les aspects de robustesse aux perturbations, équité inter-populations.
Contexte scientifique
L’analyse de données issues de la génomique (expression génique, mutations, méthylation…) ou de l’imagerie médicale (IRM, TEP, etc.) joue un rôle central dans la classification fine des sous-types de cancers. Toutefois, pour que les modèles prédictifs soient utiles en pratique clinique, ils doivent répondre à plusieurs enjeux majeurs :
• Robustesse : les modèles doivent résister aux perturbations réalistes, qu’il s’agisse de bruit biologique, de variations techniques ou de biais liés à l’acquisition des données.
• Fairness (équité) : il est essentiel de garantir des performances équitables sur différents sous-groupes (par exemple selon le sexe, l’origine génétique ou les centres hospitaliers).
• Confidentialité et distribution : dans un contexte multi-centres ou collaboratif, l’accès aux données peut être restreint. L’apprentissage fédéré permet d’entraîner des modèles sans centraliser les données, tout en respectant la vie privée.
Ce stage vise à développer et évaluer des approches d’apprentissage automatique qui tiennent compte de ces contraintes critiques.
Compétences attendues
• Connaissances solides en sciences des données, apprentissage automatique et/ou deep learning
• Bonne compréhension des enjeux de robustesse et fairness en IA
• Expérience en Python (TensorFlow ou PyTorch, scikit-learn)
• Intérêt pour la génomique et l’IA