Mots-Clés
Intégration des données multimodales, traitement de l’image, algorithmique, Machine/deep learning
Description
Contexte
De nombreuses études en apprentissage automatique ont émergé pour traiter la complexité des données omiques et démontrer l'intérêt de leur intégration dans la caractérisation et la classification détaillée des pathologies tumorales. Cependant, ces données multiomiques détectent que des anomalies moléculaires et les combiner avec de l’imagerie facilite l’obtention d’une vision plus complète et précise sur la manifestation physique et la localisation de la tumeur. L’intégration de ces deux types de données nécessite des méthodes sophistiquées pour combiner efficacement des formats de données hétérogènes et modéliser des interactions complexes pour permettre une classification précise du cancer. En effet, les données d'imagerie médicale (comme l'IRM, la TEP ou la radiographie) et les données génomiques (comme l'expression génique ou les mutations génétiques) sont de nature très différentes. Les relations entre les caractéristiques visuelles des tumeurs (taille, forme, texture), et les signatures génétiques (mutations, profils d'expression), sont complexes. Récemment, la recherche en apprentissage profond a réalisé des avancées spectaculaires en traitement d’image. En génomique, la disponibilité croissante des données de séquençage, repousse les frontières techniques. Et avec la volumétrie importante des données, les approches de Deep Learning peuvent être utilisées pour accélérer l'analyse des données et améliorer la précision du diagnostic.
Dans ce contexte, s’inscrit ce stage qui a pour objectif de développer un modèle pour prédire les sous-type des cancers à partir des données génomiques et de l’imagerie. Les enjeux scientifiques sont multiples. Le développement de méthodes d’extraction d’information robuste permet l’intégration des données d’imagerie pour le cancer et des données issues de la génomique. Trouver des biomarqueurs robustes pourrait avoir un impact direct sur le diagnostic, le pronostic et la réponse au traitement du cancer. L’intégration des données et l’apprentissage profond pourrait permettre de découvrir des corrélations non évidentes entre des altérations génétiques spécifiques et des caractéristiques tumorales visibles à l'imagerie, ouvrant la voie à de nouvelles cibles thérapeutiques.
Résultats attendus:
Pour cela l’étudiant devra :
• Effectuer un état de l’art sur les modèles de classification des sous-types de cancer à partir des données multi-omiques et/ou de l’imagerie
•Mener une étude expérimentale sur plusieurs modèles de machine learning et deep learning (comme la Random Forest, les réseaux de neurones convolutifs (CNN), ou les auto-encodeurs, ...) en les appliquant à des jeux de données d'images et de données génomiques, tout en explorant diverses approches d'intégration et de réduction de dimension.
• Evaluer une sélection de ces modèles dans un contexte fédéré.
Prérequis:
- Connaissances en sciences des données, bio-informatique, génomique
- Solides compétences en développement en Python et/ou R
Encadrants :
— Karl Paygambar, étudiant en thèse, CEA/CNRGH/DRF
— Mallek Mziou, Ingénieur chercheur en informatique, CEA/CNRGH/DRF
— Vincent Meyer, Chef du labo de Bio-informatique, CEA/CNRGH/DRF