Mots-Clés
machine learning
programmation logique
modélisation
Python
biologie des systèmes
Description
Sujet détaillé sur https://loicpauleve.name/md/s/sujet-stage-BNeDiction-ml
Contexte
L’apprentissage de modèles informatiques pour reproduire et prédire les processus de différenciation cellulaire est un défi majeur avec de nombreuses applications en biologie et en médecine. D’un côté, les modèles formels, en particulier avec les réseaux booléens, sont de plus en plus employés par les équipes en biologie théorique et expérimentale car ils correspondent bien avec le niveau de granularité des connaissances actuelles. D’un autre côté, l’essor des technologies de mesures en cellule unique, en particulier avec le single-cell RNA-seq, offre des données précises sur l’évolution des expressions des gènes au cours de processus de différenciation cellulaire.
Actuellement, à l’aide de méthodes logiques basées sur les technologies SAT et ASP (Answer-Set Programming), nous savons énumérer des réseaux booléens qui satisfont les pré-requis demandés, mais nous ne savons pas encore comment sélectionner ceux qui ont de bonnes capacités prédictives.
Ce stage s’intègre dans le projet de recherche BNeDiction qui vise à apporter des méthodes et outils informatiques pour concevoir automatiquement des modèles booléens à partir de données d’observations sur le système dynamique étudié, et d’optimiser leur capacité prédictive.
Objectifs
En fonction des compétences et des motivations de l’étudiant, ce stage abordera une partie des sujets suivants:
et de la méthodologie sous-jacente.BoNesisLe stage vise à améliorer différents aspects de l’outil
- #MachineLearning: La mise en œuvre d’approches de feature engineering et feature selection pour l’optimisation de la capacité prédictives des modèles appris
- #Bioinformatique: L’évaluation du pipeline sur différents jeux de données de processus de différentiation cellulaires (données RNA-seq, scRNA-seq, scCITE-seq)
- #Programmation: L’ajout de fonctionnalités au logiciel BoNesis pour faciliter l’accès et le traitement des données d’entrées (graphe causal et données d’observations) et des sorties (ensembles de réseaux booléens)
Liens