Conception et développement de pipelines bioinformatiques et biostatistiques pour la construction, l'enrichissement et la spécialisation d’un modèle d’une cellule de plante
Localisation: INRAE- Jouy-en-Josas, laboratoire MaIAGE
Encadrement: Olivier Inizan (olivier.inizan@inrae.fr), Anne Goelzer (anne.goelzer@inrae.fr), Delphine Charif (delphine.charif@inrae.fr).
Durée: 5-6 mois, à partir de février/mars 2022.
Contexte
Le développement de modèles mathématiques capables de prédictions quantitatives du comportement des plantes en conditions de stress combinés est un enjeu majeur en biologie. Un premier modèle, basé sur l’allocation parcimonieuse des ressources entre fonctions cellulaires a récemment été développé par l’équipe BioSys du laboratoire MaIAGE (INRAE) pour décrire la rosette de la plante Arabidopsis thaliana (voir [1,2,3] pour le cadre de modélisation utilisé), et semble très prometteur pour prédire la réponse de cette plante en condition de stress combinés.
En collaboration avec plusieurs équipes de biologistes, de bioinformaticiens et biostatisticiens de l’IJPB (INRAE), il s’agit maintenant de compléter le modèle en intégrant des fonctions cellulaires essentielles dans la réponse au stress combinés d’intérêt pour l’IJPB, de spécialiser ce modèle pour différents types de tissus biologiques, et à terme d’interconnecter ces différents modèles pour aboutir à un modèle plante entière.
Mission
L’objectif du stage est de développer les chaînes de traitement bioinformatique (principalement) et biostatistique pour enrichir et spécialiser le modèle cellulaire initial d’A.thaliana pour différents types de tissus, et pour différentes conditions de culture (optimale et stress) sur la base de quatre sources d’information: (1) autres modèles existants; (2) bases de données publiques; (3) données omiques; (4) connaissance experte.
L’enrichissement du modèle se fera en trois étapes (1) sélection des fonctions à rajouter, (2) import si les fonctions sont présentes dans des modèles existants, (3) reconstruction des fonctions dans le cas contraire (en collaboration avec les experts biologistes). Cette dernière phase sera effectuée (en partie) lors d’un événement d’annotation collaborative du modèle appelé jamboree. La réalisation des deux premières étapes fera intervenir l’alignement de modèles basée sur des identifiants communs.
Un point critique sera de garantir l’intégrité finale du modèle, i.e. garantir que les fonctions ajoutées ne perturbent pas le bon fonctionnement du modèle. On utilisera pour cela une procédure existante (basée sur la simulation du modèle) et permettant de vérifier l’intégrité du modèle.
Le modèle sera ensuite spécialisé pour trois types de tissu (graine, racine, rosette), en collaboration avec nos collègues statisticiens de l’IJPB. Il s’agit notamment de sélectionner les complexes enzymatiques spécialisés en cas de présence de plusieurs isoformes. On s’appuiera pour cela sur des données de transcriptomique, protéomique et métabolomique (disponibles et en cours de production) et sur des traitements statistiques des données (e.g. tests statistiques, outils de statistiques inférentielles) pour identifier les complexes spécifiques à tel ou tel tissu.