Test et application de méthodes pour l'analyse bayésienne de séquences génétiques géo-référencées

 Stage · Stage M2  · 6 mois    Bac+5 / Master   CNRS / IRD · Montpellier (France)  ~600 euros / mois

Mots-Clés

evolution moleculaire, inference bayesienne, phylogeographie, processus stochastiques

Description

L’analyse de séquences génétiques géo-référencées par des méthodes issues du domaine de la phylogéographie permet de caractériser la dynamique spatiale d’une espèce ou d’une population au cours de son évolution. Ces méthodes sont fréquemment utilisées pour décrire la diffusion de virus qui infectent des espèces animales ou végétales. La phylogéographie, en tant qu’outil d’inférence, présente ainsi un intérêt tant en terme de santé publique que d’agronomie et, plus généralement, permet d’avancer nos connaissances des processus évolutifs, écologiques et de leurs interactions.

L’analyse phylogéographique repose sur des modèles probabilistes décrivant à la fois l’évolution de séquences le long d’un arbre phylogénétique, c’est à dire l’accumulation de mutations ayant donné naissance aux différences observées entre gènes et génomes d’organismes contemporains, ainsi que la fluctuation des coordonnées spatiales des différentes lignées au cours de l’évolution. L’ajustement de ces modèles complexes aux données est un défi méthodologique considérable qui fait intervenir des logiciels sophistiqués et des temps de calculs conséquents. Il est alors essentiel de mettre au point des techniques robustes permettant de tester ces derniers. Il s’agit ici de vérifier que ceux-ci sont capables d’inférer les valeurs des paramètres du modèles phylogéographique à partir de l’analyse de données simulées pour lesquelles nous disposons des « vraies » valeurs des paramètres. Les simulations réalisées seront d’autant plus pertinentes que les données générées sont proches de données réelles, pour lesquelles nous aimerions avoir des garanties sur le bon comportement des outils d’inférence utilisés.

Le sujet de stage se focalisera sur le virus responsable de la panachure jaune du riz en Afrique. Nous disposons ici de séquences hétérochrones d’isolats échantillonnés de 1966 à 2018 pour lesquelles la vitesse d’évolution du virus a été estimée (Fargette et al., 2008). L’intégration des composantes spatiales et temporelles de la diversité a été menée selon le modèle continu développé par Lemey et collaborateurs (Lemey et al., 2010). Elle aboutit à la reconstruction de la phylogéographie du RYMV dans les différentes régions d’Afrique (Trovao et al 2015 ; Dellicour et al., 2018 ; Rakotomalala et al., 2019). Nos simulations seront ainsi réalisées à partir la « distribution prédictive a posteriori », nécessitant d’inférer les valeurs des paramètres du modèles à partir des « vraies » données puis de générer des données synthétiques conditionnellement a ces valeurs.

Une attention particulière sera donnée à l’inférence de statistiques de diffusion spatiale, caractérisant les vitesses auxquelles les organismes se meuvent au sein de leur habitat. En effet, des analyses préliminaires que nous avons conduites récemment montrent que celles-ci sont définies de manière ambiguë, parfois en contradiction avec les hypothèses du modèle sous-jacent. Ainsi, en fonction des affinités de la ou du candidat(e) retenu(e), il sera possible de mettre l’accent sur des questions liées à la modélisation mathématique et l’inférence des phénomènes de diffusion spatiale, plutôt que sur les simulations. Le sujet est conçu de manière à ce que les résultats obtenus à partir des simulations alimentent les réflexions sur les statistiques de diffusion spatiale et vice versa.


Encadrement

Ce stage sera co-encadré par Denis Fargette, de l’Institut de Recherche pour le Développement (IRD), Stéphane Guindon et Paul Bastide (tous deux chercheurs au Centre National pour la Recherche Scientifique, CNRS).

Denis Fargette est directeur de recherche à l’IRD, spécialiste de la dynamique évolutive et épidémiologique des virus affectant les cultures céréalières en Afrique.

Stéphane Guindon est chargé de recherche au CNRS. Ses recherches se concentrent sur la mise au point et le test d’algorithmes et modèles probabilistes pour comprendre les forces qui gouvernent l’évolution et l’écologie.

Paul Bastide est également chargé de recherche au CNRS. Ses travaux portent sur la modélisation mathématique et les propriétés statistiques des modèles décrivant l’évolution. Le stagiaire sera hébergé principalement au « Laboratoire d'Informatique, de Robotique et de Microélectronique de Montpellier » (LIRMM, UMR UM-CNRS 5506), au sein de l’équipe « Méthodes et Algorithmes pour la Bioinformatique ». Il aura également l’opportunité de se rendre régulièrement à l’IRD, au sein de l’équipe « Virus Cereals In Tropical Agro-ecosystems » de l’UMR « Plant Heath Institute of Montpellier » (UMR UM-IRD-INRA-CIRAD-SupAgro) ainsi qu’à l’ « Institut Montpelliérain Alexander Grothendieck » (IMAG, UMR UM-CNRS 5149).



References

Trovão N et al. 2015Virus Evolution 1, 16.

Rakotomalala et al. 2019. Virus Evolution 5, 2.

Lemey P et al. 2010. Molecular Biology and Evolution 27, 1877-85.

Fargette D et al. 2008. Journal of Virology 78, 3584-89.

Dellicour S et al. 2018. Virus Evolution 4, 2.



Candidature

Procédure : Par email a guindon@lirmm.fr, denis.fargette@ird.fr, et/ou paul.bastide@umontpellier.fr

Date limite : None

Contacts

Stephane Guindon

 guNOSPAMindon@lirmm.fr

Offre publiée le 1 octobre 2021, affichage jusqu'au 29 novembre 2021