Thèse sur la caractérisation fonctionnelle des éléments transposables dans les pangénomes.

 CDD · Thèse  · 36 mois    Bac+5 / Master   Unité de recherche en Génomique Info, INRAE, Université Paris-Saclay · Versailles (France)  selon contrat doctoral

 Date de prise de poste : 1 octobre 2023

Mots-Clés

Bioinformatique Eléments transposables Pan-génomes Evolution

Description

Profil et compétences recherchées
 
• Maitrise de la ligne de commande unix.
• Connaissance des outils de la bioinformatique.
• Compétences en programmation python.
• Connaissance en génomique, génétique des populations, structure et évolution des génomes.

Niveau de français requis: Compétent/Courant: Vous pouvez utiliser la langue avec aisance et facilité en argumentant sur des sujets complexes.

Niveau d'anglais requis: Avancé: Vous pouvez parler la langue de manière plus complexe, spontanée et sur des sujets variés.
 
Résumé du projet de thèse
 
Les éléments transposables (ET) sont des séquences d'ADN mobiles pouvant envahir les génomes. Ils provoquent des mutations, sources de nouveautés génétiques affectant réseaux de régulations et fonctions. Les individus d’une même espèce subissent de façon indépendante cette invasion et sont ainsi soumis à la sélection naturelle qui amène une adaptation accrue des individus à leur environnement.

Comprendre comment les ET permettent aux espèces de s’adapter à leur environnement demande d’étudier de façon détaillée ces insertions et de caractériser fonctionnellement ces copies dans différents génomes d’une même espèce. A cette fin, une approche qualifiée de « pan-génomique » cherche à décrire les séquences indispensables à l’espèce, les séquences facultatives, et enfin les séquences spécifiques d’un individu. Identifier les ET qui font partie de ces ensembles, permet d’étudier leur impact sur l’évolution des espèces.

L’étudiant en thèse s’appuiera sur la suite logicielle REPET dédiée à l’annotation des ET que nous développons au laboratoire pour annoter les éléments transposables dans les génomes eucaryotes. Il développera un module permettant d’annoter fonctionnellement les copies annotées pour en déterminer leur impact sur les gènes adjacents. Le travail sera réalisé sur plusieurs plantes modèles (Arabidopsis thaliana, Brachypodium distachyon, Oryza sativa) pour faire un inventaire quantitatif des différentes modifications de structures des gènes adjacents.
 
Thématiques Domaine
 
Les éléments transposables (ET) sont des séquences d'ADN mobiles pouvant envahir les génomes. Lors de cette invasion, ils provoquent des mutations, sources de nouveautés génétiques affectant réseaux de régulations et fonctions.

Les individus d’une même espèce subissent de façon indépendante cette invasion. Les mutations qui apparaissent sont ainsi soumises à la sélection naturelle qui amène une adaptation accrue des individus à leur environnement. De nombreux cas d’insertions d’éléments transposables bénéfiques pour leur hôte ont été décrit dans la littérature [1].
La thèse se propose de contribuer à gérer, décrire et analyser la diversité génétique pour comprendre le fonctionnement et l’adaptation des plantes
 
Objectif et contexte
 
Nous proposons d’annoter fonctionnellement les insertions des ET dans les différents individus d’une espèce pour en déduire l’impact fonctionnel sur les gènes adjacents.
De nombreuses études montrent que les ET sont cooptés dans des séquences régulatrices de gènes. Ils peuvent alors réprimer les gènes adjacents par le biais de mécanismes épigénétiques. S'ils sont ciblés par des petits ARN et méthylés, leur état chromatinien répressif peut affecter les séquences géniques adjacentes. Il a été démontré que la méthylation peut se propager aux séquences adjacentes sur ~300 pb des deux côtés [2,3]. Cela peut alors affecter l'expression des gènes à proximité.

Le locus FWA illustre ce mécanisme. Ce gène d'Arabidopsis thaliana est exprimé spécifiquement dans l'endosperme [4,5]. Son expression dépend du statut de méthylation de son promoteur qui est similaire à un rétro-élément SINE. La méthylation de cet élément provoque une répression épigénétique qui empêche son expression dans les tissus végétatifs et les allèles d'origine paternelle. Dans un contexte de méthylation réduite, le gène FWA a une expression ectopique qui conduit à un phénotype à floraison tardive [6].

Un autre exemple intéressant est le FLOWERING LOCUS C (FLC). Ce gène est un répresseur central de la floraison qui contribue aux différences naturelles de floraison entre populations d'A. thaliana. L'allèle FLC dans l'accession de Ler contient une insertion d’un ET Mutator dans un intron qui induit un faible niveau d'expression [7,8]. Cet ET soumet le gène à des modifications répressive de la chromatine médiées par des petits ARN interférents générés à partir d’ET homologues dans le génome [9]. Le gène FLC est un gène candidat pour un QTL à effet majeur dans la réponse à la vernalisation : un allèle FLC faible lié à un transposon de type Mutator contribue à la variation du début de floraison dans deux accessions nord-américaines [10]. Fait intéressant, ce locus a également été trouvé comme cible pour l'insertion de nouvelles copies d’ET dans les populations naturelles [3]. Les auteurs suggèrent qu'ils sont retenus par sélection naturelle pour l'adaptation au climat chaud qu'ils procurent en réduisant la transcription des FLC. Cette faible expression de FLC entraînerait une floraison plus précoce offrant une résistance à la sécheresse.

Contrairement aux exemples FWA et FLC, le phénotype bns (BONSAI) (caractérisé par une inflorescence courte et compacte et une hauteur de plante réduite) résulte en une perte de méthylation d’un ET et du gain d'expression de celui-ci. La transcription de cet élément de type LINE, transcrit de manière convergente en aval du gène, conduit à une répression épigénétique du gène APC lorsque le LINE s’exprime [11].

Mais un ET peut aussi affecter l'expression des gènes via des sites de liaison de facteur de transcription (Transcription Factor Binding Site : TFBS) qu’il porte. En effet, comme les ET doivent être transcrits pour transposer, leur séquence contient également des TFBS. Lorsqu'ils sont insérés à proximité d'un gène, ces TFBS peuvent affecter la transcription des gènes adjacents en recrutant des facteurs de transcription (TF) supplémentaires. Il est intéressant de noter que de nombreux ET se sont révélés être induits par des stress thermiques. On pense que de nouvelles insertions de ces ET sensibles aux stress génèrent de nouveaux réseaux de gènes régulateurs sensibles aux mêmes conditions. Ainsi, les variants naturels, et expérimentalement induits, des insertions de l’ET ONSEN confèrent une réactivité thermique aux gènes voisins [12,13]. Le LTR d’ONSEN contient des motifs de réponse à la chaleur [14]. ONSEN, COPIA37, TERESTRA et ROMANIAT5 sont les principales familles d'ET sensibles à la chaleur chez Arabidopsis lyrata et Arabidopsis thaliana. Les motifs sensibles à la chaleur d'ONSEN sont conservés sur des millions d'années et étaient déjà présents au début de l'évolution des Brassicaceaes.

Récemment le laboratoire a mis en évidence le rôle putatif des ET dans la régulation de gènes ou réseaux de gènes impliqués dans la floraison chez Arabidopsis thaliana [15]. Une co occurence de TFBS avec des « TE dégénérés » de la dark matter a été identifiée. L’hypothèse étant que la partie fonctionnelle de TE est sous sélection purifiante quand elle a trouvé un rôle fonctionnel important.

Globalement, probablement une grande partie des gènes est affectée dans leur expression par la présence d'ET à proximité [3,16]. Des schémas globaux de répression et d'activation sont observés pour les ET insérés en amont des gènes, alors que la répression est principalement observée pour les ET insérés dans les corps des gènes ou en aval. Tous les résultats présentés ci-dessus suggèrent que les répétitions ont des effets importants sur la biologie du génome végétal, façonnant les architectures génétiques et régulant les variations phénotypiques.
 
Méthode
 
Comprendre comment les ET impactent modèlent les génomes des espèces leur permettant de s’adapter à leur environnement demande d’étudier de façon détaillée les éléments fonctionnels de ces insertions dans différents génomes d’une même espèce. A cette fin, une approche qualifiée de « pan-génomique » cherche à décrire les séquences indispensables à l’espèce, les séquences facultatives, et enfin les séquences spécifiques d’un individu. Identifier les ET qui font partie de ces ensembles, permet d’étudier leur impact sur l’évolution des espèces.

Un certain nombre d’études pan-génomiques d’ET ont été réalisée [17–19]. Elles montrent l’activité des familles d’ET et les facteurs qui influencent leur mobilité. Si elles permettent d’identifier les polymorphismes d’insertion sur une séquence de référence, elles ne permettent pas d’étudier les régions génomiques absentes de la séquences prise en référence. Elles ne permettent pas non plus d’accéder à la séquence nucléotidique des nouvelles insertions et donc les parties fonctionnelles potentiellement régulatrices en présence sur l'ET (TFBS et autre).

Cependant, l’avènement de la 3ème génération de séquenceurs permet d’approcher aujourd’hui cette question sur des génomes entièrement assemblés. Il existe encore peu de tels pan-génomes disponibles, mais le nombre de projets visant leurs séquençages augmente de façon vertigineuse.
Nous avons développé une approche novatrice d'annotation des éléments transposables qui utilise des espèces étroitement apparentées [20,21].

Nous avons étendu cette approche à l’annotation de plusieurs génomes d’une même espèce. Ainsi, l’analyse des ET dans un pan- génome consiste à réaliser une identification itérative des ET dans chaque génome, en identifiant des séquences de référence pour les familles d’ET, et ainsi permettre dans un second temps l’annotation de toutes les copies du génome.
 
Résultats attendus
 
A l’aide de la suite logicielle REPET dédiée à l’annotation et la classification des ET que nous développons au laboratoire [22–24] (https://urgi.versailles.inra.fr/Tools/REPET), nous proposons d’annoter fonctionnellement les insertions des ET dans les différents individus d’une espèce pour en déduire l’impact fonctionnelle sur les gènes adjacents. Nous voulons dans un premier temps rechercher leurs caractéristiques fonctionnelles comme la présence de TFBS, de régions codantes, de promoteurs, et domaines protéiques.

Nous pourrons ainsi caractériser et quantifier les différents types de mutations qu’ils peuvent induire (nouveaux domaines protéiques, nouveaux promoteurs, nouveaux signaux de régulation). Nous pourrons alors examiner les gènes touchés et ainsi déterminer les altérations qu’ils induisent et qui pourraient permettre à leurs hôtes de s’adapter à leurs différents environnements.

Les ET insérés dans les génomes des individus d’une espèce contient des ET qui ont provoqués des mutations sélectionnées pour l’adaptation des hôtes à leurs environnements. Ils peuvent s’être insérés en amont de gènes et perturber leur régulation, impactant ainsi des réseaux de régulation de gènes permettant une adaptation de leurs hôtes à différents environnements biotique ou abiotique. Ils peuvent également apporter de nouveaux domaines protéiques favorisant des néofonctionalisations. L’identification de ces domaines protéiques est une étape clé dans le développement de modèle prédictif de l’impact fonctionnel des ET chez leur hôte.

Le candidat sera amené à :

1. Construire une banque de séquences et de profiles permettant d’identifier promoteurs, TFBS, domaines protéiques spécifiques des éléments transposables pour établir des signatures de familles d’ET.

2. Développer un pipeline qui utiliserait les banques construites précédemment pour l’annotation fonctionnelle des copies d’éléments transposables dont certaines peuvent être mutées et tronquées.

3. Annoter fonctionnellement les pan-génomes de Arabidopsis thaliana, Oryza sativa, et Brachypodium distachyon.

4. Caractériser fonctionnellement les polymorphismes d’insertion des ET pour en déterminer leurs impacts sur les gènes adjacents.
 
Précision sur l'encadrement
 
- Nombre total de thèses dirigées par le directeur de thèse : 4

- Doctorants encadrés actuellement par le directeur de thèse : 1
Somia Saidi. Début: 01/10/2021 (en fin de thèse quand ce sujet démarrera). Encadrants : Hadi Quesneville et Johann Confais

- Doctorants ou doctorantes dirigées ayant soutenu leur thèse au cours des 5 dernières années :
Ophélie Jouffroy de 01/10/2015 à 14/12/2018. Encadrants: Hadi Quesneville et Florian Maumus. Travaille chez PathoQuest (https://www.pathoquest.com)

-Liste complète des publications des doctorants ayant soutenu leur thèse au cours des 5 dernières années.
Ophélie Jouffroy, Surya Saha, Lukas Mueller, Hadi Quesneville, Florian Maumus. Comprehensive repeatome annotation reveals strong potential impact of repetitive elements on tomato ripening. BMC Genomics, BioMed Central, 2016, 17 (1), pp.1-15. ⟨10.1186/s12864- 016-2980-z⟩.
Shira Corem, Adi Doron Faigenboim, Ophélie Jouffroy, Florian Maumus, Tzahi Arazi, et al.. Redistribution of CHH Methylation and Small Interfering RNAs across the Genome of Tomato ddm1 Mutants. The Plant cell, American Society of Plant Biologists (ASPB), 2018, 30 (7), pp.1628-1644. ⟨10.1105/tpc.18.00167⟩.

-Encadrement : Johann Confais apportera son expertise technique et co-encadrera l'étudiant assurant ainsi une excellente réactivité dans le suivi.
 
Conditions scientifiques matérielles (conditions de sécurité spécifiques) et financières du projet de recherches
 
Matériel et méthode disponible :
• Suite logicielle REPET (https://urgi.versailles.inra.fr/Tools/REPET).
• Ressources de calculs de l’URGI
• Librairie de site de fixation de facteur de transcription (TFBS) (http://plantregmap.gao-lab.org/) Pan-genomes d’Arabidopsis thaliana, Oryza sativa, et Brachypodium distachyon.
 
Objectifs de valorisation des travaux de recherche du doctorant : diffusion, publication et confidentialité, droit à la propriété intellectuelle,...
 
Publications envisagées :
1. Une publication sur la méthode développée pour annoter fonctionnellement les polymorphismes d’insertion des ET dans les pan- génomes.
2. Une publication présentant la description des mutations de gènes liées à la présence d’ET identifiées dans les pangénomes d’Arabidopsis thaliana, Oryza sativa, et Brachypodium distachyon et leur impact putatif d’ET sur les gènes.
 
Collaborations envisagées
 
Pour ce projet de thèse, nous pourrons dès à présent compter sur la collaboration de :
• François Sabot (IRD, Montpellier) : Accès aux pan-génomes de riz africain et collaboration sur leurs analyses.
• Olivier Panaud (LGDP - UPVD, Perpignan) : Accès aux pan-génomes de riz asiatiques et collaboration sur leurs analyses.
• Marie-Laure Martin-Magniette (INRAE IPS2, Gif-sur-Yvette) : banque de TFBS et outils de prédictions de position de TFBS, réseaux de gènes.
 
Ouverture Internationale
 
De nombreuses équipes font appel à nos compétences en annotation de génomes pour analyser et interpréter leurs séquences génomiques. Récemment les demandes concernent plusieurs génomes d’une même espèce. Le travail envisagé par cette thèse devrait permettre de répondre plus efficacement et d’identifier des cibles potentielles pour l’adaptation des plantes à leurs environnements biotique et abiotique.
 
Références bibliographiques
 
1. Lisch D. How important are transposons for plant evolution? Nat Rev Genet. 2013;14: 49–61. doi:10.1038/nrg3374
2. Ahmed I, Sarazin A, Bowler C, Colot V, Quesneville H. Genome-wide evidence for local DNA methylation spreading from small RNA- targeted sequences in Arabidopsis. Nucleic Acids Res. 2011;39: 6919–6931. doi:10.1093/nar/gkr324
3. Quadrana L, Bortolini Silveira A, Mayhew GF, LeBlanc C, Martienssen RA, Jeddeloh JA, et al. The Arabidopsis thaliana mobilome and its impact at the species level. Zilberman D, editor. eLife. 2016;5: e15716. doi:10.7554/eLife.15716
4. Kinoshita Y, Saze H, Kinoshita T, Miura A, Soppe WJJ, Koornneef M, et al. Control of FWA gene silencing in Arabidopsis thaliana by SINE-related direct repeats. Plant J. 2007;49: 38–45. doi:10.1111/j.1365-313X.2006.02936.x
5. Fujimoto R, Kinoshita Y, Kawabe A, Kinoshita T, Takashima K, Nordborg M, et al. Evolution and control of imprinted FWA genes in the genus Arabidopsis. PLoS Genet. 2008;4: e1000048. doi:10.1371/journal.pgen.1000048
6. Soppe WJ, Jacobsen SE, Alonso-Blanco C, Jackson JP, Kakutani T, Koornneef M, et al. The late flowering phenotype of fwa mutants is caused by gain-of-function epigenetic alleles of a homeodomain gene. Mol Cell. 2000;6: 791–802. doi:10.1016/s1097-2765(05)00090-0 7. Gazzani S, Gendall AR, Lister C, Dean C. Analysis of the Molecular Basis of Flowering Time Variation in Arabidopsis Accessions. Plant Physiology. 2003;132: 1107–1114. doi:10.1104/pp.103.021212
8. Michaels SD, He Y, Scortecci KC, Amasino RM. Attenuation of FLOWERING LOCUS C activity as a mechanism for the evolution of summer-annual flowering behavior in Arabidopsis. Proc Natl Acad Sci USA. 2003;100: 10102–10107. doi:10.1073/pnas.1531467100
9. Liu J, He Y, Amasino R, Chen X. siRNAs targeting an intronic transposon in the regulation of natural flowering behavior in Arabidopsis. Genes Dev. 2004;18: 2873–2878. doi:10.1101/gad.1217304
10. Strange A, Li P, Lister C, Anderson J, Warthmann N, Shindo C, et al. Major-Effect Alleles at Relatively Few Loci Underlie Distinct Vernalization and Flowering Variation in Arabidopsis Accessions. PLOS ONE. 2011;6: e19949. doi:10.1371/journal.pone.0019949
11. Saze H, Kakutani T. Heritable epigenetic mutation of a transposon-flanked Arabidopsis gene due to lack of the chromatin-remodeling factor DDM1. EMBO J. 2007;26: 3641–3652. doi:10.1038/sj.emboj.7601788
12. Ito H, Gaubert H, Bucher E, Mirouze M, Vaillant I, Paszkowski J. An siRNA pathway prevents transgenerational retrotransposition in plants subjected to stress. Nature. 2011;472: 115–119. doi:10.1038/nature09861
13. Thieme M, Lanciano S, Balzergue S, Daccord N, Mirouze M, Bucher E. Inhibition of RNA polymerase II allows controlled mobilisation of retrotransposons for plant breeding. Genome Biology. 2017;18. doi:10.1186/s13059-017-1265-4
14. Pietzenuk B, Markus C, Gaubert H, Bagwan N, Merotto A, Bucher E, et al. Recurrent evolution of heat-responsiveness in Brassicaceae COPIA elements. Genome Biology. 2016;17. doi:10.1186/s13059-016-1072-3
15. Baud, Agnès; Wan, Mariène; Nouaud, Danielle; Francillonne, Nicolas; Anxolabéhère, Dominique; Quesneville, Hadi. Traces of transposable elements in genome dark matter co-opted by flowering gene regulation networks. Peer Community Journal, Volume 2 (2022), article no. e14. doi : 10.24072/pcjournal.68. https://peercommunityjournal.org/articles/10.24072/pcjournal.68/
16. Slotkin RK, Martienssen R. Transposable elements and the epigenetic regulation of the genome. Nat Rev Genet. 2007;8: 272–285. doi:10.1038/nrg2072
17. Quadrana L, Bortolini Silveira A, Mayhew GF, LeBlanc C, Martienssen RA, Jeddeloh JA, et al. The Arabidopsis thaliana mobilome and its impact at the species level. eLife. 2016;5. doi:10.7554/eLife.15716
18. Stuart T, Eichten SR, Cahn J, Karpievitch YV, Borevitz JO, Lister R. Population scale mapping of transposable element diversity reveals links to gene regulation and epigenomic variation. Elife. 2016;5. doi:10.7554/eLife.20777
19. Carpentier M-C, Manfroi E, Wei F-J, Wu H-P, Lasserre E, Llauro C, et al. Retrotranspositional landscape of Asian rice revealed by 3000 genomes. Nature Communications. 2019;10: 24. doi:10/gfsnpq
20. Maumus F, Quesneville H. Ancestral repeats have shaped epigenome and genome composition for millions of years in Arabidopsis thaliana. Nat Commun. 2014;5: 4104. doi:10.1038/ncomms5104
21. Maumus F, Quesneville H. Deep investigation of Arabidopsis thaliana junk DNA reveals a continuum between repetitive elements and genomic dark matter. PLoS ONE. 2014;9: e94101. doi:10.1371/journal.pone.0094101
22. Quesneville H, Bergman CM, Andrieu O, Autard D, Nouaud D, Ashburner M, et al. Combined evidence annotation of transposable elements in genome sequences. PLoS Comput Biol. 2005;1: 166–175. doi:10.1371/journal.pcbi.0010022
23. Flutre T, Duprat E, Feuillet C, Quesneville H. Considering transposable element diversification in de novo annotation approaches. PLoS ONE. 2011;6: e16526. doi:10.1371/journal.pone.0016526
24. Jamilloux V, Daron J, Choulet F, Quesneville H. De Novo Annotation of Transposable Elements: Tackling the Fat Genome Issue. Proceedings of the IEEE. 2017;105: 474–481. doi:10.1109/JPROC.2016.2590833

Candidature

Procédure : candidater via le site en lien https://adum.fr/as/ed/candidatureED.pl?mat=256&sec=mod

Date limite : 31 mars 2023

Contacts

Hadi Quesneville

 haNOSPAMdi.quesneville@inrae.fr

 https://adum.fr/as/ed/voirproposition.pl?matricule_prop=46221&site=PSaclay

Offre publiée le 1 mars 2023, affichage jusqu'au 31 mars 2023