Tissue expression of paralogous genes: application on the human brain and its pathological state

Informations générales
Nom
BROHARD
Prénom
Solène
Diplôme
Thèse
Année
2017
Détails de la thèse/HDR
Jury
Christophe AMBROISE
Marc ROBINSON-RECHAVI
Hervé ISAMBERT
Claudine LANDES
Jean-François DELEUZE
Directeur (pour les thèses)
Vincent FROUIN
Edith LE FLOCH
Christophe BATTAIL
Résumé en français
Dans l'histoire évolutive, deux gènes paralogues sont issus d'un
évènement de duplication de leur ancêtre commun. Les gènes paralogues
sont caractérisés par des duplications globales de génome (WGD) ou à
petite échelle (SSD) et par leur datation. Les WGDs ont lieu à deux
reprises à la base de la lignée des vertébrés. Les évènements de SSD ont
lieu à plusieurs moments pouvant être plus récents, plus anciens
ou contemporain de la période des évènements de WGD. La rétention des
paralogues dans le génome, associée à une divergence de l'expression
spatiale est une contribution importante pour l'augmentation de la
complexité de l'organisme au cours de l'évolution. Certaines études ont
montré que les duplications anciennes seraient plus associées aux
maladies. L'objectif de la première partie de la thèse est de créer
une ressource sur les paralogues en collectant et en analysant
différentes annotations. Nous avons construit une ressource robuste de
paralogues humains à partir de listes publiées mais aussi à partir
d'annotations externes. L'exploration de différentes annotations nous a
permis d'identifier une identité de séquence élevée entre gènes
paralogues pouvant biaiser la mesure d'expression des gènes et diminuer
leur expression. L'objectif de la seconde partie, est d'explorer
l'expression spatiale et la co- expression des paralogues au sein du
cerveau humain, à partir des données RNA-seq du consortium GTEx. Les
données d'expression GTEx de 13 tissus cérébraux, nous ont permis de
montrer que la datation récente mais aussi que le type SSD contribuaient
à une expression plus tissu-spécifique. Nous avons utilisé l'analyse de
la co-expression (WGCNA) afin de regrouper les paralogues possédant une
expression similaire au travers des tissus et nous avons pu suggérer une
co-expression des SSD récents. Nos études sur les maladies ont montré
que les SSD récents accumulaient des mutations associées à des maladies
cérébrales. Finalement, nous avons trouvé que la co-expression des
paralogues et leur tissu-spécificité au travers des régions cérébrales
pouvaient enrichir nos connaissances sur les gènes associés à des
maladies cérébrales.
Résumé en anglais
In evolution history, two paralogous genes originate from the
duplication event of a common ancestor gene. Paralogous genes are
characterized by whole genome (WGD) or small-scale (SSD) duplications
and their duplication date. The WGDs happened twice in the early
vertebrate lineage. SSD events take place at any moment in evolutionary
history and can be younger, older or dating to the same period than WGD
events. Retention of paralogs in the genome associated with divergence
of spatial expression is an important contributor to the increase of
organism complexity through evolution. Different studies found that old
duplications are more associated with diseases.The objective of the
first part of the thesis is to create a resource on paralogs by
collecting and analyzing annotations. We built a robust resource of
human paralogs from published lists of paralogous genes and also from
external annotations. Annotation exploration allowed us to identify a
high sequence identity between paralogous genes impacting the gene
expression measurement from RNA-seq data and decreasing the gene
expression. The objective of the second part is to explore spatial
expression and co-expression of paralogs in the human brain, from the
GTEx consortium RNA-seq data. The GTEx expression data of 13 brain
tissues allowed us to show that duplication youth and SSD type
contributed to a more tissue-specific expression. We used co-expression
analyses (WGCNA) to group paralogs with similar expression across
tissues and we suggested the co-expression of younger SSDs. Our disease
studies showed the younger SSD accumulation of mutations associated with
brain diseases. We finally found that paralog co-expression and their
tissue-specificity across brain regions could enrich information of
known brain disease-associated genes.