Connexion/Inscription
  • Créer un nouveau compte
  • Demander un nouveau mot de passe
Accueil
Société Française de Bio-Informatique
[Skip Header and Navigation] [Jump to Main Content]
  • Accueil
  • La SFBI
    • Conseil
    • Statuts
    • Adhésion
    • Paiement en ligne
  • Équipes Françaises
  • Éq. fr. (ancienne version)
  • Formations
    • Formations universitaires
      • DUT
      • Licences
      • Masters
    • Formations permanentes
    • Supports de cours
  • Emplois
    • Rechercher/filtrer
    • CDI
      • PR
      • MdC
      • CR
      • IR
      • IE
      • CDI autres
    • CDD
      • Post-doc / IR
      • IE
      • ATER
      • CDD autres
    • Thèses
    • Stages
  • Thèses
    • Thèses 2012
    • Thèses 2011
    • Thèses 2010
    • Thèses 2009
    • Thèses 2008
    • Thèses 2007
    • Thèses 2006
    • Thèses 2005
  • HDR
  • Ouvrages
  • JOBIM
  • Groupes de travail
  • Événements
  • Calendrier
  • Liens
  • Listes de diffusion
    • Archives
    • Inscription liste bioinfo
  • Recherche
  • Mentions légales
  • Aide

Communauté

  • Groupes
  • Forums
Accueil » Biblio

Méthodes Statistiques pour l'Analyse de Données génétiques d'Association à Grande Echelle

TitreMéthodes Statistiques pour l'Analyse de Données génétiques d'Association à Grande Echelle
Type de publicationThèse
Nouvelles publications2007
AuteursGuedj, Mickaël
DirecteursNuel, Grégory, Prum Bernard
RapporteursBalding, David, Bar-Hen Avner
ExaminateursClerget, Françoise, Demenais Florence, Wojcik Jérôme, Zagury Jean-François
Université et/ou école doctoraleUniversité d'Evry-Val d'Essone
DiplômeDoctorat
Résumé

The increasing availability of dense Single Nucleotide Polymorphisms (SNPs) maps due to rapid improvements in Molecular Biology and genotyping technologies have recently led geneticists towards genome-wide association studies with hopes of encouraging results concerning our understanding of the genetic basis of complex diseases. The analysis of such high-throughput data implies today new statistical and computational problematic to face, which constitute the main topic of this thesis.

After a brief description of the main questions raised by genome-wide association studies, we deal with single-marker approaches by a power study of the main association tests and their combination. We consider then the use of multi-markers approaches by focusing on the method we developed which relies on the Local Score. This sum statistic identifies associations between regions and the disease instead of marker considered individually. It represents a simple, fast and flexible method for which we assess the efficiency based on simulated and real genome-wide association data. Finally, this thesis also deals with the multiple-testing problem attached to the number of independent tests performed for the analysis of high-throughput data. Our Local Score-based approach circumvents this problem by reducing the number of tests. In parallel, we present an estimation of the Local False Discovery Rate by a simple Gaussian mixed model.

The methods described in this manuscript are implemented in three softwares available on the website of the Statistique et Génome laboratory: fueatest, LhiSA and kerfdr.

English Abstract

Les avancées en Biologie Moléculaire ont accéléré le développement de techniques de génotypage haut débit et ainsi permis le lancement des premières études génétiques d'association à grande échelle. La dimension et la complexité des données issues de ce nouveau type d'étude posent aujourd'hui de nouvelles perspectives statistiques et informatiques nécessaires à leur analyse, constituant le principal axe de recherche de cette thèse. Après une description introductive des principales problématiques liées aux études d'association à grande échelle, nous abordons plus particulièrement les approches simple-marqueur avec une étude de puissance des principaux tests d'association, ainsi que de leurs combinaisons. Nous considérons ensuite l'utilisation d'approches multi-marqueurs avec le développement d'une méthode d'analyse fondée à partir de la statistique du Score Local. Celle-ci permet d'identifier des associations statistiques à partir de régions génomiques complètes, et non plus des marqueurs pris individuellement. Il s'agit d'une méthode simple, rapide et flexible pour laquelle nous évaluons les performances sur des données d'association à grande échelle simulées et réelles. Enfin ce travail traite également du problème du test multiple, lié au nombre de tests à réaliser lors de l'analyse de données génétiques ou génomiques haut débit. La méthode que nous proposons à partir du Score Local prend en compte ce problème. Nous évoquons par ailleurs l'estimation du Local False Discovery Rate à travers un simple modèle de mélange gaussien. Les méthodes décrites dans ce manuscrit ont été implémentées à travers trois logiciels disponibles sur le site du laboratoire Statistique et Génome : fueatest, LHiSA et kerfdr.

  • Google Scholar

© SFBI, 2012 - Réalisation du site : Valentin Guignon, administration du site : Pierre Tufféry, directrice de publication : Sophie Schbath.

[Jump to Top] [Jump to Main Content]