Mots-Clés
Gene Expression Data Integration, Correlation Network Inference, Python Programming
Description
Objectif :
L'objectif de ce stage est d'intégrer les données d'expression génique dans un graphe de
données existant d’Oryza Sativa (riz) par l’inférence d’un réseau de corrélation (par exemple,
via la co-expression génique) à partir de données non-réseau. Cette intégration vise à
améliorer la représentation des mécanismes biologiques au sein du riz en ajoutant des liens
pondérés entre les gènes, reflétant la manière dont ils interagissent les uns avec les autres.
Ce graphe augmenté sera utilisé pour des tâches ultérieures telles que la priorisation des gènes
candidats.
Aperçu du sujet :
Les données biologiques sont, par définition, hautement hétérogènes et complexes. Leur
représentation peut se faire à l'aide d'une structure de données particulière : le graphe. Les
graphes sont des réseaux composés de nœuds qui peuvent représenter différents objets
biologiques tels que des gènes ou des protéines. Les nœuds sont liés les uns aux autres en
fonction de leurs relations : un gène dont l'expression affecte l'expression d'un autre gène
seront représenté par deux nœuds reliés l'un à l'autre.
Cependant, cette représentation ne prend pas en compte la "force" ni la direction de
l'interaction, seulement sa présence; nous ne savons pas si le gène active l'expression de
l'autre gène ou la réprime. L'intégration des données d'expression génique dans les graphes
biologiques aidera à améliorer le modèle des réseaux de régulation complexes qui régissent
les interactions géniques.
Le stagiaire travaillera à l'intégration des données d'expression génique dans un graphe
existant en interne d'Oryza Sativa à partir de diverses bases de données en ligne qui intègrent
l'expression génique d'O. Sativa telles que Gene Expression Omnibus (GEO) du NCBI,
Expression Atlas, Transcriptome Encyclopedia of Rice (TENOR), Information Commons for
Rice (IC4R), entre autres.
Planification Prévisionnelle :
Étape 1 : Revue de la littérature et identification des sources de données (Semaines 1-3)
- Effectuer une revue de la littérature pour comprendre les méthodes actuelles de pointe pour
intégrer les données d'expression génique dans les graphes biologiques.
- Identifier et lister les bases de données et référentiels potentiels sur le riz contenant des
ensembles de données d'expression génique adaptés à l’intégration.
Étape 2 : Acquisition et intégration des données (Semaines 3-11)
- Trouver et télécharger les ensembles de données d'expression génique pertinents à partir des
sources identifiées.
- Développer un pipeline pour prétraiter les données et assurer leur compatibilité avec la
structure de graphe existante, y compris la normalisation et la transformation des valeurs
d'expression si nécessaire.
- Intégrer les données d'expression génique prétraitées dans le graphe existant d'Oryza
Sativa : attribuer des poids aux liens en fonction des niveaux d'expression et de la force
d’interaction.
Étape 3 : Rédaction de rapports et documentation (Semaines 11-12)
- Compiler le travail réalisé pendant le stage dans un rapport complet.
- Documenter les méthodologies utilisées pour l'intégration des données, les défis rencontrés
et les implications potentielles des données de graphe améliorées.
- Préparer une présentation résumant les conclusions du stage et les contributions au domaine
de la bioinformatique.
Tout au long du stage, le stagiaire devra tenir un journal détaillé de ses activités et
découvertes, qui sera incorporé dans le rapport final. Des réunions régulières avec l'équipe de
supervision garantiront que le projet reste sur la bonne voie et s'aligne sur les objectifs de
recherche globaux. Pendant ce stage, le stagiaire aura l'occasion d'améliorer ses compétences
en programmation Python et de développer d'autres compétences dans la manipulation de
bibliothèques Python populaires, notamment pandas, NetworkX, NLTK et NumPy. Il pourra
également apprendre les bases de la modélisation de graphes et acquérir de l'expérience dans
le traitement et l'analyse de données biologiques grâce à l'analyse de corrélation d'expression
génique et au parsing et au nettoyage des données.
Le travail à distance est possible pour ce stage, permettant aux stagiaires de participer au
programme depuis un lieu de leur choix.
Matériel bibliographique initial :
- Zitnik, M. _et al._ (2023) [Current and future directions in network biology] (https://arxiv.org/abs/2309.08478). p5-8.
- Gaiteri, C. et *al.* (2013) [Beyond modules and hubs: the potential of gene coexpression networks for investigating molecular mechanisms of complex brain disorders.] (https://onlinelibrary.wiley.com/doi/10.1111/gbb.12106)
- Marbach, D. *et al.* (2012) [Wisdom of crowds for robust gene network inference] (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3512113/)
---
Objective:
The objective of this internship project is to integrate gene expression data into an existing graph data of *Oryza Sativa* (rice) by inferring a correlation (e.g. gene co-expression) network from non-network data. This integration aims at improving the representation of the biological mechanisms within rice through the addition of weighted links between genes which reflects the way they interact with each other.
This augmented graph will be used for downstream tasks like candidate gene prioritization.
Overview:
Biological data is by definition highly heterogeneous and complex. Representing this data can be done using a particular data structure: the graph. Graphs are networks made of nodes which can represent different biological objects like genes or proteins. The nodes are linked to each other according to their relationships: a gene whose expression affects the expression of another gene will be represented as two nodes, linked to one another.
However, this does not take into account the 'strength' of the interaction, only its presence; We do not know if the gene activates the other gene's expression, or represses it.
Integrating gene expression data into biological graphs will help improve the model of the complex regulatory networks that govern gene interactions.
The intern will work on integrating gene expression data into an existing, in-house graph data of *Oryza Sativa* (rice) from diverse online databases that incorporate *O. Sativa* gene expression such as NCBI's Gene Expression Omnibus (GEO), Expression Atlas, Transcriptome Encyclopedia of Rice (TENOR), Information Commons for Rice (IC4R), among others.
Previsionnal Planning:
Step 1: Literature Review and Data Source Identification (Weeks 1-3)
- Conduct a comprehensive literature review to understand the current state-of-the-art methods for integrating gene expression data into biological graphs.
- Identify and list potential rice databases and repositories that contain gene expression datasets suitable for integration.
Step 2: Data Acquisition and Integration (Weeks 3-11)
- Find and download relevant gene expression datasets from identified sources.
- Develop a pipeline to preprocess the data and ensure compatibility with the existing graph structure, including normalization and transformation of expression values if necessary.
- Integrate the preprocessed gene expression data into the existing Oryza Sativa graph: assign weights to links based on expression levels and interaction strength.
Step 3: Report Writing and Documentation (Weeks 11-12)
- Compile the work done during the internship into a comprehensive report.
- Document the methodologies used for data integration, challenges faced, and potential implications of the enhanced graph data.
- Prepare a presentation summarizing the internship's findings and contributions to the field of bioinformatics.
Throughout the internship, the intern will be expected to maintain a detailed log of their activities and findings, which will be incorporated into the final report. Regular meetings with the supervising team will ensure that the project stays on track and aligns with the overall research objectives. During this internship, the intern will have the chance to enhance their Python programming skills and develop others in the manipulation of popular python libraries, including pandas, NetworkX, NLTK and NumPy. They will also be able to learn the basis of graph modeling. They will also gain experience in handling and analyzing biological data through gene expression correlation analysis and through data parsing and cleaning
Remote work is feasible for this internship, allowing interns to participate in the program from a location of their convenience.
Starting bibliographic material:
- Zitnik, M. _et al._ (2023) [Current and future directions in network biology] (https://arxiv.org/abs/2309.08478). p5-8.
- Gaiteri, C. et *al.* (2013) [Beyond modules and hubs: the potential of gene coexpression networks for investigating molecular mechanisms of complex brain disorders.] (https://onlinelibrary.wiley.com/doi/10.1111/gbb.12106)
- Marbach, D. *et al.* (2012) [Wisdom of crowds for robust gene network inference] (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3512113/)