Mots-Clés
génomique médicale
DNA-seq
NGS
annotation de variants
Illumina
Nanopore
WGS
exome
Python
Bash
Linux
Parquet
data engineering
bases de données
Snakemake
IA
LLM
HPC
GPU NVIDIA.
Description
Contexte
Le laboratoire de génétique de l’hôpital Henri Mondor met en œuvre différentes technologies de séquençage haut débit pour l’analyse génomique de patients : panels ciblés Illumina, exomes Illumina et génomes complets, notamment par séquençage long-read Nanopore.
Ces analyses génèrent un volume croissant de variants génétiques issus de fichiers VCF, provenant de technologies complémentaires. L’objectif du projet est d’aider à la mise en place d’une infrastructure bioinformatique et data permettant de centraliser, structurer, annoter et interroger l’ensemble des variants identifiés chez les patients du laboratoire.
Le projet s’inscrit dans une démarche de développement d’une base de données locale de variants génomiques, enrichie par des annotations régulièrement mises à jour à partir de bases de données publiques et spécialisées, avec à terme l’appui d’outils d’intelligence artificielle pour faciliter l’interprétation et la priorisation des variants.
Le laboratoire dispose déjà d’un environnement technique avancé incluant un cluster de calcul, des GPU NVIDIA, des outils d’accélération comme NVIDIA Clara Parabricks, ainsi qu’une première ébauche de base de données au format .parquet.
Objectif général de l’alternance
L’alternant(e) participera à la conception et au développement d’un système de gestion, d’annotation et d’aide à l’interprétation des variants génomiques issus des analyses DNA-seq du laboratoire.
L’objectif est de construire une architecture robuste permettant :
- l’intégration automatique ou semi-automatique de variants issus de fichiers VCF ;
- la normalisation des données provenant de panels, exomes et WGS ;
- l’annotation régulière des variants avec les bases de connaissances les plus récentes ;
- la structuration des données sous forme de base interrogeable ;
- le développement de modules d’aide à la priorisation et à l’interprétation, potentiellement assistés par IA ;
Missions
Vous contribuerez à la mise en place d’un workflow bioinformatique permettant d’harmoniser, d’annoter et de structurer les variants génomiques issus des analyses DNA-seq réalisées au laboratoire.
Les variants proviennent de différentes technologies de séquençage : panels ciblés Illumina, exomes Illumina et WGS Nanopore. L’objectif sera de proposer un format commun, fiable et exploitable, permettant de comparer les résultats entre technologies et de faciliter leur réutilisation.
Vous participerez à la définition d’un socle d’annotations biologiques et cliniques pertinentes, en vous appuyant sur des bases de données de référence régulièrement mises à jour. Une attention particulière sera portée à la qualité des annotations, à leur traçabilité et à la reproductibilité des traitements.
Selon l’avancement du projet, vous pourrez également explorer l’utilisation d’outils d’intelligence artificielle pour aider à résumer les annotations disponibles et faciliter la priorisation des variants, dans un cadre sécurisé et validé par l’équipe.
Environnement technique
L’alternant(e) travaillera dans un environnement technologique moderne combinant bioinformatique, calcul haute performance, data engineering et IA.
Technologies et outils potentiellement utilisés :
- Linux ;
- Python ;
- Bash ;
- Git ;
- fichiers VCF, BED, BAM/CRAM, FASTA, GTF/GFF ;
- Parquet, DuckDB, Polars, Pandas, PyArrow ;
- bases SQL ou NoSQL selon l’architecture retenue ;
- Snakemake, Nextflow ou équivalent ;
- Singularity/Apptainer, Docker, Podman ;
- NVIDIA Clara Parabricks ;
- GPU NVIDIA ;
- cluster de calcul ;
- cloud privé HPE ;
- outils d’annotation de variants : VEP, SnpEff, ANNOVAR, bcftools, htslib, ClinVar, gnomAD, dbSNP ;
- outils d’IA et de NLP : modèles de langage, API LLM ou modèles locaux, embeddings, RAG, vector databases selon faisabilité.
Formation
Étudiant(e) en école d’ingénieur, master ou formation équivalente, avec une spécialisation en informatique, data science, intelligence artificielle, bioinformatique, génomique computationnelle ou systèmes distribués.
Profils particulièrement adaptés :
- école d’ingénieur informatique ;
- école d’ingénieur avec spécialisation data/IA ;
- master bioinformatique ;
- master informatique appliquée à la santé ;
- master data engineering ou data science ;
- formation en intelligence artificielle avec intérêt pour la biologie médicale.
Compétences indispensables
Le poste nécessite un profil à l’aise avec le développement informatique et la manipulation de données complexes.
Compétences attendues :
- bonne maîtrise de Python ;
- bonne connaissance de Linux et de la ligne de commande ;
- bases solides en algorithmique et structuration de données ;
- capacité à manipuler des fichiers volumineux ;
- connaissances en bases de données ou formats analytiques ;
- utilisation de Git ;
- rigueur dans le développement, la documentation et les tests ;
- intérêt fort pour la génomique, la médecine de précision ou les données de santé.
Qualités attendues
Le poste s’adresse à un profil autonome, curieux et rigoureux, capable de dialoguer avec des bioinformaticiens, biologistes et cliniciens.
Qualités recherchées :
esprit d’analyse ;
autonomie progressive ;
curiosité scientifique ;
rigueur dans la manipulation de données sensibles ;
capacité à documenter proprement son travail ;
goût pour les projets multidisciplinaires ;
capacité à transformer un besoin métier en solution technique ;
intérêt pour l’innovation en santé ;
prudence et esprit critique vis-à-vis des résultats générés par l’IA
Ce que cette alternance vous apportera
Cette alternance vous permettra de travailler sur un projet concret de génomique médicale en environnement hospitalier, à l’interface entre bioinformatique, data engineering et intelligence artificielle.