Mots-Clés
métadonnées
dynamique moléculaire
python
simulation moléculaire
Description
La dynamique moléculaire est une technique de simulation numérique très utilisée pour prédire le comportement des molécules, dans des domaines allant de la science des matériaux à la biologie moléculaire en passant par le développement de médicaments.
Depuis quelques années, nous développons MDverse (https://mdverse.eu/), le catalogue des données de simulations de dynamique moléculaire [1]. Ce catalogue recense les jeux de données de dynamique moléculaire disponibles dans divers entrepôts de données, extrait et normalise les métadonnées pertinentes pour décrire ces simulations (molécules simulées, champs de forces et logiciels utilisés, températures des simulations…) et présente ces données sous une forme exploitable par la communauté scientifique. L’extraction et la normalisation des métadonnées est une tâche complexe que nous abordons par deux approches :
- Un traitement des données non structurées textuelles, comme les descriptions qui accompagnent les jeux de données. Ces données textuelles sont aujourd’hui analysées par des outils d’intelligence artificielle, notamment des grands modèles de langages. Une étape de normalisation est indispensable pour éviter toute hallucination.
- Une analyse des données structurées produites dans le cadre des simulations. Des fichiers de structures moléculaires (.pdb, .gro…) contiennent des informations essentielles pour la décrire le système simulé. Un recensement précis des espèces moléculaires présentes est donc nécessaire pour produire une analyse détaillée.
L’objectif de ce stage est de contribuer à l’extraction et la normalisation des métadonnées associées aux simulations de dynamique moléculaire. Pour cela, le ou la stagiaire sera en charge de :
- Développer un outil Python validant la qualité des métadonnées extraites des données textuelles par intelligence artificielle. Par exemple, en liant les noms des molécules à des bases de données.
- Construire un inventaire des atomes et particules utilisés par les principaux champs de forces actuels pour modéliser des acides aminés ou des acides nucléiques.
Nous attendons du ou de la stagiaire les compétences suivantes :
- Appétence pour le travail en équipe.
- Bon niveau en programmation Python.
- Connaissances de base en dynamique moléculaire.
- Capacité rédactionnelle et de communication.
- Volonté de monter en compétences en développement logiciel.
- Utilisation de git / GitHub souhaitée mais pas indispensable.
Ce projet sera réalisé sous la direction d’Essmay Touami (doctorante au LBT) et Pierre Poulain, et en collaboration avec Benoist Laurent (ingénieur de recherche au LBT).
[1] Tiemann et al., MDverse: Shedding Light on the Dark Matter of Molecular Dynamics Simulations, eLife, 2024. DOI 10.7554/eLife.90061.3
Candidature
Procédure : Merci d'envoyer un mail avec lettre de motivation et CV aux deux personnes en contact
Date limite : 15 février 2026
Contacts
Pierre Poulain
piNOSPAMerre.poulain@u-paris.fr
Essmay Touami
toNOSPAMuami@ibpc.fr