Mots-Clés
écologie
analyse d’images
intelligence artificielle
web scraping
Description
Création et analyse d’une base d’images des habitats naturels du globe
STAGE DE MASTER 2 INFORMATIQUE/BIOINFORMATIQUE
Printemps 2024
Encadrants :
Julien Renoult, Chargé de Recherche CNRS, Centre d’Ecologie Fonctionnelle et Evolution, Montpellier
Nicolas Mouquet, Directeur de Recherche CNRS, Directeur scientifique du Centre de Synthèse et d’Analyse sur la Biodiversité.
Mots-clefs : écologie, analyse d’images, intelligence artificielle, web scraping.
La diversité paysagère, ou diversité visuelle des habitats naturels, constitue une dimension essentielle mais encore très peu étudiée de la biodiversité. Cette diversité décrit l’ensemble des statistiques spatiales et chromatiques caractérisant les scènes visuelles au sein et entre les habitats. En influençant les forces de sélection impliquées dans les relations proie-prédateurs et dans le choix de partenaire, cette diversité joue un rôle important sur la diversification des patrons de coloration des animaux (Seehausen et al. 2008 ; Renoult et Mendelson 2019 ; Hulse et al. 2020). Elle influence également les politiques de conservation à travers son impact sur la perception de la beauté des écosystèmes (Tribot et al. 2018). Toutefois, que ce soit en biologie évolutive ou biologie de la conservation, les effets de la diversité paysagère sont documentés essentiellement par des cas d’étude précis, mais son importance à l’échelle globale reste inconnue. Pour pallier à ce manque, il est nécessaire de constituer une base de données d’images des habitats naturels de la planète.
En s’appuyant sur des techniques de moissonnage, de vision par ordinateur, et d'intelligence artificielle, l'objectif de ce stage est de fabriquer cette base d’images des habitats naturels, d’en évaluer la qualité, et d’étudier les statistiques spatiales et chromatiques discrimants les habitats entre eux. L’étudiant.e participera à la rédaction d’un article (data paper) présentant la base et son accès libre.
Méthodes utilisées
- Moissonnage d’images.
Une première étape visera à télécharger automatiquement, à partir d’internet, des images de paysages naturels. L’étudiant.e sélectionnera en priorité des bases d’images telles que Flickr, Wikimedia Commons, Pixabay, Google Earth Engine, mais aussi des réseaux sociaux (Instagram, X) et moissonnera les images géoréférencées et les métadonnées associées soit grâce aux API développées par les plateformes soit grâce à un crawler web personnalisé (par exemple Scrapy). Des images non géoréférencées seront aussi collectées.
- Filtrage.
Les images seront d’abord filtrées par qualité pour exclure les résolutions trop faibles ou les images floues. Ensuite, l’étudiant.e utilisera des modèles de détection et d’annotation automatique pré-entrainés (par exemple Grounding Dino, possiblement distillés à YOLOv8 via Autodistill) pour identifier et supprimer les images contenant des humains, des objets d’origine humaine (voitures, habitations etc…), ou des vues aériennes.
- Validation de l’annotation des habitats.
Les images seront automatiquement annotées à partir de leur coordonnées GPS et de cartes de distribution des habitats (« géo-annotation »). Nous utiliserons trois niveaux de résolution pour les habitats : le Niveau 1 de l’IUCN habitat classification scheme (18 classes ; par exemple savane, désert, récif corallien etc…), le Niveau 2 de cette même classification (108 classes), et les Terrestrial Ecoregions of the World du WWF (867 classes). Des cartes en format shape file sont disponibles pour ces trois classifications. En parallèle, nous extrairons 5,000 photos de la base et demanderons à des experts en écologie du paysage de classer chacune de ces photos dans l’une des 18 classes de IUCN-18. L’étudiant.e calculera le taux d’erreurs de la géo-annotation en la comparant avec l’annotation des experts. Nous calculerons le taux d’erreur également pour UICN-108 et WWF-867 en fusionnant les classes de ces classifications pour les faire correspondre aux 18 classes de UICN-18. Une fois validé, le jeu d’images géo-annoté servira à entrainer un réseau neuronal profond (DCNN, e.g. EfficientNet) pour classer automatiquement les images non géoréférencées.
- Analyse des statistiques visuelles des images
Dans cette partie du stage, d’étudiant.e analysera les statistiques spatiales et colorimétriques qui discriminent les différentes catégories d’habitat. Des descripteurs classiques de vision par ordinateur (par exemple pyramides d’histogrammes, filtres de Gabor, indice de fractalité, etc… ) et des descripteurs profonds issus de DCNNs tels que VGG18 entraîné sur la base d’images seront analysés par apprentissage automatique (eg. SVM) pour identifier les descripteurs discriminants. Ces descripteurs seront utilisés pour construire un arbre de similarité entre habitats. Nous développerons également des métriques caractérisant la diversité intra- et inter-habitat des descripteurs.
Utilisations futures de la base.
Cette base de données et l’analyse des descripteurs seront des outils précieux pour répondre à de nombreuses questions en biologie de la conservation et en biologie évolutive. En conservation, un des objectifs sera de savoir si la diversité visuelle au sein d’une classe d’habitat est un indicateur de la diversité en espèces et de la diversité fonctionnelle de ces habitats. Nous essaierons également de comprendre comment la diversité visuelle influence l’appréciation de la beauté de ces paysages. En biologie évolutive, nous nous intéresserons au lien entre diversité visuelle et diversité des signaux de communication chez les animaux, en particulier les oiseaux et les poissons. Nous étudierons également si la similarité visuelle entre habitats permet d’expliquer des grands patrons de convergence phénotypiques dans le règne animal.
En fonction du parcours de l’étudiant, un sujet de thèse pourra être déposé et l’étudiant.e. pourra concourir à l’école doctorale GAIA pour répondre à ces questions dans le cadre d’un doctorat.
Profil recherché : nous cherchons une ou un étudiant avec des bases solides en programmation Python, si possible déjà familier avec les outils de l’intelligence artificielle et de la vision par ordinateur, et bien entendu avec un intérêt pour les questions de recherche en écologie.
Lieu du stage : Centre d’Ecologie Fonctionnelle et Evolutive de Montpellier (UMR5171)
Gratification de stage : selon le barème en vigueur (environ 570 euros/mois)
Durée : de 5 à 6 mois en fonction du parcours de l’étudiant
Début du stage : à partir de janvier 2024
Contact : julien.renoult@cefe.cnrs.fr
Références associées
Hulse, S. V., Renoult, J. P., & Mendelson, T. C. (2020). Sexual signaling pattern correlates with habitat pattern in visually ornamented fishes. Nature communications, 11(1), 2561.
Jung, M., Dahal, P. R., Butchart, S. H., Donald, P. F., De Lamo, X., Lesiv, M., ... & Visconti, P. (2020). A global map of terrestrial habitat types. Scientific data, 7(1), 256.
Renoult, J. P., & Mendelson, T. C. (2019). Processing bias: extending sensory drive to include efficacy and efficiency in information processing. Proceedings of the Royal Society B, 286(1900), 20190165.
Seehausen, O., Terai, Y., Magalhaes, I. S., Carleton, K. L., Mrosso, H. D., Miyagi, R., ... & Okada, N. (2008). Speciation through sensory drive in cichlid fish. Nature, 455(7213), 620-626.
Tribot, A. S., Deter, J., & Mouquet, N. (2018). Integrating the aesthetic value of landscapes and biological diversity. Proceedings of the Royal Society B: Biological Sciences, 285(1886), 20180971.
Zhang, R., Isola, P., Efros, A. A., Shechtman, E., & Wang, O. (2018). The unreasonable effectiveness of deep features as a perceptual metric. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 586-595).
https://www.iucnredlist.org/resources/habitat-classification-scheme
https://www.worldwildlife.org/publications/terrestrial-ecoregions-of-the-world