Mots-Clés
manguier
clémentinier
pommier
poids
analyse d'image
statistiques
machine vision
Description
Résumé : L’estimation précoce et fiable du rendement constitue un enjeu majeur pour les filières fruitières, tant pour la gestion agronomique des vergers que pour l’organisation logistique et économique des chaînes de production. Malgré les progrès récents de la vision par ordinateur et du deep learning appliqués à l’agriculture, les méthodes permettant de relier les informations extraites d’images aux variables du rendement restent encore limitées, notamment dans des contextes arboricoles caractérisés par une forte variabilité spatiale et temporelle. Cette thèse vise à développer et valider des modèles permettant d’estimer les principales composantes du rendement des arbres fruitiers (production, calibre, qualité, maturité et couleur des fruits) à partir de données issues de machine vision.
La première partie de la thèse portera sur la modélisation des relations entre les informations extraites des images (caractéristiques géométriques, spectrales et texturales des boîtes de détection, informations de profondeur) et les variables mesurées sur le terrain. Différentes approches statistiques et d’apprentissage automatique seront comparées afin d’identifier les modèles les plus performants. La seconde partie s’intéressera à l’intégration des dimensions spatiale et temporelle du rendement, en développant des méthodes d’extrapolation permettant de passer des échelles du fruit et de l’arbre à celle du verger, ainsi que des modèles exploitant des séries temporelles d’images acquises tout au long du cycle de production.
Les résultats attendus concernent le développement de nouvelles méthodes de prévision du rendement directement mobilisables dans la plateforme PixFruit®, ainsi que l’amélioration des capacités de suivi et d’aide à la décision pour les producteurs. Plus largement, cette thèse contribuera à l’essor de l’agriculture numérique et de l’agroécologie en arboriculture en proposant des outils robustes, transférables à de nombreuses espèces fruitières tropicales et tempérées.
Contexte :
Mesurer, estimer et prédire le rendement des espèces fruitières est un enjeu majeur en arboriculture (Rong et al., 2026). L’incertitude associée a en effet des répercutions logistiques, organisationnelles, agronomiques ou encore économiques qui sont importantes depuis le niveau parcellaire jusqu’à l’échelle du pays (Kebede et al., 2024). Le développement durable des filières fruitières est fortement freiné par le manque d’outils prédictifs permettant de dresser l’état de la production, de la floraison à la récolte, dans le temps et dans l’espace (Sarron et al., 2022). Ce manque de données précises sur l’état des arbres impacte l’adoption de stratégies de gestion agronomique fines et freine le développement de pratiques agroécologiques basées sur le diagnostic et la prédiction des rendements (Bellon Maurel & Huyghe, 2017). Dans ce contexte, il est indispensable d’améliorer les moyens de suivi des variables du rendement des arbres fruitiers (nombre de fruits, poids, qualité, maturité, etc.) pour faire face aux enjeux de déploiement de l’agroécologie en arboriculture (Dibbern et al., 2024). Dans les pays en développement, s’ajoute également des enjeux de sécurité alimentaire (autonomie) mais aussi économique (maitrise, contrôle et optimisation des volumes produits) auxquels des outils de prédiction du rendement pourraient répondre (Sarron et al., 2022).
A l’heure actuelle, les producteurs et acteurs des filières (acheteurs, appuis techniques, grossistes, politiques, chercheurs etc.) disposent de peu d’outils pour permettre une mesure fiable des variables du rendement aux échelles de l’arbre et de la parcelle. Depuis 2019, le CIRAD (équipes HortSys et AMAP) développe l’expertise PixFruit® dont l’objectif est de fournir des outils d’aide à la décision basés sur l’agriculture numérique, incluant notamment des acquisitions de données par smartphone (Alexandre et al., 2023), l’analyse d’image terrestre et drone (Sarron et al., 2018), et la modélisation du rendement (Sarron et al., 2023). Les outils PixFruit® se basent en premier lieu sur des algorithmes de deep learning dont les performances permettent actuellement d’extraire des informations à partir d’images 2D (Faye et al., in press).
Les outils de détection, bien qu’efficaces, font face à des défis méthodologiques majeurs. La principale difficulté consiste à relier les informations extraites d’objets 2D par machine vision (ex : détection de fruits) aux variables de rendement, dans le contexte hétérogène des vergers : diversité variétale, variations de couleur et de stade phénologique des organes (fleurs, fruits), occlusions, ombrages et superpositions entre arbres. Par exemple, les images 2D acquises avec des capteurs accessibles ne permettent pas d’extraire facilement les informations de profondeur nécessaires au calcul des dimensions des fruits. De plus, l’acquisition de données multi-vecteurs (drone, smartphone) et multi-échelles soulève aussi la question de l’intégration et de l’extrapolation des variables entre les échelles fruit, arbre et verger pour produire des informations exploitables par les producteurs et les chercheurs. Bien que le deep learning permette d’extraire des informations de sources multiples, les méthodes reliant les sorties algorithmiques de machine vision aux variables de rendement des arbres fruitiers restent insuffisamment développées, freinant ainsi le développement d’outils intégratifs tels que les OADs de Pixfruit®.
Objectifs : L’objectif de cette thèse est de modéliser les variables opérationnelles du rendement (production, calibre, qualité, maturité, et couleur) de différentes espèces fruitières (manguier, clémentinier et pommier) à partir de détections de fruits réalisées par machine vision.
Dans une première étape de la thèse, il s’agira de calibrer, tester et valider des modèles permettant d’estimer des variables du rendement à partir des détections d’organes réalisées par les algorithmes de deep learning déjà déployés. Ces données de détection d’organes ont déjà été obtenues à partir de d’images visuelles de l’arbre (prises au sol et par drone) à différents stade phénologique (floraison à récolte) et à différentes échelles (fruit, arbre, verger).
Le premier objectif de cette thèse est de relier les caractéristiques de ces boites de détections (position, dimensions, signature spectrale…) aux variables du rendement mesurés sur le terrain selon les protocoles de Pixfruit® (nombre de fruits dans l’arbre, dimensions et calibre des fruits, qualité, maturité et couleur). Le second objectif cherchera à intégrer la variabilité spatiale et temporelle du rendement à l’échelle du verger. Plusieurs approches seront testées (upscalling, stratégie d’échantillonnage et d’extrapolation) pour combiner les modèles prédictifs et extrapoler les variables de rendement depuis l’arbre jusqu’au verger (ex : estimer le nombre de fruits ou le poids de fruits par classe de calibre d’un verger à partir d’informations extraites sur des images d’un nombre limité d’arbres).
Cette thèse cherchera à répondre à plusieurs questions scientifiques et méthodologiques :
Q1 : Comment relier les informations extraites des analyses d’images RGB (caractéristiques, position et contenu spectral des boites de détection) avec les variables du rendement ? Cette question porte sur le développement de modèles (calibration, test, validation) adaptés à chaque variable (nb de fruits sur l’arbre, classification par calibre, maturité et couleur). Quels filtrages mettre en place pour maximiser les relations entre détections et variables du rendement (ex : suppression boites arrière-plan) ?
Q2 : Quelle(s) méthode(s) ou approche(s) permettent d’intégrer les données à l’échelle du verger et de les spatialiser ? Il s’agira de déterminer les méthodes statistiques ou probabilistes pour passer d’une variable estimée à l’échelle de l’arbre ou du fruit vers son extrapolation à l’échelle du verger en minimisant l’erreur et l’effort d’échantillonnage.
Q3 : Comment assurer le suivi temporel des variables de rendement à partir d’information extraite de l’analyse de séries temporelles d’images (images prises tout au long de la fructification) ?
Méthodes et résultats attendus :
Les modèles d’étude seront prioritairement le manguier et le clémentinier, pour lesquels des données sont déjà disponibles (projets PixFruit®). Le pommier sera ensuite étudié avec des données acquises dans le cadre de la Tâche 2.5 du projet PEPR TreeD-RESIST (2026-2031), qui financera le fonctionnement de cette thèse. Cette thèse valorisera les nombreux jeux de données obtenus dans les précédents projets PixFruit® pour répondre aux questions de recherche mentionnés ci-dessus. Ces jeux de données concernent plusieurs pays (Sénégal, Côte d’Ivoire, Ghana, La Réunion, Corse, Maroc), différentes variétés et ils ont été acquis à différents stades phénologiques (floraison, fructification, pré-récolte) et échelles (fruit, arbre, parcelle). De plus, les équipes des dispositifs expérimentaux du projet TreeD-RESIST réaliseront la collecte des variables du rendement sur les pommiers et les clémentiniers aux échelles du fruit (suivi de production, calibre, maturité, couleur) et de l’arbre (taux de floraison, nombre de fruit) dans 6 vergers en France (2026 à 2029). Les différents lots seront également acquis directement par le projet via plusieurs capteurs (drone multispectral, vidéo et photo sol) et à différents stades du cycle de production, de la floraison à la récolte. La vérité terrain sera acquis simultanément dans ces dispositifs par les partenaires du projet.
Les données 2D ont été ou seront analysées via la plateforme AgroDeep du CIRAD permettant d’utiliser des algorithmes de deep learning (ex. YOLOv12) pour détecter et localiser (bounding boxes) des objets (fruits, fleurs) contenu dans les images.
Une première partie de la thèse se focalisera sur l’analyse des informations extraites sur les images 2D. Sur les images 2D, il s’agira de travailler sur les boîtes de détection du deep learing et sur des méthodes permettant d’extraire les informations de profondeur des images (Lin et al., 2020; Metuarea et al., 2025). Il s’agira de travailler sur des variables de dimensions, de volumes ou encore de texture des fruits. Ces informations seront reliées aux variables de rendement (ground truth) en utilisant des outils de modélisation basés sur des variables multi-sourcées (inférence statistique classique, machine learning, régression PLS, etc.) dont les performances seront comparées.
La seconde partie de la thèse visera à relier les données acquises aux différents stades phénologiques et aux différentes échelles. La modélisation temporelle devra permettre de relier les estimations de chaque stade de développement du fruit entre elles en réalisant des modèles statistiques permettant de relier les informations de production ou de rendement avec des variables liées à la floraison (ex : taux de floraison -> rendement) et au développement du fruit (ex : dimension à un stade donné –> calibre à la récolte). La spatialisation sera réalisée en imbriquant les échelles en s’appuyant sur différentes méthodes (extrapolation, modèles multiples, etc.) et source de données (drone, image sol, caractérisation des parcelles, etc.). Il s’agira de proposer une approche innovante et efficace pour extrapoler et spatialiser les variables du rendement.
Les résultats attendus de cette thèse sont l’élaboration et la validation de modèles permettant l’estimation de la maturité, des calibres, et de la couleur des fruits à partir d’analyses d’images et leur extrapolation à l’échelle du verger. Ces travaux ont une visée scientifique (publications et conférences internationales) mais aussi opérationnelle car ils seront directement implémentés dans la plateforme PixFruit® Recherche qui sera mise en service en 2027 (prototype recherche en cours de préparation). Les travaux de cette thèse alimenteront aussi la thématique de prévision de récolte puisqu’ils permettront d’identifier les voies pertinentes pour prévoir les composantes de récolte quelques semaines/ mois avant récolte (information critique pour les producteurs). Enfin, l’intégralité de cette thèse viendra renforcer l’expertise Pixfruit® du CIRAD et alimentera la transférabilité des modèles d’une espèce fruitière à l’autre. En effet, les modèles et approches développés sur ces espèces seront facilement transposables à d’autres espèces tropicales (avocat, café, cacao, banane, litchi, etc.). Enfin, la mise en place d’un espace GitHub PixFruit® centralisant l’ensemble des résultats, modèles et codes sources produits selon les principes FAIR constitue un résultat majeur de cette thèse, facilitant leur valorisation dans le développement de nouveaux outils d’aide à la décision pour les acteurs des filières fruitières.
**Profil recherché : **
• Etudiant.e issu.e d’un cursus Bac +5 en école d’ingénieur et/ou Master en agriculture numérique (TIC), bio-informatique ou biostatistique mais le sujet reste toutefois ouvert à toute autre formation similaire.
• Compétences solides en modélisation statistique sur le logiciel R est un prérequis. Expérience sur GitHub.
• Intérêt pour l’analyse d’images
• Grande rigueur et autonomie dans l’organisation du travail et la gestion des données.
• Fortes compétences rédactionnelles et de synthèse de la bibliographie ;
• Anglais B2 minimum oral et écrit
**Encadrement : **
Directeur de thèse : Frédéric Normand (HDR, CIRAD HortSys, La Réunion)
Co-directeur de thèse : Emile Faye (CIRAD HortSys, Montpellier)
Encadrement : Julien Sarron (CIRAD HortSys, Montpellier)
La thèse sera rattachée à l’Ecole Doctorale GAIA et fera l’objet d’une inscription à l’Université de Montpellier
Modalités d’accueil : Le/la doctorant.e sera accueilli.e au sein de l’équipe HortSys du CIRAD de Montpellier. Il/elle participera également aux activités du projet PEPR TreeD-Resist porté par le CIRAD et INRAe. Allocation doctorale pour une durée de 3 ans (contrat CIRAD de droit privé)