Réduction de la dimension et sélection de modèles en classification supervisée

Informations générales
Nom
Mary-Huard
Prénom
Tristan
Diplôme
Thèse
Année
2006
Détails de la thèse/HDR
Université
Jury
Gérard Biau
Gabor Lugosi
Olivier Bousquet
Pascal Massart
Jean-Michel Poggi
Jean-Daniel Zucker
Directeur (pour les thèses)
Stéphane Robin
Résumé en français
La thèse se place dans le contexte de l’apprentissage statistique. On considère le problème des données de grande dimension, pour lesquelles le nombre de variables est très supérieur au nombre d’observations. Dans un premier temps le problème de la sélection de modèles est étudié. Nous proposons un estimateur du biais entre le risque conditionnel et le risque empirique d’une règle de classification. Cet estimateur est ensuite utilisé pour l’élaboration d’un critère pénalisé pour la sélection de modèle appelé Swapping. La pénalité est basée sur les observations de l’échantillon d’entraînement pour lesquelles un changement de label induit un changement de prédiction du classificateur. Une application au choix du paramètre k pour l’algorithme des k plus proches voisins (kNN) est présentée. On s’intéresse ensuite au problème de la sélection de variables. Un critère pénalisé pour la sélection de variables en classification supervisée est proposé, dont la qualité est garantie par une inégalité oracle. Ce résultat fournit un cadre théorique que nous employons pour justifier la procédure d’élagage de l’algorithme CART en tant que méthode intégrée de sélection de variables. La dernière partie est consacrée à l’agrégation de variables. Nous présentons une stratégie générale d’agrégation de variables dédiée à l’algorithme de classification choisi par l’expérimentateur. Cette stratégie est appliquée aux algorithmes CART et kNN.