Soutenance de thèse (Adrien HAIRAULT, vendredi 10 novembre 2023 à 14h)

27 octobre 23

M. Adrien HAIRAULT soutiendra sa thèse vendredi 10 novembre 2023 à 14h00 en salle des thèses D520. Sa thèse, intitulée "Contributions à la sélection bayésienne des modèles de mélange finis et infinis avec une application au calcul distribué", a été réalisée sous la direction de Christian ROBERT et Judith ROUSSEAU.

Titre : Contributions à la sélection bayésienne des modèles de mélange finis et infinis avec une application au calcul distribué

Résumé
Ce travail vise à développer de nouveaux outils et procédures pour le problème de la sélection de modèle bayésienne pour les modèles de mélanges. Le facteur de Bayes, défini comme le rapport des vraisemblances marginales calculées pour deux modèles concurrents, est connu pour être consistent dans la plupart des situations. En pratique, l'estimation de la vraisemblance marginale des mélanges finis est une tâche complexe et s'accompagne généralement d'un coût computationnel d'ordre K!, où K est le nombre de composantes du mélange. Nous passons en revue les estimateurs les plus populaires de la vraisemblance marginale pour les mélanges finis et proposons deux méthodes alternatives plus robustes à une augmentation de K et de n, le nombre d'observations. Nous nous intéressons également au modèle de mélange de processus de Dirichlet (DPM) et proposons des estimateurs fiables de la vraisemblance marginale pour de tels modèles non paramétriques. Une application immédiate est la mise en place de tests d'adéquation dans lesquels l'adéquation d'un modèle paramétrique est évaluée par rapport à celle d'une alternative non paramétrique, incarnée par le DPM. Nous montrons que cette procédure est valide en prouvant que le facteur de Bayes est consistent dans ce cadre. Enfin, nous examinons la question de l'estimation distribuée de la vraisemblance marginale pour les mélanges finis, qui reste largement inexplorée jusqu'à présent. Comme c'est généralement le cas avec les mélanges, la plupart des difficultés découlent du manque d'identifiabilité dans l'étiquetage des clusters qu'ils induisent. En utilisant le cadre du Monte Carlo séquentiel, nous développons une méthode robuste qui accélère considérablement le calcul de la vraisemblance marginale en permettant l'échantillonnage selon la loi a posteriori en parallèle.