Les modèles d'apprentissage profond manquent souvent de bases théoriques. Dans cette thèse, à partir des principes du traitement du signal et de la mécanique classique, nous nous attaquons au problème suivant : comment incorporer la géométrie dans les modèles génératifs. En soulevant de nouvelles hypothèses selon lesquelles les états cachés profonds ont des structures topologiques continues et des structures algébriques symétriques, les modèles génératifs sont reliés aux théories standard de manière directe, avec des performances et une efficacité améliorées. La thèse aborde cette question sous trois aspects : au niveau de la tâche, au niveau de l'apprentissage et au niveau du modèle. Les bases des modèles génératifs sont introduites dans le chapitre 1, où nous énonçons les principes, établissons les notations et passons en revue les méthodes de base.
Ensuite, au chapitre 2, au niveau de la tâche, nous étudions un problème d'édition d'image interactive basée sur les contours. Une approche en deux étapes est proposée pour augmenter la robustesse du modèle, impliquant une translation du contour à l'image et une reconstruction multi-échelle non supervisée. Au chapitre 3, au niveau de l'apprentissage, nous discutons d'une perte perceptuelle améliorée qui renvoie au principe de moindre action. Nous défendons l'idée qu'il existe une représentation unifiée régissant différentes lignes de modèles génératifs et nous formulons des opérateurs projectifs pour unifier les différents opérateurs d'un modèle. Enfin, dans les chapitres 4 et 5, au niveau du modèle, nous proposons des applications de la topologie et de la théorie des groupes dans les structures des modèles génératifs. Une large gamme de modèles est améliorée, y compris les UNet convolutifs / les transformateurs dans les modèles de diffusion / les réseaux adversaires génératifs. Les avantages pratiques sont la réduction des paramètres ou l'augmentation de l'efficacité. Le chapitre 5 propose un modèle génératif léger. L'idée est d'aller plus loin que les réseaux neuronaux convolutifs, qui découlent de l'équivariance de traduction, mais dans l'espace tangent du domaine spatial. Avec l'hypothèse de la continuité des motifs dans les dimensions des caractéristiques, le nombre de paramètres est réduit d'un facteur de 102 à 103, l'efficacité est accrue, tandis que les performances ne sont pas compromises. Au chapitre 4, l'équivariance orthogonale est introduite dans les réseaux neuronaux par une nouvelle fonction d'activation. Un argument de projection conique établit un lien entre le groupe algébrique des fonctions d'activation et la géométrie de leurs ensembles invariants. La restriction dans les réseaux La restriction dans les réseaux neuronaux communs est donc brisée en considérant un ensemble avec une symétrie de rotation, qui partage une similarité avec la fonction d'attention. Les structures sont également bénéfiques pour les réseaux neuronaux généraux, y compris les perceptrons multicouches, les transformateurs de langage et les ResNets de reconnaissance.
M. Laurent COHEN, Directeur de recherche CNRS, Université Paris-Dauphine – PSL, Directeur de thèse
M. Lei SHI, Full professor, Fudan University, Rapporteur
M. Yann CHEVALEYRE, Professeur des universités, Université Paris Dauphine-PSL, Examinateur
M. Guillaume CHARPIAT, Chargé de recherche, Université Paris-Saclay – INRIA, Examinateur
M. Qiang WU, Full professor, University of Tennessee, Rapporteur
Mme Laurence LIKFORMAN-SULEM, Associate professor, Institut Polytechnique de Paris, Examinatrice