Thèse Aimodhydro- Modèles Hydrodynamiques de Certains Aspects de l'Intelligence Artificielle. H/F - Doctorat.Gouv.Fr
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Université de Reims Champagne - Ardenne École doctorale : MPSNI - Mathématiques Physique Sciences du Numérique et de l'Ingénieur Laboratoire de recherche : Laboratoire de Mathématiques de Reims Direction de la thèse : François VIGNERON Début de la thèse : 2026-10-01 Date limite de candidature : 2026-04-30T23:59:59 L'introduction de l'architecture Transformer en 2017 a déclenché une révolution dans l'intelligence artificielle, mais les mécanismes mathématiques sous-jacents restent mal compris. Des travaux récents de Geshkovski, Letrouit, Polyanskiy et Rigollet (2024) établissent un cadre rigoureux pour analyser les Transformers comme des systèmes de particules en interaction (à l'échelle champ-moyen) évoluant sur la sphère unité, et où les couches successives correspondent aux pas de temps d'un système dynamique non linéaire piloté par l'auto-attention. À l'échelle macroscopique, cette dynamique peut être modélisée par une loi de conservation non linéaire, établissant ainsi un pont intéressant avec la théorie du transport optimal.
Le premier objectif principal de notre projet est d'établir une théorie quantitative des durées de vie des clusters métastables dans la dynamique des Transformers. Les expériences numériques de l'article fondateur suggèrent l'existence d'un phénomène à deux échelles de temps : les tokens coalescent rapidement en un petit nombre de clusters intermédiaires avant de finalement fusionner en un seul. Une théorie rigoureuse de cette phase métastable - incluant des estimées de sa durée en fonction des paramètres naturels - n'existe pas à ce jour. Ce projet cherche à développer une telle théorie, en s'appuyant sur des outils issus de l'analyse des équations d'Allen-Cahn et de Cahn-Hilliard et en les adaptant au cadre sphérique, sans la structure de flot de gradient.
Les résultats de clustering actuels reposent presque entièrement sur une simplification majeure des paramètres matriciels (toutes les matrices sont l'identité). Les diagrammes de phase empiriques pour des ensembles de matrices aléatoires montrent un comportement de clustering qualitativement similaire, mais aucune garantie théorique n'existe dans ce cas. Ce projet cherchera à étendre les résultats de convergence à des matrices de paramètres aléatoires structurées, en exploitant la théorie des matrices aléatoires et des techniques perturbatives.
Ce projet analysera également le caractère bien posé et le comportement en temps long pour des Transformers régularisés par un bruit stochastique, répondant ainsi à la question suivante : l'ajout d'un terme de bruit d'intensité fixe (diffusion) modifie-t-il qualitativement le clustering en temps long ?
Une autre direction de recherche envisageable est le parallèle avec le système d'Euler-Alignement de Shvydkoy (2021, 2024) - la limite hydrodynamique de Cucker-Smale - qui est une EDP pour la densité et la vitesse d'un essaim. Une description hydrodynamique analogue de la limite en champ moyen du Transformer (au-delà de l'équation de continuité au niveau particulaire) ne semble pas exister, et la dériver, ainsi qu'établir des résultats d'existence et de comportement en temps long dans l'esprit du programme de Shvydkoy constituerait une direction de recherche naturelle et substantielle.
La recherche combinera des outils issus de la théorie du transport optimal et des flots de gradient de Wasserstein ; des systèmes dynamiques sur les variétés riemanniennes compactes, la concentration de la mesure en grande dimension et la théorie cinétique (limites en champ moyen, propagation du chaos). L'analyse rigoureuse sera complétée par des simulations numériques pour guider la formulation des conjectures.
Ce projet se situe à l'intersection des mathématiques et de la théorie de l'IA moderne, avec le potentiel d'éclairer pourquoi les Transformers entraînés se comportent comme ils le font - et de fournir des pistes pour la conception d'architectures nouvelles. Les structures mathématiques impliquées (flots de gradient sur des espaces de mesures, particules en interaction sur des sphères, hiérarchies cinétiques) présentent un intérêt propre considérable en analyse, probabilités et géométrie.
Le profil recherché
Profil et compétences recherchés : Master de mathématiques, Compétences en Analyse et en Modélisation, Intérêt pour les mathématiques appliquées, Désir de résoudre des problèmes originaux et de proposer des solutions innovantes.