Soutenance de thèse de Baptiste Chopin

scalab Manifestations scientifiques Soutenance de thèse
Salle Atrium - Bât. ESPRIT.

Nouvelles approches pour la prédiction et la génération de mouvements humains utilisant des squelettes 3D : application aux interactions non-verbales en réalité virtuelle

dirigée par Monsieur Mohamed DAOUDI et Madame Angela BARTOLO

Composition du jury proposé

M. Mohamed DAOUDI  IMT Nord Europe  Directeur de thèse
M. Pietro PALA  University of Florence  Examinateur
M. Renaud SEGUIER  CentraleSupélec  Rapporteur
Mme Catherine PELACHAUD  Sorbonne université  Examinatrice
Mme Angela BARTOLO  Université de Lille  Co-directrice de thèse
Mme Hatice GUNES  University of Cambridge  Examinatrice
Mme Antitza DANTCHEVA  Centre Inria d'Université Côte d'Azur  Rapporteure
M. Niculae SEBE  University of Trento  Examinateur
Mots-clés : Geste, modèles génératifs, analyse cinématique, interactions non-verbales, apprentissage automatique, agent virtuel.
Résumé :  

Dans cette thèse, nous abordons diverses tâches de génération de squelettes 3D de corps humain en mouvement. La capacité à prédire et générer des mouvements humains est devenue un sujet important dans de nombreux secteurs tel que la conduite de véhicules autonomes, l'animation et la réalité virtuelle. Bien que l'apprentissage profond ait considérablement amélioré les performances des modèles génératifs ces dernières années, la génération de mouvements humains reste un problème ouvert. Les méthodes les plus récentes ont toujours du mal à générer des mouvements humains de bonne qualité. Cela résulte de la nécessité de modéliser les composantes spatiales et temporelles simultanément et de comprendre les interactions entre les différentes parties du corps. La tâche est également difficile en raison de la grande variabilité des mouvements, à la fois en termes de temps, puisque le même mouvement peut être effectué à une vitesse différente, et en termes d'espace, puisque l'amplitude du mouvement peut varier considérablement. De plus les mouvements 3D générés doivent être précis, réalistes et fluides. Nous proposons un nouveau réseau antagoniste génératif (GAN) prédictif de Wasserstein pour prédire la fin du mouvement d'une personne. Notre réseau prédictif utilise une répresentation des courbes appelée SRVF pour modéliser la trajectoires des mouvements humains et permet une prédiction précise, en temps réel, de mouvement sans discontinuités comme le montrent nos expériences. Dans une seconde étape de la thèse nous nous intéressons à la génération des mouvements d'interaction entre deux personnes. Tout d'abord, nous présentons une nouvelle méthode pour générer un mouvement de réaction en réponse à un mouvement d'action. Contrairement aux méthodes de l'état de l'art qui se focalisent sur la génération du mouvement d'une personne, nous proposons Interformer, un Transformer qui génère des mouvements de réaction en utilisant les capacités de modélisation temporelles des réseaux Transformer ainsi que de nouveaux modules pour modéliser les interactions. Nos résultats montrent que l'approche Interformer surpasse les méthodes de l'état de l'art. Ensuite nous développons une nouvelle architecture pour générer le mouvement d'interaction de deux personnes en fonction de la classe du mouvement. Notre architecture exploite les capacités des modèles de diffusion, de l'architecture Transformer et l'apprentissage de graphes bipartis. Nos résultats montrent que notre méthode surpasse l'état de l'art quantitativement et qualitativement. Nous proposons une application qui utilise la méthode de prédiction du mouvement afin de permettre à un agent virtuel de prédire et de reconnaître le mouvement d'une personne dans le cadre des interactions non-verbales dans un environnement virtuel. Pour cela nous avons proposé une nouvelle base de données de mouvement 3D capturée avec un système de capture de mouvement de haute qualité et une caméra de profondeur.

 

X Facebook