Les réseaux de translation d'image à image (i2i) peuvent générer des images synthétiques utiles pour de multiples applications en réalité augmentée, infographie et robotique. Cependant, ils nécessitent des jeux de données à grande échelle et une compréhension contextuelle élevée pour être entraînés correctement. Dans cette thèse, nous proposons des stratégies pour résoudre ces problèmes, en améliorant les performances des réseaux de translation i2i en utilisant des a priori liés au domaine ou à la physique. La thèse est divisée en deux parties. Dans la partie I, nous exploitons les capacités d'abstraction humaines pour identifier les relations existantes dans les images, définissant ainsi des domaines qui peuvent être exploités pour améliorer l'efficacité de l'utilisation des données. Nous utilisons des informations supplémentaires liées au domaine pour entraîner des réseaux sur des données extraites sur le web, pour halluciner des scénarios non observés lors de l'entraînement et pour apprendre avec peu d'exemples. Dans la partie II, nous nous appuyons plutôt sur des a priori physiques. Tout d'abord, nous combinons un rendu réaliste basé sur la physique avec des réseaux génératifs afin de renforcer le réalisme et la contrôlabilité des sorties. Ensuite, nous exploitons un guidage physique naïf pour piloter une réorganisation du manifold, ce qui permet une translation continu par exemple, pour des timelapses.
Image-to-image (i2i) translation networks can generate fake images beneficial for many applications in augmented reality, computer graphics, and robotics. However, they require large-scale datasets and high contextual understanding to be trained correctly. In this thesis, we propose strategies for solving these problems, improving performances of i2i translation networks by using domain- or physics-related priors. The thesis is divided into two parts. In Part I, we exploit human abstraction capabilities to identify existing relationships in images, thus defining domains that can be leveraged to improve data usage efficiency. We use additional domain-related information to train networks on web-crawled data, hallucinate scenarios unseen during training, and perform few-shot learning. In part II, we instead rely on physics priors. First, we combine realistic physics-based rendering with generative networks to boost outputs realism and controllability. Then, we exploit naive physical guidance to drive a manifold reorganization, which allows generating continuous conditions such as timelapses.
Date de soutenance : mardi 29 novembre 2022 à h00
Adresse de soutenance : 60 Bd Saint-Michel, 75272 Paris - Bibliothèque
Directeur de thèse : Raoul DE CHARETTE
Codirecteur : Andrea Prati
Ecole
240 ans de recherche et de formation
Vidéo : 240ans de recherche
> En savoir +
Formation
Samuel Forest, élu membre de l’Académie des
Samuel Forest lors de sa réception à
> En savoir +
Formation
Mines Paris plébiscitée par ses étudiantes
Mines Paris - PSL, une école qui répond
> En savoir +
Formation
Corentin Gombert, prix de thèse de l’ARIMHE
Corentin Gombert, doctorant au CGS Mines Paris - PSL, lors de
> En savoir +
Formation
L'analyse d'images pour une médecine personnalisée du
L'interprétation des prédictions des
> En savoir +
Formation
Femmes de science
Chercheuses confirmées, doctorantes, élèves ou alumni,
> En savoir +
Voir l'agenda des formations et autres actualités
Consultez régulièrement les offres de formation