GoldE

Architecture des GAN

← Les concepts fondamentaux Apprentissage des GANs →

1) Architecture typique

a) Théorique

Un système de réseau antagoniste génératif (GAN) comprend deux réseaux neuronaux profonds : le réseau générateur et le réseau discriminateur. Comme nous l’avons vu, les deux réseaux s'entraînent dans un jeu contradictoire, où l'un essaie de générer de nouvelles données et l'autre tente de prédire si les résultats sont des données fausses ou réelles [1].

Techniquement, le GAN fonctionne comme suit. Une équation mathématique complexe constitue la base de l'ensemble du processus de calcul, mais il s'agit d'une vue d'ensemble simpliste :

Le réseau générateur analyse l'ensemble d'entraînement et identifie les attributs des données
Le réseau discriminateur analyse également les données d'entraînement initiales et fait la distinction entre les attributs de manière indépendante
Le générateur modifie certains attributs de données en ajoutant du bruit (ou des modifications aléatoires) à certains attributs
Le générateur transmet les données modifiées au discriminateur
Le discriminateur calcule la probabilité que la sortie générée appartienne au jeu de données d'origine
Le discriminateur donne des indications au générateur pour réduire le facteur aléatoire du vecteur de bruit lors du cycle suivant

Le générateur tente de maximiser la probabilité d'erreur du discriminateur, mais le discriminateur essaie de minimiser la probabilité d'erreur. Lors des itérations d'entraînement, le générateur et le discriminateur évoluent et se confrontent continuellement jusqu'à atteindre un état d'équilibre. Dans l'état d'équilibre, le discriminateur ne peut plus reconnaître les données synthétisées. À ce stade, le processus d'entraînement est terminé [1, 2].

Figure 1 - Schéma de fonctionnement d’un réseau antagoniste génératif

b) Formelle

Les réseaux génératifs antagonistes (GAN) [1] forment une famille de réseaux de neurones génératifs capables de capturer la distribution des données.

Les GAN se composent de deux réseaux séparés :

un générateur $G$ , qui à partir d’un code latent tiré aléatoirement produit une observation synthétique;
un discriminateur $D$ , qui reçoit en entrée une observation et la classifie dans l’une des deux catégories suivantes : réelle ou synthétique.

Les deux modèles sont entraînés en opposition : le discriminateur apprend à distinguer les données issues de la véritable distribution de celles produites artificiellement par le générateur, tandis que le générateur apprend à tromper le discriminateur.

Du point de vue du discriminateur, on cherche à maximiser la fonction objectif qui permet de séparer les valeurs du logit de sortie pour les données réelles (sortie positive) des valeurs du logit pour les données synthétiques (sortie négative) :

max_{ϕ} 𝔼_{x \sim p (x)} log D_{ϕ} (𝐱) + 𝔼_{\hat{𝐱} \sim p (\hat{𝐱})} [log (1 - D_{ϕ} (\hat{𝐱}))]

avec $\hat{𝐱} = G_{θ} (𝐳)$ .

Tandis que, pour le générateur, nous cherchons à minimiser cette quantité. Comme $θ$ n’intervient que dans le terme de droite, la fonction objectif à minimiser pour le générateur est :

min_{θ} 𝔼_{𝐳 \sim p (𝐳)} [log (1 - D_{ϕ} (G_{θ} (𝐳)))]

Au bout du compte, l’optimisation du GAN est donc un jeu minimax défini par la fonction objectif :

$min_{θ} max_{ψ} V (G_{θ}, D_{ψ}) = \overset{discriminateur}{\overset{⏞}{\underset{générateur}{\underset{⏟}{𝔼_{𝐳 \sim p (𝐳)} [log (1 - D_{ϕ} (G_{θ} (𝐳)))]}} + 𝔼_{𝐱 \sim 𝐩_{data}} [log D_{ϕ} (𝐱)]}}$ (1) [3].

c) Algorithme d'optimisation

Le générateur transforme un bruit $z \in 𝒩 {(0, 1)}^{n}$ en une observation synthétique $\hat{𝐱}$ , c’est-à-dire que l’on tire au hasard un code latent selon une loi normale dans l’espace $𝒵$ de dimension $n$ . On pourrait choisir d’autres lois de probabilité (par exemple, une distribution uniforme) mais la loi normale est la plus commune.

L’objectif de $G$ est d’apprendre à tromper le discriminateur, c’est-à-dire produire des observations $\hat{𝐱}$ telles que $p (\hat{𝐱}) = p (G (𝐳)) \approx p (\hat{𝐱})$ et donc que la distribution des données synthétiques soit indifférenciable des données réelles.

Le discriminateur classe les observations $\hat{𝐱}$ en deux catégories : réelles ou artificielles. Sa sortie est constitué d’un seul neurone dont la fonction d’activation est une sigmoïde : $f (x) = \frac{1}{1 + e^{- x}}$
qui prend ses valeurs dans l’intervalle $[0, 1]$ . Par convention, on étiquette les données réelles avec un score de 1 et les données synthétiques avec un score de 0.

L’optimisation du générateur et du discriminateur s’effectue en alternance. Une itération de l’algorithme d’apprentissage du GAN peut se décrire de la façon suivante :

Échantillonner $m$ données réelles $x_{1}, \dots, x_{m} \in 𝒟$
Échantillonner $m$ vecteurs de bruit $z_{1}, \dots, z_{m} \sim p_{z}$
Appliquer une itération de descente de gradient sur les paramètres $θ$ du générateur: $\nabla_{θ} V (G_{θ}, D_{ϕ}) = \frac{1}{m} \nabla_{θ} \sum_{i = 1}^{m} log (1 - D_{ϕ} (G_{θ} (z_{i}))$
Appliquer une itération de montée de gradient sur les paramètres $ϕ$ du discriminateur : $\nabla_{ϕ} V (G_{θ}, D_{ϕ}) = \frac{1}{m} \nabla_{ϕ} \sum_{i = 1}^{m} [log D_{ϕ} (x_{i}) + log (1 - D_{ϕ} (G_{θ} (z_{i})))]$

Considérons désormais un générateur $G_{θ}$ fixé. On optimise alors uniquement le discriminateur $D_{ϕ}$ pour réaliser la classification binaire des observations entre réelles et synthétiques. La fonction objectif à optimiser est donc : $max_{ϕ} \int_{x} (p_{réelles} (x) log D (x) + p_{fausses} log (1 - D (x))) d x$

Cette fonction objectif admet pour maximum : $D_{ϕ}^{*} : x \to \frac{p_{réelles} (x)}{p_{réelles} (x) + p_{fausses} (x)}$

La valeur optimale de $V$ est donc : $min_{θ} V (G_{θ}, D^{*}) = \int_{x} (p_{r} (x) log \frac{p_{r} (x)}{p_{r} (x) + p_{f} (x)} + p_{f} (x) log \frac{p_{f} (x)}{p_{r} (x) + p_{f} (x)}) d x$

On peut montrer que : $min_{θ} V (G, D^{*}) = 2 D_{JS} (p_{r} | | p_{f}) - 2 log 2$
où $D_{JS}$ est la divergence de Jensen-Shannon, définie par la formule suivante : $D_{J S} [p_{r}, p_{f}] = \frac{1}{2} (D_{K L} [p_{r}, \frac{p_{r} + p_{f}}{2}] + D_{K L} [p_{f}, \frac{p_{r} + p_{f}}{2}])$ [4].

L’optimisation du générateur revient donc à minimiser la divergence Jensen-Shannon entre la distribution des données réelles $p_{r}$ et la distribution des données synthétiques $p_{f}$ .

Dans les réseaux antagonistes, le discriminateur $D$ fait office de test permettant de juger si les deux distributions (réelle et générée par le générateur $G$ ) sont statistiquement différentes. Autrement dit $D$ définit une mesure de distance implicite entre les deux distributions. Le discriminateur tente de maximiser cette distance tandis que le générateur s’efforce de la réduire [3].

2) Variantes

Il existe de nombreuses applications de génération de données en utilisant des GANs et il existe également plusieurs variantes de ce réseau, des versions améliorées ou bien adaptées à des cas bien précis.

a) Conditional GAN

Avec un Conditional GAN, ou cGan, il est possible d’envoyer des informations plus précises, appelées labels de classe, au générateur et au discriminateur pour cadrer leur production de données. Ces informations vont permettre de préciser les données produites par le générateur et le discriminateur, afin qu’ils arrivent plus rapidement au résultat voulu. Les labels vont orienter la production du générateur pour lui permettre de générer des informations plus précises.

Au lieu de produire des images de vêtements, par exemple, il produira des images de pantalons, de vestes, ou de chaussettes selon le label qu’on lui fournit. Du côté du discriminateur, les labels vont permettre au réseau de mieux distinguer les images réelles des fausses images que va lui fournir le générateur. Il gagnera donc en efficacité [5]. Le Conditional Generative Adversarial Network peut-être très utile dans les cas suivants :

La traduction d’image à image : les cGAN permettent notamment de faire évoluer des images en prenant en considération des infos additionnelles, les labels. Le cGan a permis le développement de la méthode Pix2Pix dont certaines applications permettent la reconstruction d’objets à partir des bords, la synthèse de photos à partir de cartes d’étiquettes et la colorisation d’images [6].

La création d’images à partir de texte : grâce au cGAN, il est possible de créer des photos de haute qualité sur la base d’un texte. L’utilisation d’un texte, et la richesse de son vocabulaire, permet de créer des images de synthèse beaucoup plus précises.

La génération de vidéo : en vidéo, le cGan peut également prédire les futures images d’une vidéo sur base d’une sélection d’images précédentes.

La génération de visages : le cGANs peut-être utilisé pour générer des images de visages avec des attributs particuliers, par exemple la couleur des cheveux ou des yeux [7].

Pour ce qui est de la partie formelle, nous disposons parfois d’une information additionnelle $y$ qui vient s’ajouter à l’observation $x$ . Cette information peut être l’appartenance à une classe (« chat » ou « chien »), la hauteur d’un accord ou encore les valeurs précédentes d’une séquence. Afin de structurer l’espace latent et de pouvoir contrôler plus finement la génération, il peut être intéressant de conditionner les distributions à cette information.

Concrètement, cela revient donc à s’intéresser à $D (x | y)$ et $G (z | y)$ , c’est-à-dire en remplaçant dans l’équation (1) au jeu minimax:

$min_{θ} max_{ψ} V (G_{θ}, D_{ψ}) = \overset{discriminateur}{\overset{⏞}{\underset{générateur}{\underset{⏟}{𝔼_{𝐳 \sim p (𝐳 | 𝐲)} [log (1 - D_{ϕ} (G_{θ} (𝐳, y)))]}} + 𝔼_{𝐱 \sim 𝐩_{data}} [log D_{ϕ} (𝐱, y)]}}$ (2).

Cette formulation donne lieu au conditional GAN [8]. En pratique, il suffit de modifier l’architecture du GAN de sorte que:

Le générateur prenne en entrée à la fois le vecteur $z$ (code latent) et le conditionnement $y$ , par exemple en concaténant les deux variables s’il s’agit de vecteurs;
Le discriminateur prenne en entrée à la fois une observation $x$ (réelle ou fausse) et le conditionnement $y$ [3].

b) Wasserstein GAN

L’objectif originel du Wasserstein GAN est d’améliorer la stabilité d’apprentissage, de se débarasser de certains problèmes tout en apportant de sérieuses améliorations permettant de faciliter le débuggage et la recherche d’hyper-paramètres [9, 10].

Comparé au discriminant du GAN originel, le Wasserstein GAN offre un meilleur signal d’apprentissage au générateur. Ceci permet à l’entraînement d’être plus stable lorsque le générateur traite des données dans des espaces de très grandes dimensions.

Comme nous venons de le voir, la formulation du GAN introduite par Goodfellow et al. [1] revient implicitement à minimiser une divergence entre la distribution des données réelles et la distribution approchée par le générateur du GAN. Toutefois, la divergence de Jensen-Shannon [4] hérite des inconvénients de la divergence de Kullback-Leibler [11, 12] dont elle est dérivée:

La divergence KL est nulle lorsque les supports des deux distributions sont disjoints;
La divergence KL n’est généralement pas différentiable, ni continue.

Mais les divergences ne sont pas les seules fonctions capables de caractériser la dissimilarité entre deux distributions. Il existe au moins deux autres fonctions pouvant servir de distances entre probabilités: la variation totale (dont nous ne parlerons pas) et la distance de Wasserstein (ou Earth-Mover distance) [13]. La distance de Wasserstein entre deux distributions réelles et fausses est obtenue par:

$W (p_{r}, p_{f}) = inf_{γ \in Π (p_{r}, p_{f})} 𝔼_{(x, y) \sim γ} [x - y]$
(3) avec $Π (p_{r}, p_{f})$ l’ensemble de toutes les distributions jointes $γ (x, y)$ dont les marginales sont égales à $p_{r}$ et $p_{f}$ .

Intuitivement, la distribution jointe représente la « masse » qui est transportée de chaque point $x$ vers chaque point $y$ , de sorte que la distribution $p_{r}$ soit transformée en la distribution $p_{f}$ . La distance de Wasserstein cherche alors le transport qui minimise le coût de cette transformation. Il s’agit ainsi du transport optimal entre $p_{r}$ et $p_{f}$ .

Cette distance est intéressante à deux titres. D’une part, elle croît linéairement avec la distance entre les moyennes des distributions, même si $p_{r}$ et $p_{f}$ sont disjointes. D’autre part, elle est continue et même différentiable par rapport aux paramètres $θ$ de $p_{f}$ lorsque cette distribution est supposée gaussienne. Cela rend la distance de Wasserstein appropriée pour une optimisation par descente de gradient, par exemple [14].

Cependant, pour trouver le minimum de l’équation (3), il faudrait pouvoir parcourir toutes les distributions conjointes $Π (p_{r}, p_{f})$ , ce qui est insoluble. Toutefois, la dualité de la distance de Kantorovich-Rubinstein (ou Wasserstein) nous donne une autre façon de la calculer :

$W (p_{r}, p_{f}) = \frac{1}{K} sup_{∥ f ∥_{L} \leq K} 𝔼_{x \sim p_{r}} [f (x)] - 𝔼_{x \sim p_{f}} [f (x)]$
(4) pour $f$ appartenant à l’ensemble des fonctions K-lipschitziennes, c’est-à-dire vérifiant la condition: $\forall (x_{i}, x_{j}), | f (x_{i}) - f (x_{j}) | \leq K | x_{i} - x_{j} | .$

Qu’est-ce que ceci signifie pour les GAN ? Dans notre cas, $p_{r}$ est la distribution des données réelles ( $x \sim p (x)$ ) et $p_{r}$ est la distribution des données synthétiques ( $G (z), z \sim p (z)$ ). Notre idée est de chercher les poids du discriminateur $D_{ϕ}$ qui maximise une certaine distance entre $p_{r}$ et $p_{f}$ , et les poids du générateur $G_{θ}$ qui minimise cette même distance.

Supposons que notre discriminateur $D_{ϕ}$ soit contraint au sous-ensemble des fonctions K-lipschitziennes. Alors, d’après (4), une façon de calculer la distance de Wasserstein entre $p_{r}$ et $p_{f}$ est de calculer:

$L (p_{r}, p_{f}) = W (p_{r}, p_{f}) = max_{ϕ} 𝔼_{x \sim p_{r}} [D_{ϕ} (x)] - 𝔼_{z \sim p (z)} [D_{ϕ} (G_{θ} (z))]$ (5).

Cette quantité peut être approchée via une estimation sur un batch de $m$ observations :

$L (p_{r}, p_{f}) = \frac{1}{m} [D_{ϕ} (x) - D_{ϕ} (G_{θ} (z))]$

Nous pouvons alors définir le Wasserstein GAN [9] comme le GAN optimisant le jeu minimax :

$min_{θ} max_{ϕ} \frac{1}{m} [D_{ϕ} (x) - D_{ϕ} (G_{θ} (z))]$
sous réserve que le discriminateur $D_{ϕ}$ soit restreint au cas K-lipschitzien [3].

c) StyleGAN

En Décembre 2018, les chercheurs de Nvidia distribuent une pré-impression d’un logiciel d’accompagnement présentant StyleGAN, un Generative Adversarial Network capable de produire un nombre illimité de faux portraits humains. La plupart de ces derniers étant très convaincants.

En février 2019, l'ingénieur Uber Phillip Wang utilise le logiciel pour créer This Person Does Not Exist, qui crée un nouveau visage à chaque rechargement de page Web [15, 16]. Wang lui-même a exprimé son étonnement, compte tenu du fait que les êtres humains ont évolué pour comprendre spécifiquement les visages humains, de voir que StyleGAN peut néanmoins, de manière compétitive, « séparer toutes les caractéristiques pertinentes (des visages humains) et les recomposer de manière cohérente » [17].

De même, deux professeurs de l'école d'information de l'Université de Washington ont utilisé StyleGAN pour créer Which Face Is Real, qui mettait les visiteurs au défi de faire la différence entre un faux et un vrai visage côte à côte [16]. La faculté a déclaré que l'intention était « d'éduquer le public » sur l'existence de cette technologie afin qu'il puisse s'en méfier, « tout comme finalement la plupart des gens ont été informés que vous pouviez Photoshoper une image » [18].

StyleGAN est une architecture de GAN qui introduit un espace latent intermédiaire, entre l’espace latent du bruit $z$ et l’espace des images $x$ . Cet espace, noté $𝒲$ , est appelé espace des styles [19].

Figure 2 - Comparaison de l’architecture habituelle du générateur dans un GAN convolutif (à gauche) et de l’architecture du générateur dans StyleGAN [19].

Le générateur de StyleGAN introduit un mapping network, un perceptron multi-couche qui transforme le bruit initial $z$ en un vecteur de style $𝐰 \in 𝒲$ . Dans le schéma, A désigne une transformation affine apprise et B est une multiplication terme à terme avec un vecteur de mise à l’échelle.

En pratique, StyleGAN utilise un espace de style de dimension 512. Ce vecteur de style est ensuite injecté à chaque couche du générateur $G$ à travers l’opération AdaIN, ou Adaptive Instance Normalization [20]. AdaIN est une couche de normalisation qui applique une transformation affine :

$AIN (𝐱_{𝐢}, 𝐲) = 𝐲_{s, i} \cdot \frac{𝐱_{𝐢} - μ (𝐱_{𝐢})}{σ (𝐱_{𝐢})} + 𝐲_{b, i}$
où $(𝐲_{s, i}, 𝐲_{b, i}) = A (𝐰_{i})$ avec $A$ une transformation affine apprise pour la couche considérée, $μ (𝐱_{𝐢})$ désigne la moyenne de $𝐱_{𝐢}$ et $σ (𝐱_{𝐢})$ sa variance. Les vecteurs $𝐲 = (𝐲_{s, i}, 𝐲_{b, i})$ sont appelés les styles correspondant au vecteur latent $w$ .

L’avantage de l’espace $𝒲$ par rapport à l’espace latent $𝒵$ est qu’il est obtenu par une transformation non-linéaire et ne suit donc pas forcément une distribution gaussienne. Cela permet ainsi de mieux capter la structure de la distribution des images, qui est généralement fortement multi-modale. En pratique, pour renforcer le rôle des « styles », on combine les vecteurs $y$ obtenus pour différents $x$ durant l’entraînement. Ainsi, les styles $𝐲_{s, i}, 𝐲_{b, i}$ seront aléatoirement injectés dans le générateur à la place de $𝐲_{s, j}, 𝐲_{b, j}$ et inversement [3].

← Les concepts fondamentaux Apprentissage des GANs →

Références et bibliographie

[1] Goodfellow, Bengio et Courville, « Generative Adversarial Networks », 2014.
[2] Luc, Pauline; Couprie, Camille; Chintala, Soumith; Verbeek, Jakob; "Semantic Segmentation using Adversarial Networks". NIPS Workshop on Adversarial Training, Dec, Barcelona, Spain. 2016.
[3] Nicolas Thome, Clément Rambour, Nicolas Audebert, « RCP 211 – Artificial Intelligence Certificate – Cnam: Réseaux génératifs antagonistes », laboratoire Cédric, 2023.
[4] Nielsen F. "On the Jensen-Shannon Symmetrization of Distances Relying on Abstract Means". Entropy (Basel). 2019 May 11;21(5):485. doi: 10.3390/e21050485. PMID: 33267199; PMCID: PMC7514974.
[5] Odena, Augustus; Olah, Christopher; Shlens, Jonathon (July 17, 2017). "Conditional Image Synthesis with Auxiliary Classifier GANs". International Conference on Machine Learning.
[6] Isola, Phillip; Zhu, Jun-Yan; Zhou, Tinghui; Efros, Alexei A. (2017). "Image-To-Image Translation With Conditional Adversarial Networks". pp. 1125–1134.
[7] Jérémy Robert, « Qu’est-ce qu’un Conditional Generative Adversarial Network (cGAN) ? », 2022. DataScientest.
[8] Mehdi Mirza and Simon Osindero. « Conditional Generative Adversarial Nets », November 2014.
[9] Arjovsky, Martin; Chintala, Soumith; Bottou, Léon, "Wasserstein Generative Adversarial Networks", Conférence internationale sur le Machine Learning, 2017.
[10] Weng, Lilian. "From GAN to WGAN" (2019).
[11] S. Kullback, R. A. Leibler "On Information and Sufficiency", The Annals of Mathematical Statistics, Ann. Math. Statist. 22(1), 79-86, (March, 1951).
[12] Kullback, Solomon (1959), « Information Theory and Statistics », John Wiley & Sons. Republié par Dover Publications en 1968.
[13] L. V. Kantorovich, (1960) « Mathematical Methods of Organizing and Planning Production ». Management Science 6(4):366-422.
[14] Rubner, Yossi, Carlo Tomasi and Leonidas J. Guibas. “ A Metric for Distributions with Applications to Image Databases ”. Sixth International Conference on Computer Vision (1998): 59-66.
[15] msmash, n/a, "'This Person Does Not Exist' Website Uses AI To Create Realistic Yet Horrifying Faces", 2019. Sladshot.
[16] Fleishman, Glenn, "How to spot the realistic fake people creeping into your timelines", 2019. Fast Company.
[17] Bishop Katie, AI in the adult industry: porn may soon feature people who don't exist", 2020. The Guardian.
[18] Vincent James,"Can you tell the difference between a real face and an AI-generated fake?", 2019. The Verge.
[19] Karras, Tero, Samuli Laine, and Timo Aila. "A style-based generator architecture for generative adversarial networks." In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 4401-4410. 2019.
[20] Huang, Xun, and Serge Belongie. "Arbitrary style transfer in real-time with adaptive instance normalization." In Proceedings of the IEEE international conference on computer vision, pp. 1501-1510. 2017.