StyleMapGAN：リアルタイム画像編集のための潜在的な空間的次元の活用

論文まとめ

2021.05.09

今回は、"StyleMapGAN: Exploiting Spatial Dimensions of Latent in GAN for Real-time Image Editing"という論文について紹介していきます！

Emerging Properties in Self-Supervised Vision Transformers

In this paper, we question if self-supervised learning provides new properties to Vision Transformer (ViT) that stand out compared to convolutional networks (co...

著者 : Mathilde Caron, Hugo Touvron, Ishan Misra, Hervé Jégou, Julien Mairal, Piotr Bojanowski, Armand Joulin
(Submitted on 29 Apr 2021)

ひとこと紹介
イントロダクション
この論文の構成

ひとこと紹介

既存のGANの問題点を解決すべく、StyleMapを用いたStyleMapGANの提案！

イントロダクション

GANについて

　敵対的生成ネットワーク（GAN）は近年、急激に進歩している分野の一つである。
最近の研究の中では、潜在コードを変更することで、出力画像が対応する属性を操作することにつながることが示されているが、GANには画像から対応する潜在コードへの逆マッピングがないので、実際の画像に適用することはまだ困難といわれている。
　では、どのようにして実際の画像に適用していくのであろうか？

(実際の)画像を操作するためには？

　実際の画像を操作するための方法としては、まず以下の2つが考えられる。

画像から画像への変換
ユーザーから直接与えられた入力を出力画像に合成することでモデルの学習をさせる
(デメリット)
・事前に定義する必要がある
・多くの教師データが必要 (入出力のペア, クラスラベル等)
事前学習済みのGANモデルを利用
事前学習済みのモデルを活用し、個々の画像の潜在的なコードを直接最適化する
(デメリット)
・画像ごとに数分の計算時間が必要
　　(ハイエンドなGPUを使っても)
・最適化されたコードが元の潜在空間に位置するかが保証できない

実用的なアプローチ

　上記のアプローチよりも実用的な手法としては、「画像が対応する潜在コードに投影することを学習させる」追加のencoderを用意することである。
　この手法では、単一のフィードフォワード方式でリアルタイムの投影ができる。

(デメリット)
　投影される画像の詳細情報が失われるという問題がある。
これは、潜在空間に空間的な次元がないことが要因として考えられる。
空間的な次元がないと、encoder は画像の局所的なセマンティクスを絡み合った形でベクトルに圧縮してしまうため，画像の再構成が困難になる。
（例 : ベクトルベースのボトルネック層や低解像度のボトルネック層では，高周波の詳細部分を生成することができない）

StyleMapGAN

　上記の問題を解決するために、「潜在空間の新しい表現であるStyleMap」を利用したStyleMapGANを提案している。

StyleMapGAN

ベクトルベースの潜在表現を学習する代わりに、「明示的な空間次元を持つテンソル」を利用する

この表現により、以下のことができるようになると考えられる。

空間的な次元の恩恵を受け、GANが画像の local semantics を潜在空間に容易にエンコードすることを可能に！
Encoder は画像を潜在空間に効果的に投影することができ、高精度なリアルタイム投影が可能に！
StyleMapのマッチング位置を操作することで、画像の特定の領域を編集できるように！

性能比較

この論文では、大きく分けて以下の3つの成果を挙げている。

StyleMap の解像度の効果 ($4.3)
複数のデータセットにおいて、この論文のStyleMapは、従来のベクトルベースの潜在表現と比較して、投影品質を大幅に向上させた
リアルタイム投影(§4.4 & §4.5)
画像投影、補間、局所編集に関する最先端の手法に対する本手法の優位性
Unaligned transplantation (§4.6)
ある画像と別の画像の間で領域が一致していない場合でも，領域を移植できる