StyleCLIP : 文章から簡単にオリジナルの画像生成！！

今回は、"StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery"という論文について紹介していきます！

StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery

Inspired by the ability of StyleGAN to generate highly realistic images in a variety of domains, much recent work has focused on understanding how to use the la...

論文情報
著者 : Or Patashnik, Zongze Wu, Eli Shechtman, Daniel Cohen-Or, Dani Lischinski
(Submitted on 31 Mar 2021)

ひとこと紹介
イントロダクション
この論文の構成

ひとこと紹介

StyleGAN + CLIP = StyleCLIP ??
StyleGANにCLIPを取り入れることで、テキストベースで直感的なGANによる画像生成が可能に！！

イントロダクション

StyleGANとは？

　敵対的生成ネットワーク(GAN)は、画像生成に大きなブレイクスルー引き起こしてきましたが、その中でも、2018年にNVIDIAの研究者から発表され、注目を浴びたものの一つにStyleGANがあります。

　このStyleGANの登場により、今までより一層高い解像度の画像を生成することが可能になっただけでなく、よりリアルな画像の生成ができるようになっています。
今回は、そんなStyleGANにCLIP（Contrastive Language-Image Pre-training）というモデルを適用させていくことで、StyleGANを適用するときの人力のタスクの負担を軽減させるこのが可能になるこの論文について紹介していきます。

従来のStyleGANでの課題

　StyleGANの表現力を生かすためには、ユーザーが意図したことを簡単に実行できるような、シンプルで直感的な操作をできるようにする必要がある。
　しかし、意味論的な(セマンティック)制御のための既存手法は、手作業による検証、大量のアノテーションデータ、あるいは事前に学習させた分類器のいずれかが必要である。
さらに、その後の操作は StyleRig の 3DMM や StyleFlow の学習済み正規化フローなどのパラメトリックモデルを用いて、潜在空間のいずれかの方向に沿って移動することで実行されるのが一般的である。また、virtual try-on やagingなどの特殊な編集も検討されている。

　それゆえ、既存の制御ではあらかじめ設定された意味的な方向に沿って画像を操作することがされるため、ユーザーによる操作が制限されてしまう。また、マッピングされていない方向性を追加したい場合は、手作業や大量のアノテーションデータが必要となることも課題としてあげられる。

StyleRig とは？

StyleGANをベースとした上で、
StyleGANのみでは実装できない「顔の向き」「表情」「照明の位置(光のあたり方)」等をパラメータで編集することを可能にする手法である。
(CVPR 2020 にて提唱)

CLIPとは？

　この研究では、CLIP（Contrastive Language-Image Pre-training）モデルを活用することで、あらかじめ設定された操作以外でも手作業なしでテキストベースの意味的画像操作を直感的に行えるようにすることを目標にしている。
　CLIPモデルは、ウェブから収集した4億枚の画像とテキストのペアを用いて事前学習されているモデルです。ImageNet の画像が約1400万枚であることを考えると、いかに大量なデータであるかわかるが、ここでは、自然言語がより幅広い視覚的概念を表現できることを活かし、CLIPとStyleGANの生成能力を組み合わせている。

この論文では、CLIPとStyleGANを組み合わせた3つの手法について検討している。

Text-guided latent optimization（CLIPモデルを損失ネットワークとして使用する）
これは最も汎用性の高いアプローチであるが、画像処理には数分かかる。
A latent residual mapper (潜在的残差マッパー)
特定のテキストプロンプト用に学習されたmapperであり、
潜在空間の出発点が与えられると、mapper は潜在空間の局所的な step を生成する。
テキストプロンプトの制御
StyleGAN の style 空間において、入力にとらわれない方向にマッピングする方法で、操作の強さや分離の度合いを制御することができる。

結果(StyleGANとの比較)

　この論文では、従来のStyleGANのみによる操作だけでは実現できていなかったことを、事前学習したStyleGANモデルとCLIPモデルを組み合わせることで実現することができた操作が多くあった。

　実際にこの論文を通しても、人の顔や犬、建物の画像などに対して操作が行われている例が多くある。また、これらのデモに関しては、公式が出しているものを下にまとめてみましたので、良かったらご覧になってください！
　私も Colabで試してみましたが、テキストでおおまかに「紫色の髪色で」というように文章を加えるだけでも画像・動画が簡単に生成することができておもしろかったです！！

リンク集