自己教師ありVision Transformers の 新たな特性

論文まとめ

今日は、"Emerging Properties in Self-Supervised Vision Transformers"という論文について紹介していきます!

Emerging Properties in Self-Supervised Vision Transformers
In this paper, we question if self-supervised learning provides new properties to Vision Transformer (ViT) that stand out compared to convolutional networks (co...
スポンサーリンク

ひとこと紹介

Vision Transformers で得られる新たな知見を発見!
→ DINO(フレームワーク) を実装し、Vision Transformersとの相乗効果を発見!!

スポンサーリンク

イントロダクション

Vision Transformer(ViT) vs ConvNet

 近年、Transformerは、畳み込みニューラルネットワーク(ConvNets)に代わる視覚の認識手法として登場している。
 Transformerの適用は、自然言語処理(NLP)にヒントを得た学習戦略として、大量のデータで事前学習を行い,targetとなるデータセットで微調整をとられているためデメリットとして以下のようなものがあげられており、畳み込みニューラルネットワーク(ConvNet)に対する明確な利点はまだ得られていない。

  • 計算不可が高い
  • 多くの学習データが必要
  • 得られた特徴がユニークな特性を示さない

この論文の動機

 Transformerが視覚(Vision)分野であまり成功していないのは、事前学習に監視(surper vision)を用いているからではないか?
 この論文での動機には、NLPにおけるTransformerの成功の主な要因の1つに、
BERTの緊密な接続やGPTの言語モデリングの形で、
自己教師ありの事前トレーニングを使用していたことが挙げられている。

 これらの自己教師あり前学習の目的は、「文の中の単語を使用して文ごとに1つのラベルを予測する教師あり学習よりも、豊富な学習シグナルを提供することができるPretextタスクを作成すること」である。

研究内容

 NLPのテキストに特化した自己教師ありのPretextタスクでは、既存の自己教師あり手法として、ConvNetを用いた画像に対してその可能性を示しているものがあり、様々な構造を持つものが多くある。
 この研究では,それらの手法にヒントを得て,Vision Transfomer(ViT)の特徴に対する自己教師ありでの前処理の影響を研究している。
 興味深い点としては、教師付きViTやConvNetでは現れない下記のような特性があったことである。

  • シーンのレイアウト(特にオブジェクトの境界)が明示的に含まれる。(これは、最後のブロックのself-attentionモジュールで直接アクセスできる)
  • 微調整や線形分類器、データ増強を行わずに、シンプルな分類器であるk-近傍法(k-NN)で ImageNet(top1)で78.3%の精度を達成

 セグメンテーション・マスクの出現は、自己教師ありの手法に共通する特性のようですが、k-NNによる優れた性能は、momentum encoder やmulti-crop augmentationなどの特定のコンポーネントを組み合わせた場合にのみ現れます!
 また、得られたもう一つの知見としては、結果として得られる特徴量の質を向上させるために、ViTで「より小さなパッチを使用する」ことが重要!

DINO フレームワーク

 上記の発見は、ラベルのない知識の蒸留の一形態であるシンプルな自己教師ありアプローチとして、DINOというフレームワークの実装につながった。
 その結果、DINOでは、標準的なクロスエントロピー損失を用いて、momentum encoderで構築された教師ネットワークの出力を直接予測することで、自己教師あり学習を簡素化している。
 この手法の興味深い点としては以下のことが挙げられる。

  • 教師データの出力の「センタリング」と「鮮鋭化」のみで破綻を回避することができる
  • 予測器、高度な正規化、コントラスト損失などのその他の一般的なコンポーネントは、ほとんど利点なし (安定性や性能の面で)
  • 特に重要 DINOは柔軟性があり、アーキテクチャを変更したり、内部の正規化を適応なしに、ConvNetとViTの両方で動作することができる!

性能評価

 DINOとViTの相乗効果を検証を行ったところ、ImageNet linear benchmarkにおいて、小さなバッチを持つViTベースで80.1%の top1精度と、これまでを上回る結果を得た!
 また、ResNet-50アーキテクチャでは、DINOがConvNet上で動作することを確認。
 最後に、計算機やメモリの容量が限られている場合に、ViTでDINOを使用するための様々なシナリオについての説明がある。
特に、ViTを用いたDINOのトレーニングは、2台の8-GPUサーバーを3日間使用するだけで、ImageNet linear benchmarkで76.1%を達成し、これは、大幅に削減された計算要件で、同等のサイズのConvNetに基づく自己教師ありシステムを上回る。

スポンサーリンク

この論文の構成

  1. Introduction
  2. 関連研究
  3. Approach
  4. Main Results
  5. Ablation Study of DINO
  6. Conclusion

コメント

タイトルとURLをコピーしました