DumbleDR : 次元削減の Projection Quality を定量的に考える!!

論文まとめ

今回は、"DumbleDR: Predicting User Preferences of Dimensionality Reduction Projection Quality"という論文について紹介していきます!

DumbleDR: Predicting User Preferences of Dimensionality Reduction Projection Quality
A plethora of dimensionality reduction techniques have emerged over the past decades, leaving researchers and analysts with a wide variety of choices for reduci...

論文情報

著者 : Cristina MorariuAdrien BibalRene CuturaBenoît FrénayMichael Sedlmair
(Submitted on 19 May 2021)
スポンサーリンク

ひとこと紹介

 次元削減手法をただのブラックボックスとしない!!
次元削減した際の評価を人間の選択と比較しながら、定量化!

スポンサーリンク

イントロダクション

DRとは?

 今回の論文では、「次元削減」の技術が用いられたものになります。
また、論文中に 次元削減(Dmensionality Reduction)を DRと略している部分が多いので、この記事でも次元削減のことをDRと略して表記することとします。

 次元削減 (DR) は、データ探索の際に広く使われているものであり、最近ではその手法も多様化しており、主成分分析(PCA)や多次元尺度構成法(MDS)、 t - SNE 、UMAPなど多くありますが、それらの紹介もまたできたらと思っています!

次元削減後の評価

 さて、今回取り上げる次元削減(DR)についてですが、よく行うプロセスとしては2次元に圧縮した上で散布図に可視化し、それらの中から評価していくという方法です。
 しかし、多くの場合はブラックボックス的なメカニズムで使用されているものも少なくない。
そこでこの論文では、射影の評価を定量的にまとめるべく、機械学習・可視化の両観点から自動的に最適な射影を選択するための quality metrics を提案しているので、それを紹介していく。

研究の目的

 この論文では、次元削減や散布図の可視化のための quality metricsに関するこれまでの研究と、
projection quality に関する人の判断を理解するための研究をつなぐことを目的としている。
 また、文献にある既存の metrics がどの程度ユーザの好みを定量化できるかを評価する。
そのために、広く使われている次元削減(DR)技術の計算に使用されている画像のコレクションを集め、合計で11 の 画像セットを用いているが、上述のDR技術の異なるパラメータ化によって25の投影が計算している。
( 調査 )
54人のユーザーを対象とした調査を実施。上記の投影法に対する好みを調査
→ 既存の quality metrics によって好みが どの程度 表現できているのか?

 これらは「様々な quality metrics の組み合わせの関係を用いて人間の判断を予測する」という教師あり学習の問題として捉えることができる。

 この問題を解くために機械学習モデルを使用して、これらのメトリクスをどのように組み合わせるべきかを計算していく。その目的は、ユーザーが好む可能性の高い予測と、その理由を説明できるモデルを作成し、提供することです。その理由としては以下の通り。

  1. 教師あり学習のモデルを構築する
    ユーザーの認識に基づいた複合的な指標を導き出すことができる
    この指標を用いて、一般的に面白いと思われるプロジェクションを選択することができる
    これは、多くのDR技術を検討している場合や、調整すべき非自明なハイパーパラメータが複数あるDR技術の場合に特に重要となる。
  2. どの quality metrics が重要かを比較することができる!

Contributions

 この論文でのContributionsについては、下のように書かれている。

  • 次元削減 (DR) 投影における主観的な好みに関する54人の参加者によるユーザー調査からのデータの収集と分析
  • 定量的な分析により、下記のことを行った
    (a) DRプロジェクションを選択する際のユーザーの好みを説明
    (b) quality metrics による好みの予測の実現性を明らかに
    (c) どの機械学習と可視化の metrics がそのために重要であるかをよりよく理解する。
    そのために、quality metrics を組み合わせて、未知のデータに対するプロジェクションのユーザーの好みを予測できる3つのモデリングアプローチを使用し、どのアプローチが最も優れているかを分析
  • DumbleDRは、最も性能の高いモデルを使って新しいデータセットの投影結果をランク付けし、どの metrics が結果のランク付けを促進したかを示す概念実証のウェブツールである
スポンサーリンク

この論文の構成

  1. Introduction
  2. 背景・関連研究
  3. User study ・ データ収集
  4. ユーザの好みのモデリング
  5. DumbleDR
  6. 限界と将来の研究
  7. 結論

コメント

タイトルとURLをコピーしました