次元削減といっても、種類はさまざまありますよね!今回と次回の記事に渡って、次元削減について簡単にまとめていきたいと思います! また、この記事では理論部分は省略した上で説明していきます。
- 線形 手法 (今回!)
- 非線形 手法 (次回はこちらです)
次元削減の線形手法
元のデータを低次元空間に射影していく手法についてまとめていきますが、今回はその中でも「線形」に射影する方法について取り上げていきます!
また、主成分分析(PCA)と比較しながら、それぞれの手法についても紹介していきます!
Google Trends にて今回まとめる4つの手法について調べてみると、下の図のようになりました!
主成分分析 が下降傾向ではあるものの、依然として一番注目されていることになりますね。
主成分分析 (PCA)
Principal Component Analysis の略で PCA とよく略される手法で、教師なし学習の1つ。
目的としては、高次元空間におけるデータ分布を最もよく近似することができる線形部分空間を求めることにある。近似の良し悪しについては下記の基準で考えることができる。
- 分散最大基準
- 平均二条誤差最小基準
どちらを行っても解は一致する
因子分析 (FA)
Factor Analysis の略。主成分分析(PCA)と同じく、次元削減の手法の1つであり、よく似ているところもあるが、目的の部分で異なるところがある。
データの次元を削減するだけではなく、変数間での相関や共分散について説明するための潜在的な変数(因子)を求めることも目的としている。
線形判別分析 (LDA)
Linear Discriminant Analysis の略
主成分分析(PCA)では、分散が最大となるように探索していくが、この線形判別分析ではクラスを判別するための「決定境界」とある直線を求めていく手法。
この中で有名な手法としては、Fisher 判別分析がある。
切り捨て 特異値分解 (Truncated SVD)
SVD は、singular value decomposition の略。別名 LSA (潜在意味解析)とも言われる。
この手法では、PCAと同様の行列因子分解の手法です。しかし、PCAは共分散行列に対して分解を行うのに対して、 Truncated SVD ではデータ行列に対して行います。
コメント