今回は、"PyTorch Tabular: A Framework for Deep Learning with Tabular Data "という論文について紹介していきます!
PyTorch Tabular: A Framework for Deep Learning with Tabular Data
In spite of showing unreasonable effectiveness in modalities like Text and Image, Deep Learning has always lagged Gradient Boosting in tabular data - both in po...
論文情報
著者 : Manu Joseph
(Submitted on 28 Apr 2021)
ひとこと紹介
PyTorch で表データの分析を容易にするフレームワーク " PyTorch Tabular " を提案!!
この記事では、"PyTorch Tabular"が提案された論文について背景や開発意図などをまとめていきます!
イントロダクション
表データにおけるDeepLearning
テキスト分析や画像領域ではDeepLearningが活用されている一方、表形式のデータではあまり活用されていない。 Kaggleなどを見てみると、勾配ブーストの決定木(GBDT)などがよく見る手法ではあるが、他に次のようなアーキテクチャも提案されている。
- Deep Forest
- TabNN
- TabNet
- Neural Oblivious Decision Ensembles (NODE)
なかでも、TabNetやNODEは、GBDTのベースラインを上回ることが示されている。
PyTorch Tabular
現在のDeep Learningモデルの学習には、複雑な部分が残っている。
そこで、この論文で提案されている PyTorch Tabular は、表データを用いたDeep Learningを、実例や研究に合わせて簡単に利用できるようにすることを目的としたライブラリである。
(PyTorch、PyTorch Lightning、Pandasの上に構築)
このライブラリの設計の中核となる原則は以下の通り
▪ 抵抗感の少ないユーザビリティ
▪ 容易なカスタマイズ性
▪ スケーラブルで簡単にデプロイ可能
開発者の意図
- PyTorch Tabularは、ニューラルネットワークを扱う際の「Software Engineering」の部分をできる限り簡単かつ楽にし、モデルに集中できるようにしように!
- 表空間での様々な開発を、異なる最先端モデルで動作する統一されたAPIを持つ単一のフレームワークに統一
- 簡単に拡張できるBaseModelを提供し、Deep Learningの研究者が 表データ用の新しいアーキテクチャを作成するのを支援
この論文の構成
- Introduction
- 背景・関連研究
- Library Design
- 実装済みモデルと統一されたAPI
- 結論
コメント