はじめに
データサイエンスや機械学習っておもしろそう!と思いつつも、どうやって勉強をしたら良いかわからない......と感じた経験はありませんか?ちなみに自分もその一人でした。
この記事では、機械学習ってそもそも何? AIという言葉は知ってるけど詳しいことはわからないというような初学者でも、知識・経験を積んで機械学習に取り組めるようにするために必要な基礎の基礎から学ぶための勉強法を自分の経験をもとに紹介します!(ここで紹介するものは機械学習の中級者以上の方でも基礎知識の復習として活用できるものかなとも思っています)
もともと、Qiita でまとめていた200いいね以上(LGBM)をもらった記事でしたが、このブログではさらに加筆修正を加えた上で紹介していけたらと思います!
概要 (基本的にはこの3stepです)
機械学習とは?深層学習とは?その違いは?といったところからでもスタートできるように3ステップを考えました!
このブログでは、1ステップずつ紹介していきます (今回は、その第3弾です!)
- 基礎知識をつける(単語・用語の理解) ← 前々回の記事
- ライブラリの使い方を理解 ← 前回の記事
- 実際にコンペに挑戦(Kaggle) ← 今回の記事!
これまでの記事はここから
3. 実践Data Scienceシリーズ PythonではじめるKaggleスタートブック (KS情報科学専門書)
Kaggleに登録したら次にやること ~ これだけやれば十分闘える!Titanicの先へ行く入門 10 Kernel ~ と kaggleのチュートリアルの著者2人がタッグを組み、書いたKaggleのチュートリアル本です(もとになっている2つはどちらも人気でわかりやすい本(記事)です!)
これまでに紹介した2ステップでは実践という部分が少し少なかった部分がありますが、やはり実際に使いながら学んでいくことで得られるものも多いと思います。しかし、そうはいってもどこから手をつけていいかわからないというのが本音。そのような中で、この本に沿ってKaggleの初学者向けのチュートリアルである「Titanic」コンペに参加するというのは、はじめの一歩としてはとても良いと思います!
Kaggleとは
Kaggleとは、データサイエンスの目標達成を支援する強力なツールとリソースを備えた世界最大のデータサイエンスコミュニティです。
↑ Devsumi 2018summerでのDeNAの原田さんの資料の中にKaggleとは何かが直観的に理解しやすいページがあったので、引用させていただきます。
簡単な内容紹介
1章 : Kaggleとは?からアカウントの作り方までを説明 (導入に最適)
2章 : タイタニックでのチュートリアル
3章 : 複数テーブル、画像・テキストデータの扱い方の説明
(2章で試したtitanicのコンペ以外の形式のコンペへの導入もされている)
4章 : さらに学ぶためのヒントが書かれたページ
(チュートリアルをやっただけで終わらせない。その先にもつながる内容が書いてあります)
おすすめポイント➀ : サンプルコード
サンプルコードがあがっているので、それにしたがってやっていけば、Kaggleのアカウント登録は必要ですが、ほぼノンコーディングで一通りの処理を実践することもできます。(詳しくはわからないけど、概観をつかみたいというときは、一回実行してみてコードの解釈をしてみるというのもいいかもしれません)
おすすめポイント➁ : 対談記事
著者2人が対談形式でまとめてあるページで、上級者が当たり前としている部分や見方だけでなく、Kaggleをはじめたきっかけや良かったことなど読んでいて、ためになるものが多くあって勉強にもなります。
おすすめポイント➂ : note
Kaggleの周辺知識や+αの知識についてコラム形式でまとめられているので、わかりやすいです。(自分で調べれば出てくる内容であるかもしれませんが、わかりやすくまとめられているので、初学者にとってはありがたいです)
オススメの読み方
- 1章を読みKaggleの概観、イメージをつかむ
- 2章を読みながら実践 titanicをやってみる
- 3章を一読
(複数テーブル、画像、テキストコンペの内容は読んでおいて、該当テーマを実践するときにもう一度読む) - 実際にコンペに参加してみる。
Titanicの次に参加するコンペの選び方や、初心者におススメの戦い方が紹介されているページ(4章)があるので、それに従って参加してみるのもいいと思います!
KaggleのCompetitions Categoriesを整理してみた
↑ Kaggleのコンペのカテゴリーがわかりやすく書いてあります!
コメント