はじめに
データサイエンスや機械学習っておもしろそう!と思いつつも、どうやって勉強をしたら良いかわからない......と感じた経験はありませんか?ちなみに自分もその一人でした。
この記事では、機械学習ってそもそも何? AIという言葉は知ってるけど詳しいことはわからないというような初学者でも、知識・経験を積んで機械学習に取り組めるようにするために必要な基礎の基礎から学ぶための勉強法を自分の経験をもとに紹介します!(ここで紹介するものは機械学習の中級者以上の方でも基礎知識の復習として活用できるものかなとも思っています)
もともと、Qiita でまとめていた200いいね以上(LGBM)をもらった記事でしたが、このブログではさらに加筆修正を加えた上で紹介していけたらと思います!
概要 (基本的にはこの3stepです)
機械学習とは?深層学習とは?その違いは?といったところからでもスタートできるように3ステップを考えました!
このブログでは、1ステップずつ紹介していきます (今回は、その第2弾です!)
- 基礎知識をつける(単語・用語の理解) ← 前回の記事
- ライブラリの使い方を理解 ← 今回の記事!
- 実際にコンペに挑戦(Kaggle)
これまでの記事はここから
2.データサイエンスのためのPython入門講座
かめ@米国データサイエンティスト さんのブログ
かめさんのブログ自体、勉強になることが多く書いてあるので時間を見つけて読んでみると良いですが、特にオススメなのがこの講座。機械学習をやるときに必ず使うと言って良いライブラリが体系的にまとめられていてとても理解しやすいです。(この後紹介するKaggleスタートブックもこの記事を読んでからだと理解がさらに進むと思います)
簡単な内容紹介
(この内容紹介については、ブログに書いてある「本講座の目的」の部分がわかりやすく書かれていたのでその部分から引用します)
本講座では,Pythonでデータサイエンスをするにあたり必要な環境構築・Pythonの基本・データサイエンスに使うPythonライブラリの基本・その他データサイエンスで頻出のPythonモジュールの’基本の’使い方をマスターすることを目的としています.
この講座で目指すところは
・Pythonでデータサイエンスに必要なデータ処理をするためのツール・ライブラリ・モジュールの使い方の基本をマスターする
・Excelなどの表計算ツールを使うことなくデータ処理ができる
・画像ファイルなどのデータファイルに対して処理ができる
・日頃のデータ処理(Excelなど)をPythonで自動化できる
といったところです.一部統計学についても触れていますが,「データサイエンスを学べる講座」ではなく「データサイエンスのためのPythonを学ぶ講座」であることに注意してください.
ただ,講座の中にはいたるところに「現場で使えるテクニック」や「データサイエンスの頻出テクニック」をふんだんに盛り込んでいるため,広義の意味でのデータサイエンスを学ぶことはできます.
とにかくわかりやすく書いたつもりです.難しい単語はあまり出てきませんし,かなり噛み砕いて説明しているので途中で止まることはないと思います.
また,教科書的に教えるのではなく,「現場では実際どう使うのか」をいたるところに盛り込んでいます.そのため「ある程度体系的に網羅的にかつ実戦で使える内容」になっています.
紹介されているものとしては、
- pythonの基礎
- NumPy (数値計算に用いるもの)
- Pandas (データの操作や解析をするためのもの(Excelで行うような表計算がより早くできる))
- matplotlib(グラフ描画用のもの)
- Seaborn(matplotlibと同様、グラフが書けるがよりきれいに簡単に書ける)
- その他の便利ライブラリ・モジュール等
オススメの読み方
-
まずは一読 (鉄則です!)
-
これは1と同時に行っても良いと思いますが、手を動かして実行結果や動きを学ぶ。(読んでいるだけだと身につかないことも多いと思います)
→ここで題材として取り上げられているKaggleのtitanicというコンペはこの後に紹介するKaggleスタートブックのチュートリアルとしても行うので、あわせて実行できると理解もさらに進むと思います。 -
繰り返し読む+ときどき戻って読む
コメント