それでは毛玉諸君、これにて失敬

日々の精進を備忘録的に綴ります。

【読書感想文】kaggleのチュートリアル

専業kagglerである

カレー🍛専業kaggler (@currypurin) | Twitterさんが販売されていた

kaggleのチュートリアル第4版を購入(1500円)して読んでみました。

購入の経緯

Datacampで機械学習について勉強していたが、そろそろデータ分析を実践してみたいなーと思っていた。

それこそDatacampはデータ分析のHow toとしてはかなり優秀で、よく利用されるライブラリなどの基本的な使い方、問題への取り組み方、pythonの基本的な文法は一通り学ぶことができる。

あとは自分で特徴量を探す、学習モデル最適化などの手法を実際にやってみたい!とムラムラしていた。

 

そんな僕にはkaggleがピッタリだと思って、前から関心はあった。あったのだが、なかなか初心者にはハードルが高くとっつきにくかった。

いくつかkaggleの解説記事を読んでみたが、kaggleについての解説は少なく、ほとんどはtitanicのデータを使用して分析の一連の流れを紹介するものであり、kaggleのサイト自体については謎のままだった。

 

@currypurinさんは前からチェックしてて、専業kagglerになって半年足らずでkaggle masterになったむっちゃくちゃすごい人。

そのすごい方がkaggleのチュートリアルをnoteで有料で公開していたので、これを期にkaggler参入したいと思い、買ってみました。

感想

第1部 kaggleについて

正直初心者にはここが一番ありがたかった。

kaggleについて体系的に纏まっていて、これ1冊でサイトについてはほとんど網羅できるんじゃないか?という内容。かなり充実している印象。

 

第2部 データ分析の概要(titanicを使って)

メインの分析に関わる内容。

特徴量を探り当てていく過程がとても分かりやすく参考になる。グラフ作成はseabornを利用していた。これまでmatplotlibを使ってたけどこっちのほうが使い勝手良さそうだな。

後半は流行りのLightGBMでモデル作成。最後のまとめで、どうすればスコアを上げられるかという考察が書かれており、これを参考に自分でもtitanicをいじいじしてみたいと思った。

「titanicのようなシンプルなコンペをスムーズに出来ると他のコンペも参加できるようになる!」とのことなので、titanicをボコボコに出来るまでの実力を身に付けていきたいところ。

 

付録(たぶんこれがメイン)

過去のコンペでの金メダル獲得の経緯など。実際のコンペは少しでも順位を上げるための努力、粘り強さが必要だな~と思った。

Dの寄稿によるHome creditコンペの参戦記はかなり面白い。徐々に順位を上げていくとともにレベルアップしていく様子が分かる。てか短期間で成長しすぎて怖い…

とにかく1サブミットは参考にしたいな~と思った。

 

全体としては、kaggleを始めるにはこの1冊でほとんど網羅されている印象だった。

これを読んで、「今の自分にできないこと」が明確になった気がする。特にLightGBMについてはパラメータ含めて原理がちんぷんかんぷんだった。

その辺をうまく勉強で埋めつつ、早めにkaggleデビューしたいと思った。

個人的には買ってよかった!すごく満足!というまとめ。