本日のPyCon JP 2020にてお話しました以下の発表に関する補足・解説ブログとなります.
スポーツデータを用いた特徴量エンジニアリングと野球選手の成績予測 - PythonとRを行ったり来たり
このエントリーではスライドのスクショとともに,
- 参考資料
- 細かすぎて本編で話さなかったハナシ
- もし真似してやるならこれぐらいは読んでおいたほうがいいよ
的な話を中心に, 過去記事のreference等を掲載しています.
スポーツデータを用いた特徴量エンジニアリングと野球選手の成績予測
これを読むと⚾️で特徴量エンジニアリングと機械学習がいい感じにできるかと思います👍
スタメン
CM
いきなり宣伝で恐縮ですが汗
JX通信社
月並みですが, Techブログはぜひ!
また, 本日は午前中に@YAMITZKYさんがTalkをしました.
Pythonもくもく自習室 #jisyupy
以前は #rettypy としてやっていたもくもく会です.
なお次回は9/19(土)にオンライン開催します, 来てね.
特徴量エンジニアリングについて
今回の発表の第一の話でした.
まず, 特徴量エンジニアリングについては以下の名著を参考にしました.
機械学習のための特徴量エンジニアリング ―その原理とPythonによる実践 (オライリー・ジャパン)
- 作者:Alice Zheng,Amanda Casari
- 発売日: 2019/02/23
- メディア: 単行本(ソフトカバー)
これはマストハブです, 説明とかアプローチが良いです.
野球データの特徴量
野球の特徴量についてはこのブログで執筆した以下のエントリーが下敷きになっています.
どれも読み応えあるエントリーですが参考になると思います.
Python, R, SQLの違い
これも去年執筆したエントリーが元になっています.
それぞれの違いと特徴量エンジニアリングにおける視点で試したことを書いています.
野球ではじめる機械学習
まず, 全編を通してプロジェクトの進め方・ピボットのやり方は「仕事ではじめる機械学習」を参考にしました.
Planning
PECOTAはウィキペディアに書いてることが一番良い感じかもです.
そしてネイト・シルバーがその後やったことはシグナル&ノイズで話が載ってるのでこれはオススメです.
- 作者:ネイト シルバー
- 発売日: 2014/01/17
- メディア: Kindle版
また, Analyzing Baseball Data with Rはこちらです.
ちょっと高い書籍ですが約立つこと待ったなし.
Data Engineering
主にBigQueryのはなし.*1
エンジニアリング的にはBigQuery Client使おうという直球勝負でした.
これの元ネタはJX通信社Techブログにあります.
Feature Engineering
特徴量を出すために泥臭くやったところ.
これは特段追加コメント無いな...割愛.
Clustering
ANNでクラスタリングしました.
これは発表中でも触れたとおりこのブログでやってました.
そして本編の発表では寄り道になるので端折りましたが, 昔は「類似性スコア」という野球独特のアルゴリズムを使ってクラスタリングやってました.
Predict
その名の通り成績を作るタスクです.
マット・チャップマンはオークランド・アスレチックスの若手三塁手で攻守ともに優れたスーパースターです.
これも最初期のアルゴリズムはこんな感じでやってました.
ちなみに上記ブログのやつは発表したモノとちょっと違うアルゴリズムでやってます.
が, 雰囲気でいい感じにできたのでこれでPyCon大丈夫や!ってなりました.
Presentation
今多分おそらく流行っているStreamlitを使おう!と思い立ちやってみました.
これは, Pythonもくもく自習室で@takapyさんのプレゼンをみて真似してやろうと決意し, やってみたら案外爆速でできて笑っちゃいました.
今回やったネタはいずれちゃんとこのブログでも書くつもり.
結び
特徴量エンジニアリングについてのまとめと個人開発について記載しました.
特徴量エンジニアリング
この辺は特徴量エンジニアリングおよび前処理大全に詳しいです.
機械学習のための特徴量エンジニアリング ―その原理とPythonによる実践 (オライリー・ジャパン)
- 作者:Alice Zheng,Amanda Casari
- 発売日: 2019/02/23
- メディア: 単行本(ソフトカバー)
前処理大全[データ分析のためのSQL/R/Python実践テクニック]
- 作者:本橋 智光
- 発売日: 2018/04/13
- メディア: 大型本
この2冊をいい感じにやったらイケると思います.
個人開発と機械学習
これは以前書いたこちらのエントリーが下敷きになっています.
個人開発はデータサイエンスでも有効ですやってきましょ!
個人開発をはじめよう!クリエイター25人の実践エピソード (技術の泉シリーズ(NextPublishing))
- 発売日: 2020/04/03
- メディア: Kindle版
その他の参考書籍
アルゴリズムの選定・実装は機械学習図鑑が参考になりました.
ご清聴ありがとうございました
PyCon JP 2020の感想やその他の話は別途エントリーで触れたいと思います!
ご清聴・ご視聴ありがとうございました🙇♂️
*1:ホントは会社の仕事ネタでデータ基盤の話をCfPとして出していたのですが, そっちが落っこちたのでその名残でこの項を比較的厚めにやりました.