読者です 読者をやめる 読者になる 読者になる

Lean Baseball

Engineering/Baseball/Python/Agile/SABR and more...

メジャーリーグの一球速報データをPyDataできるようにしてみました(まだ途中) #大晦日ハッカソン

安定版の開発が終わったら改めて報告しますが、とりあえず出来たところまで.

#大晦日ハッカソンの成果発表となります!

やったこと

  • MLB一球速報データをcsvのデータセットとして落とすコードを作った(後述).
  • PyData環境(Jupyter, pandas, matplotlib)で可視化するようにしてみました.

作ったもの&準備

一球速報のデータセット作成

一球速報の元ネタとなっているpitch f/xのデータをダウンロード、ゴニョゴニョと前処理をしてcsvに落とすコードを書きました.

github.com

R言語の野球ライブラリ「pitchRx」のPython版として開発を始めました.

11月末から少しずつ作って、今夜ようやっと最初のデータセットを手に入れるところまで来ました(^o^)

#大晦日ハッカソンの一日で開発したわけではないですw

ライブラリの解説、データの紹介は来年別の機会に!

可視化環境

基本的にこれだけです.

Python 3.5.1が動く環境を想定(pyenvとpyenv-virtualenvで作りました)

$pip install jupyter pandas matplotlib

インストールができたらjupyter notebookを起動します.

$jupyter notebook

Pythonのエコシステム素晴らしい!

成果

岩隈久志ノーヒットノーランを決めた試合の投球データ(116球)を色々といじってみました.

こんな感じでグラフ出てきました!うまく行ったっぽいです.

f:id:shinyorke:20151231234341p:plain

細かいバグや分析がまだ残ってるのでこれは来年やろうと思います.

皆様良いお年を!(ギリギリセーフかな?w)