Pandas
お仕事や, (個人的には)趣味のデータ分析・開発などでpandasをよく使う人です. pandasはPythonでデータサイエンスやデータ分析(解析)をやってると必ずと言っていいほどよく使うライブラリだと思います. お仕事で同僚やインターンが書いたnotebookをよく…
2019年のプロ野球が終わり, セイバーメトリクスと分析・解析には良いシーズンになりました. 改めましてこんにちは. @shinyorkeと申します. このエントリーでは, セイバーメトリクスで「打者の類似性」を算出する方法論と実装例(なおPython) メジャーリーグ…
こういうことやぞ サムネイルで描いた事がこのエントリーの全てです. Pythonでは、「pandas」というライブラリを使ってデータ分析や解析をすることが非常に多いです. でも、「利用方法(またはユースケース)」に合わせた入門ってあんまりない気がします. と…
※あくまでもイメージです(適当) 仕事じゃなくて、趣味の方の野球統計モデルで詰まった時にやったメモ的なやつです.*1 一言で言うと、 約19万レコード(110MBちょい)のCSVの統計処理を70秒から4秒に縮めました. # 最初のコード $ time python run_expectan…
※2017/12/19 20:45 この分析結果の詳細スライドを追加 Top写真(サムネイル)は雰囲気です,あまり気にしなくてOK.*1 Jupyter Advent Calendar 2017 19日目の記事です. ここでは,本年私がやった野球ネタの主に分析環境まわりについての話をサンプルや選定理由…
今年も野球は終わりですね*1...こんにちは,野球の人です. このエントリーは,PyCon JP 2017で発表した内容の続きであり, 前回のエントリーの続きでもあります.*2 Scrapyでスクレイピング&SQLite3に保存したデータを, Jupyter pandas matplotlib で分析と可視…
一ヶ月ぶり、こちらのエントリーの続編です。 最強の野球オープンデータ「Retrosheet」をPython+Vagrant+Ansibleで誰でも使えるようにしました - Lean Baseballshinyorke.hatenablog.com こちらで作ったデータですが、その後も粛々とデータの分析に使ったり…