Lean Baseball

No Engineering, No Baseball.

PySpark

PyConJP 2022「Python使いのためのスポーツデータ解析のきほん」のトーク中に来た質問全てにお答えします

トーク中に頂いた質問に答えます 本年2回目のPyConJP 2022振り返りブログです. ※発表及び参加レポ的なふりかえりはこちらになります. 改めて, トークに起こしいただいた皆さま誠にありがとうございました! 会場はもちろん, オンラインや後日アーカイブを見…

PythonとGoogle Cloudを使って年間70万球の野球データをいい感じに可視化・分析するダッシュボードを作った

日本で言えば同じ学年のレジェンド, アルバート・プホルスが通算700号本塁打を打って驚いている人です. ここ最近, (休んでいる間のリハビリがてら*1)PyCon JP 2022の準備および, 来年以降のMLBを楽しく見るために野球データ基盤(ちなみにメジャーリーグで…

Sparkをサーバー管理せずに使う方法 - Dataproc ServerlessでPySparkを動かしてみました

仕事もプライベートもサーバレスなアーキテクチャでなるべく便利にCloudを使いたいと思ってる人です*1. 最近は趣味の開発(個人開発)の方で, MLBのトラッキングデータ「Baseball Savant」からStatcastのCSVデータを取得 取得したCSVデータを集計・クレンジ…

Google CloudでSparkを使う環境をサクッと手に入れる - DataprocをTerraformでいい感じに管理しつつ, JupyterでBigQueryを使ってみる

仕事はGoogle Cloudの取り扱い, 個人開発は野球のデータ分析基盤を作ることに一生懸命な人です. 最近はプロ野球もメジャーリーグも推しチームを観るのが辛いです*1. 趣味, いわゆる「個人開発」でやってる野球データサイエンスでSparkを楽して使うため, 久々…

野球のビッグデータをGCPとPySparkでいい感じに使いやすくしてみた - DataprocとGCFを使った緩いデータ基盤

最近の野球界隈の出来事が斜め上すぎて驚いてるマンです.*1 本業の仕事および, 本業じゃない個人開発や趣味プログラミングにおいて, データの量が多くて 単位やフォーマットが不揃いで それでも仕事(もしくは趣味の分析)をこなすため, いい感じの使いやす…