本年2回目のPyConJP 2022振り返りブログです.

※発表及び参加レポ的なふりかえりはこちらになります.

改めて, トークに起こしいただいた皆さま誠にありがとうございました！

会場はもちろん, オンラインや後日アーカイブを見てくださった方も居たみたいで感謝感激です🙏

こちらのコンテンツですが, 実は質疑応答の質問及び（自画自賛ですが）回答が非常に秀逸でして,

#pyconjp_1 質疑応答がホント、千本ノック状態だったが、

・デモがサクサク動いて凄い（MemoryStore for Redis入れてよかったぜ）
・「GCPでデータ処理のサービスをどう選べば？」→「あるよっ（田中要次の声でスッとAppendixを披露）」

我ながら準備良すぎて素晴らしいってなりました⚾
— Shinichi Nakagawa / 中川伸一 (@shinyorke) 2022年10月15日

非常に気持ちよく楽しませてもらいました, 過去のPyConJP, 個人的にはPyConJP以外のイベント含めて質疑応答がこんなに気持ちいいのは初めてでした！*1

せっかくなので,

当日お答えした回答を改めて言語化した上で, 時間の都合上答えられなかった質問にも答えよう！

というのがこのブログエントリーの主旨となります.

なお, Slidoで頂いた質問コメントはPyConJPスタッフのおかげで無事回収できました.

#pyconjp_1 slidoで頂いた質問全てを受け取れました！(スタッフさんありがとう)

時間切れで回答できなかった質問含めブログあたりで回答します、お待ちをー

Python使いのためのスポーツデータ解析のきほん - PySparkとメジャーリーグデータを添えて #PyConJP 2022 https://t.co/g7GfLcR0yK
— Shinichi Nakagawa / 中川伸一 (@shinyorke) 2022年10月17日

残務処理もある中, ご対応頂きありがとうございました！

なお, 本日のラインナップはこんな感じです.

TL;DR
「Python使いのためのスポーツデータ解析のきほん」質問への回答

TL;DR

ベストプラクティスは発表者の回答にはありません. あなたのやりたいことの中に隠れています.

これは設計も料金も一緒.

「Python使いのためのスポーツデータ解析のきほん」質問への回答

質問の回答ですが,

データ処理（Sparkを使うかほかを使うか?みたいな話）
Google Cloud（サービスの選び方, コスト視点）
野球
その他

以上に分類した上で回答します.

なおコメントは原則原文のまま載せています.

データ処理

PySparkを使う基準

この2つ言ってることがほぼ一緒なのでまとめてお答えします.

PySparkを使う場合の基準となるデータ量はどれぐらいでしょうか？

データサイズが大きくなるとsparkで実行する価値があるんじゃないか、ということでしたが、データサイズが大きくなればなるほどBigQueryでデータ加工したほうが強いイメージだったのですが、sparkの方がいい部分としてどのようなことがあるでしょうか?

ざっくり答えると,

私が思う答え「今回のユースケースであればPySparkである必要性が無い」
- ただ使いたいから使った
- CfPも通ったし
一度の処理量でPandasじゃ無理な範囲や！！！ってなったらSpark（PySpark）を検討したら良いのでは?
なお, Dataprocとは別に「Spark in BigQuery」というBigQuery上でSparkを使う機能がいずれ提供されるのでそっちで全然いい説ある（使い方次第ですが）.

データ量やパフォーマンスを元にしたライブラリの使い分けはこちらもすごく参考になります.

並列化の有無による変化は?

Sparkといえば並列処理なのでこの質問は確かにありますねと.

PySparkを使うことで、並列化しない場合と比較してどの程度処理時間が短縮できるか気になりました

結論から言います, 短縮できるか否かは（質問された）あなたの使い方・設計次第なので答えることができません.

まず, 今回のデータは年間で1GB未満, 一日あたりのデータ量が10MBいかないぐらい（処理するレコード数は多くて5,000前後）なので「並列化するメリット」は無いと判断しやりませんでした.

ただこれはあくまで私の使い方・解きたいISSUEがそれぐらいのデータだったので, あんまり参考にならないんじゃないかなと思います.

良質な答えとしては, まずご自分で検証してベンチマークを取ってみる.

なのかなと.

Google Cloud

大前提として, Google Cloud（に限らず大抵のPublic Cloud）は料金計算ツールが存在するのでご自分で計算が可能です！

cloud.google.com

こちらを使うことで料金は計算可能です.

という前提の元, 自分の事例を元に回答します.

月額料金

差し支えなければGCPの月額料金を教えて欲しいです。

今回の構成だと以下のとおりです.

Memorystore（Redis）を使わなければ$5未満
Memorystore（Redis）を使うと最低でも$20, 推定$50程度

質疑応答では「5ドルでMemorystoreが高かった」的な答え方をしましたが, 若干ミスリードした感あるので改めて訂正いたします🙇🏻

これの細かい話をちょっとすると,

APIでアクセスするBigQueryやFirestoreと異なり, Memorystoreはミドルウェアのクライアントを使ってアクセスする必要がある（今回はBackendにredisのクライアントが必要だった）.
MemorystoreおよびGoogle Cloudの仕様上, サーバレスVPCアクセスの構成 *2が必要となるためその分のコストも重なる.

という所でコストがかかりました.