Lean Baseball

No Engineering, No Baseball.

Python

Dashで作った分析ダッシュボードをCloud Runでサクッと運用する

現役選手ドラフトのルールと, 最近のトレード多すぎなアレで現役選手ドラフトの分析を諦めたマンです.*1 それはさておき, 私はつい先日, 「メジャーリーグのデータ分析・可視化をカジュアルにいい感じにやるためのデータ基盤が欲しい」と思い, 以下のような…

PyConJP 2022「Python使いのためのスポーツデータ解析のきほん」のトーク中に来た質問全てにお答えします

トーク中に頂いた質問に答えます 本年2回目のPyConJP 2022振り返りブログです. ※発表及び参加レポ的なふりかえりはこちらになります. 改めて, トークに起こしいただいた皆さま誠にありがとうございました! 会場はもちろん, オンラインや後日アーカイブを見…

PythonとGoogle Cloudを使って年間70万球の野球データをいい感じに可視化・分析するダッシュボードを作った

日本で言えば同じ学年のレジェンド, アルバート・プホルスが通算700号本塁打を打って驚いている人です. ここ最近, (休んでいる間のリハビリがてら*1)PyCon JP 2022の準備および, 来年以降のMLBを楽しく見るために野球データ基盤(ちなみにメジャーリーグで…

StatcastデータとPlotlyを使って「打球の到達位置」を可視化する - オオタニサンの打球の行方は!?

先に言っておくとStatcastデータの仕様を翻訳・解説して例も作ったよという前回エントリーの続きです. 「メジャーリーガーの一挙手一投足を事細かに記録したデータ」であるStatcastは, つい先日10勝20ホーマーというベーブ・ルース以来の(ある種恐ろしい)…

Sparkをサーバー管理せずに使う方法 - Dataproc ServerlessでPySparkを動かしてみました

仕事もプライベートもサーバレスなアーキテクチャでなるべく便利にCloudを使いたいと思ってる人です*1. 最近は趣味の開発(個人開発)の方で, MLBのトラッキングデータ「Baseball Savant」からStatcastのCSVデータを取得 取得したCSVデータを集計・クレンジ…

ちょっと気が早いですが, Cloud Functions第2世代を試してみた - 現バージョンからの移行とその注意点

今日のテーマ ※【2022/8/4更新】正式版がGAとなりました, ブログ記載の内容と異なる所がある可能性があるのでご注意ください&本番などで使っても大丈夫です!&別のブログも書いたのでその話も追加 仕事もプライベートもよくGoogle Cloud(GCP)を使っている…

今いちばんオススメしたいPython本 2022 - 初心者からプロまで仕事に活かせる3冊 + α

2021年も数多くのプログラミングやPythonを扱った素晴らしい書籍とたくさん出会いました. 私はリアルの本屋さんに行くのがとても好きで(ECの本屋さんも好きですが), 技術書のコーナーには必ずと言っていいほど足を運ぶのですが, 年々「Python」というラベ…

エンジニアからデータサイエンティストへのキャリアチェンジのお供に「Pythonではじめる数理最適化」は良い教科書になるかもしれない

良い本良い魚良いお酒でした 秋も深まり, 緊急事態宣言が解除された今日このごろ, お酒を片手に読書がだいぶ捗るようになりました 酒と魚の話はさておき*1, 長いこと友人かつRetty時代の元同僚である岩永さん(とその仲間たち)*2が, 「Pythonではじめる数理…

実践Streamlit & Flask - AIプロジェクトをいい感じにする技術 - PyCon JP 2021で登壇しました+ふりかえり

ハンカチ王子ことYuki Saitoの引退試合を見ながら書いてます⚾*1 それはさておいて, PyCon JP 2021にて, 「実践Streamlit & Flask - AIプロジェクトのプロトタイピングから本番運用までをいい感じにするPythonicなやりかた」というトークをしてきました. 【ス…

scikit-learnで作った雑なモデルをAPIにしてFlask + GAE + Github Actionsでいい感じにデプロイした話 - 迷ったらGAEスタンダードで

日ハムのサヨナラ勝ちで変な声が出た人です. あ, 斎藤佑樹選手お疲れ様でした*1 それはさておき, 今日は毎年参加している「PyLadies Tokyo ○周年記念パーティー(今年は7周年)」でこんなLTをしてきました. Flask + Google App Engine(GAE)でWeb APIをデプ…

データサイエンティストとエンジニアがチームプレイでいい感じにプロダクトをつくるためには? - なんちゃってClean Architectureとテストを添えて

このエントリーを書いてる今日(9/29)と明日で有給消化期間が終わるマンです. 20日間, Banksy展を楽しんだ&新しいメガネを求めて新宿に行った以外, 地元の杉並区〜吉祥寺エリアからほぼ動きませんでした. Stay Home的な意味合いもあるのですが, 10/16(土)…

野球のビッグデータをGCPとPySparkでいい感じに使いやすくしてみた - DataprocとGCFを使った緩いデータ基盤

最近の野球界隈の出来事が斜め上すぎて驚いてるマンです.*1 本業の仕事および, 本業じゃない個人開発や趣味プログラミングにおいて, データの量が多くて 単位やフォーマットが不揃いで それでも仕事(もしくは趣味の分析)をこなすため, いい感じの使いやす…

「実践Django」から学ぶ「プロとして学ぶ・実践すべきWebアプリケーション開発」のこと

PythonでWebアプリケーションをよく作るマンです. 来週(7/19)に発売となる, 「実践Django Pythonによる本格Webアプリケーション開発」の書籍レビューに参加させていただきかつ, 執筆者の@c_bata_さん, 出版元の翔泳社様のご厚意により一冊いただきました. …

仕事する前に知っておくと幸せかもしれないpandasのきほん - read関数にはとりあえずURL渡しておけ

お仕事や, (個人的には)趣味のデータ分析・開発などでpandasをよく使う人です. pandasはPythonでデータサイエンスやデータ分析(解析)をやってると必ずと言っていいほどよく使うライブラリだと思います. お仕事で同僚やインターンが書いたnotebookをよく…

Pythonで仕事をする人のための書籍まとめ2021 - 学習, 業務効率化, アプリ開発からデータサイエンスまで

2020年も多くの素晴らしい技術書がたくさん出ました. その中でも(昨今のトレンド・流行りも手伝ってか)Python本の多さ・充実度合いは目立つものがあります. (このエントリーを執筆した12/19時点で)Amazonの本カテゴリで「Python」と検索すると1,000件以…

Jupyterで計算・分析した何かをアプリっぽくプレゼンするまで - 33分4秒ではじめるStreamlit「雑」入門

サムネイルで出してる内容がそのままこのエントリーのテーマです. Pythonアドベントカレンダー2020の9日目です. JX通信社のシニアエンジニアで, 趣味で野球*1とヘルスケア*2なデータを分析してるマンの@shinyorkeと申します. ちょっとしたデータサイエンスで…

データエンジニアの私が機械学習・データサイエンスでオススメしたいスキルマップと本まとめ - 2020年版

要約すると, データサイエンス・機械学習周りでよく聞かれること&回答を言語化しました. 「データサイエンティストやりたい」「機械学習エンジニアになりたい」というキャリア志望を持つ方は多いと思います. 私の周りでも, 公私ともにそんな志望者の相談を聞…

野球ではじめる機械学習 - 特徴量エンジニアリングとPython, Rを用いた成績予測

本日のPyCon JP 2020にてお話しました以下の発表に関する補足・解説ブログとなります. スポーツデータを用いた特徴量エンジニアリングと野球選手の成績予測 - PythonとRを行ったり来たり このエントリーではスライドのスクショとともに, 参考資料 細かすぎて…

「PythonユーザーのためのJupyter実践入門」はPythonとデータサイエンスをする人の入り口だ

待望のJupyter本, 改訂版来ました! Pythonでデータサイエンスとエンジニアリングするマンとしてかなり待望していた「PythonユーザのためのJupyter[実践]入門 改訂版」がついに来ました.*1 改訂版 Pythonユーザのための Jupyter[実践]入門作者:池内 孝啓,片…

「Pythonによる医療データ分析入門」は分析100本ノック後に必読な探索的データサイエンス本だった

今年読んだデータサイエンスおよびPython本の中でも最良の一冊でした. ホントに待ち望んでいた一冊でした. 実は密かに楽しみにしてた(待ち望んでいた)*1, 「Pythonによる医療データ分析入門」, 一通り読ませていただきましたので, Pythonによる医療データ…

小さいプロダクト開発におけるGCP利用の勘どころ - 個人的なプロダクトを三日でローンチした話

私個人の話なのですが. 最近は仕事でAWSやGCPのサーバレスアーキテクチャにふれる機会が増えた*1と同時に, 自分が気になる世の中のニュース(グルメとかいろいろ)だけをいい感じに集めてまとめて読みたい その中でも特に⚾, 速報とかいい感じに通知させたい …

RESTful APIをシュッと作る技術 - PythonとFastAPIでバックエンドを5時間ちょいで作ってみた

久々に開発ネタです. 大晦日ハッカソン2019 #大晦日ハッカソンで, 野球のデータをシュッと見るためのDashboardを作る(理由は後ほど). そんなDashboardのBackend APIをシュッと開発する. を目標に立て現在進行系でやってるのですが, 午後の進捗その2Docker…

Pythonを学ぶときに読むべき本2020年版 - 初心者からプロになるために

毎年恒例, Python本と学び方の総まとめです! プログラミング, エンジニアリングに機械学習と今年(2019年)もPythonにとって賑やかな一年となりました. 今年もたくさん出てきたPythonの書籍や事例などを元に, * 初心者向けの書籍・学び方 * 仕事にする方(…

「アイツと似ている」野球選手をPythonでいい感じにスコア化してみた - 2020年注目の選手の特徴とは

2019年のプロ野球が終わり, セイバーメトリクスと分析・解析には良いシーズンになりました. 改めましてこんにちは. @shinyorkeと申します. このエントリーでは, セイバーメトリクスで「打者の類似性」を算出する方法論と実装例(なおPython) メジャーリーグ…

RからPythonへのお引越しでわかること - Jupyterと世界の野球から理解する

サムネイルがまんま結論の一部です&タイトルでビビッと来たアナタ(+野球好き)が対象読者です. ちょっとやりたいことがあって, やりたいこと⚾のサンプルがたまたまRだった このあと自分で分析したりなにか作るんやったらPythonでやりたい せや!RからPython…

「野生」への原点回帰と「新生」に向けての挑戦 - PyCon mini Hiroshima 2019レポート

写真はきっと珍しいパック中工事中の厳島神社です.*1 終了からちょっと経ちましたが, 「感想ブログを書くまでがPyCon」なので書きます. 10/12(土)に開催されたPyCon mini Hiroshima 2019に登壇者および個人スポンサーとして参加してきました. hiroshima.py…

イチ参加者としてのPyCon JP 2019 - 思ったこととか色々

PyCon JP 2019終わりましたねと. 参加された皆さまホントお疲れさまでした! 初めてフツーに参加しました 今年「あえて」一般参加者として初めてPyCon JPを堪能しました. 一応,毎年参加レポ残してるので今年も残したいと思います. TL;DR 数年に一度であれば,…

コワクナイWebクローリング&スクレイピング - 初心者とPython使いのための作法とノウハウ

名著です,まじでオススメ 個人的にすごく気に入っているかつオススメな「Pythonクローリング&スクレイピング」の増補改訂版が出てました. Pythonクローリング&スクレイピング[増補改訂版] -データ収集・解析のための実践開発ガイド作者: 加藤耕太出版社/メー…

Pythonもくもく自習室, 2年目のポエム

先日, 7/27に開催した「Pythonもくもく自習室 #21(#rettypy)」で無事2年目を終え, 3年目に突入しました. 運営を協力してくれている, iwanaga-san, takeno-san, tsutsumi-sanおよびその他のメンバーの方々.*1 気前よく, 広々としたスペースをいつも提供してく…

退屈なことはPythonにやらせる...前に考えるべきこと

機械学習, データサイエンスを志向してPythonを勉強したり,この辺のエントリーで本を読み漁ったりすると*1, もしかして, 私の仕事ってプログラミングで楽になるのでは!? と気がつく(もしくはそういう記事・本を読んで触発される)瞬間があるかと思います, …