Lean Baseball

No Engineering, No Baseball.

データサイエンス

メジャーリーグの守備できるマンとそうでもないマンの違いは?外野守備能力の可視化と分析やりました.

新庄剛志氏(元BIG BOSS)の現役時代の守備に憧れて野球が大好きになった人です. エグい守備範囲, 糸を引くような速くて美しくて強いバックフォームと強肩, どれも完璧でしたよねと*1. どうしても気になる外野手の守備, なんとか評価と可視化ができないかな…

野球好きとデータ好きのためのStatcastデータ入門 - スポーツデータ解析の第一歩

【2022/8/13更新】打球位置のプロット例を追加しました(解説ブログのリンクを含む) プライベートの時間はウイニングポスト9*1で自家生産の馬を育てるか, 野球データと戦っている人です. 野球のデータは見れば見るほど面白いです, どれぐらい面白いかと言う…

Google CloudでSparkを使う環境をサクッと手に入れる - DataprocをTerraformでいい感じに管理しつつ, JupyterでBigQueryを使ってみる

仕事はGoogle Cloudの取り扱い, 個人開発は野球のデータ分析基盤を作ることに一生懸命な人です. 最近はプロ野球もメジャーリーグも推しチームを観るのが辛いです*1. 趣味, いわゆる「個人開発」でやってる野球データサイエンスでSparkを楽して使うため, 久々…

野球ファン目線での野球AI開発と実践 - 突然ですが"成績"占ってもいいですか?

日米ともに突然の加藤球投高打低時代が戻ってきて今年の野球面白すぎでは?と思ってるマンです.*1 野球をテーマにした趣味プロジェクト・個人開発を始めてから実は10年が経とうとしているのですが, つい先日「これは最高傑作なのでは!?」っていうネタが完成…

「実践的データ基盤への処方箋」から読み解く「データを扱うビジネスパーソン」のキャリアパス

なんやかんやで, ITコンサルタント(復帰)生活から半年経ったマンです. マネジメントからアーキテクチャ, はたまた技術的なLTまでやらせてもらえて楽しく過ごしております*1. 昨年の話になりますが, コミュニティーやその他の活動で色々とお世話になってる …

推しは推せるときに推せ - 北海道日本ハムファイターズの推しがどこまで成績を残すか?をAIに聞いてみました.

現役時代の阪神タイガース新庄剛志(現・北海道日本ハムファイターズBIG BOSS)に憧れて野球ファンになった人です.*1 今シーズンのここまでの流れで興奮しないはずがありません, 開幕三連敗?知らんがな*2. もっとも, 「野球エンジニア」「野球データサイエン…

エンジニアからデータサイエンティストへのキャリアチェンジのお供に「Pythonではじめる数理最適化」は良い教科書になるかもしれない

良い本良い魚良いお酒でした 秋も深まり, 緊急事態宣言が解除された今日このごろ, お酒を片手に読書がだいぶ捗るようになりました 酒と魚の話はさておき*1, 長いこと友人かつRetty時代の元同僚である岩永さん(とその仲間たち)*2が, 「Pythonではじめる数理…

scikit-learnで作った雑なモデルをAPIにしてFlask + GAE + Github Actionsでいい感じにデプロイした話 - 迷ったらGAEスタンダードで

日ハムのサヨナラ勝ちで変な声が出た人です. あ, 斎藤佑樹選手お疲れ様でした*1 それはさておき, 今日は毎年参加している「PyLadies Tokyo ○周年記念パーティー(今年は7周年)」でこんなLTをしてきました. Flask + Google App Engine(GAE)でWeb APIをデプ…

データサイエンティストとエンジニアがチームプレイでいい感じにプロダクトをつくるためには? - なんちゃってClean Architectureとテストを添えて

このエントリーを書いてる今日(9/29)と明日で有給消化期間が終わるマンです. 20日間, Banksy展を楽しんだ&新しいメガネを求めて新宿に行った以外, 地元の杉並区〜吉祥寺エリアからほぼ動きませんでした. Stay Home的な意味合いもあるのですが, 10/16(土)…

仕事する前に知っておくと幸せかもしれないpandasのきほん - read関数にはとりあえずURL渡しておけ

お仕事や, (個人的には)趣味のデータ分析・開発などでpandasをよく使う人です. pandasはPythonでデータサイエンスやデータ分析(解析)をやってると必ずと言っていいほどよく使うライブラリだと思います. お仕事で同僚やインターンが書いたnotebookをよく…

野球AIが選ぶTOKYO 2020侍JAPAN24名 - 機械学習で忖度無く選んでみた.

※【注意】あくまでもお遊びです, 冗談半分で読んでください! 「野生の野球データサイエンティスト」です. 本日ついにTOKYO2020侍ジャパン, 24名の内定選手が発表となりました. www.japan-baseball.jp 24名の選出って難しいですよね...中の方は色々ご苦労と…

チームでもっとも貢献している(足を引っ張っている)打者は誰なのか?12球団の打者パフォーマンスを可視化してみた

2021年プロ野球が開幕して一ヶ月半くらい. 佐々木朗希がついに一軍デビューしたり, 伝統の一戦「巨人阪神戦」が昨日で通算2,000試合になったり, 日々話題に欠ける事無く楽しいですね. 日々流れてくるニュースも気になるとは思いますが, 贔屓チームを推してる…

「仕事ではじめる機械学習 第2版」を読んで思った「ソフトウェアエンジニアとデータサイエンティスト, ML Ops」のこと

このエントリーのテーマです このエントリーは, 「仕事ではじめる機械学習 第2版」出版お祝いのエントリーとなります. 仕事ではじめる機械学習 第2版作者:有賀 康顕,中山 心太,西林 孝オライリージャパンAmazon 私自身, 第1版登場の2018年頃*1から「機械学習…

ダルビッシュ有さんは今シーズン何勝するのか? - 39歳までの成績をデータサイエンスで予測してみました

プロ野球とメジャーリーグの開幕が待ち遠しい人です⚾ 日米ともにオープン戦もはじまり, 球春が盛り上がってまいりました. 個人的には贔屓球団の動向*1がすごく気になるのですが, full-count.jp 昨年34歳にして初の最多勝, サイ・ヤング賞を惜しくも逃した*2…

自分でシュッとデータ分析をできる人になろう - 「データ分析人材になる。」から学んだこと

新年あけましておめでとうございます 年末年始は色々と手を動かしつつ*1, 積ん読を消化していたのですが, 昨年最後の読書 特にこの本にオッってなりまして読み終わる寸前には, これもうすぐ読み終わるのですが、なぜ積ん読にしてたワイはってぐらい名著でし…

野球好きのデータ分析初心者は「Rによるセイバーメトリクス入門」から探索するといいかもしれない

読売巨人軍, 福岡ソフトバンクホークスがリーグ優勝, ロサンゼルスドジャースが世界一となった今シーズンの野球ももうそろそろ終わりが見えてきました. CSで盛り上がったり日本シリーズに思いを馳せたり*1, 気持ちは2021年に向いていたり(?)それぞれ楽し…

データエンジニアの私が機械学習・データサイエンスでオススメしたいスキルマップと本まとめ - 2020年版

要約すると, データサイエンス・機械学習周りでよく聞かれること&回答を言語化しました. 「データサイエンティストやりたい」「機械学習エンジニアになりたい」というキャリア志望を持つ方は多いと思います. 私の周りでも, 公私ともにそんな志望者の相談を聞…

「PythonユーザーのためのJupyter実践入門」はPythonとデータサイエンスをする人の入り口だ

待望のJupyter本, 改訂版来ました! Pythonでデータサイエンスとエンジニアリングするマンとしてかなり待望していた「PythonユーザのためのJupyter[実践]入門 改訂版」がついに来ました.*1 改訂版 Pythonユーザのための Jupyter[実践]入門作者:池内 孝啓,片…

機械学習を使った野球データサイエンス - 打者・大谷翔平選手の20代をシュッと占ってみた

やったことは非常にシンプルでして. 大谷翔平選手の26〜29歳(2020〜2024年)までの打撃成績を, 一般的な打撃成績データ(安打, 本塁打, 三振etc...)を使った機械学習でそれっぽく出してみました 大谷翔平さんはやっぱ凄い(詳細はこの後で) まだまだ改良…

「Pythonによる医療データ分析入門」は分析100本ノック後に必読な探索的データサイエンス本だった

今年読んだデータサイエンスおよびPython本の中でも最良の一冊でした. ホントに待ち望んでいた一冊でした. 実は密かに楽しみにしてた(待ち望んでいた)*1, 「Pythonによる医療データ分析入門」, 一通り読ませていただきましたので, Pythonによる医療データ…

未来のダルビッシュ有を探してみよう! - 機械学習を用いてダルさんっぽい有望株を探してみた

プロ野球が開幕し, メジャーリーグの開幕もほぼ決まり野球好きの私達に日常が徐々に戻ってきて喜びを感じている今日このごろ. 私と言えばプロ野球をガッツリ楽しみながら野球データサイエンスに勤しんでいますがこんな感じで新作ができたのでちょこっとお披…

野球の防御率はたまに嘘をつくのでDIPSと合わせて見てみよう - データサイエンスから学ぶセイバーメトリクス

前回は打者成績の話をしたので(予告通り)投手の成績の話をします. 投手をシーズン成績(または通算成績)で見る時, 代表的な指標として以下の3つがあります(いわゆる, 「投手三冠」の対象). 勝利数(その名の通り, 投げて勝利した回数) 奪三振(打者か…

打者の成績を数字で理解する三つの視点 - データサイエンスから学ぶセイバーメトリクス

私達が大好きなプロ野球, どうやら開幕の目処が立ちそうです⚾ www.nikkansports.com とはいえ(この記事を書いてる5/10時点では)正式発表ではないかつ, 仮に6/19開幕としてもあと一ヶ月と少し時間がありますね...ということでまだまだ #StayHome をやってく…

野球のための特徴量エンジニアリング - データサイエンスから学ぶセイバーメトリクス

新型コロナウイルスに我々はかならず勝つ!というお気持ちでずっと #StayHome している私達ですが, 野球が待ち遠しい事は変わりありません.*1 お家にいながら野球どうやってやろう :thinkingface: ...と考えた結果, 「野球データで遊ぶならずっと #StayHome …

「イシューからはじめよ」はデータサイエンスも同じだよって話をSports Analyst Meetupでしてきた⚾

言いたいことはタイトルそのままです. ちょっと前の話ですが, 2/16に開かれた「Sports Analyst Meetup #6(通称#spoana )」というイベントでこんな話をさせてもらいました. 当日はイベントそのものが大盛況でしたし楽しかったです. 聞いていただいた皆様, …

30分で理解するセイバーメトリクスの教科書 - 野球を統計的に楽しもう

このブログをはじめた当初に「大好きな野球のデータ分析をもっと知ってほしい」というモチベーションでこんな記事を書きました. shinyorke.hatenablog.com 執筆・公開した5年前(2014年)と比べ, 野球に限らず, スポーツ界隈全体で公開データが増えた. 例え…

RからPythonへのお引越しでわかること - Jupyterと世界の野球から理解する

サムネイルがまんま結論の一部です&タイトルでビビッと来たアナタ(+野球好き)が対象読者です. ちょっとやりたいことがあって, やりたいこと⚾のサンプルがたまたまRだった このあと自分で分析したりなにか作るんやったらPythonでやりたい せや!RからPython…

データサイエンス・機械学習をやるためのエンジニアな本まとめ - 2019年版

ここ1〜2年くらいで、業務やプライベートのデータ分析・データサイエンスで参考にした本(と一部本じゃないもの)をまとめてみました(注:もちろん全部読んでいます).

入門pandas - 明日からはじめるデータ分析のきほん

こういうことやぞ サムネイルで描いた事がこのエントリーの全てです. Pythonでは、「pandas」というライブラリを使ってデータ分析や解析をすることが非常に多いです. でも、「利用方法(またはユースケース)」に合わせた入門ってあんまりない気がします. と…

うわっ…私のpandas、遅すぎ…?って時にやるべきこと(先人の知恵より)

※あくまでもイメージです(適当) 仕事じゃなくて、趣味の方の野球統計モデルで詰まった時にやったメモ的なやつです.*1 一言で言うと、 約19万レコード(110MBちょい)のCSVの統計処理を70秒から4秒に縮めました. # 最初のコード $ time python run_expectan…