読者です 読者をやめる 読者になる 読者になる

Lean Baseball

Engineering/Baseball/Python/Agile/SABR and more...

たった数行のPythonコードで打者大谷翔平がどれだけ凄いのかを見てみる

Python Baseball SABR

先に言っておくと、

  • あくまでもネタです
  • 機械学習とか高度なネタは出てきません.
  • あくまで参考程度に、ただし世の中のスポーツ系サイトや新聞よりまっとうにデータで見ている(と思われる)

そんな感じで気楽に見てもらえればと.

打者「大谷翔平」の2016年

打撃成績

前日(2016/7/2)までの成績.

本日(2016/7/3)は「1番(投)」で二刀流スタメン起用、プレイボール弾(初回初球先頭打者本塁打)を決めるなどして、打撃成績は向上しています.

ここでクエスチョン

  • 大谷翔平の何が変わったのか?
    • 三振が減った
    • 四球が増えた
    • パワーがついた
  • キャリアハイな成績を残す(と思われる)打者大谷の強みはナンだ!?

なお、

  • 二刀流した結果打撃に良い効果が?
  • 相手が弱くなったor自分(大谷)が強くなった

等の仮説は手に入るデータ(と時間)で検証するのは無理なので断念しました.

早速データを出した&検証してみました

検証方法

  • NPB(日本プロ野球機構)の公式データを元に、野球統計学で用いる指標を算出.
  • デビューした2013年〜今年(途中)までの数字を見比べる.
  • シンプルに「パワー(どれだけ長打を打つか)」と「我慢強さ(ボールの見極めができているか、簡単にバットを振っていないか)」に着目して見てみる.

使ったモノ

Python 3前提ですが、Python 2でも動くはず(試していません&保証しません).

環境はMac OS Xを想定していますがLinux/Windowsでも十分行けると思います.

不安な方はAnacondaなどを使ってください.

  • Python 3.5.2
  • pandas
  • Beautifulsoup
  • jupyter notebook

環境を作る

venvもしくはpyenvなどでPython 3.5.2の実行環境を作った後、pipで以下のライブラリをインストールする

$ pip install jupyter pandas lxml html5lib BeautifulSoup4 matplotlib seaborn

インストールが終わったらjupyter notebookを起動.

$ jupyter notebook

コードを書く&実行

PandasでHTMLから直接読めるよ!的な便利機能を初めて使いました.

大したコードになりませんでしたよと(所要時間:30分).

gistad401e1e8b0aba94b2d983aa96b81c1b

考察!

計算結果

ざっとこんな感じになりました.

f:id:shinyorke:20160704002923p:plain

数値の傾向

一般的な指標値からの想像

  • 出塁率長打率ともにヤバい!キャリアハイ待ったなし.
  • 44試合で22四球、「2試合に一回」程度四球を奪うようになってる.元々四球が少ない選手(70試合出て20個オーバーがやっと)な選手なのに、これは大きい.
  • 一方三振のペースは例年通り?このペースだと50個行かないぐらいで着地しそう.
  • (見ての通り)打率も高く、こちらもキャリアハイを十分狙える.

セイバーメトリクス指標からの想像

  • パワー・我慢強さ共に兼ね揃えたいい打者に!
  • 出塁・長打が多くOPSはリーグ屈指のクラスに.
  • 我慢強さを表すisoD(出塁率-打率)は前年の倍近く改善. 打率上がってisoD下がりそうなところが、ボールを選ぶ粘り強さで更に価値を出している.
  • 純粋なパワーを表すisoP(長打率-打率)も0.302と異常な数字に.そりゃ初回初球先頭打者プレイボール弾もキメるよね.
  • BB/Kが劇的ビフォーアフターな数字に! 四球1個取るのに5,6回の三振が必要だった去年とくらべ、今年は「三振1.4個あたり四球1個」となかなかの改善ぶりを見せている.

結論

  • 打者大谷翔平は我慢強さとパワーを兼ね揃えた化物に変貌していた!!!
  • 四球が増加したことによりStats(成績)全体が改善).
  • オフのトレーニング(ビルドアップ)の効果は長打という実にわかりやすい形で吉と出ている.

検証できなかったこと

いずれもデータの関係で出来なかった.

MLBならいくつか検証可能なのに...くやしい.

四球数の増加要因

  • 相手が警戒している
  • 大谷の選球眼がよくなった
  • ペイシェント(我慢強さ)を表す数字が手に入れば...!(ボールの数、スイング率など)

DH専任VS二刀流

  • いわゆる、「投手大谷としてのリズムが打者大谷に大して好影響を...」的な奴
  • 真面目な野球統計学の分野では割と否定される仮説なのだが、実際どうなんだろう?

周りの打者の影響

  • 中島卓也(ショート)が去年以上にカットしまくってるとか、レアードが打ちまくってるからとかとか.
  • 打線が大谷という「点」ではなく、中田や陽岱鋼ほかスタメンを含めた「線」で機能している→大谷勝負のみに集中できない?とか.
  • この辺は機械学習なアプローチで検証できるかも.

以上、久々の野球Hackでした.