Lean Baseball

No Engineering, No Baseball.

野球の防御率はたまに嘘をつくのでDIPSと合わせて見てみよう - データサイエンスから学ぶセイバーメトリクス

前回は打者成績の話をしたので(予告通り)投手の成績の話をします.

投手をシーズン成績(または通算成績)で見る時, 代表的な指標として以下の3つがあります(いわゆる, 「投手三冠」の対象).

  • 勝利数(その名の通り, 投げて勝利した回数)
  • 奪三振(打者から奪った三振の数)
  • 防御率(9イニングあたりの自責点率. このエントリーの主人公).

この成績のうち, 勝利数は投手個人の頑張り「だけ」では稼げない数字というのは野球をちょっとでも見たことある人なら想像つくと思います.*1

奪三振は「三振」が持つ意味, 見た目の派手さからすると投手の実力が生きるモノと言えます(そしてこれは事実だという話をこれからします).

問題は, 「相手に許した得点(自責点)を9イニング(ほぼ一試合分)に平均した」実に便利な指標である「防御率」で,

防御率は投手を必要以上に良く見せる(もしくは悪く見せる)ことがあり, 「たまに嘘をつく」実にイヤらしい指標です.

言葉と数字の雰囲気的に投手の実力っぽい感じがしますがこれは(少なくとも数式・特徴量な意味では)事実です.

というわけで, 今日はとあるメジャーリーガーが「防御率詐欺*2」を働いているという以下のグラフを理解するところをゴールとしましょう.

f:id:shinyorke:20200520224216p:plain
某投手が防御率ほど信頼できない, の例

これを読み終わる頃には「防御率」の数字の読み方に深みが加わり, これからの野球を別の視点で面白く見られると思うのでしばらくお付き合いください.

このエントリーのダイジェスト

  • 投手のパフォーマンス・成績の良さを防御率だけで評価しちゃいけない. 他の指標も合わせて見る習慣をつけよう.
  • セイバーメトリクスには「投手の実力が活きやすい」指標を重点的に評価するDIPSという概念があり, そこから生まれたFIPという指標を使うことにより「防御率の嘘」を見抜くことができる.
  • 被本塁打・奪三振・与四球にフォーカスして成績を見ると投手の特徴がつかめるのでオススメ.

という話を, メジャーリーグのオープンデータを駆使して解説します.

スターティングメンバー

この連載の対象読者&前提条件

以下は前回は打者成績の話と同じです.

  • 何かしらのデータサイエンス・データ分析を自分で考え手を動かしてやっている方. 仕事・学業・趣味問わず.
  • SpreadsheetやSQL, プログラミング言語(Python/Rなど)など何かしらの道具でデータを加工したり抽出できたりできる
  • 野球のルール・記録の意味を把握していること. レベル感的には野球に興味なくても夏の甲子園とか日本シリーズを楽しめればOK

プロ野球やメジャーリーグに対するマニアックな知識は必要ありません.*3

なお, 今回は昨年メジャーリーグで162イニング以上投げた投手(=規定投球回数*4到達者), 約60人のデータからこの話を紐解きます.

投手のパフォーマンスを評価する指標

投手の大事な役割は「失点を抑えながら相手打者からアウトを取る」ことです*5.

三振を奪ったりゴロアウト・フライアウトを効率的に奪い, ランナーの出塁を減らすことにより役割を果たします.

そんな投手たちの働きのクオリティを表す指標はいくつかありますが, これも野球の歴史・セイバーメトリクスの進化とともに変わってきたのでまずはそれを紹介します.

防御率 - 自責点から見るそれっぽい数字

よく知られている指標です. 「最優秀防御率」というタイトルがあるぐらいみんな知ってると思います.

このエントリーはあくまでもデータサイエンスでありセイバーメトリクスなので, 数式とその意味から語りますね.

まず防御率の数式をおさらいしましょう.

防御率 = (自責点 * 9) / イニング数

数式の意味合い的には,

「仮にこのピッチャーが9イニング(一試合)投げきった時, 平均して何失点するか?」

というお題目の元この数式が存在します. 自責点に9を掛けてるのはそのためです.*6

一見するとそれっぽい事をしていて正解な風に見えますが, 唯一にして最大の欠陥が「自責点」を元にしていることです!

自責点 - Wikipediaの解説によると,

自責点(じせきてん、Earned run / ER)は野球の試合において投手の責任とされる失点のこと。

(中略)

野手(投手自身も含む)の失策、捕逸、打撃妨害、走塁妨害によって一塁を得した走者ファウルフライに対して失策があった後に安打などで出塁した走者失策がなければアウトになったはずの走者が得点した場合は、自責点とならない。

(中略)

失策、捕逸、打撃妨害、走塁妨害によって進塁した走者が得点した場合は、これら守備側のミスがなくても得点ができたと記録員が判断したときに限って自責点となる。

色んな凡例(いや判例だな)がたくさんありますが, 要約すると

  • 野手(投手自身を含む)の失策での失点は自責点にならない, 基本的に.
  • 「守備でエラーとか関係なくホームインだろ(確信)」と記録員が判断した時は自責点になる.

と言えます. これはつまり,

自責点は記録員の忖度*7によって決まる指標で, 投手の実力は関係ない

ということになります.

投手が投げている間の「自責点」は必ずしも投手の責任ではない, という「自責点, 自責じゃないのでは?」と疑いたくなるような事実から出来ている防御率は投手の実力を反映しているものとは言えないってことでもあります(が, 便利な指標なので使うことには反対しない).

WHIP - 投手の安定度を表す

防御率と並べて見られることが多い指標として, WHIPという指標があります.

これはシンプルに言うと, 「イニングあたり何人の走者を出したか?」という事実を把握できます.

WHIP = (被安打 + 与四球) / イニング数

「Walks Plus Hits per Inning Pitched」がWHIPの正式名称ですがホントそのとおりです.

ちなみに数字の基準はこんなかんじです(by WHIP - Wikipedia),

WHIP 評価
1.00 素晴らしい
1.10 非常に良い
1.25 平均以上
1.32 平均
1.40 平均以下
1.50 悪い
1.60 非常に悪い

WHIP 1.2は言い換えると「1イニングあたり平均してランナーを1.2人出す」という意味なので直感的につかみやすい数字です.

一見すると「被安打」「四球」という客観的な記録(エラーのように記録員の忖度が入らない)を元に出していて筋が良さそうとも思えますが!?

  • 四球は「投手のコントロール」が強く出るプレー. これを変数とするのは問題はなさそう.
  • しかし, 被安打は「投手の責任」と「投手だけじゃ決まらない」要素がごっちゃになっている.
    • 真っ向勝負で打たれた本塁打, は後ろを守る野手とは関係ないので投手の責任
    • 野手が打球処理にもたつく間に内野安打, は果たして投手の責任か?
    • などなど, 上げると色々ある

被安打の件は, 「味方の守備が上手であればWHIPが下がり*8, 下手くそであればWHIPが上がる*9」要素が十分にあり, 必ずしも正確な指標とはいえません. 防御率同様, WHIPも「被安打」という要素で事実をぼやかしている可能性があります.

DIPS(から生まれたFIP) - 投手の実力をシンプルに評価する

防御率はあやしい, WHIPもあてにならない...そこでDIPS(Defense Independent Pitching Statistics)という理論が登場します.

DIPSのコンセプトは、投手の成績を「投手自身でコントロールできる部門」と「投手自身ではコントロールできない部門」に分けて、「投手自身でコントロールできる部門」だけで投手を評価することである。

出典:DIPS (野球) - Wikipedia

言い換えると,

  • 投手は自分自身がコントロールできる「被本塁打*10」「与四球(与死球)*11」「奪三振*12」のみ, 責任を取るべき.*13
  • 投手が自分自身だけではコントロールできない「被安打(本塁打を除く)」「自責点」「勝利(敗戦)」などは責任を取らなくていい.

(投手に限らず)成績に対して「選手自身の責任」と「選手の責任じゃない部分」という責任分界点を作った最初の事例でもあり, この考え方は今でも重用されています.

DIPSは概念の名前で実際の指標はいくつかありますが, 特によく使われる(かつ比較的算出が容易)なのがFIP(Fielding Independent Pitching*14)です.

FIP = (13 * 本塁打 + 3 * (四球 - 敬遠四球 + 死球) - 2 * 奪三振) / イニング数 + リーグの防御率から算出する定数*15

本塁打, (敬遠四球を除いた)与四死球*16, 奪三振を元にイニング数から算出, 最終的に防御率っぽい数字に収束するようにできています.

「三振をたくさん奪い, 四球が少ない」投手は相当優秀な数字になる一方, 「三振少ない, 四球が多い打たせて取る」系のピッチャーはそれなりの数字になります.

ちなみに, 防御率っぽくする理由はシンプルで「防御率は普段見慣れている数字*17かつ,FIPと防御率の差分でどんな投手かを把握しやすい」からです.

実際に数字を見る時はこんな感じに見ると良いかと思います.

  • 防御率 ≒ FIP: (本塁打を除く)被安打, 野手のエラー等の「他責」イベントの影響が小さく実力どおりの成績が出ている.
  • 防御率 > FIP: 不幸な被安打や野手のエラーが多く, 本来持つ実力以上に失点している「不幸な投手」の可能性.
  • 防御率 < FIP: チームの野手の守備が上手く, 不幸な被安打・エラーが少ない可能性. 本来持つ実力以上にラッキーな「いつか炎上する投手」の可能性.

防御率 < FIPかつ差が大きい(0.5を超えるぐらいかな)投手が, 新時代の防御率詐欺投手となります.

防御率とFIPから「防御率詐欺」を見つける

「防御率はたまに嘘をつく」「FIPとの差分で区分けができる」と理屈を説明したのでケーススタディ的に見てみましょう.

  • 誰がどう見てもエースの投手(良い子)
  • 実際の防御率詐欺(悪い子)
  • FIPの数字以上に防御率が悪い(変わった子)

この3つのケーススタディで紹介します.

良い子 - エース級投手

大エース代表は昨年のサイ・ヤング賞*18投手, ジャスティン・バーランダーです.

ja.wikipedia.org

スリークォーター気味のフォームから最速160km/hの4シーム, スライダーとカーブ中心の組み立てで三振を量産するわかり易すぎる好投手です.

f:id:shinyorke:20200523142443p:plain
バーランダーの防御率・FIP・WHIP推移

いい投手だなーってのがわかります, 特に2017年以降.

ちなみにバーランダーは結構ベテランの投手(今年で37歳)で, 実際の所グラフに出していない2013年以前の成績もヤバいです(今が第2全盛期と思ってもらえれば).

2014年からの推移を見ると,

  • アストロズに移籍した2017年(厳密には2017年夏にトレード移籍)を境にどの指標も下がって強い投手に
  • 2018, 2019の防御率とWHIPは安定. ちなみにWHIPは2年連続リーグ一位
  • 2019年のFIPが若干悪化している?

というのが見えてきます.

FIPは先ほど解説の通り, 被本塁打・与四死球・奪三振が重要な説明変数となるので, 合わせて以下の指標もちょっと見てみます.

  • 9イニング(約一試合)あたりの被本塁打(HR/9)
  • 9イニングあたりの奪三振(SO/9)
  • 9イニングあたりの与四球(BB/9)

f:id:shinyorke:20200523143431p:plain
バーランダーのHR/9, SO/9, BB/9

若干地味ですが, どの数字も2018年より悪化してました.

指標 2018 2019
HR/9 1.18 1.45
SO/9 12.20 12.11
BB/9 1.56 1.70

イニングあたりの本塁打, 四球が増えて三振が減った事により若干悪化したとわかります(といっても誤差な気がしますが).

というように, 本塁打・与四死球・三振にフォーカスするとこういうことが直感的にわかるようになります.*19

悪い子 - 防御率詐欺

という見方がわかったところで, 今度は「防御率詐欺」である, 「防御率よりFIPが悪い」投手を見ます.

ja.wikipedia.org

マイク・ファイアーズという投手で昨年の成績は,

15勝4敗 防御率3.90(184 2/3回, 33試合先発)

という一見すると頼れるエースっぽい投手です(実際にオークランド・アスレチックスのエースなのですが*20).

先ほどのバーランダーと同じグラフで見てみると,

f:id:shinyorke:20200523144723p:plain
ファイアーズの防御率, FIP, WHIP

2018年と2019年の防御率は(過去の年と比べて)イケてますが, FIPがボロボロです.

ちなみにWHIPは平均より若干良い程度です.

こちらもHR/9, SO/9, BB/9である程度説明ができます.

f:id:shinyorke:20200523145723p:plain
ファイアーズのHR/9, SO/9, BB/9

グラフを見ただけで察しかもですが,

  • SO/9(奪三振)が綺麗に右肩下がり
  • BB/9(四球)が見事に増加

「三振があまりとれない, 四球が増えた投手」...贔屓チームにいたら実際嫌だと思いませんか?見ていて安心できないですし.*21

本来だったら防御率が4点台半ば〜下手したら5点台のファイアーズが見た目素晴らしい防御率に収まってる理由ですが,

  • 2018年から在籍しているオークランド・アスレチックスの内野守備はリーグ屈指で特に三塁・一塁・ショートが良い.
  • 外野も守備が安定しており, 球場自体が広いためヒットおよび本塁打のリスクも少ない.*22
  • 上記の理由により, 「自責点」につながるイベントが少ない(と思われる).

ファイアーズの成績が悪かった時期は守備に恵まれていない, 逆に今成績が良いのはチーム守備に助けられているともいえます.*23

変わった子 - 逆・防御率詐欺

最後にちょっと変わった投手を見てみます.

f:id:shinyorke:20200523150654p:plain
防御率よりFIPが突然良くなった投手(2019)

ホセ・キンターナという若干マニアックな選手なのですが,

13勝9敗 防御率4.68, FIP 3.80(171回, 31試合先発)

防御率を見ると微妙ですが, FIPをみると然程悪い投手に見えません.

FIPだけで言ったらさっきのファイアーズの方が信用できません(ちなみにファイアーズのFIPは4.97)

キンターナのHR/9, SO/9, BB/9に着目してみると

f:id:shinyorke:20200523151537p:plain
与四球が減っててつよい!

BB/9とHR/9の数字が良くなっていて信頼できる投手になってるっぽいです.

防御率が悪いのはファイアーズと逆でチームの守備とかに問題があったかもしれません.

現在31歳でこの先の伸びしろは若干怪しいですが,

  • 三振をもっと取れるようになると一気にエースになるかもしれない.*24
  • 今のチームより守備が上手なチームに移籍したら防御率が本来の実力に近い数字になるかもしれない.*25

ということが言えそうです.

結び - DIPSは野球データの特徴量そのもの

というわけでこのエントリーでは「防御率の嘘」と, 「DIPSによる斜め上から投手を評価する」方法を紹介しました.

実はこの考え方, 以前こちらのエントリーでも少し触れていまして.

shinyorke.hatenablog.com

記録にも「主観」に頼っているなんとも言えない罠があったりします

この話をより深く掘り下げて紹介したのでありました, DIPSという考え方は野球における特徴量エンジニアリングの基本だぜ!っていう.

普通の野球の見方・楽しみ方の目線ではDIPS(FIP)は若干とっつきにくい話ですが, 自責点や他のイベントと合わせて読み解くとより理解できると思います.

次回は...ちょっと間を空けて守備・走塁もしくは得点期待値の話をしたいなと思います.

長文にお付き合いいただきありがとうございました!

【Appendix】参考文献

今回の指標とグラフは私が独自に収集・計算したものですが, 手っ取り早く見たい人はFanGraphsをオススメします.

www.fangraphs.com

DIPSが使われるようになった原点はマネーボールの後半, チャド・ブラッドフォードの件です.

何度でも言うけど映画版じゃなくて書籍で読もうね!

*1:シンプルに言うと, メチャクチャ点を取る強いチームの投手は5回4失点とかでも勝利がつくことがある一方, ほとんど打たない・点を取れないチームのエースは9回1失点完投しても負けることがあります, いわゆる「ムエンゴ」案件.

*2:防御率詐欺の出典はなんJで, こちらの解釈では「防御率が良いけどWHIP高いやつはあやしい」という文脈になってます(そしてこの視点はある程度正しい)が, 今回は「DIPSという概念からみた防御率詐欺」というお話になります.

*3:野球, チーム, 選手などなどから来る「ファン心理」「思い込みというバイアス」を抜くという意味でも重要な条件でございます(by前回記事のそのままコピー).

*4:日米ともに一軍の場合試合数と同じイニング数になります(日本プロ野球は143, メジャーリーグは162でそれぞれレギュラーシーズン試合数)

*5:打者として20本以上ホームランを放つような二刀流の怪物もいますが, 基本的には投手は投げてアウトを稼ぐのが仕事です&二刀流のすごいマンは打者と投手二役と考えると良いでしょう(早く今シーズンが見たい)

*6:この後いくつか指標が出ますが, 投手の指標はWHIPみたいな例外を除き, 「9イニング(9回)を一試合と見立てた場合の平均」という図式が多いです. これを覚えると数字は読みやすくなります.

*7:なぜかと言うと, 失策(エラー)は「記録員が”普通の選手ならあのボールはとれてた”はず」という主観にに基づいた記録で, これは記録員によってそのしきい値が違うことを意味しているからです. 客観的な指標が多い野球において珍しい「外部からの主観によって決まる」指標です.

*8:本来ヒットだったかもな当たりがファインプレーで取られる, とかそういう機会が増えるイメージ.

*9:並の外野手だったら取れる平凡なフライを落球して走者一掃...とかそういうケース.

*10:ランニング本塁打を除く, フェンス超えの本塁打は投手と打者で決まる.

*11:ベンチからの指示でやる敬遠を除き, 投手自身のコントロールでほぼ決まる.

*12:良い投手, エースと呼ばれるピッチャーの華はやっぱ三振だと思うんですよ...という意見はさておき, これも投手と打者の関係性で決まる.

*13:厳密にはキャッチャーがいてこそ, というのもありますし, 昨今の傾向ですとキャッチャーがストライクを取る能力(フレーミング)も重要な視点ではありますが, フレーミングの影響幅より投手の実力のほうが影響するのは事実としてあります. キャッチャーのストライク管理能力以上に, 投手が速いボールを投げたり空振りを奪える変化球を投げるほうがより天賦の才に近いかつ難しいと思うので.

*14:要約すると, 「守備に影響されないピッチングの能力」です.

*15:ちなみに面倒くさい時は3.1とか防御率っぽい定数にするとそれなりの数値に収束します(この方式を使うことはまあまあある)

*16:敬遠四球を除外するのは, 敬遠はベンチの指示などで行う「自責ではない」行為であるためです.

*17:前回登場したwOBPもそうですが, 既存の指標っぽい値にスケールするように調整するのは割とセイバーメトリクスあるあるです.

*18:メジャーリーグにおける最優秀投手賞的な栄冠. 日本で言えば沢村賞に該当.

*19:これは重要な話で, この3つの割合を見るだけで投手のタイプがおおよそ判別がつきます. 特にあんまり見たことない投手・知らない投手を見る時はこの視点重要です.

*20:昨年のメジャーリーグ開幕戦@東京ドームの初戦で先発しています, イチローが引退したシリーズですね.

*21:なお私はそんなオークランド・アスレチックスの大ファンです&実際ファイアーズが投げる試合は全くもって信頼していません.

*22:HR/9が安定しているのは球場の影響も多少あります.

*23:これはデータサイエンス・セイバーメトリクスをつかった球団運営としては成功例の一つで, 「エース級の投手がいないかわりに野手の守備で抑える」のはチーム視点ではかなり良い戦略です. 流石マネーボールの元祖オークランド・アスレチックスの面目躍如といった所か.

*24:キンターナほど歳をとってるとこの可能性は低い気がしますが, 24, 5歳ぐらいの若手投手の可能性を探る的な課題であればこのような解き方もアリです.

*25:例えば, アスレチックスにファイアーズの代わりにキンターナを入れてみたら...とか考えると面白いかも知れません.