競馬格言検証 – 夏は牝馬,牝馬は格より勢い
目的
競馬格言「夏は牝馬,牝馬は格より勢い」の 「牝馬は格より勢い」 部分をデータ分析して検証する。
牝馬は格より勢い
この格言の意味は「格(血統)よりも勢いが大事だ」ということである。
格(血統)を表す指標として親馬の賞金額、勢いを表す指標として前回4レースの順位の平均値を使い、レース着順への各指標の影響を調べる。
検証結果
競馬データは、Kaggleで公開されているデータセットを利用させていただく。
このデータセットには、1986/01/05 – 2021/07/31のレース結果が含まれている。
JRA日本中央競馬会データ
https://www.kaggle.com/takamotoki/jra-horse-racing-dataset
馬の血統についてのデータは含まれていなかったので、2017年 – 2021年分のデータを下記をスクレイピングして集めた。
https://www.netkeiba.com/
馬の性別ごとに格と勢いのレース順位への影響をグラフ化すると以下のようになった。
格については牡馬・牝馬で回帰直線(赤線)が右肩下がりなので、親馬の賞金が高いほど、順位が良くなる傾向が見られる。
勢いについては全てで回帰直線(赤線)が右肩上がりなので、直近4レースの平均順位が良いほど、順位が良くなる傾向が見られる。
牝馬の格と勢いについて重回帰分析を行うと下記の結果になった。
格(親の賞金額:parent_prize)の係数は -1.666e-10
勢い(直近4レース平均順位:avg)の係数は 0.5522
Dep. Variable: | arrival | R-squared: | 0.123 |
---|---|---|---|
Model: | OLS | Adj. R-squared: | 0.123 |
Method: | Least Squares | F-statistic: | 3086. |
Date: | Sat, 15 Jan 2022 | Prob (F-statistic): | 0.00 |
Time: | 08:58:37 | Log-Likelihood: | -1.2361e+05 |
No. Observations: | 43863 | AIC: | 2.472e+05 |
Df Residuals: | 43860 | BIC: | 2.472e+05 |
Df Model: | 2 | ||
Covariance Type: | nonrobust |
coef | std err | t | P>|t| | [0.025 | 0.975] | |
---|---|---|---|---|---|---|
const | 3.8320 | 0.057 | 67.618 | 0.000 | 3.721 | 3.943 |
parent_prize | -1.666e-10 | 4.55e-11 | -3.662 | 0.000 | -2.56e-10 | -7.74e-11 |
avg | 0.5522 | 0.007 | 78.197 | 0.000 | 0.538 | 0.566 |
夏(7・8月)のレースに限定して重回帰分析すると下記になった。
格(親の賞金額:parent_prize)の係数は -2.04e-11
勢い(直近4レース平均順位:avg)の係数は 0.5585
Dep. Variable: | arrival | R-squared: | 0.127 |
---|---|---|---|
Model: | OLS | Adj. R-squared: | 0.127 |
Method: | Least Squares | F-statistic: | 659.9 |
Date: | Sat, 15 Jan 2022 | Prob (F-statistic): | 2.41e-268 |
Time: | 08:58:37 | Log-Likelihood: | -25645. |
No. Observations: | 9091 | AIC: | 5.130e+04 |
Df Residuals: | 9088 | BIC: | 5.132e+04 |
Df Model: | 2 | ||
Covariance Type: | nonrobust |
coef | std err | t | P>|t| | [0.025 | 0.975] | |
---|---|---|---|---|---|---|
const | 3.8720 | 0.123 | 31.425 | 0.000 | 3.630 | 4.113 |
parent_prize | -2.04e-11 | 9.84e-11 | -0.207 | 0.836 | -2.13e-10 | 1.72e-10 |
avg | 0.5585 | 0.015 | 36.275 | 0.000 | 0.528 | 0.589 |
全レースと夏(7・8月)レースの分析結果を比較すると、夏レースでは 格 の影響が下がり、勢いの影響が大きくなっている(0.5522 vs 0.5585)
期間 | 格(親の賞金額:parent_prize)係数 | 勢い(直近4レース平均順位:avg) 係数 |
---|---|---|
全レース | -1.666e-10 | 0.5522 |
夏(7・8月)レース | -2.04e-11 | 0.5585 |
結論
夏レース・牝馬については馬の血統よりも、直近のレースの順位を重視してレース予測をしたほうがよい。
ディスカッション
コメント一覧
まだ、コメントがありません