競馬格言検証 – 夏は牝馬,牝馬は格より勢い

2022年2月4日

目的

競馬格言「夏は牝馬,牝馬は格より勢い」の 「牝馬は格より勢い」 部分をデータ分析して検証する。

牝馬は格より勢い

この格言の意味は「格(血統)よりも勢いが大事だ」ということである。
格(血統)を表す指標として親馬の賞金額、勢いを表す指標として前回4レースの順位の平均値を使い、レース着順への各指標の影響を調べる。

検証結果

競馬データは、Kaggleで公開されているデータセットを利用させていただく。
このデータセットには、1986/01/05 – 2021/07/31のレース結果が含まれている。
JRA日本中央競馬会データ
https://www.kaggle.com/takamotoki/jra-horse-racing-dataset

馬の血統についてのデータは含まれていなかったので、2017年 – 2021年分のデータを下記をスクレイピングして集めた。
https://www.netkeiba.com/

馬の性別ごとに格と勢いのレース順位への影響をグラフ化すると以下のようになった。

格については牡馬・牝馬で回帰直線(赤線)が右肩下がりなので、親馬の賞金が高いほど、順位が良くなる傾向が見られる。

勢いについては全てで回帰直線(赤線)が右肩上がりなので、直近4レースの平均順位が良いほど、順位が良くなる傾向が見られる。

牝馬の格と勢いについて重回帰分析を行うと下記の結果になった。
格(親の賞金額:parent_prize)の係数は -1.666e-10
勢い(直近4レース平均順位:avg)の係数は 0.5522

Dep. Variable:arrivalR-squared:0.123
Model:OLSAdj. R-squared:0.123
Method:Least SquaresF-statistic:3086.
Date:Sat, 15 Jan 2022Prob (F-statistic):0.00
Time:08:58:37Log-Likelihood:-1.2361e+05
No. Observations:43863AIC:2.472e+05
Df Residuals:43860BIC:2.472e+05
Df Model:2
Covariance Type:nonrobust
coefstd errtP>|t|[0.0250.975]
const3.83200.05767.6180.0003.7213.943
parent_prize-1.666e-104.55e-11-3.6620.000-2.56e-10-7.74e-11
avg0.55220.00778.1970.0000.5380.566

夏(7・8月)のレースに限定して重回帰分析すると下記になった。
格(親の賞金額:parent_prize)の係数は -2.04e-11
勢い(直近4レース平均順位:avg)の係数は 0.5585

Dep. Variable:arrivalR-squared:0.127
Model:OLSAdj. R-squared:0.127
Method:Least SquaresF-statistic:659.9
Date:Sat, 15 Jan 2022Prob (F-statistic):2.41e-268
Time:08:58:37Log-Likelihood:-25645.
No. Observations:9091AIC:5.130e+04
Df Residuals:9088BIC:5.132e+04
Df Model:2
Covariance Type:nonrobust
coefstd errtP>|t|[0.0250.975]
const3.87200.12331.4250.0003.6304.113
parent_prize-2.04e-119.84e-11-0.2070.836-2.13e-101.72e-10
avg0.55850.01536.2750.0000.5280.589

全レースと夏(7・8月)レースの分析結果を比較すると、夏レースでは 格 の影響が下がり、勢いの影響が大きくなっている(0.5522 vs 0.5585)

期間格(親の賞金額:parent_prize)係数勢い(直近4レース平均順位:avg) 係数
全レース-1.666e-10 0.5522
夏(7・8月)レース -2.04e-110.5585

結論

夏レース・牝馬については馬の血統よりも、直近のレースの順位を重視してレース予測をしたほうがよい。

データ分析競馬

Posted by masa