競馬結果予測 – タイム予測 – 性別・芝・ダート馬場状態

2022年2月4日

目的

前回、単勝を予測するためにタイムを予測するモデルを作成した。
今回はこのモデルを改善する。

アプローチ

前回は特徴量として、’枠番’, '馬番’, '馬齢’, '斤量’, '馬体重’, '場体重増減’, '距離(m)’, 'レース月’を利用した。
今回は’性別’, '芝・ダート区分’ , '馬場状態’を追加する。

競馬データは、Kaggleで公開されているデータセットを利用させていただく。
このデータセットには、1986/01/05 – 2021/07/31のレース結果が含まれている。
JRA日本中央競馬会データ
https://www.kaggle.com/takamotoki/jra-horse-racing-dataset

'性別’, '芝・ダート区分’ , '馬場状態’ はカテゴリデータなので、ダミー変数化する。

結果

予想タイムの平均誤差は1.37秒であった。
着差と秒数の対応表を参考にすると、8-9馬身分の誤差のようである。

SHAP値は以下のようになった。

レースタイムには距離の影響が一番大きいのは変わらないが、芝・ダート区分の影響が二番目に大きいことが分かった。

結論

平均誤差は1.37秒( 8-9馬身 )なので、まだまだ改善の必要がある。
馬の血統や調子も追加していきたいと思う。