競馬結果予測 – タイム予測 – 性別・芝・ダート馬場状態
目的
前回、単勝を予測するためにタイムを予測するモデルを作成した。
今回はこのモデルを改善する。
アプローチ
前回は特徴量として、’枠番’, '馬番’, '馬齢’, '斤量’, '馬体重’, '場体重増減’, '距離(m)’, 'レース月’を利用した。
今回は’性別’, '芝・ダート区分’ , '馬場状態’を追加する。
競馬データは、Kaggleで公開されているデータセットを利用させていただく。
このデータセットには、1986/01/05 – 2021/07/31のレース結果が含まれている。
JRA日本中央競馬会データ
https://www.kaggle.com/takamotoki/jra-horse-racing-dataset
'性別’, '芝・ダート区分’ , '馬場状態’ はカテゴリデータなので、ダミー変数化する。
結果
予想タイムの平均誤差は1.37秒であった。
着差と秒数の対応表を参考にすると、8-9馬身分の誤差のようである。
SHAP値は以下のようになった。
レースタイムには距離の影響が一番大きいのは変わらないが、芝・ダート区分の影響が二番目に大きいことが分かった。
結論
平均誤差は1.37秒( 8-9馬身 )なので、まだまだ改善の必要がある。
馬の血統や調子も追加していきたいと思う。
ディスカッション
コメント一覧
まだ、コメントがありません