1/23中山レース予測の振り返り

2022年2月6日

目的

前回予測した1/23中山レースの結果を振り返りながら、予測モデルの課題と改善方針を考える。

予測結果

これは第1レースの予測と実際のタイムである。

予測下位層の馬が実際は入賞している。
タイムも1.3-1.5秒誤差が出ている。
予測で1位だった トーアコンゴウ が再下位になっているのも気になる。

着順枠番馬名タイム予測タイム予測順位
1612ハクサンパール72.674.228414
2713ミニョンルミエール72.774.091511
3714ルプランドル72.774.23415
4815トラストパッキャオ72.974.090210
512ゲキザル73.273.76855
647ルワンジュ73.273.73772
7611マイアミュレット73.573.753
811ペイシャクィンビー7474.136512
935シンキングセンティ74.474.173113
1023ファインバローロ74.474.54616
1159アムルム74.574.07218
1236サンブルッキングズ74.773.75654
13510チェリーアルプス74.974.07979
1448ダイユウシェリー7773.98726
15816デルマエキドナ7774.06977
1624トーアコンゴウ8173.71781

考察

各特徴量がどれくらい予測に影響を与えているのかウォーターフォール図にしてみる。

まず実際に上位入賞した3馬のウォーターフォール図を見てみる。

ハクサンパールとルプランドルに関しては斤量の影響がおかしい気がする。
一般的に斤量が小さくなるほど、タイムは良くなっていくはずなのだが、予測では斤量51がタイムを+0.45秒している。
このレースの平均斤量が約54なので、斤量51はタイムが良くなる方向に影響するべきであった。
訓練データ中の何かしらの制限付きレース結果に予想結果が影響を受けているのかもしれない。

ミニョンルミエールに関しては今回の予測モデルにない特徴量がよりタイムを縮める要素として隠れていると思う。

ハクサンパール

ミニョンルミエール

ルプランドル

次に予想着順1番だったトーアコンゴウの予測値のウォーターフォール図を見てみる。
こちらも斤量の影響が反対方向に作用していた。

改善案

まとめると下記の2点の改善点が判明した。

  • 斤量の影響が直感とあっていない
  • 他の特徴量も考慮する必要がある

斤量に関しては訓練データに制限付きレースのカテゴリタイプを追加してみようと思う。

その他の特徴量としては血統データをなんとか数値化してモデルに入力したいと思う。