競馬予測改善 指数追加

2022年3月4日

目的

前回のモデルはスピード指数があまり予想に生かされていない感じであった。
これは訓練データ中の新馬戦の割合が多いためであると思う。
新馬戦では過去の戦績はないため、そのレースでの馬体重、斤量などがモデルで重要視されてしまったのだと思う。
よって、訓練データから新馬戦データを除外する
これにより新馬戦の結果予測精度は下がるが、新馬戦以外については精度が上がるはずである。
新馬戦では今のところ利用可能な特徴量が少ないので、対象外にするのも妥当だろう。
将来的に新馬戦専用の予測モデルも作成していきたい。

さらに新しい特徴量として、ペース指数、上り指数、先行指数を追加する。

指数の追加

前回スピード指数をモデルに追加したが、他にもペース指数、上り指数、先行指数が存在する。

ペース指数走るペースを指数で表したもの。
数値が高いほどペースが早く、数値が低いほどペースが遅いことを表す。

上り指数上がり3ハロンに対するスピード指数となる。
この指数が低いと、後半の勝負所で上がりの脚をなくしたことを表し、高ければ上がりの脚が良かったことを表す。

先行指数ペース指数の標準値と比較したもの。
先行指数が高い馬は逃げたり先行したりすることが多く、先行指数が低い馬は集団の中段以降に位置することが多くなる。

これらの指数計算式はここを参考にした。

  • 先行指数(先行力の能力値)
           = ペース指数-距離別ペース指数(平均値)
  • ペース指数(持久力の能力値)
           ={(基準タイム-上がり基準タイム)-(走破タイム-上がりタイム)}×距離指数
            +{馬場指数÷(距離指数+1)}×距離指数
            +{(斤量-55)×2÷(距離指数+1)}×距離指数
  • 上がり指数(上がり3Fの瞬発力)
           ={(上がり基準タイム-上がりタイム)×距離指数}
            +{馬場指数÷(距離指数+1)}
            +{(斤量-55)×2÷(距離指数+1)}

実験結果

2022/2/26(土) 中山競馬場 11R 幕張S のデータを使って予想してみる。

馬名予想着順予想タイム着順
カルリーノ11:34.6410
オパールシャルム21:35.012
ウインレフィナード31:35.057
インテンスライト41:35.201
シャチ51:35.258
ブレイブメジャー61:35.304
ホウオウカトリーヌ71:35.409
レッドクレオス81:35.425
スーパーブレイク91:36.0911
リッケンバッカー101:36.216
ハーモニーマゼラン111:36.593
2022/2/26(土) 中山競馬場 11R 幕張予想

カルリーノのウォーターフォール図はこんな感じ。

カルリーノ ウォーターフォール図

訓練データから新馬戦データを除いたことで、スピード指数の影響が表れるようになった。
先行指数、ペース指数、上り指数を追加してみたが、あまり大きな影響はないようである。
馬単体での予測だと効かず、複数馬のデータ入力とするようなモデルだと効いてくるのかもしれない。