競馬予測改善 指数追加
目的
前回のモデルはスピード指数があまり予想に生かされていない感じであった。
これは訓練データ中の新馬戦の割合が多いためであると思う。
新馬戦では過去の戦績はないため、そのレースでの馬体重、斤量などがモデルで重要視されてしまったのだと思う。
よって、訓練データから新馬戦データを除外する。
これにより新馬戦の結果予測精度は下がるが、新馬戦以外については精度が上がるはずである。
新馬戦では今のところ利用可能な特徴量が少ないので、対象外にするのも妥当だろう。
将来的に新馬戦専用の予測モデルも作成していきたい。
さらに新しい特徴量として、ペース指数、上り指数、先行指数を追加する。
指数の追加
前回スピード指数をモデルに追加したが、他にもペース指数、上り指数、先行指数が存在する。
ペース指数は走るペースを指数で表したもの。
数値が高いほどペースが早く、数値が低いほどペースが遅いことを表す。
上り指数は上がり3ハロンに対するスピード指数となる。
この指数が低いと、後半の勝負所で上がりの脚をなくしたことを表し、高ければ上がりの脚が良かったことを表す。
先行指数はペース指数の標準値と比較したもの。
先行指数が高い馬は逃げたり先行したりすることが多く、先行指数が低い馬は集団の中段以降に位置することが多くなる。
これらの指数計算式はここを参考にした。
- 先行指数(先行力の能力値)
= ペース指数-距離別ペース指数(平均値) - ペース指数(持久力の能力値)
={(基準タイム-上がり基準タイム)-(走破タイム-上がりタイム)}×距離指数
+{馬場指数÷(距離指数+1)}×距離指数
+{(斤量-55)×2÷(距離指数+1)}×距離指数 - 上がり指数(上がり3Fの瞬発力)
={(上がり基準タイム-上がりタイム)×距離指数}
+{馬場指数÷(距離指数+1)}
+{(斤量-55)×2÷(距離指数+1)}
実験結果
2022/2/26(土) 中山競馬場 11R 幕張S のデータを使って予想してみる。
馬名 | 予想着順 | 予想タイム | 着順 |
---|---|---|---|
カルリーノ | 1 | 1:34.64 | 10 |
オパールシャルム | 2 | 1:35.01 | 2 |
ウインレフィナード | 3 | 1:35.05 | 7 |
インテンスライト | 4 | 1:35.20 | 1 |
シャチ | 5 | 1:35.25 | 8 |
ブレイブメジャー | 6 | 1:35.30 | 4 |
ホウオウカトリーヌ | 7 | 1:35.40 | 9 |
レッドクレオス | 8 | 1:35.42 | 5 |
スーパーブレイク | 9 | 1:36.09 | 11 |
リッケンバッカー | 10 | 1:36.21 | 6 |
ハーモニーマゼラン | 11 | 1:36.59 | 3 |
カルリーノのウォーターフォール図はこんな感じ。
訓練データから新馬戦データを除いたことで、スピード指数の影響が表れるようになった。
先行指数、ペース指数、上り指数を追加してみたが、あまり大きな影響はないようである。
馬単体での予測だと効かず、複数馬のデータ入力とするようなモデルだと効いてくるのかもしれない。
ディスカッション
コメント一覧
まだ、コメントがありません