【要約】競馬AIは統計確率を上回れるか?LightGBMで35年分のJRAデータを検証した [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
競馬予測における「オッズ」は市場の感情を含むため、純粋な統計的確率とは異なる。本検証では以下の課題が浮き彫りとなった。
- ・オッズ(人気)に依存しない純粋な予測精度の測定。
- ・馬個体の過去成績(前走タイム等)の欠如による精度限界。
- ・騎手・調教師の単純平均勝率による情報の抽象化。
- ・勝率向上と回収率改善の乖離。
// Approach
以下の手順で検証を実施した。
1.データ準備: 1986〜2021年のJRAデータ(約162万件)を使用。
2.特徴量設計: 距離、枠番、馬番、斤量、騎手・調教師の過去勝率を採用。
3.リーク防止:
sort_values('レース日付')による時系列分割を実施。4.モデル構築:
lgb.LGBMClassifierを使用。5.評価指標: 競馬場・距離別の単純勝率を統計ベースラインとして定義。
// Result
AIは統計的確率を大幅に上回る結果を出した。
- ・統計ベースライン勝率: 7.45%
- ・AI予測上位10%の勝率: 15.62%
- ・バックテスト回収率: 73.7%(JRA控除率と同等)
Senior Engineer Insight
> 予測精度(勝率)の向上と、収益性(回収率)の乖離が明確に示されている。時系列分割によるリーク対策は適切だ。しかし、特徴量がレース前の静的情報に偏っている。馬の能力変化を捉える時系列データの不足が致命的だ。実戦投入には、JRA-VAN等の外部データを用いた高度な特徴量エンジニアリングが必須となる。モデルの精度向上だけでなく、ドメイン知識に基づいたデータパイプラインの設計が重要だ。