【要約】競馬AIは統計確率を上回れるか？LightGBMで35年分のJRAデータを検証した [Zenn_Python] | Summary by TechDistill

> Source: Zenn_Python

Execute Primary Source

// Problem

競馬予測における「オッズ」は市場の感情を含むため、純粋な統計的確率とは異なる。本検証では以下の課題が浮き彫りとなった。

・オッズ（人気）に依存しない純粋な予測精度の測定。
・馬個体の過去成績（前走タイム等）の欠如による精度限界。
・騎手・調教師の単純平均勝率による情報の抽象化。
・勝率向上と回収率改善の乖離。

// Approach

以下の手順で検証を実施した。

1.データ準備: 1986〜2021年のJRAデータ（約162万件）を使用。

2.特徴量設計: 距離、枠番、馬番、斤量、騎手・調教師の過去勝率を採用。

3.リーク防止: sort_values('レース日付')による時系列分割を実施。

4.モデル構築: lgb.LGBMClassifierを使用。

5.評価指標: 競馬場・距離別の単純勝率を統計ベースラインとして定義。

// Result

AIは統計的確率を大幅に上回る結果を出した。

・統計ベースライン勝率: 7.45%
・AI予測上位10%の勝率: 15.62%
・バックテスト回収率: 73.7%（JRA控除率と同等）

勝率は2倍以上に向上したが、回収率の改善には至らなかった。

Senior Engineer Insight

> 予測精度（勝率）の向上と、収益性（回収率）の乖離が明確に示されている。時系列分割によるリーク対策は適切だ。しかし、特徴量がレース前の静的情報に偏っている。馬の能力変化を捉える時系列データの不足が致命的だ。実戦投入には、JRA-VAN等の外部データを用いた高度な特徴量エンジニアリングが必須となる。モデルの精度向上だけでなく、ドメイン知識に基づいたデータパイプラインの設計が重要だ。

TechDistill.dev

【要約】競馬AIは統計確率を上回れるか？LightGBMで35年分のJRAデータを検証した [Zenn_Python] | Summary by TechDistill

// Problem

// Approach

// Result

Senior Engineer Insight

[ RELATED_KERNELS_DETECTED ]

拡散モデルの中身を覗いてみる：物理の「拡散」から生成AIを理解する

通話路を覗いて呼を推測してはいけない ― Amazon Connect+KVSでシグナリングを引く

一変量ランキングが外れるとき——共線・交絡と Elastic Net スクリーニング

SNS自動投稿はAPI接続から始めない — queue-firstで失敗を観測可能にする