[STATUS: ONLINE] 当サイトは要約付きのエンジニア向けFeedです。

TechDistill.dev

[DISCLAIMER] 当サイトの要約は正確性を保証しません。気になる記事は必ず原文を確認してください。
cd ..

【要約】競馬AIは統計確率を上回れるか?LightGBMで35年分のJRAデータを検証した [Zenn_Python] | Summary by TechDistill

> Source: Zenn_Python
Execute Primary Source

// Problem

競馬予測における「オッズ」は市場の感情を含むため、純粋な統計的確率とは異なる。本検証では以下の課題が浮き彫りとなった。


  • オッズ(人気)に依存しない純粋な予測精度の測定。
  • 馬個体の過去成績(前走タイム等)の欠如による精度限界。
  • 騎手・調教師の単純平均勝率による情報の抽象化。
  • 勝率向上と回収率改善の乖離。

// Approach

以下の手順で検証を実施した。


1.データ準備: 1986〜2021年のJRAデータ(約162万件)を使用。
2.特徴量設計: 距離、枠番、馬番、斤量、騎手・調教師の過去勝率を採用。
3.リーク防止: sort_values('レース日付')による時系列分割を実施。
4.モデル構築: lgb.LGBMClassifierを使用。
5.評価指標: 競馬場・距離別の単純勝率を統計ベースラインとして定義。

// Result

AIは統計的確率を大幅に上回る結果を出した。


  • 統計ベースライン勝率: 7.45%
  • AI予測上位10%の勝率: 15.62%
  • バックテスト回収率: 73.7%(JRA控除率と同等)
勝率は2倍以上に向上したが、回収率の改善には至らなかった。

Senior Engineer Insight

> 予測精度(勝率)の向上と、収益性(回収率)の乖離が明確に示されている。時系列分割によるリーク対策は適切だ。しかし、特徴量がレース前の静的情報に偏っている。馬の能力変化を捉える時系列データの不足が致命的だ。実戦投入には、JRA-VAN等の外部データを用いた高度な特徴量エンジニアリングが必須となる。モデルの精度向上だけでなく、ドメイン知識に基づいたデータパイプラインの設計が重要だ。

[ RELATED_KERNELS_DETECTED ]

cd ..

> System.About()

TechDistillは、膨大な技術記事から情報の真髄(Kernel)のみを抽出・提示します。