【要約】競馬AIは統計確率を上回れるか?LightGBMで35年分のJRAデータを検証した [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
競馬予測において、オッズは市場の集合知を含むため、純粋な統計的確率とは異なる。オッズという「答えに近い情報」を排除した状態で、レース前に判明するデータのみで統計的勝率を上回る予測が可能か、また、予測精度が実際の収益(回収率)に直結するかという課題がある。
// Approach
162万件の時系列データを用い、LightGBMによる分類モデルを構築。情報漏洩を防ぐため時系列分割を採用し、騎手や調教師の勝率は訓練データのみから算出。オッズや人気を特徴量から完全に排除し、純粋なレース条件と属性のみで予測を行うことで、モデルの真の予測力を検証した。
// Result
AI予測上位10%の勝率は15.62%に達し、統計ベースライン(7.45%)の2倍以上を記録した。一方で回収率は73.7%に留まり、利益創出には馬個体の過去成績や天候、馬場状態といった追加特徴量の導入が不可欠であることが示唆された。
Senior Engineer Insight
> 時系列分割によるリーク対策や、オッズを排除した検証プロセスは、予測モデルの妥当性を評価する上で極めて堅実である。勝率の向上はモデルの有効性を示しているが、回収率の低迷は「予測精度」と「期待値の最大化」の乖離を物語っている。実戦投入には、馬の個体能力や馬場状態といったドメイン特有の変数を取り込む高度な特徴量エンジニアリングが不可欠であり、単なるアルゴリズムの適用だけではビジネス価値を生めない。スケーラビリティの観点では、JRA-VAN等の外部データ連携によるパイプライン構築が次の課題となる。