【要約】競馬AI開発記録 #15 バックテストの異常な高ROIを疑う：時点固定（PiT）生成とリークの物理的遮断 [Zenn_Python] | Summary by TechDistill

> Source: Zenn_Python

Execute Primary Source

// Problem

開発者が競馬予測モデルのバックテストを実施した際、ROI 200%超という非現実的な数値を記録した。しかし、未知のデータを用いたフォワードテストで精度が急落したため、以下の問題が判明した。

・構造的リークの発生：全期間のデータを用いた一括集計により、過去の予測時に未来の統計量が混入。
・不十分な対策：行単位の shift(1) だけでは、GroupBy等の集計処理による時間軸の跨ぎを防止できない。

// Approach

開発者は、予測時点の状態を物理的に再現する「時点固定（Point-in-Time）生成」と、データの強制的な隔離を導入した。

・SimulationEngineの構築：年度単位で「学習・予測・更新」を繰り返すウォークフォワード方式を採用。
・PiT特徴量生成：各シミュレーションステップにおいて、その時点までのデータのみを用いて特徴量を再計算。
・LeakageProtectorの実装：予測対象年の結果系カラムを強制的にNaN化し、未来参照を物理的に遮断。

// Result

リークを完全に排除した環境で再評価を行った結果、モデルの的中率がランダムベースラインと同等まで低下した。

・精度の現実化：異常な高ROIが消失し、真の予測能力が判明。
・信頼性の確保：計算コストは増大したが、実運用に耐えうる検証パイプラインを確立。
・次フェーズへの移行：単純な過去集計に頼らない「動的特徴量」の開発へ着手。

Senior Engineer Insight

> 時系列MLにおいて「実装の注意」に頼ることは極めて危険である。本件のように、集計ロジックのミスをシステム的に防ぐ「物理的遮断」の仕組みを組み込む設計思想は、金融系や需要予測などの高精度が求められる現場で必須となる。計算コストの増大は避けられないが、誤ったモデルを実運用に投入するリスクと比較すれば、極めて妥当なトレードオフである。

TechDistill.dev

【要約】競馬AI開発記録 #15 バックテストの異常な高ROIを疑う：時点固定（PiT）生成とリークの物理的遮断 [Zenn_Python] | Summary by TechDistill

// Problem

// Approach

// Result

Senior Engineer Insight

[ RELATED_KERNELS_DETECTED ]

通話路を覗いて呼を推測してはいけない ― Amazon Connect+KVSでシグナリングを引く

一変量ランキングが外れるとき——共線・交絡と Elastic Net スクリーニング

SNS自動投稿はAPI接続から始めない — queue-firstで失敗を観測可能にする

KV260でステレオ化・音声エフェクト・スペクトル可視化（Pmod I2S2・段6〜8）