【要約】未来を見ていないのに、検証はまだカンニングする [Zenn_Python] | Summary by TechDistill

> Source: Zenn_Python

// Problem

機械学習モデルの開発者が、検証環境では高い精度を示すにもかかわらず、本番環境で期待通りの性能を出せない問題に直面している。これは、時間の順序を守る「未来参照」を防いでも、学習と検証の境界を越えて情報が漏れる「特徴量リーク」が発生しているためである。主な問題は以下の通りである。

・前処理（スケーリング等）を分割前に全データで実行し、検証区間の統計量を学習に含めてしまう。
・ターゲットエンコーディング等により、特徴量の中にラベル（答え）の情報が混入する。
・時系列データのラベル窓が重なり、学習サンプルと検証サンプルが情報を共有してしまう。

// Approach

開発者は、学習データから学んだ情報を検証データに適用するという原則を徹底するアプローチを採用すべきである。情報の漏洩を防ぐために、以下の具体的な手法を導入する。

・scikit-learnのPipelineを用い、各foldの学習データのみで前処理をfitさせる。
・ラベルを用いた集計を行う際は、必ず学習データ内のみで計算し、検証データにはout-of-foldの値を適用する。
・ラベルに時間的な窓がある場合、Purging（重なる学習データの除去）とEmbargo（検証後の緩衝期間の設定）を実装する。
・ラベルをシャッフルしても精度が落ちない場合、リークが発生していると判断する。

// Result

適切なデータ分離手法を導入することで、検証成績の水増しを排除し、本番環境に近い現実的な精度評価が可能となる。これにより、開発者は以下の成果を得られる。

・検証精度が低下しても、それはモデルの欠陥ではなく、検証の信頼性が向上した結果であると正しく認識できる。
・PurgingとEmbargoの導入により、時系列データの相関による情報の漏洩を防げる。
・ラベルシャッフルテストにより、リークの有無を客観的に判定できる。

Senior Engineer Insight

> 本記事が指摘するリークは、金融系モデル開発において致命的な「死の罠」である。Pipelineの活用は開発体験を向上させるが、PurgingやEmbargoの実装は標準ライブラリだけでは不十分であり、独自のロジックが必要となる。精度向上を急ぐあまり、検証成績の「急激な改善」を盲信するのは極めて危険だ。実戦では、検証精度よりも「検証の厳密さ」を優先する文化を構築すべきである。

TechDistill.dev

【要約】未来を見ていないのに、検証はまだカンニングする [Zenn_Python] | Summary by TechDistill

// Problem

// Approach

// Result

Senior Engineer Insight

[ RELATED_KERNELS_DETECTED ]

自作の競馬予想MLで効率的市場仮説に挑んで、跳ね返された話 ── ablationで見えた『市場が織り込んでいるもの』

友達から久々にLINEが来たので、マルチ勧誘リスクを機械学習で判定してみた

両さん、鳥の声で100万ドルを狙う！の巻

機械学習モデルのパラメーター・チューニング入門：過学習を防ぎ、予測精度を上げる考え方