【要約】需要予測における打ち切り問題 ②理論編・前編 ─ なぜ普通の予測モデルは系統的に間違えるのか [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
[WARN: Partial Data] 全5回のシリーズのうちの第2回(理論編・前編)であり、理論の完結には至っていない。
// Problem
小売・流通の現場において、データサイエンティストは在庫切れによる需要の過小評価という問題に直面する。POSデータには「売れた量」しか記録されず、在庫上限で打ち切られた「真の需要」が欠落するためである。
- ・OLSを用いると、トレンドや季節性の係数が真の値より小さく推定される。
- ・打ち切りデータを除外しても、サンプルの非対称性によりバイアスが残る。
- ・欠品が起きると予測が過小になり、さらなる欠品を招く負のスパイラルが発生する。
// Approach
本記事では、打ち切り現象を数学的に正しく扱うための統計的手法としてTobitモデルを導入する。単に観測値を予測するのではなく、潜在変数を用いた尤度関数の最大化によって真の需要を推定する。
- ・Censoring、Truncation、Sample selectionの3概念を整理する。
- ・Pythonを用いて、真の需要と観測売上の差を可視化する合成データを作成する。
- ・Tobitモデルの負の対数尤度関数を実装し、パラメータを推定する。
// Result
Tobitモデルの導入により、需要が急増するイベント期における予測精度が劇的に改善する。シミュレーションの結果、以下の成果が確認された。
- ・米騒動期(イベント期)のRMSEが、OLSの17.44に対し、Tobitは10.06まで低下した。
- ・OLSで発生していたトレンドや季節性の過小推定が、Tobitではほぼ解消された。
- ・在庫制約が厳しい異常時においても、高い予測性能を維持できる。
Senior Engineer Insight
> 実務における需要予測の肝は、平常時ではなく「異常時」の精度にある。OLSによる系統的な過小評価は、在庫不足を助長する致命的なリスクだ。Tobitモデルは実装コストや計算負荷がOLSより高いが、イベント期の予測精度向上というリターンは大きい。特に、在庫制約が明らかなドメインでは、標準的なMLモデルに頼らず、こうした計量経済学的手法を組み込むべきだ。