時系列基盤モデル vs LLM:日本株5日間予測ベンチマーク(N=100) | TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
時系列予測における課題は、単一銘柄の数値回帰精度と、複数銘柄間の相対的な強弱を捉えるランキング能力の乖離にある。従来の時系列専用モデルは数値パターンの抽出には長けているが、市場の文脈理解や銘柄間の比較推論が不足しており、実運用におけるポートフォリオ戦略への適用に限界があった。
// Approach
日経225採用銘柄を対象に、100日間のバックテストを実施。Kronosは過去512日のOHLCVデータを、Claudeは過去60日のデータにテクニカルな文脈を加えたプロンプトを入力。予測値に基づき、上位銘柄をロング、下位銘柄をショートする仮想戦略の収益性を検証した。
// Result
Claude Opusがシャープレシオ+1.46を記録し、時系列専用モデルを凌駕した。Kronosは方向性精度で勝るものの、価格誤差(MAPE)が大きく、銘柄間の相対比較に失敗した。LLMの持つ文脈理解と推論能力が、金融時系列のランキングタスクにおいて極めて有効であることが示された。
Senior Engineer Insight
> 本検証は、時系列予測における「数値回帰」と「相対比較」の分離を明確に示した。Kronosのような専用モデルは単一の時系列パターン抽出には強いが、市場の文脈や銘柄間の相関を考慮した意思決定にはLLMの推論能力が適している。ただし、LLMの推論コストとレイテンシ、およびバックテストにおけるスリッページの無視は実運用上の致命的なリスクとなる。実戦投入には、LLMをランキングエンジンとして使い、専用モデルを価格補正に使うといったハイブリッド構成の検討が現実的だ。