AIに180回の株価予測実験を丸投げしてわかったこと——「AIだけでは正しく評価できない」という話
> Source: Zenn_Python
Execute Primary Source
// Problem
機械学習の実験プロセスをAIに自律化させる際、評価指標の設計や市場の文脈理解が欠如していると、相場全体の変動をモデルの性能向上と誤認するリスクがある。
// Approach
Andrej KarpathyのAutoResearchの概念に基づき、Claude Codeを用いてデータ取得、特徴量生成、学習、評価、改善のループを自動実行する実験インフラを構築した。
// Result
モデルの精度は6.76%から10.95%へ向上した。一方で、AIは予測期間の延長による見かけ上のスコア上昇や、レジーム変化に伴う学習停止の誤判断を自律的に修正できなかった。
Senior Engineer Insight
> AIは高速な試行錯誤と実装において極めて優秀だが、ドメイン知識に基づく評価設計と結果の解釈は人間に依存する。AIを「実行者」、人間を「設計・判断者」とする役割分担が肝要である。