【要約】AISIのtest-time computeを使う:AIエージェント評価を3予算で作る [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
開発者がAIエージェントの性能を評価する際、単一のスコアのみでモデルを判断してしまう問題がある。これにより、モデルの真の能力を見誤るリスクが生じている。
- ・モデル自体の能力不足か、評価側の予算不足かが判別できない。
- ・「ベンチマークが低い」理由が、モデルの限界か停止タイミングの早さか不明である。
- ・実運用におけるコストと性能のトレードオフを予測できない。
// Approach
評価の精度を高めるため、推論時の計算量を変数とした多角的な評価手法を提案している。単一の実行ではなく、予算の変動に対する挙動を観察する。
- ・3段階の予算(small, medium, large)を設定し、同一タスクを走らせる。
- ・スコアを単一の点ではなく、予算に対する曲線として可視化する。
- ・停止条件として、hard_cap、plateau_check、verification_budgetを導入する。
// Result
AISIの調査により、計算資源の投入量とモデル性能の相関が定量的に示された。予算の拡大が性能向上に直結することが証明されている。
- ・TerminalBench 2.0等では、1Mから10M tokensへの増量で性能が約25%向上した。
- ・Humanity's Last Examでは、5M tokensまでで約22%の性能向上が見られた。
- ・サイバー系タスクでは、10M tokens超で初めて解けるタスクが約8%存在する。
Senior Engineer Insight
> エージェント開発において、モデル選定は「推論コストの設計」そのものである。単に高性能なモデルを選ぶのではなく、予算に対する性能曲線を評価すべきだ。「安いモデルを長く回す」か「高いモデルを短く切る」かの判断が、実運用でのコストと信頼性を左右する。停止条件の設計こそが、エンジニアの腕の見せ所となる。