【要約】本番エージェント、本当に「黙って壊れてない」? — 4軸で走査したら自分が50点だった [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
開発者は、本番環境でエージェントが静かに壊れる問題に直面している。ローカルでは正常でも、デプロイ後に機能不全が起きる。
- ・タイマーの停止や再起動ループの発生。
- ・デバッグに必要な証拠ファイルの欠落。
- ・宣言された仕様と、実際の挙動との乖離。
// Approach
開発チームは、健全性を数値化するため、AOS Agent Health Reporterを実装した。
- ・4つの評価軸によるルーブリック採点。
- ・
--mockと実走査によるスコアの厳格な分離。 - ・
precedent_metaによる、スキャン結果の来歴の構造化。 - ・Playwrightを用いた30サイクルの繰り返し検証。
// Result
開発者は、自社ツール(1066)の自己採点を通じ、設計上のギャップを可視化した。
- ・自社ツールのスコアが50.0であることを示し、負債を明示した。
- ・リポジトリ全体の平均スコア(39.2)を提示し、課題を浮き彫りにした。
- ・Playwrightによる30/30の成功で、計測器の信頼性を証明した。
Senior Engineer Insight
> 「堅牢性」を、ファイル存在確認という物理的指標に落とし込んだ点が実戦的だ。単なるテストに留まらず、監査証跡まで考慮している点は、大規模運用を見据えた設計と言える。ただし、ファイル名ベースの判定には限界がある。動的なプロセス監視や、外部MCPの権限解析との組み合わせが、実運用における真の防御策となるだろう。