【要約】本番エージェント、本当に「黙って壊れてない」？ — 4軸で走査したら自分が50点だった [Zenn_Python] | Summary by TechDistill

> Source: Zenn_Python

Execute Primary Source

// Problem

開発者は、本番環境でエージェントが静かに壊れる問題に直面している。ローカルでは正常でも、デプロイ後に機能不全が起きる。

・タイマーの停止や再起動ループの発生。
・デバッグに必要な証拠ファイルの欠落。
・宣言された仕様と、実際の挙動との乖離。

これらはプロンプトの改善だけでは解決できず、実態を数値化する手段が欠けていた。

// Approach

開発チームは、健全性を数値化するため、AOS Agent Health Reporterを実装した。

・4つの評価軸によるルーブリック採点。
・--mockと実走査によるスコアの厳格な分離。
・precedent_metaによる、スキャン結果の来歴の構造化。
・Playwrightを用いた30サイクルの繰り返し検証。

これにより、エージェントの内部構造の課題をレントゲン写真のように浮き彫りにする。

// Result

開発者は、自社ツール(1066)の自己採点を通じ、設計上のギャップを可視化した。

・自社ツールのスコアが50.0であることを示し、負債を明示した。
・リポジトリ全体の平均スコア(39.2)を提示し、課題を浮き彫りにした。
・Playwrightによる30/30の成功で、計測器の信頼性を証明した。

今後は、外部MCPの爆発半径を測るAuditorへの展開を見据えている。

Senior Engineer Insight

> 「堅牢性」を、ファイル存在確認という物理的指標に落とし込んだ点が実戦的だ。単なるテストに留まらず、監査証跡まで考慮している点は、大規模運用を見据えた設計と言える。ただし、ファイル名ベースの判定には限界がある。動的なプロセス監視や、外部MCPの権限解析との組み合わせが、実運用における真の防御策となるだろう。

TechDistill.dev

【要約】本番エージェント、本当に「黙って壊れてない」？ — 4軸で走査したら自分が50点だった [Zenn_Python] | Summary by TechDistill

// Problem

// Approach

// Result

Senior Engineer Insight

[ RELATED_KERNELS_DETECTED ]

MCP入門 ① 自作ツール（MCP Server）を Claude Code から呼び出す

【 Shutdown and Focus - 1 】 USB代金を払わないとデバイスが使えなくなる”ランサムウェア”を作ってみた。

(How to Write a (Lisp) Interpreter (In Python))

素人が1か月でClaudeを使ったバイブコーディングでWebサービスを4つ作った反省点