【要約】AIの手順書を、問題集でテストしてみた。Waza風evalをCodexで回す話 [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
AIエンジニアは、AIエージェント用の手順書(Skill)を改善する際、デグレードに直面している。Skillを修正しても、特定の条件下で挙動が崩れるため、品質維持が困難である。
- ・Skillの修正により、出力形式が意図せず変化する。
- ・例外的な入力(データ空、取得失敗)への対応が不安定になる。
- ・修正の効果を、感覚的な判断に頼らざるを得ない。
- ・「何が壊れたか」を特定するテスト環境が不足している。
// Approach
開発者は、Skillの品質を定量的に管理するため、Waza風の評価環境を構築した。問題集を用いて、Skillの挙動を自動検証する仕組みである。
- ・Waza風の構成で、問題、入力、回答、ルールを定義した問題集を作成。
- ・
waza-codex-runnerを開発し、Codex CLIで問題を解かせる環境を構築。 - ・問題文のヒント量を調整し、問題文とSkillのどちらに不備があるか切り分けた。
// Result
この手法により、Skillの改善におけるデグレード検知と修正箇所の特定が可能になった。具体的な成果は以下の通りである。
- ・夜ブリーフィング用Skillの通過率を50.0%から100.0%へ向上させた。
- ・問題文のヒントを削った厳格なテストでも、100.0%の通過率を達成した。
- ・問題文の不備とSkillの不備を、明確に切り分けられるようになった。
- ・他のSkillへも適用し、出力形式や例外処理の安定化を確認した。
Senior Engineer Insight
> プロンプトエンジニアリングを「職人芸」から「エンジニアリング」へ昇華させる試みとして高く評価できる。特に、例外系(空データ、エラー)のテストケースを整備するアプローチは、実運用における信頼性確保に直結する。ただし、現在のテストは形式的な整合性に寄っており、意味的な妥当性やユーザー体験の評価には、さらなる評価指標の拡充が必要である。