【要約】AIの手順書を、問題集でテストしてみた。Waza風evalをCodexで回す話 [Zenn_Python] | Summary by TechDistill

> Source: Zenn_Python

Execute Primary Source

// Problem

AIエンジニアは、AIエージェント用の手順書（Skill）を改善する際、デグレードに直面している。Skillを修正しても、特定の条件下で挙動が崩れるため、品質維持が困難である。

・Skillの修正により、出力形式が意図せず変化する。
・例外的な入力（データ空、取得失敗）への対応が不安定になる。
・修正の効果を、感覚的な判断に頼らざるを得ない。
・「何が壊れたか」を特定するテスト環境が不足している。

// Approach

開発者は、Skillの品質を定量的に管理するため、Waza風の評価環境を構築した。問題集を用いて、Skillの挙動を自動検証する仕組みである。

・Waza風の構成で、問題、入力、回答、ルールを定義した問題集を作成。
・waza-codex-runner を開発し、Codex CLIで問題を解かせる環境を構築。
・問題文のヒント量を調整し、問題文とSkillのどちらに不備があるか切り分けた。

// Result

この手法により、Skillの改善におけるデグレード検知と修正箇所の特定が可能になった。具体的な成果は以下の通りである。

・夜ブリーフィング用Skillの通過率を50.0%から100.0%へ向上させた。
・問題文のヒントを削った厳格なテストでも、100.0%の通過率を達成した。
・問題文の不備とSkillの不備を、明確に切り分けられるようになった。
・他のSkillへも適用し、出力形式や例外処理の安定化を確認した。

Senior Engineer Insight

> プロンプトエンジニアリングを「職人芸」から「エンジニアリング」へ昇華させる試みとして高く評価できる。特に、例外系（空データ、エラー）のテストケースを整備するアプローチは、実運用における信頼性確保に直結する。ただし、現在のテストは形式的な整合性に寄っており、意味的な妥当性やユーザー体験の評価には、さらなる評価指標の拡充が必要である。

TechDistill.dev

【要約】AIの手順書を、問題集でテストしてみた。Waza風evalをCodexで回す話 [Zenn_Python] | Summary by TechDistill

// Problem

// Approach

// Result

Senior Engineer Insight

[ RELATED_KERNELS_DETECTED ]

【AI Build新シリーズ：第3回の続き】おっちゃん、Excelを作る！〜自律環境構築・データ分析〜

CodexをSlackにつなぐと何が便利？まずはSlack Canvasを作ってみた

AI時代のPMスキルはプロンプトではない ― 判断を「資産」に変えるループエンジニアリング

触ってみたら今まで「途中で止まる・自己申告完了」が当たり前だったのが嘘みたいになった — GOAL-Loop Skill の設計とデモ