【要約】Claude Code の検証を Skill にするか shell コマンドにするか、両方走らせて見えてきた境界 [Zenn_Python] | Summary by TechDistill

> Source: Zenn_Python

Execute Primary Source

// Problem

開発者がAI Agentの出力品質を担保しようとする際、検証ロジックの配置場所によって以下の課題に直面する。

・検証の確実性の欠如

SkillはClaudeの判断に依存するため、max_turnsの終了時などに検証を呼び忘れる事故が発生する。

・リソースとコストの増大

Skillは説明文や例示によりトークンを大量に消費し、コンテキスト窓を圧迫する。

・観測性と管理の困難さ

Skillの実行履歴はパイプラインのDBに残りづらく、更新内容の追跡も困難である。

・フィードバックループの停滞

コマンドによる検証は、プロジェクトの規模に応じて実行時間が長くなり、開発速度を低下させる。

// Approach

開発者は、検証の性質と実行されるコンテキストに応じて、SkillとShellコマンドを使い分ける設計を採用した。

・Runtime（ワークフロー）へのコマンド適用

agentパイプラインの出口には、必ずverify_commands（Shellコマンド）を配置する。これにより、Claudeの判断を介さず、exit codeに基づいた決定論的な検証を強制する。

・Dev-loop（開発補助）へのSkill適用

開発者がセッション内で「バグを調査して」と指示するような補助的な場面には、Skillを配置する。これにより、自然言語による柔軟なレポートや文脈に応じた判断を実現する。

・判断基準のスライダー化

「Claudeに判断を任せる量」を設計の軸とし、0%（コマンド）から100%（Skill）の間で適切に割り当てる。

// Result

開発チームは、検証の目的ごとに道具を使い分けることで、システムの信頼性と開発体験の両立を実現した。

・Runtimeの安定化

notion_compatible.json等のワークフローにおいて、on_successからverifyステップへ確実に遷移する構造を構築した。

・開発補助の高度化

bug-analyzerやtest-generator等のSkillにより、人間にとって読みやすい自然言語でのフィードバックを可能にした。

・運用の明確化

「出口はコマンド、対面はSkill」という暫定的な分業ルールを確立し、設計の迷いを排除した。

Senior Engineer Insight

> AIの不確実性を「システム全体の信頼性」に持ち込ませない設計思想が極めて実践的である。CI/CDや自動化パイプラインのような、失敗が許されない決定論的な領域には必ずShellコマンドを配置し、AIの判断を介在させない。一方で、人間との対話や複雑な文脈判断が必要な領域にはSkillを配置し、開発体験を向上させる。この「決定論的レイヤー」と「確率論的レイヤー」の分離は、AI Agentを実戦投入する際の鉄則と言える。

TechDistill.dev

【要約】Claude Code の検証を Skill にするか shell コマンドにするか、両方走らせて見えてきた境界 [Zenn_Python] | Summary by TechDistill

// Problem

// Approach

// Result

Senior Engineer Insight

[ RELATED_KERNELS_DETECTED ]

Musk's AI told me people were coming to kill me (BBC)

Claude Code入りのDockerイメージをDevContainerで動かす

【Claude Code】/insights のレポートが上書きされないように逃がしておきたい

Specsmaxxing – On overcoming AI psychosis, and why I write specs in YAML