【要約】28秒で作れるAIは、5ファイルで壊れる。ローカルLLMを安全に使うハーネス設計 [Zenn_Python] | Summary by TechDistill

> Source: Zenn_Python

Execute Primary Source

// Problem

開発者がローカルLLMを用いて自律的なコード生成を行おうとする際、ファイル構成が複雑になると生成が破綻するという問題に直面する。単一HTMLでは成功しても、ES Modules等を用いる複数ファイル構成では以下の課題が顕在化した。

・出力プロトコルの崩壊：長いコードをJSONに詰め込むことで、パースエラーが発生する。
・タスク保持力の低下：生成中に文脈を失い、Webアプリとは無関係な内容（物理学の解説等）を出力する。
・スケーラビリティの欠如：ファイル数が増えるほど、出力トークンを消費しながらも空応答となる傾向がある。

// Approach

モデルの性能向上に頼るのではなく、LLMに与える作業単位を最小化する「ハーネス（制御機構）」の改善アプローチを採用した。モデルに背負わせる負荷を分散し、エラーの影響範囲を限定する手法である。

・一括生成の廃止：全ファイルを一度に生成させるのではなく、1ファイルずつ生成させる。
・計画の先行固定：最初にファイル一覧と各ファイルの役割（role）のみを定義させる。
・逐次的な静的チェック：各ファイル生成直後に node --check 等で構文を確認する。
・失敗の局所化：エラーが発生したファイルのみを再生成対象とし、修正の範囲を限定する。

// Result

ハーネスの設計変更により、20B級のローカルLLMでも複雑なプロジェクトの完遂が可能であることを実証した。一括生成では失敗していたタスクが、制御手法の変更によって劇的に改善された。

・9ファイル構成のタスク管理アプリにおいて、一括生成では失敗（スコア2/10）したが、1ファイルずつの生成では成功（スコア11/11）した。
・生成時間は、一括生成の失敗（327.1秒）に対し、改善版では69.3秒（1回目）と大幅に短縮された。

Senior Engineer Insight

> LLMエージェントの実装において、モデルのパラメータ数に固執するのは非効率である。本記事が示す通り、プロトコルの設計、すなわち「失敗の半径をいかに小さくするか」というエンジニアリングが、システムの信頼性を決定づける。特にリソースの限られたローカルLLMを用いる場合、一括処理を避け、ステートフルな逐次実行プロセスを構築することが、実用的な自律コーディングを実現するための鍵となる。

TechDistill.dev

【要約】28秒で作れるAIは、5ファイルで壊れる。ローカルLLMを安全に使うハーネス設計 [Zenn_Python] | Summary by TechDistill

// Problem

// Approach

// Result

Senior Engineer Insight

[ RELATED_KERNELS_DETECTED ]

RAGで最後に残った不正解1問を「解剖」したら、予定していた実験が丸ごと不要になった

Exploit brokers pay $500k for WordPress RCEs. I found one with GPT5.6 and $25

閉域構成のOracleDB運用支援LLMを作り、RAGでハルシネーションがどこまで減るか18問で実測してみた

【５秒で読める】アプリを作れないので「育てる」ことにした