【要約】ローカルLLMにWebアプリを自律生成させた — 28秒で完成、セキュリティテスト22件全PASS [Zenn_Python] | Summary by TechDistill

> Source: Zenn_Python

Execute Primary Source

// Problem

開発者がLLMによる自律的なコード生成を行う際、生成コードの安全性確保と、LLM特有の出力挙動への対応が課題となる。

・生成コードによるシステムへの攻撃（パストラバーサルや破壊的コマンドの実行）。
・思考モード有効時にcontentフィールドが空になるLLM特有の挙動。
・長大なHTML生成時にJSONパースが失敗する問題。

// Approach

筆者は、LLMによる自律的なコード生成を安全かつ安定的に実行するため、ハーネスエンジニアリングの手法を採用した。

・3層構造のハーネス実装（サンドボックス、ポリシーエンジン、gitトランザクション）。
・API呼び出し時のthink: false指定による出力の安定化。
・4段階のフォールバックを用いた堅牢なパース処理。

// Result

筆者は、gpt-oss:20bを用いて3つのWebアプリを計77秒で生成し、セキュリティテスト22項目をすべてクリアした。

・Todo、タイマー、Markdownノートの3種を生成。
・セキュリティテスト（rm -rf /等）での遮断率100%を達成。
・単一HTML構成であれば、実用的なプロトタイプ生成が可能。

Senior Engineer Insight

> プロトタイピングの速度は驚異的である。しかし、viewportの欠落や永続化の不備など、細部の実装精度には課題が残る。単一HTMLへの依存も、複雑なアプリ開発には限界がある。現時点では、人間がレビューを行う前提の「高速な雛形生成器」として活用すべきだ。また、ハーネスによる安全確保は、エージェント運用において必須の設計思想である。

TechDistill.dev

【要約】ローカルLLMにWebアプリを自律生成させた — 28秒で完成、セキュリティテスト22件全PASS [Zenn_Python] | Summary by TechDistill

// Problem

// Approach

// Result

Senior Engineer Insight

[ RELATED_KERNELS_DETECTED ]

Can LLMs Perform Deep Technical Comprehension of Computer Architecture Papers

ローカルLLM study2: Aiderで自律コーディングをさせてみた（7モデル比較）

Ollama で think=false を送ると JSON Schema（format）が無視される

High-Bandwidth Flash offers efficient storage for model weights