【要約】Claude mixes up who said what and that's not OK [Hacker_News] | Summary by TechDistill

> Source: Hacker_News

// Discussion Topic

LLMにおける「データパス」と「制御パス」の分離不全。ユーザー入力がシステム命令を上書きするプロンプトインジェクションのリスクに対し、TransformerアーキテクチャのAttention機構や、言語が持つ本質的な曖昧さがどのようにセキュリティ上の脆弱性として作用するかを論じている。

// Community Consensus

プロンプトへの指示追加による対策は、SQLインジェクションに対する不完全な正規表現対策と同レベルの、極めて脆弱な「その場しのぎ」であるとの見方が支配的である。多くのエンジニアは、プロンプトインジェクションを単なるバグではなく、LLMが文脈を理解しようとする性質そのものから生じる「仕様」に近いものと捉えている。アーキテクチャレベルでの分離がなされない限り、LLMを完全に信頼することは不可能であるという結論に至っている。

// Alternative Solutions

特殊トークンを用いた入力境界の定義、出力時に特定のトークンを禁止する制約付きデコーディング、OpenAIのHarmonyのような階層的なロール（System/Developer/User）の導入、およびLLMの前後で行う厳格なバリデーション層の構築。

// Technical Terms

Senior Engineer Insight

> 本議論は、LLMを「信頼できる実行環境」として扱うことの危うさを冷徹に示している。我々の実戦において、プロンプトによるガードレールは、穴の空いたダムに指を突っ込むような極めて脆弱なものと見なすべきだ。SQLインジェクションの歴史が証明している通り、境界の分離がアーキテクチャレベルで保証されない限り、LLMの出力をそのまま制御フローや権限管理に流し込むことは、致命的なリスクを招く。LLMは「確率的な推論エンジン」であり、「決定論的な論理エンジン」ではない。この認識を前提とし、LLMをサンドボックス化し、多層的なバリデーションと権限分離を組み合わせた、防御的なシステム設計を徹底せよ。