【要約】Nicholas Carlini – Black-hat LLMs [video] [Hacker_News] | Summary by TechDistill

> Source: Hacker_News

LLMにおける敵対的攻撃（Adversarial Attacks）と防御の限界。

コミュニティの総意として、現在のLLMの安全性は「極めて脆弱」である。

【批判派（多数派）】

【慎重派（開発側視点）】

現場の技術責任者として、この議論を「極めて深刻な警告」と受け止めるべきだ。LLMの安全性は、本質的に「確率的な制御」に過ぎず、決定論的なセキュリティ保証は不可能である。我々の実戦投入において、以下の設計原則を徹底せよ。

1.**ゼロトラスト原則**: LLMを「信頼できないコンポーネント」として扱うこと。

2.**多層防御（Defense in Depth）**: LLM単体に安全性を委ねず、外部のバリデーション層を必ず設けること。

3.**決定論的ガードレール**: 入出力には、確率に依存しない、ルールベースの検閲を組み合わせること。

「安全なモデル」を待つのではなく、「不安全なモデルをどう制御するか」に設計リソースを集中せよ。