【要約】OpenAI Codex system prompt includes explicit directive to “never talk about goblins” [Ars_Technica] | Summary by TechDistill
> Source: Ars_Technica
Execute Primary Source
// Problem
- ・GPT-5.5における、文脈と無関係な「ゴブリン」等への執着。
- ・モデルの出力が、ツールとしての有用性を損なうリスク。
- ・
git reset --hard等の破壊的なコマンドによる、ユーザーデータの損失リスク。 - ・モデルの振る舞いが、意図せず不適切なトーンになる問題。
// Approach
以下の手法でモデルの挙動を制御している。
1.ネガティブ・プロンプトの導入
- ・「ゴブリン、グレムリン、アライグマ、トロール、オーガ、ハト」等の生物への言及を、関連性が極めて高い場合を除き禁止。
2.フォーマットおよび安全性の制約
- ・指示がない限り、絵文字やエムダッシュ(—)の使用を禁止。
- ・ユーザーの明示的な要求がない限り、
git reset --hardやgit checkout -等の破壊的コマンドの使用を禁止。
3.ペルソナの定義
- ・「鮮明な内面生活」を持つ、知的で遊び心のある存在として振る舞うよう指示。
// Result
- ・システムプロンプトによる、モデルの挙動制御の実態が判明。
- ・ユーザーによる「ゴブリン・モード」等の回避策(プラグイン等)の出現。
- ・安全性(破壊的コマンドの防止)と、UX(親しみやすいペルソナ)の両立を図っている。
Senior Engineer Insight
> プロンプトによる制御は、迅速なデプロイが可能だが、根本的な解決には至らない「対症療法」である。特定の単語を禁止する手法は、モデルの創造性を削ぐリスクを孕む。実運用では、
git reset --hardのような破壊的コマンドの制限は、ガードレールとして必須の設計である。また、ペルソナ設定による「内面性」の付与は、UX向上に寄与するが、トークン消費量とレイテンシへの影響を精査すべきだ。スケーラビリティの観点からは、プロンプトの肥大化を防ぐための、より洗練されたアライメント手法が求められる。