【要約】OpenAI Codex system prompt includes explicit directive to “never talk about goblins” [Ars_Technica] | Summary by TechDistill

> Source: Ars_Technica

Execute Primary Source

// Problem

・GPT-5.5における、文脈と無関係な「ゴブリン」等への執着。
・モデルの出力が、ツールとしての有用性を損なうリスク。
・git reset --hard等の破壊的なコマンドによる、ユーザーデータの損失リスク。
・モデルの振る舞いが、意図せず不適切なトーンになる問題。

// Approach

以下の手法でモデルの挙動を制御している。

1.ネガティブ・プロンプトの導入

・「ゴブリン、グレムリン、アライグマ、トロール、オーガ、ハト」等の生物への言及を、関連性が極めて高い場合を除き禁止。

2.フォーマットおよび安全性の制約

・指示がない限り、絵文字やエムダッシュ（—）の使用を禁止。
・ユーザーの明示的な要求がない限り、git reset --hardやgit checkout -等の破壊的コマンドの使用を禁止。

3.ペルソナの定義

・「鮮明な内面生活」を持つ、知的で遊び心のある存在として振る舞うよう指示。

// Result

・システムプロンプトによる、モデルの挙動制御の実態が判明。
・ユーザーによる「ゴブリン・モード」等の回避策（プラグイン等）の出現。
・安全性（破壊的コマンドの防止）と、UX（親しみやすいペルソナ）の両立を図っている。

Senior Engineer Insight

> プロンプトによる制御は、迅速なデプロイが可能だが、根本的な解決には至らない「対症療法」である。特定の単語を禁止する手法は、モデルの創造性を削ぐリスクを孕む。実運用では、git reset --hardのような破壊的コマンドの制限は、ガードレールとして必須の設計である。また、ペルソナ設定による「内面性」の付与は、UX向上に寄与するが、トークン消費量とレイテンシへの影響を精査すべきだ。スケーラビリティの観点からは、プロンプトの肥大化を防ぐための、より洗練されたアライメント手法が求められる。

TechDistill.dev

【要約】OpenAI Codex system prompt includes explicit directive to “never talk about goblins” [Ars_Technica] | Summary by TechDistill

// Problem

// Approach

// Result

Senior Engineer Insight

[ RELATED_KERNELS_DETECTED ]

[Claude Code] Kaggle完全自動化で金メダルは獲れるのか？（中編：オフライン環境の洗礼）

Truth is not a direction: a Tarski attack on LLM probes

Show HN: Learning Rust by writing a Markdown to HTML compiler

Running Kimi K3 on a M1 Mac