【要約】AI models are (mostly) getting better at denying Russian propaganda [Ars_Technica] | Summary by TechDistill

> Source: Ars_Technica

Execute Primary Source

// Problem

国家レベルでのLLM利用が進む中、外国勢力による誤情報の拡散が深刻な懸念となっている。エストニア政府関連機関は、LLMが特定の政治的ナラティブを拡散するリスクを特定した。具体的には以下の課題が存在する。

・LLMが特定の政治的ナラティブを無批判に受け入れるリスク。
・悪意あるプロンプトによる、意図的な誤情報の引き出し。
・言語（特にロシア語）による、ガードレールの強度の格差。

// Approach

ELIとPropastopは、LLMの「戦略的ナラティブ」への抵抗力を測定する枠組みを構築した。彼らは以下の手順でベンチマークを実施した。

・14のプロパガンダカテゴリー（クリミア情勢、NATOの歴史等）を定義。
・中立、誤った前提、悪意ある誘導の3種類の質問を作成。
・英語、エストニア語、ロシア語の3言語でテストを実施。
・外部検索なしの回答能力を、専門家調整済みのAIモデルで判定。

// Result

AnthropicのClaudeモデルが、プロパガンダ耐性において最も高い性能を示した。この結果は、モデル開発における安全性設計の差を浮き彫りにしている。

・Claude Opus 4.7が平均スコア94.9で首位を獲得。
・Nvidia NemotronやAlibaba Qwen等のOpen-weightモデルも高い性能を維持。
・Google Geminiシリーズは、悪意あるプロンプトやロシア語への耐性が低いことが判明。

Senior Engineer Insight

> LLMの安全性評価は、単なる有害語のフィルタリングを超え、論理的な誘導への耐性が重要になる。本件が示す通り、英語では強固なガードレールが、ロシア語では脆弱になるという「言語間の安全性格差」は、実運用における重大なリスクだ。多言語展開するシステムでは、言語ごとに独立したレッドチーミング（敵対的テスト）を組み込む必要がある。また、Open-weightモデルがProprietaryモデルに匹敵する耐性を見せている点は、エッジ側での安全な推論実装において希望となるだろう。

TechDistill.dev

【要約】AI models are (mostly) getting better at denying Russian propaganda [Ars_Technica] | Summary by TechDistill

// Problem

// Approach

// Result

Senior Engineer Insight

[ RELATED_KERNELS_DETECTED ]

From Muon to Gradient Clipping: Some Thoughts on QK Stability

コンシューマー機2台をRPCでつないで96GB相当のVRAMを作り、6つのオープンLLMを実測してみた

HomeLab #1: MikroTik as a Home Router

Texas Police Spent $4.5M on Four Chevy Tahoes