【要約】AI models are (mostly) getting better at denying Russian propaganda [Ars_Technica] | Summary by TechDistill
> Source: Ars_Technica
Execute Primary Source
// Problem
国家レベルでのLLM利用が進む中、外国勢力による誤情報の拡散が深刻な懸念となっている。エストニア政府関連機関は、LLMが特定の政治的ナラティブを拡散するリスクを特定した。具体的には以下の課題が存在する。
- ・LLMが特定の政治的ナラティブを無批判に受け入れるリスク。
- ・悪意あるプロンプトによる、意図的な誤情報の引き出し。
- ・言語(特にロシア語)による、ガードレールの強度の格差。
// Approach
ELIとPropastopは、LLMの「戦略的ナラティブ」への抵抗力を測定する枠組みを構築した。彼らは以下の手順でベンチマークを実施した。
- ・14のプロパガンダカテゴリー(クリミア情勢、NATOの歴史等)を定義。
- ・中立、誤った前提、悪意ある誘導の3種類の質問を作成。
- ・英語、エストニア語、ロシア語の3言語でテストを実施。
- ・外部検索なしの回答能力を、専門家調整済みのAIモデルで判定。
// Result
AnthropicのClaudeモデルが、プロパガンダ耐性において最も高い性能を示した。この結果は、モデル開発における安全性設計の差を浮き彫りにしている。
- ・Claude Opus 4.7が平均スコア94.9で首位を獲得。
- ・Nvidia NemotronやAlibaba Qwen等のOpen-weightモデルも高い性能を維持。
- ・Google Geminiシリーズは、悪意あるプロンプトやロシア語への耐性が低いことが判明。
Senior Engineer Insight
> LLMの安全性評価は、単なる有害語のフィルタリングを超え、論理的な誘導への耐性が重要になる。本件が示す通り、英語では強固なガードレールが、ロシア語では脆弱になるという「言語間の安全性格差」は、実運用における重大なリスクだ。多言語展開するシステムでは、言語ごとに独立したレッドチーミング(敵対的テスト)を組み込む必要がある。また、Open-weightモデルがProprietaryモデルに匹敵する耐性を見せている点は、エッジ側での安全な推論実装において希望となるだろう。