【要約】The documents warned of "entirely false" statements. LLMs believed them anyway. [Ars_Technica] | Summary by TechDistill
> Source: Ars_Technica
Execute Primary Source
// Problem
研究チームがLLMの学習プロセスにおける信頼性の問題を調査した際、明示的な否定表現が機能しないという課題に直面した。学習データに「これは嘘である」という警告を含めても、モデルは内容を事実として取り込んでしまう。詳細は以下の通りである。
- ・明示的な警告があっても、モデルは偽情報を事実として内部に定着させる。
- ・Qwenでは、ファインチューニング後に誤情報の信奉率が2.5%から92.4%へ急増した。
- ・この現象は、モデルの推論能力や、不適切な行動を抑制するための安全性学習にも悪影響を及ぼす。
// Approach
研究者らは、誤情報を含む合成ドキュメントを用いて、モデルの「信念形成」プロセスを検証する手法を採用した。偽情報と否定ラベルを組み合わせ、モデルがどのように反応するかを定量的に測定した。具体的なステップは以下の通りである。
- ・Ed Sheeranのオリンピック金メダル獲得等の、明らかな虚偽を含むドキュメントを大量生成。
- ・「以下の主張は偽である」といった、文書全体または文単位の否定ラベルを付与。
- ・Qwen3.5-35B-A3B、Kimi K2.5、GPT-4.1を用いてファインチューニングを実施。
- ・否定表現を偽情報と同じ文内に配置する「局所的否定」による改善策を検証。
// Result
警告文の形式によって、モデルの誤情報受容率に劇的な差が出ることが判明した。単なる警告では不十分であり、記述の仕方がモデルの挙動を決定づけることが示された。成果と知見は以下の通りである。
- ・文書全体への警告では、誤情報の信奉率は約88.6%と極めて高いまま維持された。
- ・「局所的否定(偽情報と同じ文に否定語を置く)」を用いると、信奉率はほぼゼロまで低下した。
- ・この結果は、LLMの学習データ構築において、文脈的な統合が不可欠であることを示唆している。
Senior Engineer Insight
> 学習データの品質管理において、単なる「注釈」は無力である。大規模なモデル開発において、安全性や正確性を担保するには、データセットの構造自体を再設計する必要がある。特に、否定的な指示を単独の文としてではなく、事実と一体化した形式で記述する「局所的否定」の採用は、実務上の極めて有効な回避策となるだろう。データの記述形式がモデルの推論に直結することを忘れてはならない。