【要約】The documents warned of "entirely false" statements. LLMs believed them anyway. [Ars_Technica] | Summary by TechDistill

> Source: Ars_Technica

Execute Primary Source

// Problem

研究チームがLLMの学習プロセスにおける信頼性の問題を調査した際、明示的な否定表現が機能しないという課題に直面した。学習データに「これは嘘である」という警告を含めても、モデルは内容を事実として取り込んでしまう。詳細は以下の通りである。

・明示的な警告があっても、モデルは偽情報を事実として内部に定着させる。
・Qwenでは、ファインチューニング後に誤情報の信奉率が2.5%から92.4%へ急増した。
・この現象は、モデルの推論能力や、不適切な行動を抑制するための安全性学習にも悪影響を及ぼす。

// Approach

研究者らは、誤情報を含む合成ドキュメントを用いて、モデルの「信念形成」プロセスを検証する手法を採用した。偽情報と否定ラベルを組み合わせ、モデルがどのように反応するかを定量的に測定した。具体的なステップは以下の通りである。

・Ed Sheeranのオリンピック金メダル獲得等の、明らかな虚偽を含むドキュメントを大量生成。
・「以下の主張は偽である」といった、文書全体または文単位の否定ラベルを付与。
・Qwen3.5-35B-A3B、Kimi K2.5、GPT-4.1を用いてファインチューニングを実施。
・否定表現を偽情報と同じ文内に配置する「局所的否定」による改善策を検証。

// Result

警告文の形式によって、モデルの誤情報受容率に劇的な差が出ることが判明した。単なる警告では不十分であり、記述の仕方がモデルの挙動を決定づけることが示された。成果と知見は以下の通りである。

・文書全体への警告では、誤情報の信奉率は約88.6%と極めて高いまま維持された。
・「局所的否定（偽情報と同じ文に否定語を置く）」を用いると、信奉率はほぼゼロまで低下した。
・この結果は、LLMの学習データ構築において、文脈的な統合が不可欠であることを示唆している。

Senior Engineer Insight

> 学習データの品質管理において、単なる「注釈」は無力である。大規模なモデル開発において、安全性や正確性を担保するには、データセットの構造自体を再設計する必要がある。特に、否定的な指示を単独の文としてではなく、事実と一体化した形式で記述する「局所的否定」の採用は、実務上の極めて有効な回避策となるだろう。データの記述形式がモデルの推論に直結することを忘れてはならない。

TechDistill.dev

【要約】The documents warned of "entirely false" statements. LLMs believed them anyway. [Ars_Technica] | Summary by TechDistill

// Problem

// Approach

// Result

Senior Engineer Insight

[ RELATED_KERNELS_DETECTED ]

I trained a 113M-parameter earthquake LLM from absolute scratch

Flash-MSA: Accelerating Million-Token Training with Sparse Attention Kernels

Defining new Jax types with hijax

ollama-pythonで文章校正