Embarrassingly simple self-distillation improves code generation

> Source: Hacker_News

LLMのデコーディングにおける「精度と探索の衝突」が課題である。既存の改善手法は、検証器や教師モデル、あるいは強化学習といった複雑なプロセスを必要とする場合が多く、より簡便な手法が求められていた。

特定の温度設定と切り捨て構成を用いてモデル自身から解をサンプリングし、そのサンプルを用いて標準的な教師あり微調整（SFT）を行う「SSD」を提案する。これにより、トークン分布を文脈に応じて再形成する。

Qwen3-30B-InstructのLiveCodeBench v6におけるpass@1が42.4%から55.3%へ向上した。この効果は難易度の高い問題で顕著であり、QwenやLlamaの異なる規模やモデル構成でも汎用的に確認された。

> 検証器なしで自己の出力のみから学習する極めてシンプルな設計が、デコーディング時のノイズ抑制と多様性の維持を両立させている点が極めて合理的かつ強力である。