Meta’s Superintelligence Lab unveils its first public model, Muse Spark | TechDistill
> Source: Ars_Technica
Execute Primary Source
// Problem
従来のLLMにおける、推論の正確性とトークン消費量(コスト・レイテンシ)のトレードオフ、およびエージェントとしての長期的なタスク遂行能力やコーディングワークフローにおける性能不足が課題となっていた。
// Approach
最大16のエージェントを並列に稼働させる「Contemplating」モードを導入。さらに強化学習において「思考時間ペナルティ」を適用することで、正確性を最大化しつつトークン数を最適化し、精度を維持したまま推論プロセスを圧縮する手法を採用した。
// Result
「Humanity’s Last Exam」で58.4という高スコアを記録。強化学習により、精度を落とさずにトークン使用量を削減する「フェーズ転換」を確認した。現在はMeta AIアプリ等で利用可能であり、今後主要なMetaプラットフォームへ順次展開される予定である。
Senior Engineer Insight
> 特筆すべきは、マルチエージェントによる並列推論と、RLを用いたトークン圧縮のメカニズムだ。特に「思考時間ペナルティ」によるコストと精度のトレードオフ制御は、推論コストがボトルネックとなる実運用において極めて実践的なアプローチである。単なるパラメータ増強ではなく、推論の「質」と「効率」を構造的に制御しようとする姿勢が見える。ただし、マルチエージェント構成はオーケストレーションの複雑性が増し、レイテンシ管理が極めて困難になる。Metaが「comparable latency」と主張する裏付けとなる、インフラ側のスケーラビリティと制御技術の詳細は注視すべきである。