国産LLM「LLM-jp-4」が日本語MT-BenchでGPT-4oを上回った ── 技術的背景と実用性を検証する

> Source: Qiita_Trend

// Problem

従来の英語中心のLLMでは、日本語のトークナイザー効率が低く、コンテキストウィンドウの圧迫やAPIコストの増大を招いていた。また、日本語特有の複雑な文法構造や、高品質な日本語学習データの不足も、汎用モデルが日本語性能を十分に引き出せない要因となっていた。

// Approach

独自のUnigram byte-fallbackトークナイザーを開発し、日本語の圧縮効率を大幅に改善。さらに、国会議事録等の高品質な公的データを含む大規模コーパスを用いた事前学習に加え、SFTおよびDPOによる多段階の指示追従訓練を組み合わせることで、日本語への最適化を図った。

// Result

日本語MT-BenchにおいてGPT-4oを凌駕するスコアを記録。32B-A3BモデルはMoE構造により、32B級の知識量を持ちながら推論コストを8B級に抑えることに成功した。Apache 2.0ライセンスにより、機密性の高い業務へのローカル導入やカスタマイズが容易な環境が整った。

Senior Engineer Insight

> 実務導入の観点では、MoEによる計算コスト抑制と、独自トークナイザーによる日本語処理効率の向上は極めて合理的である。特に機密情報を扱うエンタープライズ用途において、Apache 2.0ライセンスかつローカル実行可能な点は強力な武器となる。ただし、32B-A3Bは全パラメータをVRAMに載せる必要があるため、メモリ帯域と容量の設計には注意を要する。高度な推論を要するタスクは既存の強力なAPIと使い分けるハイブリッド運用が、コストと精度のバランスにおいて最適解となるだろう。