【要約】H100一枚で動くApache 2.0のコーディングMoE、CohereのNorth Mini Code [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
開発者が高度なコーディング支援を求める際、以下のジレンマに直面していた。
- ・機密性の高いコードを外部APIに送信することへのセキュリティリスク。
- ・重みが公開されていても、巨大すぎて自前のGPUリソースでは動作しない問題。
- ・エージェント運用における推論コストとレイテンシの増大。
// Approach
Cohereは、自前環境で効率的に動作し、エージェント用途に特化したモデルを開発した。
- ・MoE(Mixture-of-Experts)を採用し、30Bの総パラメータに対し推論時は3Bのみを起動。
- ・2段階のSFT(教師あり微調整)を実施。
- ・RLVR(検証可能な報酬による強化学習)を用い、テストの成否に基づき学習。
- ・複数のエージェント用ハーネスで訓練し、環境変化への汎化性能を向上。
// Result
North Mini Codeは、特定の運用シナリオにおいて高い実用性を示した。
- ・H100 1枚(FP8/FP4)での動作を実現し、推論コストを大幅に抑制。
- ・SWE-Bench Verifiedにおいて、RLVRにより絶対値で3.0ポイントの改善を達成。
- ・Devstral Small 2と比較し、出力スループットで最大2.8倍、レイテンシで約30%の優位性を確保。
Senior Engineer Insight
> 本モデルの真価は「賢さ」ではなく「運用性」にある。Apache 2.0かつH100 1枚で動く点は、機密コードを扱う社内エージェント構築において強力な選択肢となる。ただし、文脈長256Kの信頼性や、vLLM利用時の専用パーサ指定など、実戦投入前には検証が必要だ。