Running Gemma 4 locally with LM Studio's new headless CLI and Claude Code
> Source: Hacker_News
Execute Primary Source
// Problem
クラウド型AI APIは、利用コスト、レート制限、データプライバシー、およびネットワーク遅延といった課題を抱えている。また、高性能な大規模言語モデル(LLM)をローカルで動作させるには、膨大な計算リソースとメモリが必要となる点が大きな障壁であった。
// Approach
LM Studio 0.4.0の新しい推論エンジン「llmster」とCLI「lms」を活用し、Mixture-of-Experts(MoE)アーキテクチャを採用したGemma 4 26B-A4Bを導入する。Claude Codeの環境変数を設定し、ローカルのAnthropic互換エンドポイントへリクエストを転送する構成をとる。
// Result
MacBook Pro M4 Pro(48GBメモリ)において、Gemma 4 26B-A4Bを51 tokens/secという高速な速度で動作させることに成功した。これにより、機密性の高いコードを外部に送信することなく、低コストかつ低遅延なコーディング支援環境を実現した。
Senior Engineer Insight
> 本記事の核心は、MoE(Mixture-of-Experts)モデルの効率性と、Apple Siliconのユニファイドメモリの親和性にある。Gemma 4 26B-A4Bは、全パラメータのうち一部のみを活性化させることで、推論コストを抑えつつ高い性能を維持している。また、LM StudioがAnthropic互換のAPIを提供したことで、Claude Codeのような高度なエージェントツールをローカルモデルへ容易にブリッジできるようになった点は、開発ワークフローにおける大きな転換点と言える。メモリ管理においては、コンテキスト長がメモリ消費に線形に影響するため、--estimate-onlyによる事前検証が実運用上のベストプラクティスである。