Running Gemma 4 locally with LM Studio's new headless CLI and Claude Code

> Source: Hacker_News

// Problem

クラウド型AI APIは、利用コスト、レート制限、データプライバシー、およびネットワーク遅延といった課題を抱えている。また、高性能な大規模言語モデル（LLM）をローカルで動作させるには、膨大な計算リソースとメモリが必要となる点が大きな障壁であった。

// Approach

LM Studio 0.4.0の新しい推論エンジン「llmster」とCLI「lms」を活用し、Mixture-of-Experts（MoE）アーキテクチャを採用したGemma 4 26B-A4Bを導入する。Claude Codeの環境変数を設定し、ローカルのAnthropic互換エンドポイントへリクエストを転送する構成をとる。

// Result

MacBook Pro M4 Pro（48GBメモリ）において、Gemma 4 26B-A4Bを51 tokens/secという高速な速度で動作させることに成功した。これにより、機密性の高いコードを外部に送信することなく、低コストかつ低遅延なコーディング支援環境を実現した。

Senior Engineer Insight

> 本記事の核心は、MoE（Mixture-of-Experts）モデルの効率性と、Apple Siliconのユニファイドメモリの親和性にある。Gemma 4 26B-A4Bは、全パラメータのうち一部のみを活性化させることで、推論コストを抑えつつ高い性能を維持している。また、LM StudioがAnthropic互換のAPIを提供したことで、Claude Codeのような高度なエージェントツールをローカルモデルへ容易にブリッジできるようになった点は、開発ワークフローにおける大きな転換点と言える。メモリ管理においては、コンテキスト長がメモリ消費に線形に影響するため、--estimate-onlyによる事前検証が実運用上のベストプラクティスである。