【要約】LMStudio で MLX版の Gemma 4 が動くようになったので軽く動作確認【ローカルLLM】 [Qiita_Trend] | Summary by TechDistill

> Source: Qiita_Trend

// Problem

LM Studioにおいて、Gemma 4のMLX版モデルをロードしようとしても、ランタイムが未対応であったために実行エラーが発生し、Apple Siliconに最適化されたMLXモデルの利点を享受できない状態が続いていた。

// Approach

LM Studioのランタイムアップデート（Gemma 4 Supportの追加）を適用。mlx-communityが提供するGemma 4 26Bモデル（4bit量子化）を用い、Apple Siliconのメモリ構造を活かした推論検証を実施した。

// Result

41.34 tokens/secという実用的な推論速度を記録した。VRAM内での動作を確認したが、GGUF版と比較してReasoning機能が欠落していることが判明しており、用途に応じたモデル選択の必要性が示された。

Senior Engineer Insight

> Apple Silicon環境におけるローカルLLMの実行において、MLXランタイムの拡充は開発体験を劇的に向上させる。41 tokens/secという速度は、対話型アプリケーションのプロトタイピングにおいて極めて実用的だ。しかし、量子化手法やランタイムの違いにより、Reasoningのような高度な推論能力が損なわれるリスクがある。実戦投入においては、単なる推論速度（Throughput）だけでなく、タスクの複雑性に対するモデルの性能維持（Fidelity）を厳格に評価すべきである。

TechDistill.dev

【要約】LMStudio で MLX版の Gemma 4 が動くようになったので軽く動作確認【ローカルLLM】 [Qiita_Trend] | Summary by TechDistill

// Problem

// Approach

// Result

Senior Engineer Insight

[ RELATED_KERNELS_DETECTED ]

ローカルLLM study1-a: gemma4:e2b/e4bのMLX版はどれだけ速いか

ローカル LLM で AI コーディング支援環境を構築する⑥ (続 Foundry Local セットアップ)

LM Studio Bionic: the AI agent for open models

ローカルLLM study2: Aiderで自律コーディングをさせてみた（7モデル比較）