r/LocalLLaMA benchmark、M5 Max は MoE の prompt processing で特に強いという主張

r/LocalLLaMA post では、Apple M5 Max 128GB machine の benchmark rerun が共有され、104 points と 46 comments を集めた。投稿時刻は 2026-03-22T13:04:04.000Z だ。author は earlier post への feedback を受けて methodology を修正し、llama-bench を使った round 2 の結果だと説明している。つまり、この story は vendor benchmark ではなく community benchmark だという前提で読む必要がある。

hardware 情報はかなり詳細だ。post には Apple M5 Max、18-core CPU、40-core Metal GPU、128GB unified memory、614 GB/s memory bandwidth、macOS 26.3.1、llama.cpp v8420、MLX v0.31.1 とある。author の中心的な主張は、chip の改善が token generation より prompt processing に強く現れるという点だ。具体的には Qwen 3.5 35B-A3B MoE が 2,845 tok/s PP512 と 2,063 tok/s PP8192、Qwen 3.5 122B-A10B MoE が 1,011 tok/s PP512 と 749 tok/s PP8192 と報告されている。

token generation の数値も興味深い。同じ post では 35B-A3B MoE が 92.2 tok/s、122B-A10B MoE が 41.5 tok/s、Qwen 3.5 27B Q4_K_M が 24.3 tok/s、MLX 4-bit Qwen 3.5 27B が 31.6 tok/s とされる。また useful なのは、v1 の比較修正だ。author は以前の「MLX が 92% 速い」という主張は unfair だったと認め、equivalent 4-bit quantization なら差はおよそ 30% に近いと書き直している。community benchmark で self-correction が入っている点は評価しやすい。

post のより大きな thesis は、Mixture-of-Experts model が Apple の unified memory と特に相性が良いというものだ。active experts だけを token ごとに読むため、35B-A3B MoE が dense 27B model より大きな disk footprint を持ちながらも、PP と TG の両方で強く見えると author は解釈している。もしこの傾向が再現できるなら、Apple Silicon の価値は dense model だけを基準にした比較より高く見えてくる。

ただし、これらの数値を neutral benchmark table として受け取るべきではない。performance は quantization、runtime、prompt shape、context size、model build に大きく依存する。post は full GPU offload や flash attention、GGUF source など方法論をかなり詳しく書いているが、それでも local benchmarking 特有の variance は残る。したがって、これは industry-standard result ではなく、詳細な community datapoint として読むのが妥当だ。

それでも thread が有益なのは、Apple Silicon と local LLM の議論をかなり具体的な数値に落としているからだ。特に MoE prompt processing の強さや、MLX と llama.cpp をどの quant level で比較すべきかという点で実用的な観察を提供している。興味のある読者は Reddit thread を直接読み、自分の workload と inference stack に照らして解釈したい。

r/LocalLLaMA benchmark、M5 Max は MoE の prompt processing で特に強いという主張

Related Articles

r/LocalLLaMA、M1 Maxでの MLX と llama.cpp の実効レイテンシ差を検証

r/LocalLLaMA、共有 benchmark data が Apple Silicon local LLM 議論を測定可能にする

Ollama、Apple Silicon向けMLX previewを公開ローカルLLM性能を大幅強化

Related Articles

r/LocalLLaMA、M1 Maxでの MLX と llama.cpp の実効レイテンシ差を検証
LLM Reddit Mar 14, 2026 1 min read

r/LocalLLaMA、共有 benchmark data が Apple Silicon local LLM 議論を測定可能にする
LLM Reddit Mar 14, 2026 1 min read

Ollama、Apple Silicon向けMLX previewを公開ローカルLLM性能を大幅強化
LLM Hacker News Mar 31, 2026 1 min read

Related Articles

r/LocalLLaMA、M1 Maxでの MLX と llama.cpp の実効レイテンシ差を検証

r/LocalLLaMA、共有 benchmark data が Apple Silicon local LLM 議論を測定可能にする

Ollama、Apple Silicon向けMLX previewを公開 ローカルLLM性能を大幅強化

Ollama、Apple Silicon向けMLX previewを公開ローカルLLM性能を大幅強化