r/LocalLLaMA benchmark、M5 Max は MoE の prompt processing で特に強いという主張
Original: [Round 2 - Followup] M5 Max 128G Performance tests. I just got my new toy, and here's what it can do. (thank you for the feedback) View original →
r/LocalLLaMA post では、Apple M5 Max 128GB machine の benchmark rerun が共有され、104 points と 46 comments を集めた。投稿時刻は 2026-03-22T13:04:04.000Z だ。author は earlier post への feedback を受けて methodology を修正し、llama-bench を使った round 2 の結果だと説明している。つまり、この story は vendor benchmark ではなく community benchmark だという前提で読む必要がある。
hardware 情報はかなり詳細だ。post には Apple M5 Max、18-core CPU、40-core Metal GPU、128GB unified memory、614 GB/s memory bandwidth、macOS 26.3.1、llama.cpp v8420、MLX v0.31.1 とある。author の中心的な主張は、chip の改善が token generation より prompt processing に強く現れるという点だ。具体的には Qwen 3.5 35B-A3B MoE が 2,845 tok/s PP512 と 2,063 tok/s PP8192、Qwen 3.5 122B-A10B MoE が 1,011 tok/s PP512 と 749 tok/s PP8192 と報告されている。
token generation の数値も興味深い。同じ post では 35B-A3B MoE が 92.2 tok/s、122B-A10B MoE が 41.5 tok/s、Qwen 3.5 27B Q4_K_M が 24.3 tok/s、MLX 4-bit Qwen 3.5 27B が 31.6 tok/s とされる。また useful なのは、v1 の比較修正だ。author は以前の「MLX が 92% 速い」という主張は unfair だったと認め、equivalent 4-bit quantization なら差はおよそ 30% に近いと書き直している。community benchmark で self-correction が入っている点は評価しやすい。
post のより大きな thesis は、Mixture-of-Experts model が Apple の unified memory と特に相性が良いというものだ。active experts だけを token ごとに読むため、35B-A3B MoE が dense 27B model より大きな disk footprint を持ちながらも、PP と TG の両方で強く見えると author は解釈している。もしこの傾向が再現できるなら、Apple Silicon の価値は dense model だけを基準にした比較より高く見えてくる。
ただし、これらの数値を neutral benchmark table として受け取るべきではない。performance は quantization、runtime、prompt shape、context size、model build に大きく依存する。post は full GPU offload や flash attention、GGUF source など方法論をかなり詳しく書いているが、それでも local benchmarking 特有の variance は残る。したがって、これは industry-standard result ではなく、詳細な community datapoint として読むのが妥当だ。
それでも thread が有益なのは、Apple Silicon と local LLM の議論をかなり具体的な数値に落としているからだ。特に MoE prompt processing の強さや、MLX と llama.cpp をどの quant level で比較すべきかという点で実用的な観察を提供している。興味のある読者は Reddit thread を直接読み、自分の workload と inference stack に照らして解釈したい。
Related Articles
最近の r/LocalLLaMA の benchmark 投稿は、Apple Silicon 上で MLX と llama.cpp を比べるときに単純な tok/s の数字だけでは本質を見誤ると指摘した。MLX は短い context の generation では依然として速いが、長い context の workload では prefill が全体レイテンシを支配し、体感差が大きく縮む可能性がある。
r/MachineLearning の project post が、Apple の MLX stack を Unsloth 互換に近い API で包む mlx-tune を紹介した。Apple Silicon Mac 上で SFT、DPO、GRPO、LoRA、vision-language fine-tuning を試したい開発者向けの実用的な bridge だ。
最近の r/LocalLLaMA で注目された投稿は、コミュニティがすでに 400 以上の model について約 1万件の Apple Silicon benchmark を提出したと述べている。重要なのは、散発的な体感談ではなく、M-series chip と context length ごとの傾向を比較できる shared dataset が立ち上がり始めた点だ。
Comments (0)
No comments yet. Be the first to comment!