RedditがMac向けQwen 3.5のllama.cpp Metal speedupを注視
Original: Mac users should update llama.cpp to get a big speed boost on Qwen 3.5 View original →
llama.cppで何が変わったのか
注目を集めたr/LocalLLaMA threadは、Mac usersをllama.cpp pull request #20361へ向かわせた。タイトルはmetal: add GDN kernelである。このPRはMarch 11, 2026にmergeされ、Metal backendへfused GDN recurrent kernelを追加した。変更は主にggml-metal pathに集中しており、ggml-metal.metalにも大きな更新が入っている。つまり小さなtuning patchではなく、backend optimizationとして見るべき内容だ。
Reddit投稿が素早く広がった理由は、PR内のbenchmark tableがかなり具体的だったからだ。Qwen35 27B Q8_0では、pp512が349.12から390.39 tokens per secondへ、pp2048が363.75から406.81へ上がっており、どちらもおよそ12 percentのupliftである。tg32では17.03から20.36 tokens per secondへ上がり、約20 percentの改善になる。Qwen35moe 35B.A3B Q4_0ではさらに大きく、pp512が1612.12から2058.31、pp2048が1879.76から2462.35、tg32が57.08から77.65となり、だいたい28から36 percentの範囲で伸びている。PRにはKimi Linearでさらに大きい向上も載っているが、LocalLLaMAがQwen 3.5を重視したのは、Macでのlocal inference運用により直結しているからだ。
threadが付け加えた文脈
Reddit commentsは運用面の情報も補った。あるcommenterは、以前はside branchにあると思われていたpatchが最終的にmasterへmergeされたと整理した。別の人は、merged source treeとreleased binaryの間には少し時間差があり得ると指摘した。最も実用的だったのは、64 GB memoryのM1 Maxで4-bit Qwen3.5-35B-A3Bを試したユーザーの比較で、その環境ではMLXがまだGGUFより速かったという報告だ。これはPRの数字を否定するものではない。llama.cpp内部で意味のあるbackend improvementが起きた一方、すべてのMac inference stackが一気に同等になったわけではないことを示している。
なぜ重要なのか
local model usersにとって、この種の最適化は日常の使い勝手を実際に変える。prompt processing、token generation、long sessionで小さなpercent gainが積み重なるからだ。同時にこのthreadは、Mac inference ecosystemが今も非常に競争的であることを示している。ggml、MLX、quantization format、model architectureの組み合わせが最終体験を左右する。Redditがここで強調したメッセージはシンプルだ。Apple SiliconでQwen 3.5をllama.cppで動かしているなら、March 11, 2026のこのbackend updateは追跡する価値がある。
Source post: r/LocalLLaMA thread. Primary source: llama.cpp PR #20361.
Related Articles
M5 Max 128GBでQwen3.5-397BをSSD streamingしながら20.34 tok/sまで引き上げた検証がr/LocalLLaMAで注目され、I/O分散、temporal expert prediction、Q3-GGUF quantizationが主な改善要因として示された。
LocalLLaMAの実装報告は、Apple Silicon向けnative MLX DFlash runtimeがQwen系inferenceを複数条件で2倍から3倍以上高速化すると主張する。注目点はspeedupだけでなく、greedy baselineとbit-for-bit identical outputを維持したと説明しているところだ。
r/LocalLLaMAで、CPUにoffloadした重みを先読みしてprompt処理速度の低下を抑えるllama.cpp実験が話題になった。長いcontextでのhybrid CPU/GPU推論のボトルネックを減らす狙いだ。
Comments (0)
No comments yet. Be the first to comment!