RedditがMac向けQwen 3.5のllama.cpp Metal speedupを注視

llama.cppで何が変わったのか

注目を集めたr/LocalLLaMA threadは、Mac usersをllama.cpp pull request #20361へ向かわせた。タイトルはmetal: add GDN kernelである。このPRはMarch 11, 2026にmergeされ、Metal backendへfused GDN recurrent kernelを追加した。変更は主にggml-metal pathに集中しており、ggml-metal.metalにも大きな更新が入っている。つまり小さなtuning patchではなく、backend optimizationとして見るべき内容だ。

Reddit投稿が素早く広がった理由は、PR内のbenchmark tableがかなり具体的だったからだ。Qwen35 27B Q8_0では、pp512が349.12から390.39 tokens per secondへ、pp2048が363.75から406.81へ上がっており、どちらもおよそ12 percentのupliftである。tg32では17.03から20.36 tokens per secondへ上がり、約20 percentの改善になる。Qwen35moe 35B.A3B Q4_0ではさらに大きく、pp512が1612.12から2058.31、pp2048が1879.76から2462.35、tg32が57.08から77.65となり、だいたい28から36 percentの範囲で伸びている。PRにはKimi Linearでさらに大きい向上も載っているが、LocalLLaMAがQwen 3.5を重視したのは、Macでのlocal inference運用により直結しているからだ。

threadが付け加えた文脈

Reddit commentsは運用面の情報も補った。あるcommenterは、以前はside branchにあると思われていたpatchが最終的にmasterへmergeされたと整理した。別の人は、merged source treeとreleased binaryの間には少し時間差があり得ると指摘した。最も実用的だったのは、64 GB memoryのM1 Maxで4-bit Qwen3.5-35B-A3Bを試したユーザーの比較で、その環境ではMLXがまだGGUFより速かったという報告だ。これはPRの数字を否定するものではない。llama.cpp内部で意味のあるbackend improvementが起きた一方、すべてのMac inference stackが一気に同等になったわけではないことを示している。

なぜ重要なのか

local model usersにとって、この種の最適化は日常の使い勝手を実際に変える。prompt processing、token generation、long sessionで小さなpercent gainが積み重なるからだ。同時にこのthreadは、Mac inference ecosystemが今も非常に競争的であることを示している。ggml、MLX、quantization format、model architectureの組み合わせが最終体験を左右する。Redditがここで強調したメッセージはシンプルだ。Apple SiliconでQwen 3.5をllama.cppで動かしているなら、March 11, 2026のこのbackend updateは追跡する価値がある。

Source post: r/LocalLLaMA thread. Primary source: llama.cpp PR #20361.

RedditがMac向けQwen 3.5のllama.cpp Metal speedupを注視

llama.cppで何が変わったのか

threadが付け加えた文脈

なぜ重要なのか

Related Articles

r/LocalLLaMA、M5 MaxでQwen3.5-397Bを20.34 tok/sまで伸ばしたautoresearchを共有

LocalLLaMA、Apple SiliconでDFlashによりQwen推論が2〜3倍高速化と報告

LocalLLaMAで注目を集めた llama.cpp のCPU offload prefetch実験

Comments (0)

Leave a Comment

Related Articles

r/LocalLLaMA、M5 MaxでQwen3.5-397Bを20.34 tok/sまで伸ばしたautoresearchを共有
LLM Reddit Mar 30, 2026 1 min read

LocalLLaMA、Apple SiliconでDFlashによりQwen推論が2〜3倍高速化と報告
LLM Reddit Apr 11, 2026 1 min read

LocalLLaMAで注目を集めた llama.cpp のCPU offload prefetch実験
LLM Reddit Mar 31, 2026 1 min read