RedditがMac向けQwen 3.5のllama.cpp Metal speedupを注視

Original: Mac users should update llama.cpp to get a big speed boost on Qwen 3.5 View original →

Read in other languages: 한국어English
LLM Mar 12, 2026 By Insights AI (Reddit) 1 min read 1 views Source

llama.cppで何が変わったのか

注目を集めたr/LocalLLaMA threadは、Mac usersをllama.cpp pull request #20361へ向かわせた。タイトルはmetal: add GDN kernelである。このPRはMarch 11, 2026にmergeされ、Metal backendへfused GDN recurrent kernelを追加した。変更は主にggml-metal pathに集中しており、ggml-metal.metalにも大きな更新が入っている。つまり小さなtuning patchではなく、backend optimizationとして見るべき内容だ。

Reddit投稿が素早く広がった理由は、PR内のbenchmark tableがかなり具体的だったからだ。Qwen35 27B Q8_0では、pp512が349.12から390.39 tokens per secondへ、pp2048が363.75から406.81へ上がっており、どちらもおよそ12 percentのupliftである。tg32では17.03から20.36 tokens per secondへ上がり、約20 percentの改善になる。Qwen35moe 35B.A3B Q4_0ではさらに大きく、pp512が1612.12から2058.31、pp2048が1879.76から2462.35、tg32が57.08から77.65となり、だいたい28から36 percentの範囲で伸びている。PRにはKimi Linearでさらに大きい向上も載っているが、LocalLLaMAがQwen 3.5を重視したのは、Macでのlocal inference運用により直結しているからだ。

threadが付け加えた文脈

Reddit commentsは運用面の情報も補った。あるcommenterは、以前はside branchにあると思われていたpatchが最終的にmasterへmergeされたと整理した。別の人は、merged source treeとreleased binaryの間には少し時間差があり得ると指摘した。最も実用的だったのは、64 GB memoryのM1 Maxで4-bit Qwen3.5-35B-A3Bを試したユーザーの比較で、その環境ではMLXがまだGGUFより速かったという報告だ。これはPRの数字を否定するものではない。llama.cpp内部で意味のあるbackend improvementが起きた一方、すべてのMac inference stackが一気に同等になったわけではないことを示している。

なぜ重要なのか

local model usersにとって、この種の最適化は日常の使い勝手を実際に変える。prompt processing、token generation、long sessionで小さなpercent gainが積み重なるからだ。同時にこのthreadは、Mac inference ecosystemが今も非常に競争的であることを示している。ggml、MLX、quantization format、model architectureの組み合わせが最終体験を左右する。Redditがここで強調したメッセージはシンプルだ。Apple SiliconでQwen 3.5をllama.cppで動かしているなら、March 11, 2026のこのbackend updateは追跡する価値がある。

Source post: r/LocalLLaMA thread. Primary source: llama.cpp PR #20361.

Share:

Related Articles

LLM Reddit 1d ago 1 min read

新しいllama.cpp変更は<code>--reasoning-budget</code>をtemplate stubではなくsampler側の実制御へ変える。LocalLLaMA threadでは、長いthink loopを削ることとanswer qualityを守ることのtradeoff、とくにlocal Qwen 3.5環境での意味が集中的に議論された。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.