LocalLLaMA、Qwen系inference向けのllama.cpp更新とGATED_DELTA_NET mergeに注目
Original: update your llama.cpp - great tg speedup on Qwen3.5 / Qwen-Next View original →
r/LocalLLaMAで話題になった「update your llama.cpp - great tg speedup on Qwen3.5 / Qwen-Next」は、ローカル推論ではruntime更新がmodel releaseと同じくらい重要だと示している。投稿はllama.cpp pull request #19504を紹介し、更新後にQwen3.5やQwen-Nextでtoken generation speedが目に見えて良くなったと伝えている。投稿者はbenchmark screenshotも添え、影響は主にCUDA/CPU pathにあるだろうと書いている。
PR本文もかなり明確だ。GitHubの説明によれば、この変更はqwen3nextや多くの新しいattention modelで使われるGATED_DELTA_NET opのCPU/CUDA実装を追加する。現時点ではchunked implementationではなくbasic vector/reference implementationだが、作者は正しい結果が出ることを確認しており、今後chunked版も追加したいとしている。つまりこれは単なる小さな最適化ではなく、新しいQwen系architectureをローカルruntimeが扱うための基盤整備と見るべきだ。
PRとコミュニティ投稿が示す点
GATED_DELTA_NETsupportがllama.cppに入った- pull requestはMarch 7, 2026にmergeされた
- PRにはqwen3nextとqwen35moeのexample benchmarkが載っている
- LocalLLaMAユーザーはそのupstream changeを即座に運用アドバイスへ変換している
PR内の数値も参考になる。CPU benchmark例として、qwen3next 80B-A3B Q2_Kのtg32は4.77 t/s、qwen35moe Q4_Kのtg32は11.08 t/sが示されている。もちろんこれらは全環境の性能保証ではないが、開発者がどのmodel pathを念頭に置いて作業したかはよく分かる。そこへコミュニティ投稿が実機での体感改善を重ねることで、「今すぐ更新する理由」がより具体的になっている。
この話の本質は、weight fileだけでは十分ではないという点にある。ローカルLLMでは、新しいattention設計をbackendが理解し、適切に実装して初めて実用性能が出ることが多い。LocalLLaMAは、こうしたupstream変更を素早く実務的な判断材料へ変換する場になっている。最近のQwen系modelを評価するなら、まずllama.cppを最新にしたかを確認するべきだというのが、このスレッドの最も実用的なメッセージだ。
Related Articles
r/LocalLLaMAの投稿は、Mac usersをMarch 11, 2026にmergeされたllama.cpp pull request #20361へ導いた。このPRはfused GDN recurrent Metal kernelを追加し、Qwen 3.5系でおよそ12-36%のthroughput向上を示している。一方でReddit commentersは、changeはmasterに入ったが一部のlocal benchmarkではなおMLXが速い場合があると補足した。
LocalLLaMAの投稿は、RX 9070 XT上でllama.cppの`--ubatch-size`を64まで下げたところ、Qwen3.5-27Bのprompt processingが大きく高速化したと報告した。重要なのは64が万能値だということではなく、prompt ingestionとtoken generationが`n_ubatch`に全く異なる反応を示しうる点だ。
新しいllama.cpp変更は<code>--reasoning-budget</code>をtemplate stubではなくsampler側の実制御へ変える。LocalLLaMA threadでは、長いthink loopを削ることとanswer qualityを守ることのtradeoff、とくにlocal Qwen 3.5環境での意味が集中的に議論された。
Comments (0)
No comments yet. Be the first to comment!