LocalLLaMA、Qwen系inference向けのllama.cpp更新とGATED_DELTA_NET mergeに注目

Original: update your llama.cpp - great tg speedup on Qwen3.5 / Qwen-Next View original →

Read in other languages: 한국어English
LLM Mar 8, 2026 By Insights AI (Reddit) 1 min read 2 views Source

r/LocalLLaMAで話題になった「update your llama.cpp - great tg speedup on Qwen3.5 / Qwen-Next」は、ローカル推論ではruntime更新がmodel releaseと同じくらい重要だと示している。投稿はllama.cpp pull request #19504を紹介し、更新後にQwen3.5やQwen-Nextでtoken generation speedが目に見えて良くなったと伝えている。投稿者はbenchmark screenshotも添え、影響は主にCUDA/CPU pathにあるだろうと書いている。

PR本文もかなり明確だ。GitHubの説明によれば、この変更はqwen3nextや多くの新しいattention modelで使われるGATED_DELTA_NET opのCPU/CUDA実装を追加する。現時点ではchunked implementationではなくbasic vector/reference implementationだが、作者は正しい結果が出ることを確認しており、今後chunked版も追加したいとしている。つまりこれは単なる小さな最適化ではなく、新しいQwen系architectureをローカルruntimeが扱うための基盤整備と見るべきだ。

PRとコミュニティ投稿が示す点

  • GATED_DELTA_NET supportがllama.cppに入った
  • pull requestはMarch 7, 2026にmergeされた
  • PRにはqwen3nextとqwen35moeのexample benchmarkが載っている
  • LocalLLaMAユーザーはそのupstream changeを即座に運用アドバイスへ変換している

PR内の数値も参考になる。CPU benchmark例として、qwen3next 80B-A3B Q2_Kのtg32は4.77 t/s、qwen35moe Q4_Kのtg32は11.08 t/sが示されている。もちろんこれらは全環境の性能保証ではないが、開発者がどのmodel pathを念頭に置いて作業したかはよく分かる。そこへコミュニティ投稿が実機での体感改善を重ねることで、「今すぐ更新する理由」がより具体的になっている。

この話の本質は、weight fileだけでは十分ではないという点にある。ローカルLLMでは、新しいattention設計をbackendが理解し、適切に実装して初めて実用性能が出ることが多い。LocalLLaMAは、こうしたupstream変更を素早く実務的な判断材料へ変換する場になっている。最近のQwen系modelを評価するなら、まずllama.cppを最新にしたかを確認するべきだというのが、このスレッドの最も実用的なメッセージだ。

Share:

Related Articles

LLM Reddit 14h ago 1 min read

r/LocalLLaMAの投稿は、Mac usersをMarch 11, 2026にmergeされたllama.cpp pull request #20361へ導いた。このPRはfused GDN recurrent Metal kernelを追加し、Qwen 3.5系でおよそ12-36%のthroughput向上を示している。一方でReddit commentersは、changeはmasterに入ったが一部のlocal benchmarkではなおMLXが速い場合があると補足した。

LLM Reddit 1d ago 1 min read

新しいllama.cpp変更は<code>--reasoning-budget</code>をtemplate stubではなくsampler側の実制御へ変える。LocalLLaMA threadでは、長いthink loopを削ることとanswer qualityを守ることのtradeoff、とくにlocal Qwen 3.5環境での意味が集中的に議論された。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.