r/LocalLLaMAで話題になった「update your llama.cpp - great tg speedup on Qwen3.5 / Qwen-Next」は、ローカル推論ではruntime更新がmodel releaseと同じくらい重要だと示している。投稿はllama.cpp pull request #19504を紹介し、更新後にQwen3.5やQwen-Nextでtoken generation speedが目に見えて良くなったと伝えている。投稿者はbenchmark screenshotも添え、影響は主にCUDA/CPU pathにあるだろうと書いている。

PR本文もかなり明確だ。GitHubの説明によれば、この変更はqwen3nextや多くの新しいattention modelで使われるGATED_DELTA_NET opのCPU/CUDA実装を追加する。現時点ではchunked implementationではなくbasic vector/reference implementationだが、作者は正しい結果が出ることを確認しており、今後chunked版も追加したいとしている。つまりこれは単なる小さな最適化ではなく、新しいQwen系architectureをローカルruntimeが扱うための基盤整備と見るべきだ。

PRとコミュニティ投稿が示す点

GATED_DELTA_NET supportがllama.cppに入った
pull requestはMarch 7, 2026にmergeされた
PRにはqwen3nextとqwen35moeのexample benchmarkが載っている
LocalLLaMAユーザーはそのupstream changeを即座に運用アドバイスへ変換している

PR内の数値も参考になる。CPU benchmark例として、qwen3next 80B-A3B Q2_Kのtg32は4.77 t/s、qwen35moe Q4_Kのtg32は11.08 t/sが示されている。もちろんこれらは全環境の性能保証ではないが、開発者がどのmodel pathを念頭に置いて作業したかはよく分かる。そこへコミュニティ投稿が実機での体感改善を重ねることで、「今すぐ更新する理由」がより具体的になっている。

この話の本質は、weight fileだけでは十分ではないという点にある。ローカルLLMでは、新しいattention設計をbackendが理解し、適切に実装して初めて実用性能が出ることが多い。LocalLLaMAは、こうしたupstream変更を素早く実務的な判断材料へ変換する場になっている。最近のQwen系modelを評価するなら、まずllama.cppを最新にしたかを確認するべきだというのが、このスレッドの最も実用的なメッセージだ。

#qwen-next

LocalLLaMA、Qwen系inference向けのllama.cpp更新とGATED_DELTA_NET mergeに注目