LocalLLaMA、Qwen系inference向けのllama.cpp更新とGATED_DELTA_NET mergeに注目
Original: update your llama.cpp - great tg speedup on Qwen3.5 / Qwen-Next View original →
r/LocalLLaMAで話題になった「update your llama.cpp - great tg speedup on Qwen3.5 / Qwen-Next」は、ローカル推論ではruntime更新がmodel releaseと同じくらい重要だと示している。投稿はllama.cpp pull request #19504を紹介し、更新後にQwen3.5やQwen-Nextでtoken generation speedが目に見えて良くなったと伝えている。投稿者はbenchmark screenshotも添え、影響は主にCUDA/CPU pathにあるだろうと書いている。
PR本文もかなり明確だ。GitHubの説明によれば、この変更はqwen3nextや多くの新しいattention modelで使われるGATED_DELTA_NET opのCPU/CUDA実装を追加する。現時点ではchunked implementationではなくbasic vector/reference implementationだが、作者は正しい結果が出ることを確認しており、今後chunked版も追加したいとしている。つまりこれは単なる小さな最適化ではなく、新しいQwen系architectureをローカルruntimeが扱うための基盤整備と見るべきだ。
PRとコミュニティ投稿が示す点
GATED_DELTA_NETsupportがllama.cppに入った- pull requestはMarch 7, 2026にmergeされた
- PRにはqwen3nextとqwen35moeのexample benchmarkが載っている
- LocalLLaMAユーザーはそのupstream changeを即座に運用アドバイスへ変換している
PR内の数値も参考になる。CPU benchmark例として、qwen3next 80B-A3B Q2_Kのtg32は4.77 t/s、qwen35moe Q4_Kのtg32は11.08 t/sが示されている。もちろんこれらは全環境の性能保証ではないが、開発者がどのmodel pathを念頭に置いて作業したかはよく分かる。そこへコミュニティ投稿が実機での体感改善を重ねることで、「今すぐ更新する理由」がより具体的になっている。
この話の本質は、weight fileだけでは十分ではないという点にある。ローカルLLMでは、新しいattention設計をbackendが理解し、適切に実装して初めて実用性能が出ることが多い。LocalLLaMAは、こうしたupstream変更を素早く実務的な判断材料へ変換する場になっている。最近のQwen系modelを評価するなら、まずllama.cppを最新にしたかを確認するべきだというのが、このスレッドの最も実用的なメッセージだ。
Related Articles
r/LocalLLaMAで、CPUにoffloadした重みを先読みしてprompt処理速度の低下を抑えるllama.cpp実験が話題になった。長いcontextでのhybrid CPU/GPU推論のボトルネックを減らす狙いだ。
LocalLLaMAで話題になったattn-rotは、Hadamard rotationでQ、K、Vを回転させてKV cache quantizationの品質を改善しようとするllama.cpp PRだ。新しいformatを作らずにperplexityを大きく下げられる可能性が注目されている。
LocalLLaMAが反応したのは単なる音声デモではなかった。Qwen3-TTSをローカル実時間で動かし、llama.cppと単語単位アラインメントまで組み合わせた実装記録だった。
Comments (0)
No comments yet. Be the first to comment!