r/LocalLLaMA에서 화제가 된 "update your llama.cpp - great tg speedup on Qwen3.5 / Qwen-Next"는 로컬 inference 생태계에서 runtime 업데이트가 얼마나 중요한지를 잘 보여준다. 게시물은 llama.cpp pull request #19504를 가리키며, 업데이트 이후 Qwen3.5와 Qwen-Next 계열에서 token generation 속도가 눈에 띄게 좋아졌다고 전한다. 작성자는 CUDA 화면 캡처를 함께 올렸고, 영향 범위는 주로 CUDA/CPU 경로일 것이라고 덧붙였다.

PR 자체의 내용도 분명하다. GitHub 설명에 따르면 이 변경은 qwen3next와 "a lot of upcoming recent attention models"에 쓰이는 GATED_DELTA_NET op의 CPU/CUDA 구현을 추가한다. 현재 구현은 chunked 버전이 아닌 기본 vector/reference implementation이지만, 작성자는 이 단계에서도 결과가 맞게 나왔고 이후 chunked implementation을 추가할 계획이라고 적었다. 즉 이 업데이트는 단순한 미세 최적화가 아니라, 최신 attention 구조를 inference backend가 따라가기 위한 기반 작업에 가깝다.

PR과 커뮤니티가 보여준 포인트

GATED_DELTA_NET op가 llama.cpp에 병합됐다.
PR은 March 7, 2026에 merge됐다.
작성자는 qwen3next와 qwen35moe 예시 benchmark를 함께 제시했다.
LocalLLaMA 이용자들은 업데이트 후 token generation 개선을 체감했다고 보고했다.

PR 본문에 포함된 수치도 참고할 만하다. 예시 benchmark에서는 CPU 환경에서 qwen3next 80B-A3B Q2_K의 tg32가 4.77 t/s, qwen35moe Q4_K의 tg32가 11.08 t/s로 기록돼 있다. 이 수치가 모든 환경을 대표하는 것은 아니지만, upstream 개발자가 어떤 모델과 어떤 경로를 염두에 두고 작업했는지는 보여준다. 커뮤니티 게시물은 여기에 실제 사용자 체감 성능 개선을 얹어, "지금 업데이트할 가치가 있다"는 실무 조언으로 바꿔 놓았다.

이 사례의 핵심은 모델 파일만으로는 충분하지 않다는 점이다. 로컬 LLM 사용자는 새 모델의 가중치를 받는 것만큼이나, inference backend가 새로운 attention op를 지원하고 적절히 최적화하는지를 함께 확인해야 한다. r/LocalLLaMA는 이런 upstream 변경을 빠르게 번역해 주는 역할을 하고 있고, 이번 글도 바로 그런 community intelligence에 가깝다. Qwen 계열이나 관련 최신 model을 시험하는 사용자라면, 최근 llama.cpp 업데이트 여부부터 확인하는 편이 맞다.

#qwen-next

LocalLLaMA, Qwen 계열을 위한 llama.cpp 업데이트와 GATED_DELTA_NET 병합에 주목