LocalLLaMA, Qwen 계열을 위한 llama.cpp 업데이트와 GATED_DELTA_NET 병합에 주목
Original: update your llama.cpp - great tg speedup on Qwen3.5 / Qwen-Next View original →
r/LocalLLaMA에서 화제가 된 "update your llama.cpp - great tg speedup on Qwen3.5 / Qwen-Next"는 로컬 inference 생태계에서 runtime 업데이트가 얼마나 중요한지를 잘 보여준다. 게시물은 llama.cpp pull request #19504를 가리키며, 업데이트 이후 Qwen3.5와 Qwen-Next 계열에서 token generation 속도가 눈에 띄게 좋아졌다고 전한다. 작성자는 CUDA 화면 캡처를 함께 올렸고, 영향 범위는 주로 CUDA/CPU 경로일 것이라고 덧붙였다.
PR 자체의 내용도 분명하다. GitHub 설명에 따르면 이 변경은 qwen3next와 "a lot of upcoming recent attention models"에 쓰이는 GATED_DELTA_NET op의 CPU/CUDA 구현을 추가한다. 현재 구현은 chunked 버전이 아닌 기본 vector/reference implementation이지만, 작성자는 이 단계에서도 결과가 맞게 나왔고 이후 chunked implementation을 추가할 계획이라고 적었다. 즉 이 업데이트는 단순한 미세 최적화가 아니라, 최신 attention 구조를 inference backend가 따라가기 위한 기반 작업에 가깝다.
PR과 커뮤니티가 보여준 포인트
GATED_DELTA_NETop가llama.cpp에 병합됐다.- PR은 March 7, 2026에 merge됐다.
- 작성자는 qwen3next와 qwen35moe 예시 benchmark를 함께 제시했다.
- LocalLLaMA 이용자들은 업데이트 후 token generation 개선을 체감했다고 보고했다.
PR 본문에 포함된 수치도 참고할 만하다. 예시 benchmark에서는 CPU 환경에서 qwen3next 80B-A3B Q2_K의 tg32가 4.77 t/s, qwen35moe Q4_K의 tg32가 11.08 t/s로 기록돼 있다. 이 수치가 모든 환경을 대표하는 것은 아니지만, upstream 개발자가 어떤 모델과 어떤 경로를 염두에 두고 작업했는지는 보여준다. 커뮤니티 게시물은 여기에 실제 사용자 체감 성능 개선을 얹어, "지금 업데이트할 가치가 있다"는 실무 조언으로 바꿔 놓았다.
이 사례의 핵심은 모델 파일만으로는 충분하지 않다는 점이다. 로컬 LLM 사용자는 새 모델의 가중치를 받는 것만큼이나, inference backend가 새로운 attention op를 지원하고 적절히 최적화하는지를 함께 확인해야 한다. r/LocalLLaMA는 이런 upstream 변경을 빠르게 번역해 주는 역할을 하고 있고, 이번 글도 바로 그런 community intelligence에 가깝다. Qwen 계열이나 관련 최신 model을 시험하는 사용자라면, 최근 llama.cpp 업데이트 여부부터 확인하는 편이 맞다.
Related Articles
LocalLLaMA의 한 글은 RX 9070 XT에서 llama.cpp `--ubatch-size`를 64로 낮췄더니 Qwen3.5-27B의 prompt processing 속도가 크게 뛰었다고 보고했다. 핵심은 64가 만능값이라는 것이 아니라, prompt ingestion과 token generation이 `n_ubatch`에 전혀 다르게 반응할 수 있다는 점이다.
r/LocalLLaMA 게시글은 Mac 사용자를 March 11, 2026에 merge된 llama.cpp pull request #20361로 이끌었다. 이 PR은 fused GDN recurrent Metal kernel을 추가하며, Qwen 3.5 계열에서 대략 12-36% throughput 향상을 제시한다. Reddit commenters는 change가 master에는 들어갔지만 일부 local benchmark에서는 여전히 MLX가 더 빠를 수 있다고 덧붙였다.
Hacker News에서 주목받은 Unsloth의 Qwen3.5 가이드는 27B와 35B-A3B를 포함한 로컬 실행 경로를 메모리 요구량, thinking 제어, llama.cpp 명령 중심으로 정리한다.
Comments (0)
No comments yet. Be the first to comment!