LocalLLaMA, Qwen 계열을 위한 llama.cpp 업데이트와 GATED_DELTA_NET 병합에 주목
Original: update your llama.cpp - great tg speedup on Qwen3.5 / Qwen-Next View original →
r/LocalLLaMA에서 화제가 된 "update your llama.cpp - great tg speedup on Qwen3.5 / Qwen-Next"는 로컬 inference 생태계에서 runtime 업데이트가 얼마나 중요한지를 잘 보여준다. 게시물은 llama.cpp pull request #19504를 가리키며, 업데이트 이후 Qwen3.5와 Qwen-Next 계열에서 token generation 속도가 눈에 띄게 좋아졌다고 전한다. 작성자는 CUDA 화면 캡처를 함께 올렸고, 영향 범위는 주로 CUDA/CPU 경로일 것이라고 덧붙였다.
PR 자체의 내용도 분명하다. GitHub 설명에 따르면 이 변경은 qwen3next와 "a lot of upcoming recent attention models"에 쓰이는 GATED_DELTA_NET op의 CPU/CUDA 구현을 추가한다. 현재 구현은 chunked 버전이 아닌 기본 vector/reference implementation이지만, 작성자는 이 단계에서도 결과가 맞게 나왔고 이후 chunked implementation을 추가할 계획이라고 적었다. 즉 이 업데이트는 단순한 미세 최적화가 아니라, 최신 attention 구조를 inference backend가 따라가기 위한 기반 작업에 가깝다.
PR과 커뮤니티가 보여준 포인트
GATED_DELTA_NETop가llama.cpp에 병합됐다.- PR은 March 7, 2026에 merge됐다.
- 작성자는 qwen3next와 qwen35moe 예시 benchmark를 함께 제시했다.
- LocalLLaMA 이용자들은 업데이트 후 token generation 개선을 체감했다고 보고했다.
PR 본문에 포함된 수치도 참고할 만하다. 예시 benchmark에서는 CPU 환경에서 qwen3next 80B-A3B Q2_K의 tg32가 4.77 t/s, qwen35moe Q4_K의 tg32가 11.08 t/s로 기록돼 있다. 이 수치가 모든 환경을 대표하는 것은 아니지만, upstream 개발자가 어떤 모델과 어떤 경로를 염두에 두고 작업했는지는 보여준다. 커뮤니티 게시물은 여기에 실제 사용자 체감 성능 개선을 얹어, "지금 업데이트할 가치가 있다"는 실무 조언으로 바꿔 놓았다.
이 사례의 핵심은 모델 파일만으로는 충분하지 않다는 점이다. 로컬 LLM 사용자는 새 모델의 가중치를 받는 것만큼이나, inference backend가 새로운 attention op를 지원하고 적절히 최적화하는지를 함께 확인해야 한다. r/LocalLLaMA는 이런 upstream 변경을 빠르게 번역해 주는 역할을 하고 있고, 이번 글도 바로 그런 community intelligence에 가깝다. Qwen 계열이나 관련 최신 model을 시험하는 사용자라면, 최근 llama.cpp 업데이트 여부부터 확인하는 편이 맞다.
Related Articles
r/LocalLLaMA에서 CPU 메모리로 offload한 가중치를 미리 가져와 prompt 처리 속도를 끌어올리려는 llama.cpp 실험이 주목을 받았다. 긴 context에서 hybrid CPU/GPU 추론의 병목을 줄이려는 시도다.
LocalLLaMA에서 화제가 된 attn-rot는 Hadamard rotation으로 Q, K, V를 회전시켜 KV cache quantization 품질을 높이려는 llama.cpp PR이다. 새로운 format을 만들지 않고도 perplexity를 크게 줄일 수 있다는 점이 핵심이다.
LocalLLaMA가 이 글에 반응한 이유는 단순한 음성 데모가 아니었다. Qwen3-TTS를 로컬 실시간으로 돌리고, llama.cpp와 단어 단위 정렬까지 붙여 lip sync를 맞춘 구축 기록이 핵심이었다.
Comments (0)
No comments yet. Be the first to comment!