llama.cpp Qwen3Next 그래프 최적화 PR 병합, LocalLLaMA에서 추론 속도 개선 확인

커뮤니티가 주목한 변경

r/LocalLLaMA의 게시물(1r4hx24)은 llama.cpp PR #19375를 공유하며 Qwen3Next 계열 최적화 결과를 다뤘다. 수집 시점 기준 게시물은 173점, 댓글 54개를 기록했다. PR 제목은 models : optimizing qwen3next graph, 작성자는 ggerganov이며 2026-02-14T10:57:36Z에 병합됐다.

PR에서 확인된 기술적 변화

핵심 목적은 ggml compute graph를 재구성해 불필요한 memory copy를 줄이는 것이다. GitHub 메타데이터 기준으로 이 PR은 19 commits, 4 files 변경, +262/-299 라인 수정이 포함된다. 변경 파일은 src/models/qwen3next.cpp 중심이며, CUDA/Metal 경로 조정도 함께 들어갔다. 즉, 단일 플래그 튜닝이 아니라 모델 그래프와 backend 경로를 동시에 만지는 구조적 최적화에 가깝다.

벤치마크에서 나타난 개선폭

PR 본문에는 M2 Ultra와 DGX Spark 결과가 함께 제시됐다. 테스트별 speedup은 대략 1.09x에서 1.38x 범위로 보고된다. 예를 들어 M2 Ultra의 일부 tg32 구간은 1.33x~1.37x, DGX Spark의 tg32는 1.27x~1.38x 개선이 기재됐다. 커뮤니티 댓글에서도 17% TPS 향상 사례와 장문맥(-d 65536)에서의 체감 개선이 공유됐다.

로컬 LLM 운영에 주는 의미

동일 하드웨어에서 token throughput을 높여 응답 지연 단축 가능
Qwen3-Coder-Next 같은 대형 모델의 실사용 임계점 하향
CPU/GPU split 구성에서 효율 개선 여지 확대
후속 PR(그래프 상수화, delta net op)와 결합 시 추가 최적화 기대

결론적으로 이번 이슈는 로컬 LLM 스택에서 '모델 자체 성능'뿐 아니라 추론 엔진 구현 디테일이 체감 성능을 크게 좌우한다는 점을 다시 보여준다.

Sources: llama.cpp PR #19375, Reddit discussion

LLM Reddit Feb 15, 2026 1 min read