llama.cpp의 backend-agnostic tensor parallelism, Reddit은 반기지만 아직은 실험 단계
Original: backend-agnostic tensor parallelism has been merged into llama.cpp View original →
무슨 일이 있었나
r/LocalLLaMA에서 104점과 49개의 댓글을 받은 글은 llama.cpp 에 merge된 PR #19378 를 짚었다. PR 제목은 "backend-agnostic tensor parallelism (experimental)"이며, 핵심은 --split-mode tensor 를 추가해 여러 GPU에 tensor-parallel workload를 나눌 수 있게 한 것이다. 구현은 여러 backend를 하나처럼 감싸는 meta backend 방식으로 설명되며, 외부 인터페이스는 일반 ggml backend와 비슷하게 유지된다.
이 변화가 흥미로운 이유는 기존 --split-mode layer 와의 차이 때문이다. layer split은 prompt processing에서는 효율적이지만, 단일 요청의 token generation에서는 GPU가 순차적으로 동작해 속도 이득이 제한된다. 새 tensor split은 모든 경우에 적용할 수 있지만 synchronization overhead가 변수다. PR 설명에 따르면 이 모드는 느린 GPU, 빠른 interconnect, 큰 dense model, 깊은 context처럼 각 GPU가 맡을 일이 충분히 많은 조건에서 더 잘 맞는다. 또 CUDA multi-GPU가 우선 지원 대상이고, 좋은 성능을 위해 NCCL 설치를 권장한다.
왜 Reddit이 주목했나
LocalLLaMA 반응은 기대와 경계가 섞여 있다. 원 게시물은 "CUDA가 아니어도 즐길 수 있다"는 표현으로 확장성을 강조했지만, 실제 댓글은 현실적인 caveat를 바로 붙였다. ROCm은 HIP 번역 덕분에 동작은 하지만 일부 조합에서는 기존 layer baseline보다 성능이 좋지 않다는 보고가 나왔다. Vulkan은 짧은 context에서는 돌아갈 수 있어도 여전히 성능이 낮고, 긴 context에서는 안정성 이슈가 남아 있다는 점도 반복해서 언급됐다. 즉 backend-agnostic이라는 설계 목표와, 당장 안정적으로 추천할 수 있는 runtime 범위는 아직 차이가 있다.
그럼에도 이 스레드가 반응을 얻은 것은 로컬 multi-GPU 사용자 입장에서 큰 방향 전환처럼 보이기 때문이다. 한 댓글은 이것이 vLLM을 굳이 쓰지 않아도 되는 신호인지 묻고, 다른 댓글은 실제 3x3090 측정치 스크린샷을 올리며 체감 성능 변화를 공유했다. 또 다른 이용자는 ROCm desktop 환경에서 Gemma 4나 Qwen 계열 모델을 직접 시험 중이라고 밝혔다. 즉 이 글은 단순 merge 소식이 아니라, llama.cpp 가 점점 더 serious multi-GPU inference stack으로 이동하는지 확인하려는 현장 반응을 모았다.
Insights 관점에서 보면 핵심은 명확하다. 이번 PR은 로컬 LLM 생태계에서 tensor parallelism을 더 넓은 backend 추상화 수준으로 끌어올린 중요한 기반 작업이다. 다만 production-ready라는 표현과는 아직 거리가 있고, 당분간은 CUDA 중심의 실험 기능으로 보는 편이 정확하다. 원문: r/LocalLLaMA, llama.cpp PR #19378.
Related Articles
LocalLLaMA에서는 Gemma 4 초기 문제의 일부가 model 자체보다 llama.cpp runtime bugs와 support lag에서 비롯됐을 수 있다는 지적이 나왔다. 여러 pull request와 user report가 early benchmark를 다시 해석해야 한다는 근거로 제시됐다.
r/LocalLLaMA의 한 글은 Qwen3.5 27B가 quality와 deployability 사이에서 드문 균형점을 만든다고 주장한다. 게시물은 RTX A6000 48GB, llama.cpp with CUDA, 32K context에서 약 19.7 tokens/sec를 보고했고, 댓글에서는 dense 27B와 35B-A3B MoE의 VRAM economics가 활발히 비교됐다.
patched llama.cpp로 Qwen 3.5-9B를 MacBook Air M4 16 GB와 20,000-token context에서 돌렸다는 LocalLLaMA 게시물은 이번 2026년 4월 4일 크롤링에서 1,159 upvotes와 193 comments를 기록했고, TurboQuant를 단순 연구 뉴스가 아닌 실제 local inference 화제로 끌어올렸다.
Comments (0)
No comments yet. Be the first to comment!