llama.cpp의 backend-agnostic tensor parallelism, Reddit은 반기지만 아직은 실험 단계
Original: backend-agnostic tensor parallelism has been merged into llama.cpp View original →
무슨 일이 있었나
r/LocalLLaMA에서 104점과 49개의 댓글을 받은 글은 llama.cpp 에 merge된 PR #19378 를 짚었다. PR 제목은 "backend-agnostic tensor parallelism (experimental)"이며, 핵심은 --split-mode tensor 를 추가해 여러 GPU에 tensor-parallel workload를 나눌 수 있게 한 것이다. 구현은 여러 backend를 하나처럼 감싸는 meta backend 방식으로 설명되며, 외부 인터페이스는 일반 ggml backend와 비슷하게 유지된다.
이 변화가 흥미로운 이유는 기존 --split-mode layer 와의 차이 때문이다. layer split은 prompt processing에서는 효율적이지만, 단일 요청의 token generation에서는 GPU가 순차적으로 동작해 속도 이득이 제한된다. 새 tensor split은 모든 경우에 적용할 수 있지만 synchronization overhead가 변수다. PR 설명에 따르면 이 모드는 느린 GPU, 빠른 interconnect, 큰 dense model, 깊은 context처럼 각 GPU가 맡을 일이 충분히 많은 조건에서 더 잘 맞는다. 또 CUDA multi-GPU가 우선 지원 대상이고, 좋은 성능을 위해 NCCL 설치를 권장한다.
왜 Reddit이 주목했나
LocalLLaMA 반응은 기대와 경계가 섞여 있다. 원 게시물은 "CUDA가 아니어도 즐길 수 있다"는 표현으로 확장성을 강조했지만, 실제 댓글은 현실적인 caveat를 바로 붙였다. ROCm은 HIP 번역 덕분에 동작은 하지만 일부 조합에서는 기존 layer baseline보다 성능이 좋지 않다는 보고가 나왔다. Vulkan은 짧은 context에서는 돌아갈 수 있어도 여전히 성능이 낮고, 긴 context에서는 안정성 이슈가 남아 있다는 점도 반복해서 언급됐다. 즉 backend-agnostic이라는 설계 목표와, 당장 안정적으로 추천할 수 있는 runtime 범위는 아직 차이가 있다.
그럼에도 이 스레드가 반응을 얻은 것은 로컬 multi-GPU 사용자 입장에서 큰 방향 전환처럼 보이기 때문이다. 한 댓글은 이것이 vLLM을 굳이 쓰지 않아도 되는 신호인지 묻고, 다른 댓글은 실제 3x3090 측정치 스크린샷을 올리며 체감 성능 변화를 공유했다. 또 다른 이용자는 ROCm desktop 환경에서 Gemma 4나 Qwen 계열 모델을 직접 시험 중이라고 밝혔다. 즉 이 글은 단순 merge 소식이 아니라, llama.cpp 가 점점 더 serious multi-GPU inference stack으로 이동하는지 확인하려는 현장 반응을 모았다.
Insights 관점에서 보면 핵심은 명확하다. 이번 PR은 로컬 LLM 생태계에서 tensor parallelism을 더 넓은 backend 추상화 수준으로 끌어올린 중요한 기반 작업이다. 다만 production-ready라는 표현과는 아직 거리가 있고, 당분간은 CUDA 중심의 실험 기능으로 보는 편이 정확하다. 원문: r/LocalLLaMA, llama.cpp PR #19378.
Related Articles
llama.cpp MTP 기능을 활용해 12GB VRAM GPU에서 Qwen3.6 35B A3B 모델을 초당 80토큰 이상, 128K 컨텍스트로 실행하는 설정이 공유됐다.
관심은 성능 자랑보다 README의 학습 설계에 모였다. vLLM의 핵심을 작은 코드와 수업 흐름으로 재구성한 점이 반응을 얻었다.
토큰 사용량과 투자자 구성이 함께 주목을 받았다. HN 댓글의 관심은 “모델 라우터가 독립 인프라로 남을 수 있나”에 모였다.