#multi-gpu - Insights

LLM Reddit Apr 28, 2026 2 min read

16GB VRAM의 탈출구? LocalLLaMA가 꺼낸 “묵은 GPU 한 장” 해법

LocalLLaMA가 이 글에 반응한 이유는 명확했다. 27B 모델을 두 장의 제각각인 GPU VRAM 안에만 가둘 수 있다면, 느린 보조 카드라도 시스템 RAM으로 쏟아지는 것보다는 낫다는 아주 실용적인 주장 때문이었다.

#local-llms #vram #multi-gpu

LLM Reddit Apr 10, 2026 2 min read

llama.cpp의 backend-agnostic tensor parallelism, Reddit은 반기지만 아직은 실험 단계

LocalLLaMA의 고득점 스레드는 llama.cpp에 merge된 PR #19378을 계기로 <code>--split-mode tensor</code> 기반 multi-GPU 실행이 더 현실적인 옵션이 됐다고 봤다. 다만 현재 성숙도는 CUDA 중심이며, ROCm은 돌아가도 layer split보다 느릴 수 있고 Vulkan은 성능과 안정성 모두 과제로 남아 있다.

#llama-cpp #tensor-parallelism #multi-gpu