LLM Reddit Apr 28, 2026 2 min read
LocalLLaMA가 이 글에 반응한 이유는 명확했다. 27B 모델을 두 장의 제각각인 GPU VRAM 안에만 가둘 수 있다면, 느린 보조 카드라도 시스템 RAM으로 쏟아지는 것보다는 낫다는 아주 실용적인 주장 때문이었다.
LocalLLaMA가 이 글에 반응한 이유는 명확했다. 27B 모델을 두 장의 제각각인 GPU VRAM 안에만 가둘 수 있다면, 느린 보조 카드라도 시스템 RAM으로 쏟아지는 것보다는 낫다는 아주 실용적인 주장 때문이었다.
LocalLLaMA의 고득점 스레드는 llama.cpp에 merge된 PR #19378을 계기로 <code>--split-mode tensor</code> 기반 multi-GPU 실행이 더 현실적인 옵션이 됐다고 봤다. 다만 현재 성숙도는 CUDA 중심이며, ROCm은 돌아가도 layer split보다 느릴 수 있고 Vulkan은 성능과 안정성 모두 과제로 남아 있다.