GLM5.2 집에서 돌리기, LocalLLaMA가 본 진짜 비용은 GPU 숫자
Original: GLM5.2 on 5x Pro 6000s and a 5090, an expensive journey View original →
LocalLLaMA에서 1,200점 넘게 오른 GLM5.2 실험은 로컬 LLM의 현재 분위기를 잘 보여준다. 게시자는 5개의 RTX PRO 6000과 RTX 5090을 동원한 구성을 “expensive journey”라고 불렀다. 모델을 집에서 직접 굴리고 싶다는 욕망은 커졌지만, 실제로는 VRAM, 전력, 냉각, 슬롯, 예산이 한꺼번에 따라붙는다.
이 글이 반응을 얻은 이유는 단순한 장비 자랑이 아니다. 대형 MoE 모델을 로컬에서 돌리는 일이 더 이상 불가능한 꿈은 아니지만, 가능한 순간부터 비용 계산이 시작된다는 점을 보여줬다. 데이터센터가 아닌 개인 장비로 긴 context와 큰 모델을 다루려면 GPU 개수만 늘리면 되는 것이 아니라 시스템 전체가 병목을 견뎌야 한다.
댓글은 성능보다 총소유비용을 파고들었다. 어떤 이들은 “사업으로 회수할 수 있는 비용인지, 취미로 감당하는 비용인지”를 물었고, 다른 이들은 대학 등록금이나 중고 GPU 가격과 비교했다. 로컬 AI 커뮤니티의 관심이 benchmark 표에서 실제 운영비로 이동하고 있다는 신호다.
GLM5.2 같은 모델은 오픈 모델 생태계가 어디까지 커졌는지 보여준다. 동시에 개인이 그 모델을 온전히 다루려면 소비자용 PC의 감각을 넘어선 투자가 필요하다. 로컬 LLM의 다음 단계는 모델 파일을 내려받는 일보다, 그 모델을 안정적으로 먹여 살릴 인프라를 어디까지 개인화할 수 있느냐에 달려 있다.
Related Articles
r/LocalLLaMA의 한 글은 Qwen3.5 27B가 quality와 deployability 사이에서 드문 균형점을 만든다고 주장한다. 게시물은 RTX A6000 48GB, llama.cpp with CUDA, 32K context에서 약 19.7 tokens/sec를 보고했고, 댓글에서는 dense 27B와 35B-A3B MoE의 VRAM economics가 활발히 비교됐다.
r/LocalLLaMA에서 Intel Arc Pro B70/B65 출시 소식은 213 upvotes와 133 comments를 기록했다. Intel은 B70을 2026년 3월 25일부터 $949에 판매하고, B65는 mid-April에 출시한다고 밝혔다.
LocalLLaMA의 관심은 속도 숫자보다 FP4, DFlash speculative decoding, commodity GPU 조합이 실제로 어디까지 재현될 수 있느냐에 모였다.