LocalLLaMA 비교: Qwen3.5 397B 구동에서 Dual DGX Sparks와 512GB Mac Studio 맞대결
Original: Dual DGX Sparks vs Mac Studio M3 Ultra 512GB: Running Qwen3.5 397B locally on both. Here's what I found. View original →
비교가 나온 배경
Reddit r/LocalLLaMA에서 올라온 한 장문의 벤치마크 포스트가, 대형 open model을 local로 운영하려는 사용자들에게 매우 구체적인 비교 데이터를 제공했다. 크롤링 시점 기준 이 글은 402점, 229개 댓글을 기록했다. 작성자는 개인 Slack assistant를 돌리기 위해 Claude API에 월 $2K 정도를 쓰다가, 장기적으로 local inference가 더 낫다고 판단해 $10K짜리 Mac Studio M3 Ultra 512GB와 비슷한 비용의 Dual DGX Spark 구성을 모두 구매했다고 설명한다.
비교 대상 모델은 Qwen3.5 397B A17B다. 작성자에 따르면 Mac Studio에서는 MLX 6 bit quantization으로 323GB 모델을 512GB unified memory에 적재했고, generation 속도는 30 to 40 tok/s가 나왔다. Mac의 핵심 강점은 약 800 GB/s 수준의 memory bandwidth로, 거대한 모델에서도 token generation이 부드럽다는 점이다. 설치도 상대적으로 단순했지만, prefill은 큰 system prompt와 tool definition에서 30+초가 걸렸고, MLX VLM이 tool call 처리와 thinking token 제거를 기본 제공하지 않아 별도 async proxy를 직접 작성해야 했다고 한다.
Dual DGX Sparks가 보여준 것
Dual Sparks 쪽은 INT4 AutoRound로 node당 98GB 모델을 두 개의 128GB node에 나눠 적재하고, vLLM TP=2로 구동했다. generation은 27 to 28 tok/s로 Mac보다 약간 낮았지만, prefill은 더 빨랐고 batch embedding 성능은 훨씬 좋았다고 적었다. CUDA tensor core, vLLM kernel, tensor parallelism 덕분에 inference 외 workload까지 병행하기에는 Dual Sparks가 더 유리하다는 평가다.
문제는 setup 난이도였다. 작성자는 QSFP cable 하나만 정상 동작했고, Node2 IP가 reboot 후 사라졌으며, GPU memory ceiling은 0.88 근처를 직접 binary search 해야 했다고 적었다. page cache를 두 node 모두에서 비워야 mystery OOM을 피할 수 있었고, 일부 유닛은 20분 안에 thermal throttling이 걸렸다고도 한다. 즉, 성능 자체보다 운영 안정화에 드는 시간이 큰 비용이라는 결론이다.
실전적 결론
이 포스트의 흥미로운 지점은 “누가 더 빠른가”보다 “누가 어떤 역할에 맞는가”를 분리했다는 데 있다. 작성자는 최종적으로 Mac Studio는 inference 전용, Dual Sparks는 RAG, embedding, reranking 전용으로 두고 Tailscale로 연결하는 구조를 택했다. 계산상 $20K hardware cost는 월 $2K API spend 기준 약 10개월이면 손익분기점에 도달한다는 설명도 덧붙였다.
LocalLLaMA 커뮤니티 입장에서 이 비교는, 거대 모델 local 운영이 더 이상 취미 프로젝트 수준에만 머물지 않는다는 점을 보여준다. 다만 쉬운 도입과 매끄러운 generation은 Mac Studio가, 복합 workload와 CUDA ecosystem 활용은 Dual Sparks가 더 낫다는 식으로 선택 기준이 뚜렷하게 갈린다.
출처: r/LocalLLaMA 원문
Related Articles
r/LocalLLaMA의 llama.cpp 비교 글은 55 upvotes와 81 comments를 기록했다. RTX 5090, DGX Spark, AMD AI395, single과 dual R9700를 같은 parameter로 비교해 local inference hardware의 현실적인 trade-off를 보여줬다.
r/LocalLLaMA의 벤치마크 글은 RTX A6000 48GB, llama.cpp CUDA, 32k context 조건에서 Qwen3.5 27B가 약 19.7 tok/s를 기록하며 크기 대비 성능 균형이 좋다고 평가했다.
Cursor가 Composer 2 technical report를 공개하며 code-dominated continued pretraining, 대규모 reinforcement learning, 그리고 CursorBench 중심 평가 체계를 설명했다. 보고서는 agentic software engineering 모델의 학습 환경과 benchmark 수치를 비교적 자세히 공개한 사례다.
Comments (0)
No comments yet. Be the first to comment!