LocalLLaMA 비교: Qwen3.5 397B 구동에서 Dual DGX Sparks와 512GB Mac Studio 맞대결
Original: Dual DGX Sparks vs Mac Studio M3 Ultra 512GB: Running Qwen3.5 397B locally on both. Here's what I found. View original →
비교가 나온 배경
Reddit r/LocalLLaMA에서 올라온 한 장문의 벤치마크 포스트가, 대형 open model을 local로 운영하려는 사용자들에게 매우 구체적인 비교 데이터를 제공했다. 크롤링 시점 기준 이 글은 402점, 229개 댓글을 기록했다. 작성자는 개인 Slack assistant를 돌리기 위해 Claude API에 월 $2K 정도를 쓰다가, 장기적으로 local inference가 더 낫다고 판단해 $10K짜리 Mac Studio M3 Ultra 512GB와 비슷한 비용의 Dual DGX Spark 구성을 모두 구매했다고 설명한다.
비교 대상 모델은 Qwen3.5 397B A17B다. 작성자에 따르면 Mac Studio에서는 MLX 6 bit quantization으로 323GB 모델을 512GB unified memory에 적재했고, generation 속도는 30 to 40 tok/s가 나왔다. Mac의 핵심 강점은 약 800 GB/s 수준의 memory bandwidth로, 거대한 모델에서도 token generation이 부드럽다는 점이다. 설치도 상대적으로 단순했지만, prefill은 큰 system prompt와 tool definition에서 30+초가 걸렸고, MLX VLM이 tool call 처리와 thinking token 제거를 기본 제공하지 않아 별도 async proxy를 직접 작성해야 했다고 한다.
Dual DGX Sparks가 보여준 것
Dual Sparks 쪽은 INT4 AutoRound로 node당 98GB 모델을 두 개의 128GB node에 나눠 적재하고, vLLM TP=2로 구동했다. generation은 27 to 28 tok/s로 Mac보다 약간 낮았지만, prefill은 더 빨랐고 batch embedding 성능은 훨씬 좋았다고 적었다. CUDA tensor core, vLLM kernel, tensor parallelism 덕분에 inference 외 workload까지 병행하기에는 Dual Sparks가 더 유리하다는 평가다.
문제는 setup 난이도였다. 작성자는 QSFP cable 하나만 정상 동작했고, Node2 IP가 reboot 후 사라졌으며, GPU memory ceiling은 0.88 근처를 직접 binary search 해야 했다고 적었다. page cache를 두 node 모두에서 비워야 mystery OOM을 피할 수 있었고, 일부 유닛은 20분 안에 thermal throttling이 걸렸다고도 한다. 즉, 성능 자체보다 운영 안정화에 드는 시간이 큰 비용이라는 결론이다.
실전적 결론
이 포스트의 흥미로운 지점은 “누가 더 빠른가”보다 “누가 어떤 역할에 맞는가”를 분리했다는 데 있다. 작성자는 최종적으로 Mac Studio는 inference 전용, Dual Sparks는 RAG, embedding, reranking 전용으로 두고 Tailscale로 연결하는 구조를 택했다. 계산상 $20K hardware cost는 월 $2K API spend 기준 약 10개월이면 손익분기점에 도달한다는 설명도 덧붙였다.
LocalLLaMA 커뮤니티 입장에서 이 비교는, 거대 모델 local 운영이 더 이상 취미 프로젝트 수준에만 머물지 않는다는 점을 보여준다. 다만 쉬운 도입과 매끄러운 generation은 Mac Studio가, 복합 workload와 CUDA ecosystem 활용은 Dual Sparks가 더 낫다는 식으로 선택 기준이 뚜렷하게 갈린다.
출처: r/LocalLLaMA 원문
Related Articles
Claude Fable 5가 GDPval-AA 1932점으로 에이전트형 지식 업무 벤치마크 1위에 올랐다. Anthropic 모델이 상위 4개 중 3개를 차지했다는 점은 장시간 업무형 모델 경쟁이 성능표 중심으로 재편되고 있음을 보여준다.
코딩 모델 평가가 정답률에서 코드 리뷰 품질로 옮겨가고 있다는 점에 HN 관심이 모였다. FrontierCode는 PR을 실제 maintainer가 받아들일지에 초점을 둔다.
Claude Opus 4.8의 강점이 코딩 벤치마크를 넘어 실제 업무형 에이전트 평가로 확장됐다. Artificial Analysis는 max effort 기준 1890점을 기록해 GPT-5.5 xhigh보다 121점 앞섰다고 밝혔다.