LocalLLaMA 비교: Qwen3.5 397B 구동에서 Dual DGX Sparks와 512GB Mac Studio 맞대결

비교가 나온 배경

Reddit r/LocalLLaMA에서 올라온 한 장문의 벤치마크 포스트가, 대형 open model을 local로 운영하려는 사용자들에게 매우 구체적인 비교 데이터를 제공했다. 크롤링 시점 기준 이 글은 402점, 229개 댓글을 기록했다. 작성자는 개인 Slack assistant를 돌리기 위해 Claude API에 월 $2K 정도를 쓰다가, 장기적으로 local inference가 더 낫다고 판단해 $10K짜리 Mac Studio M3 Ultra 512GB와 비슷한 비용의 Dual DGX Spark 구성을 모두 구매했다고 설명한다.

비교 대상 모델은 Qwen3.5 397B A17B다. 작성자에 따르면 Mac Studio에서는 MLX 6 bit quantization으로 323GB 모델을 512GB unified memory에 적재했고, generation 속도는 30 to 40 tok/s가 나왔다. Mac의 핵심 강점은 약 800 GB/s 수준의 memory bandwidth로, 거대한 모델에서도 token generation이 부드럽다는 점이다. 설치도 상대적으로 단순했지만, prefill은 큰 system prompt와 tool definition에서 30+초가 걸렸고, MLX VLM이 tool call 처리와 thinking token 제거를 기본 제공하지 않아 별도 async proxy를 직접 작성해야 했다고 한다.

Dual DGX Sparks가 보여준 것

Dual Sparks 쪽은 INT4 AutoRound로 node당 98GB 모델을 두 개의 128GB node에 나눠 적재하고, vLLM TP=2로 구동했다. generation은 27 to 28 tok/s로 Mac보다 약간 낮았지만, prefill은 더 빨랐고 batch embedding 성능은 훨씬 좋았다고 적었다. CUDA tensor core, vLLM kernel, tensor parallelism 덕분에 inference 외 workload까지 병행하기에는 Dual Sparks가 더 유리하다는 평가다.

문제는 setup 난이도였다. 작성자는 QSFP cable 하나만 정상 동작했고, Node2 IP가 reboot 후 사라졌으며, GPU memory ceiling은 0.88 근처를 직접 binary search 해야 했다고 적었다. page cache를 두 node 모두에서 비워야 mystery OOM을 피할 수 있었고, 일부 유닛은 20분 안에 thermal throttling이 걸렸다고도 한다. 즉, 성능 자체보다 운영 안정화에 드는 시간이 큰 비용이라는 결론이다.

실전적 결론

이 포스트의 흥미로운 지점은 “누가 더 빠른가”보다 “누가 어떤 역할에 맞는가”를 분리했다는 데 있다. 작성자는 최종적으로 Mac Studio는 inference 전용, Dual Sparks는 RAG, embedding, reranking 전용으로 두고 Tailscale로 연결하는 구조를 택했다. 계산상 $20K hardware cost는 월 $2K API spend 기준 약 10개월이면 손익분기점에 도달한다는 설명도 덧붙였다.

LocalLLaMA 커뮤니티 입장에서 이 비교는, 거대 모델 local 운영이 더 이상 취미 프로젝트 수준에만 머물지 않는다는 점을 보여준다. 다만 쉬운 도입과 매끄러운 generation은 Mac Studio가, 복합 workload와 CUDA ecosystem 활용은 Dual Sparks가 더 낫다는 식으로 선택 기준이 뚜렷하게 갈린다.

출처: r/LocalLLaMA 원문

LocalLLaMA 비교: Qwen3.5 397B 구동에서 Dual DGX Sparks와 512GB Mac Studio 맞대결

비교가 나온 배경

Dual DGX Sparks가 보여준 것

실전적 결론

Related Articles

RTX 5090부터 AMD AI395까지, LocalLLaMA 벤치마크가 보여준 현실적인 선택지

LocalLLaMA에서 화제가 된 Qwen3.5 27B의 현실적인 성능 균형

Cursor, Composer 2 technical report 공개하며 coding agent 학습 경로와 benchmark 수치 설명

Comments (0)

Leave a Comment