RTX 5090부터 AMD AI395까지, LocalLLaMA 벤치마크가 보여준 현실적인 선택지
Original: [Benchmark] The Ultimate Llama.cpp Shootout: RTX 5090 vs DGX Spark vs AMD AI395 & R9700 (ROCm/Vulkan) View original →
왜 이 벤치마크가 주목받았나
r/LocalLLaMA에 올라온 The Ultimate Llama.cpp Shootout 포스트는 55 upvotes와 81 comments를 모았다. 점수만 보면 폭발적 viral post는 아니지만, technical value는 높다. 작성자는 llama-bench build 8463으로 RTX 5090, DGX Spark GB10, AMD AI395, single과 dual AMD R9700를 같은 test parameter로 비교했고, Dense model과 MoE model을 함께 돌렸다.
테스트 모델은 Qwen2.5 32B, Qwen3.5 35B MoE, Qwen2.5 70B, Qwen3.5 122B MoE였고, parameter는 -ngl 99 -fa 1 -p 2048 -n 256 -b 512였다. 이런 비교는 vendor slide보다 유용하다. Local inference에서는 최고 peak speed보다, 어떤 모델이 실제로 메모리에 올라가고 어떤 backend가 안정적으로 버티는지가 더 중요하기 때문이다.
핵심 결과
포스트에 따르면 RTX 5090은 모델이 32GB VRAM에 들어갈 때 압도적으로 빨랐다. Qwen3.5 35B MoE에서 prompt processing은 5988.83 t/s, generation은 205.36 t/s를 기록했다. 하지만 70B Q4_K_M과 122B 모델은 메모리 한계로 아예 로드하지 못했다.
- AMD AI395는 98GB shared memory 덕분에 non-enterprise node 중 유일하게 122B MoE를 실행했다.
- 작성자는 AI395에서
-mmp 0옵션이 필요했고, 그 상태에서 약 20 t/s generation과 108W 수준을 기록했다고 적었다. - dual R9700 setup은 총 60GB VRAM으로 70B 모델을 ROCm에서 11.49 t/s generation, 약 600 t/s prompt processing까지 끌어올렸다.
- ROCm은 prompt processing에서 강했고, Vulkan은 일부 generation 구간에서 더 빨랐지만
vk::DeviceLostError가 발생할 정도로 덜 안정적이었다.
왜 중요한가
이 벤치마크는 local LLM hardware 선택이 단순한 GPU tier 비교가 아니라는 점을 보여준다. 5090은 fit되는 model에서는 monster지만, capacity ceiling이 분명하다. AI395는 속도보다 memory flexibility가 강점이고, dual R9700은 absolute speed보다 70B급 model을 현실적으로 돌리는 길을 제시한다.
즉 구매 판단은 최대 t/s가 아니라 workload에 따라 달라진다. 작은 MoE를 빠르게 돌릴 것인지, 70B나 122B를 어떻게든 올릴 것인지, ROCm과 Vulkan 중 어느 stack을 감당할 것인지가 중요하다. LocalLLaMA 같은 community benchmark가 가치 있는 이유가 바로 여기에 있다. 실사용자가 부딪히는 fit, throughput, stability를 한 번에 보여주기 때문이다.
Original source: Reddit benchmark post
Related Articles
r/LocalLLaMA의 Mi50 벤치마크 글은 llama.cpp에서 ROCm 7 nightly와 Vulkan을 비교하며, 짧은 문맥에서는 Vulkan이 강하지만 긴 문맥과 MoE에서는 ROCm이 앞선다는 관찰을 제시했다.
r/LocalLLaMA의 고신호 benchmark 글은 Qwen 3.5 27B를 mainline llama.cpp에서 ik_llama.cpp로 바꾸자 Blackwell RTX PRO 4000에서 prompt evaluation이 약 43 tok/sec에서 1,122 tok/sec로 뛰었고, generation도 7.5 tok/sec에서 26 tok/sec로 올라갔다고 전했다.
Qwen3.5 출시 몇 주 뒤, r/LocalLLaMA는 general chat, coding, tool use에 맞는 sampler와 reasoning budget을 분리해 쓰는 방향으로 경험칙을 모으고 있다.
Comments (0)
No comments yet. Be the first to comment!