RTX 5090부터 AMD AI395까지, LocalLLaMA 벤치마크가 보여준 현실적인 선택지
Original: [Benchmark] The Ultimate Llama.cpp Shootout: RTX 5090 vs DGX Spark vs AMD AI395 & R9700 (ROCm/Vulkan) View original →
왜 이 벤치마크가 주목받았나
r/LocalLLaMA에 올라온 The Ultimate Llama.cpp Shootout 포스트는 55 upvotes와 81 comments를 모았다. 점수만 보면 폭발적 viral post는 아니지만, technical value는 높다. 작성자는 llama-bench build 8463으로 RTX 5090, DGX Spark GB10, AMD AI395, single과 dual AMD R9700를 같은 test parameter로 비교했고, Dense model과 MoE model을 함께 돌렸다.
테스트 모델은 Qwen2.5 32B, Qwen3.5 35B MoE, Qwen2.5 70B, Qwen3.5 122B MoE였고, parameter는 -ngl 99 -fa 1 -p 2048 -n 256 -b 512였다. 이런 비교는 vendor slide보다 유용하다. Local inference에서는 최고 peak speed보다, 어떤 모델이 실제로 메모리에 올라가고 어떤 backend가 안정적으로 버티는지가 더 중요하기 때문이다.
핵심 결과
포스트에 따르면 RTX 5090은 모델이 32GB VRAM에 들어갈 때 압도적으로 빨랐다. Qwen3.5 35B MoE에서 prompt processing은 5988.83 t/s, generation은 205.36 t/s를 기록했다. 하지만 70B Q4_K_M과 122B 모델은 메모리 한계로 아예 로드하지 못했다.
- AMD AI395는 98GB shared memory 덕분에 non-enterprise node 중 유일하게 122B MoE를 실행했다.
- 작성자는 AI395에서
-mmp 0옵션이 필요했고, 그 상태에서 약 20 t/s generation과 108W 수준을 기록했다고 적었다. - dual R9700 setup은 총 60GB VRAM으로 70B 모델을 ROCm에서 11.49 t/s generation, 약 600 t/s prompt processing까지 끌어올렸다.
- ROCm은 prompt processing에서 강했고, Vulkan은 일부 generation 구간에서 더 빨랐지만
vk::DeviceLostError가 발생할 정도로 덜 안정적이었다.
왜 중요한가
이 벤치마크는 local LLM hardware 선택이 단순한 GPU tier 비교가 아니라는 점을 보여준다. 5090은 fit되는 model에서는 monster지만, capacity ceiling이 분명하다. AI395는 속도보다 memory flexibility가 강점이고, dual R9700은 absolute speed보다 70B급 model을 현실적으로 돌리는 길을 제시한다.
즉 구매 판단은 최대 t/s가 아니라 workload에 따라 달라진다. 작은 MoE를 빠르게 돌릴 것인지, 70B나 122B를 어떻게든 올릴 것인지, ROCm과 Vulkan 중 어느 stack을 감당할 것인지가 중요하다. LocalLLaMA 같은 community benchmark가 가치 있는 이유가 바로 여기에 있다. 실사용자가 부딪히는 fit, throughput, stability를 한 번에 보여주기 때문이다.
Original source: Reddit benchmark post
Related Articles
LocalLLaMA에서 RTX 4070 Super 12GB로 Qwen3.6 35B A3B 모델을 110 토큰/초로 구동하는 데 성공한 벤치마크가 공유됐습니다. MTP 지원과 CPU 오프로딩 최적화에 특화된 ik_llama.cpp 포크 덕분입니다.
Claude Fable 5가 GDPval-AA 1932점으로 에이전트형 지식 업무 벤치마크 1위에 올랐다. Anthropic 모델이 상위 4개 중 3개를 차지했다는 점은 장시간 업무형 모델 경쟁이 성능표 중심으로 재편되고 있음을 보여준다.
코딩 모델 평가가 정답률에서 코드 리뷰 품질로 옮겨가고 있다는 점에 HN 관심이 모였다. FrontierCode는 PR을 실제 maintainer가 받아들일지에 초점을 둔다.