RTX 5090부터 AMD AI395까지, LocalLLaMA 벤치마크가 보여준 현실적인 선택지

왜 이 벤치마크가 주목받았나

r/LocalLLaMA에 올라온 The Ultimate Llama.cpp Shootout 포스트는 55 upvotes와 81 comments를 모았다. 점수만 보면 폭발적 viral post는 아니지만, technical value는 높다. 작성자는 llama-bench build 8463으로 RTX 5090, DGX Spark GB10, AMD AI395, single과 dual AMD R9700를 같은 test parameter로 비교했고, Dense model과 MoE model을 함께 돌렸다.

테스트 모델은 Qwen2.5 32B, Qwen3.5 35B MoE, Qwen2.5 70B, Qwen3.5 122B MoE였고, parameter는 -ngl 99 -fa 1 -p 2048 -n 256 -b 512였다. 이런 비교는 vendor slide보다 유용하다. Local inference에서는 최고 peak speed보다, 어떤 모델이 실제로 메모리에 올라가고 어떤 backend가 안정적으로 버티는지가 더 중요하기 때문이다.

핵심 결과

포스트에 따르면 RTX 5090은 모델이 32GB VRAM에 들어갈 때 압도적으로 빨랐다. Qwen3.5 35B MoE에서 prompt processing은 5988.83 t/s, generation은 205.36 t/s를 기록했다. 하지만 70B Q4_K_M과 122B 모델은 메모리 한계로 아예 로드하지 못했다.

AMD AI395는 98GB shared memory 덕분에 non-enterprise node 중 유일하게 122B MoE를 실행했다.
작성자는 AI395에서 -mmp 0 옵션이 필요했고, 그 상태에서 약 20 t/s generation과 108W 수준을 기록했다고 적었다.
dual R9700 setup은 총 60GB VRAM으로 70B 모델을 ROCm에서 11.49 t/s generation, 약 600 t/s prompt processing까지 끌어올렸다.
ROCm은 prompt processing에서 강했고, Vulkan은 일부 generation 구간에서 더 빨랐지만 vk::DeviceLostError가 발생할 정도로 덜 안정적이었다.

왜 중요한가

이 벤치마크는 local LLM hardware 선택이 단순한 GPU tier 비교가 아니라는 점을 보여준다. 5090은 fit되는 model에서는 monster지만, capacity ceiling이 분명하다. AI395는 속도보다 memory flexibility가 강점이고, dual R9700은 absolute speed보다 70B급 model을 현실적으로 돌리는 길을 제시한다.

즉 구매 판단은 최대 t/s가 아니라 workload에 따라 달라진다. 작은 MoE를 빠르게 돌릴 것인지, 70B나 122B를 어떻게든 올릴 것인지, ROCm과 Vulkan 중 어느 stack을 감당할 것인지가 중요하다. LocalLLaMA 같은 community benchmark가 가치 있는 이유가 바로 여기에 있다. 실사용자가 부딪히는 fit, throughput, stability를 한 번에 보여주기 때문이다.

Original source: Reddit benchmark post

RTX 5090부터 AMD AI395까지, LocalLLaMA 벤치마크가 보여준 현실적인 선택지

왜 이 벤치마크가 주목받았나

핵심 결과

왜 중요한가

Related Articles

LocalLLaMA, Mi50에서 ROCm 7과 Vulkan을 비교한 llama.cpp 벤치마크 공유

r/LocalLLaMA, ik_llama.cpp로 Qwen 3.5 prompt ingestion 26배 가속 보고

r/LocalLLaMA가 모으는 Qwen3.5 실전 파라미터 프리셋

Comments (0)

Leave a Comment

Related Articles

LocalLLaMA, Mi50에서 ROCm 7과 Vulkan을 비교한 llama.cpp 벤치마크 공유

r/LocalLLaMA, ik_llama.cpp로 Qwen 3.5 prompt ingestion 26배 가속 보고

r/LocalLLaMA가 모으는 Qwen3.5 실전 파라미터 프리셋