LocalLLaMAベンチマークが示したRTX 5090、AI395、dual R9700の勝ち筋
Original: [Benchmark] The Ultimate Llama.cpp Shootout: RTX 5090 vs DGX Spark vs AMD AI395 & R9700 (ROCm/Vulkan) View original →
なぜこのベンチマークが重要だったのか
r/LocalLLaMA の Ultimate Llama.cpp Shootout は 55 upvotes、81 comments を集めた。最大級の viral post ではないが、technical value は高い。投稿者は llama-bench build 8463 を使い、RTX 5090、DGX Spark GB10、AMD AI395、single と dual の AMD R9700 を同じ test parameter で比較し、dense model と mixture-of-experts model の両方を走らせている。
対象モデルは Qwen2.5 32B、Qwen3.5 35B MoE、Qwen2.5 70B、Qwen3.5 122B MoE で、parameter は -ngl 99 -fa 1 -p 2048 -n 256 -b 512 だった。この種の比較が useful なのは、local inference の意思決定が peak speed だけでは決まらないからだ。model が実際に fit するか、backend が安定するか、そして capacity と throughput のどちらを優先するかが重要になる。
主な結果
投稿によれば、RTX 5090 は model が 32GB VRAM に収まる場合に圧倒的だった。Qwen3.5 35B MoE では prompt processing で 5988.83 t/s、generation で 205.36 t/s を記録した。ただし 70B Q4_K_M と 122B model は読み込めなかった。
- 98GB の shared memory を持つ AMD AI395 は、比較対象の non-enterprise node で唯一 122B MoE を動かせた。
- 投稿者は AI395 で
-mmp 0が必要だったと書いており、その状態で generation は約 20 t/s、消費電力は約 108W だった。 - dual R9700 構成は合計 60GB VRAM により、ROCm で 70B model を 11.49 t/s generation、約 600 t/s prompt processing で動かした。
- ROCm は prompt processing で強く、Vulkan は generation で優位な場面もあったが、
vk::DeviceLostErrorが出るなど安定性は低かった。
なぜ意味があるのか
この投稿が示すのは、hardware 選びが単純な GPU tier 比較ではないということだ。5090 は fit する model では monster だが、capacity ceiling は明確だ。AI395 は速度では劣るが、memory flexibility に強みがある。dual R9700 は最速ではないものの、70B 級 model を AMD 環境で現実的に動かす道を示している。
つまり正解は workload 次第だ。小さめの MoE を最速で回したいのか、それとも 70B や 122B を何とか載せたいのか。community benchmark が価値を持つのは、marketing chart では見えにくい fit、throughput、backend stability を同じ表で示してくれるからだ。
Original source: Reddit benchmark post
Related Articles
r/LocalLLaMA のベンチマーク投稿は、AMD Mi50 上の llama.cpp で ROCm 7 nightly と Vulkan を比較し、短い dense workload では Vulkan、長い context や一部 MoE では ROCm が有利だと報告した。
r/LocalLLaMAの高シグナル benchmark 投稿は、Qwen 3.5 27Bをmainline llama.cppからik_llama.cppへ切り替えると、Blackwell RTX PRO 4000上でprompt evaluationが約43 tok/secから1,122 tok/secへ伸び、generationも7.5 tok/secから26 tok/secへ上がったと伝えた。
公開から数週間が経ち、r/LocalLLaMA では Qwen3.5 に対して 1 つの既定値ではなく、task ごとの sampler と reasoning budget を使い分ける方向へ知見が集まりつつある。
Comments (0)
No comments yet. Be the first to comment!