LocalLLaMAベンチマークが示したRTX 5090、AI395、dual R9700の勝ち筋

なぜこのベンチマークが重要だったのか

r/LocalLLaMA の Ultimate Llama.cpp Shootout は 55 upvotes、81 comments を集めた。最大級の viral post ではないが、technical value は高い。投稿者は llama-bench build 8463 を使い、RTX 5090、DGX Spark GB10、AMD AI395、single と dual の AMD R9700 を同じ test parameter で比較し、dense model と mixture-of-experts model の両方を走らせている。

対象モデルは Qwen2.5 32B、Qwen3.5 35B MoE、Qwen2.5 70B、Qwen3.5 122B MoE で、parameter は -ngl 99 -fa 1 -p 2048 -n 256 -b 512 だった。この種の比較が useful なのは、local inference の意思決定が peak speed だけでは決まらないからだ。model が実際に fit するか、backend が安定するか、そして capacity と throughput のどちらを優先するかが重要になる。

主な結果

投稿によれば、RTX 5090 は model が 32GB VRAM に収まる場合に圧倒的だった。Qwen3.5 35B MoE では prompt processing で 5988.83 t/s、generation で 205.36 t/s を記録した。ただし 70B Q4_K_M と 122B model は読み込めなかった。

98GB の shared memory を持つ AMD AI395 は、比較対象の non-enterprise node で唯一 122B MoE を動かせた。
投稿者は AI395 で -mmp 0 が必要だったと書いており、その状態で generation は約 20 t/s、消費電力は約 108W だった。
dual R9700 構成は合計 60GB VRAM により、ROCm で 70B model を 11.49 t/s generation、約 600 t/s prompt processing で動かした。
ROCm は prompt processing で強く、Vulkan は generation で優位な場面もあったが、vk::DeviceLostError が出るなど安定性は低かった。

なぜ意味があるのか

この投稿が示すのは、hardware 選びが単純な GPU tier 比較ではないということだ。5090 は fit する model では monster だが、capacity ceiling は明確だ。AI395 は速度では劣るが、memory flexibility に強みがある。dual R9700 は最速ではないものの、70B 級 model を AMD 環境で現実的に動かす道を示している。

つまり正解は workload 次第だ。小さめの MoE を最速で回したいのか、それとも 70B や 122B を何とか載せたいのか。community benchmark が価値を持つのは、marketing chart では見えにくい fit、throughput、backend stability を同じ表で示してくれるからだ。

Original source: Reddit benchmark post

LocalLLaMAベンチマークが示したRTX 5090、AI395、dual R9700の勝ち筋

なぜこのベンチマークが重要だったのか

主な結果

なぜ意味があるのか

Related Articles

Qwen 3.6 27B、local開発モデルの現実的なsweet spotか

GLM5.2を自宅で動かす現実、LocalLLaMAが見たGPU請求書

Open-weight規制反対の公開書簡、LocalLLaMAで焦点になった署名企業

Related Articles

Qwen 3.6 27B、local開発モデルの現実的なsweet spotか
LLM Hacker News Jun 30, 2026 1 min read

GLM5.2を自宅で動かす現実、LocalLLaMAが見たGPU請求書
LLM Reddit Jul 4, 2026 1 min read

Open-weight規制反対の公開書簡、LocalLLaMAで焦点になった署名企業