LocalLLaMAで話題: デュアルRTX PRO 6000 BlackwellでQwen3.5-122Bが198 tok/s

Reddit投稿の主張

r/LocalLLaMAの投稿は、クロール時点で114アップボート、185コメントを集めた。注目された理由は、単なるスクリーンショットではなく、ローカル2-GPU inference serverの具体的な数値をかなり詳細に公開していたからだ。投稿者は2x RTX PRO 6000 Blackwell（各96GB GDDR7）、AMD EPYC 4564P、128GB DDR5 ECC、c-payne PM50100 Gen5 PCIe switchを使った構成を1週間かけて最適化したと説明している。見出しの数字はQwen3.5-122Bで198 tok/sであり、single-user decodeとしておよそ197、200、198 tok/sの3回検証を行ったとしている。

どこまで裏付けがあるか

この投稿が有用なのは、検証資料が公開されている点にある。Reddit本文は、methodology、launch command、raw benchmark JSONを含むGitHub repositoryへリンクしている。リポジトリのresults.mdでは、最良の2-GPU構成としてSGLang b12x+NEXTNによるQwen3.5-122B NVFP4 198 tok/sが明記されている。実際、公開されているverification JSONの1つは、2026年4月8日のsingle-concurrency runで200.33 aggregate tokens per secondを示している。同じ一覧にはQwen3.5-27B FP8 170 tok/s、MiniMax M2.5 148 tok/s、Qwen3.5-397B GGUF 79 tok/sも含まれ、見出しの数値を孤立した話題ではなく比較可能なベンチマーク群の中に置いている。

高速化の理由

投稿者は、性能向上は1つの要因ではなく複数の積み上げだと説明する。中心にあるのはPCIe switchを使ったPIX topology、SGLang b12x MoE kernel、NEXTN speculative decoding、multi-GPU allreduceの最適化、そしてそのkernelに対応するmodelopt_fp4 checkpointである。公開results fileもこの説明を補強しており、PLXベース構成で48.7 GB/sのP2P bandwidth、TRX40経路で27.9 GB/sを報告し、122Bの最良結果は比較対象のTRX40 baselineより68%速いと整理している。つまり、この話は単に新GPUが速いというより、interconnect topologyとsoftware stack tuningが効いた事例と見るべきだ。

実務上の読み方

もちろん、この数字がそのまま全ての実運用を代表するわけではない。ベンチマークはあくまでsingle-user decode throughput中心であり、投稿者自身もcontext lengthが増えるとTTFTは伸びると述べている。例として4K contextで1.8秒、150K contextで23.3秒という値が示されている。それでもこの投稿が重要なのは、多くのSNS上の性能主張と異なり、hardware list、software stack、raw JSON artifactが公開されていて再確認しやすいからだ。ローカルinferenceを本気で詰める実務者にとっては、話題性よりも再現可能な tuning reference として価値がある。

Reddit discussion thread · Benchmark results · Raw verification JSON

LocalLLaMAで話題: デュアルRTX PRO 6000 BlackwellでQwen3.5-122Bが198 tok/s

Reddit投稿の主張

どこまで裏付けがあるか

高速化の理由

実務上の読み方

Related Articles

LocalLLaMA、DFlashを高速 speculative decoding へのオープンソース経路として注目

LocalLLaMA、K=64カーネル修正でBlackwellワークステーションのQwen3.5-397B推論改善を主張

r/LocalLLaMA、Qwen3.5 27Bをlocal inferenceのsweet spotとして評価

Comments (0)

Leave a Comment

Related Articles

LocalLLaMA、DFlashを高速 speculative decoding へのオープンソース経路として注目

LocalLLaMA、K=64カーネル修正でBlackwellワークステーションのQwen3.5-397B推論改善を主張
LLM Reddit Mar 15, 2026 1 min read

r/LocalLLaMA、Qwen3.5 27Bをlocal inferenceのsweet spotとして評価