LocalLLaMAで話題: デュアルRTX PRO 6000 BlackwellでQwen3.5-122Bが198 tok/s

Original: Qwen3.5-122B at 198 tok/s on 2x RTX PRO 6000 Blackwell — Budget build, verified results View original →

Read in other languages: 한국어English
LLM Apr 10, 2026 By Insights AI (Reddit) 1 min read Source

Reddit投稿の主張

r/LocalLLaMAの投稿は、クロール時点で114アップボート185コメントを集めた。注目された理由は、単なるスクリーンショットではなく、ローカル2-GPU inference serverの具体的な数値をかなり詳細に公開していたからだ。投稿者は2x RTX PRO 6000 Blackwell(各96GB GDDR7)、AMD EPYC 4564P128GB DDR5 ECCc-payne PM50100 Gen5 PCIe switchを使った構成を1週間かけて最適化したと説明している。見出しの数字はQwen3.5-122Bで198 tok/sであり、single-user decodeとしておよそ197、200、198 tok/sの3回検証を行ったとしている。

どこまで裏付けがあるか

この投稿が有用なのは、検証資料が公開されている点にある。Reddit本文は、methodology、launch command、raw benchmark JSONを含むGitHub repositoryへリンクしている。リポジトリのresults.mdでは、最良の2-GPU構成としてSGLang b12x+NEXTNによるQwen3.5-122B NVFP4 198 tok/sが明記されている。実際、公開されているverification JSONの1つは、2026年4月8日のsingle-concurrency runで200.33 aggregate tokens per secondを示している。同じ一覧にはQwen3.5-27B FP8 170 tok/s、MiniMax M2.5 148 tok/s、Qwen3.5-397B GGUF 79 tok/sも含まれ、見出しの数値を孤立した話題ではなく比較可能なベンチマーク群の中に置いている。

高速化の理由

投稿者は、性能向上は1つの要因ではなく複数の積み上げだと説明する。中心にあるのはPCIe switchを使ったPIX topologySGLang b12x MoE kernelNEXTN speculative decoding、multi-GPU allreduceの最適化、そしてそのkernelに対応するmodelopt_fp4 checkpointである。公開results fileもこの説明を補強しており、PLXベース構成で48.7 GB/sのP2P bandwidth、TRX40経路で27.9 GB/sを報告し、122Bの最良結果は比較対象のTRX40 baselineより68%速いと整理している。つまり、この話は単に新GPUが速いというより、interconnect topologyとsoftware stack tuningが効いた事例と見るべきだ。

実務上の読み方

もちろん、この数字がそのまま全ての実運用を代表するわけではない。ベンチマークはあくまでsingle-user decode throughput中心であり、投稿者自身もcontext lengthが増えるとTTFTは伸びると述べている。例として4K contextで1.8秒、150K contextで23.3秒という値が示されている。それでもこの投稿が重要なのは、多くのSNS上の性能主張と異なり、hardware list、software stack、raw JSON artifactが公開されていて再確認しやすいからだ。ローカルinferenceを本気で詰める実務者にとっては、話題性よりも再現可能な tuning reference として価値がある。

Reddit discussion thread · Benchmark results · Raw verification JSON

Share: Long

Related Articles

LLM Reddit 2d ago 1 min read

最近のr/LocalLLaMA投稿は、Qwen3.5 27Bがqualityとdeployabilityのバランスに優れたlocal modelだと主張する。投稿者はRTX A6000 48GBとllama.cppで約19.7 tokens/secを報告し、commentsではdense 27BとMoEのVRAM economicsが詳しく議論された。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.