LocalLLaMAで話題: デュアルRTX PRO 6000 BlackwellでQwen3.5-122Bが198 tok/s
Original: Qwen3.5-122B at 198 tok/s on 2x RTX PRO 6000 Blackwell — Budget build, verified results View original →
Reddit投稿の主張
r/LocalLLaMAの投稿は、クロール時点で114アップボート、185コメントを集めた。注目された理由は、単なるスクリーンショットではなく、ローカル2-GPU inference serverの具体的な数値をかなり詳細に公開していたからだ。投稿者は2x RTX PRO 6000 Blackwell(各96GB GDDR7)、AMD EPYC 4564P、128GB DDR5 ECC、c-payne PM50100 Gen5 PCIe switchを使った構成を1週間かけて最適化したと説明している。見出しの数字はQwen3.5-122Bで198 tok/sであり、single-user decodeとしておよそ197、200、198 tok/sの3回検証を行ったとしている。
どこまで裏付けがあるか
この投稿が有用なのは、検証資料が公開されている点にある。Reddit本文は、methodology、launch command、raw benchmark JSONを含むGitHub repositoryへリンクしている。リポジトリのresults.mdでは、最良の2-GPU構成としてSGLang b12x+NEXTNによるQwen3.5-122B NVFP4 198 tok/sが明記されている。実際、公開されているverification JSONの1つは、2026年4月8日のsingle-concurrency runで200.33 aggregate tokens per secondを示している。同じ一覧にはQwen3.5-27B FP8 170 tok/s、MiniMax M2.5 148 tok/s、Qwen3.5-397B GGUF 79 tok/sも含まれ、見出しの数値を孤立した話題ではなく比較可能なベンチマーク群の中に置いている。
高速化の理由
投稿者は、性能向上は1つの要因ではなく複数の積み上げだと説明する。中心にあるのはPCIe switchを使ったPIX topology、SGLang b12x MoE kernel、NEXTN speculative decoding、multi-GPU allreduceの最適化、そしてそのkernelに対応するmodelopt_fp4 checkpointである。公開results fileもこの説明を補強しており、PLXベース構成で48.7 GB/sのP2P bandwidth、TRX40経路で27.9 GB/sを報告し、122Bの最良結果は比較対象のTRX40 baselineより68%速いと整理している。つまり、この話は単に新GPUが速いというより、interconnect topologyとsoftware stack tuningが効いた事例と見るべきだ。
実務上の読み方
もちろん、この数字がそのまま全ての実運用を代表するわけではない。ベンチマークはあくまでsingle-user decode throughput中心であり、投稿者自身もcontext lengthが増えるとTTFTは伸びると述べている。例として4K contextで1.8秒、150K contextで23.3秒という値が示されている。それでもこの投稿が重要なのは、多くのSNS上の性能主張と異なり、hardware list、software stack、raw JSON artifactが公開されていて再確認しやすいからだ。ローカルinferenceを本気で詰める実務者にとっては、話題性よりも再現可能な tuning reference として価値がある。
Reddit discussion thread · Benchmark results · Raw verification JSON
Related Articles
LocalLLaMA スレッドは speculative decoding 向けの block-diffusion draft model、DFlash に注目を集めた。論文は 6x 超の lossless acceleration と、vLLM、SGLang、一部 Transformers backend の直接サポートを打ち出している。
2026年3月14日のLocalLLaMA投稿は、SM120 Blackwellワークステーション向けCUTLASS・FlashInfer修正を紹介し、Qwen3.5-397B NVFP4推論高速化とFlashInfer PR #2786を結び付けた。
最近のr/LocalLLaMA投稿は、Qwen3.5 27Bがqualityとdeployabilityのバランスに優れたlocal modelだと主張する。投稿者はRTX A6000 48GBとllama.cppで約19.7 tokens/secを報告し、commentsではdense 27BとMoEのVRAM economicsが詳しく議論された。
Comments (0)
No comments yet. Be the first to comment!