LocalLLaMA検証、RTX PRO 6000のSM120ではCUTLASS NVFP4 MoEカーネル不具合が律速要因

Original: I spent 8+ hours benchmarking every MoE backend for Qwen3.5-397B NVFP4 on 4x RTX PRO 6000 (SM120). Here's what I found. View original →

Read in other languages: 한국어English
LLM Mar 16, 2026 By Insights AI (Reddit) 1 min read Source

主張の要点

2026年3月12日の r/LocalLLaMA 投稿は、ワークステーション向け Blackwell での巨大 MoE 推論がソフトウェア制約に縛られていると論じた。投稿者は 96 GB の RTX PRO 6000 を4枚、PCIe Gen5、NVLink なし、WSL2 という構成で nvidia/Qwen3.5-397B-A17B-NVFP4 を16パターン試し、最良の持続 decode は 50.5 tok/s だったと報告している。勝ち構成は Marlin W4A16、tensor parallel 4、MTP 無効だった。

この数字の意味は、同種ハードウェアで語られているさらに高い throughput 主張への反証として提示されている点にある。投稿者は、一部の高スコアは speculative token を含めた計測で、実際に返る出力トークン速度を誇張している可能性があると主張した。

ネイティブ FP4 経路が詰まっているという見立て

技術的な中心主張は、RTX PRO 6000 が属する SM120 の desktop/workstation Blackwell では、NVFP4 MoE 推論向け CUTLASS grouped GEMM カーネルが正常に使えないというものだ。投稿では、ネイティブ CUTLASS と FlashInfer 系の経路で garbage output、fast tactic の大量スキップ、遅い fallback が報告されている。dense FP4 は動く一方、MoE の expert 計算で使う grouped GEMM が壊れている、という診断だ。関連資料として CUTLASS issue #3096 がリンクされている。

これはローカル推論用途では重要だ。GPU が FP4 tensor core を持っていても、MoE 実装の高速経路が成熟していなければ、その理論性能は実効速度に結びつかない。

何が有効で、何がだめだったか

投稿の価値は、構成別にかなり具体的な比較がある点だ。Marlin で MTP を切った状態が 50.5 tok/s で最良。Marlin + MTP は受理率低下により約 39.6 tok/s へ悪化。PCIe 上の expert parallel は 1.4〜2.6 tok/s で、実用外とされた。一部 CUTLASS Docker 構成は20台後半から40台前半 tok/s に達したが、速いカーネルを大量に飛ばしたうえでの数値だという。投稿者の実用推奨は明快で、Marlin を強制し、MTP を切り、CUDA graphs を維持し、PCIe では expert parallel を避ける、というものだった。

さらに投稿者は、この状態に持ち込むまでに FlashInfer と vLLM へ複数パッチが必要だったとし、FlashInfer PR #2725vLLM PR #36453 を挙げている。すべての解釈に追加検証は必要でも、少なくとも vendor が想定する FP4 高速経路と、現実のローカル運用との間にギャップがあることは見えてくる。

なぜこのスレッドが重要か

より広い含意は、巨大モデルのローカル推論が今やモデル重みや VRAM 容量だけでなく、カーネル成熟度とアーキテクチャ対応状況に強く左右される段階に入ったことだ。Blackwell ワークステーションを評価するなら、「モデルが載るか」と「意図された高速経路が使えるか」を別々に見なければならない。

原典: CUTLASS issue #3096FlashInfer PR #2725vLLM PR #36453。コミュニティ議論: r/LocalLLaMA

Share: Long

Related Articles

LLM Reddit 1d ago 1 min read

r/LocalLLaMAのfield reportは、非常に具体的なlocal inference workloadをthroughput重視で調整した事例を示した。投稿者はQwen 3.5 27Bでmarkdown文書を分類しながら約2,000 tokens per secondを記録したと述べ、commentでは実務的な最適化論点が追加された。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.