LocalLLaMA検証、RTX PRO 6000のSM120ではCUTLASS NVFP4 MoEカーネル不具合が律速要因

主張の要点

2026年3月12日の r/LocalLLaMA 投稿は、ワークステーション向け Blackwell での巨大 MoE 推論がソフトウェア制約に縛られていると論じた。投稿者は 96 GB の RTX PRO 6000 を4枚、PCIe Gen5、NVLink なし、WSL2 という構成で nvidia/Qwen3.5-397B-A17B-NVFP4 を16パターン試し、最良の持続 decode は 50.5 tok/s だったと報告している。勝ち構成は Marlin W4A16、tensor parallel 4、MTP 無効だった。

この数字の意味は、同種ハードウェアで語られているさらに高い throughput 主張への反証として提示されている点にある。投稿者は、一部の高スコアは speculative token を含めた計測で、実際に返る出力トークン速度を誇張している可能性があると主張した。

ネイティブ FP4 経路が詰まっているという見立て

技術的な中心主張は、RTX PRO 6000 が属する SM120 の desktop/workstation Blackwell では、NVFP4 MoE 推論向け CUTLASS grouped GEMM カーネルが正常に使えないというものだ。投稿では、ネイティブ CUTLASS と FlashInfer 系の経路で garbage output、fast tactic の大量スキップ、遅い fallback が報告されている。dense FP4 は動く一方、MoE の expert 計算で使う grouped GEMM が壊れている、という診断だ。関連資料として CUTLASS issue #3096 がリンクされている。

これはローカル推論用途では重要だ。GPU が FP4 tensor core を持っていても、MoE 実装の高速経路が成熟していなければ、その理論性能は実効速度に結びつかない。

何が有効で、何がだめだったか

投稿の価値は、構成別にかなり具体的な比較がある点だ。Marlin で MTP を切った状態が 50.5 tok/s で最良。Marlin + MTP は受理率低下により約 39.6 tok/s へ悪化。PCIe 上の expert parallel は 1.4〜2.6 tok/s で、実用外とされた。一部 CUTLASS Docker 構成は20台後半から40台前半 tok/s に達したが、速いカーネルを大量に飛ばしたうえでの数値だという。投稿者の実用推奨は明快で、Marlin を強制し、MTP を切り、CUDA graphs を維持し、PCIe では expert parallel を避ける、というものだった。

さらに投稿者は、この状態に持ち込むまでに FlashInfer と vLLM へ複数パッチが必要だったとし、FlashInfer PR #2725 と vLLM PR #36453 を挙げている。すべての解釈に追加検証は必要でも、少なくとも vendor が想定する FP4 高速経路と、現実のローカル運用との間にギャップがあることは見えてくる。

なぜこのスレッドが重要か

より広い含意は、巨大モデルのローカル推論が今やモデル重みや VRAM 容量だけでなく、カーネル成熟度とアーキテクチャ対応状況に強く左右される段階に入ったことだ。Blackwell ワークステーションを評価するなら、「モデルが載るか」と「意図された高速経路が使えるか」を別々に見なければならない。

原典: CUTLASS issue #3096、FlashInfer PR #2725、vLLM PR #36453。コミュニティ議論: r/LocalLLaMA。

LocalLLaMA検証、RTX PRO 6000のSM120ではCUTLASS NVFP4 MoEカーネル不具合が律速要因

主張の要点

ネイティブ FP4 経路が詰まっているという見立て

何が有効で、何がだめだったか

なぜこのスレッドが重要か

Related Articles

Qwen3.6 27Bを16GB GPU 2枚で204kまで、LocalLLaMAが食いついた理由

vLLM、初のMLPerf vision-language benchmark提出事例に参加

LocalLLaMA、K=64カーネル修正でBlackwellワークステーションのQwen3.5-397B推論改善を主張

Comments (0)

Leave a Comment

Related Articles

Qwen3.6 27Bを16GB GPU 2枚で204kまで、LocalLLaMAが食いついた理由
LocalLLaMAがこの投稿に反応した理由は宣伝文句ではなく実測値だ。RTX 5060 Ti 16GBを2枚使い、Qwen3.6 27Bを約60 tok/s、204kコンテキストまで持ち上げた構成が共有された。

vLLM、初のMLPerf vision-language benchmark提出事例に参加
LLM X/Twitter Apr 10, 2026 1 min read

LocalLLaMA、K=64カーネル修正でBlackwellワークステーションのQwen3.5-397B推論改善を主張
LLM Reddit Mar 15, 2026 1 min read