LocalLLaMA検証、RTX PRO 6000のSM120ではCUTLASS NVFP4 MoEカーネル不具合が律速要因
Original: I spent 8+ hours benchmarking every MoE backend for Qwen3.5-397B NVFP4 on 4x RTX PRO 6000 (SM120). Here's what I found. View original →
主張の要点
2026年3月12日の r/LocalLLaMA 投稿は、ワークステーション向け Blackwell での巨大 MoE 推論がソフトウェア制約に縛られていると論じた。投稿者は 96 GB の RTX PRO 6000 を4枚、PCIe Gen5、NVLink なし、WSL2 という構成で nvidia/Qwen3.5-397B-A17B-NVFP4 を16パターン試し、最良の持続 decode は 50.5 tok/s だったと報告している。勝ち構成は Marlin W4A16、tensor parallel 4、MTP 無効だった。
この数字の意味は、同種ハードウェアで語られているさらに高い throughput 主張への反証として提示されている点にある。投稿者は、一部の高スコアは speculative token を含めた計測で、実際に返る出力トークン速度を誇張している可能性があると主張した。
ネイティブ FP4 経路が詰まっているという見立て
技術的な中心主張は、RTX PRO 6000 が属する SM120 の desktop/workstation Blackwell では、NVFP4 MoE 推論向け CUTLASS grouped GEMM カーネルが正常に使えないというものだ。投稿では、ネイティブ CUTLASS と FlashInfer 系の経路で garbage output、fast tactic の大量スキップ、遅い fallback が報告されている。dense FP4 は動く一方、MoE の expert 計算で使う grouped GEMM が壊れている、という診断だ。関連資料として CUTLASS issue #3096 がリンクされている。
これはローカル推論用途では重要だ。GPU が FP4 tensor core を持っていても、MoE 実装の高速経路が成熟していなければ、その理論性能は実効速度に結びつかない。
何が有効で、何がだめだったか
投稿の価値は、構成別にかなり具体的な比較がある点だ。Marlin で MTP を切った状態が 50.5 tok/s で最良。Marlin + MTP は受理率低下により約 39.6 tok/s へ悪化。PCIe 上の expert parallel は 1.4〜2.6 tok/s で、実用外とされた。一部 CUTLASS Docker 構成は20台後半から40台前半 tok/s に達したが、速いカーネルを大量に飛ばしたうえでの数値だという。投稿者の実用推奨は明快で、Marlin を強制し、MTP を切り、CUDA graphs を維持し、PCIe では expert parallel を避ける、というものだった。
さらに投稿者は、この状態に持ち込むまでに FlashInfer と vLLM へ複数パッチが必要だったとし、FlashInfer PR #2725 と vLLM PR #36453 を挙げている。すべての解釈に追加検証は必要でも、少なくとも vendor が想定する FP4 高速経路と、現実のローカル運用との間にギャップがあることは見えてくる。
なぜこのスレッドが重要か
より広い含意は、巨大モデルのローカル推論が今やモデル重みや VRAM 容量だけでなく、カーネル成熟度とアーキテクチャ対応状況に強く左右される段階に入ったことだ。Blackwell ワークステーションを評価するなら、「モデルが載るか」と「意図された高速経路が使えるか」を別々に見なければならない。
原典: CUTLASS issue #3096、FlashInfer PR #2725、vLLM PR #36453。コミュニティ議論: r/LocalLLaMA。
Related Articles
2026年3月14日のLocalLLaMA投稿は、SM120 Blackwellワークステーション向けCUTLASS・FlashInfer修正を紹介し、Qwen3.5-397B NVFP4推論高速化とFlashInfer PR #2786を結び付けた。
r/LocalLLaMAのfield reportは、非常に具体的なlocal inference workloadをthroughput重視で調整した事例を示した。投稿者はQwen 3.5 27Bでmarkdown文書を分類しながら約2,000 tokens per secondを記録したと述べ、commentでは実務的な最適化論点が追加された。
高評価のr/MachineLearning投稿はDavid Noel Ngの長いblog記事を再浮上させ、Qwen2-72Bの中間7-layer blockをweight変更なしで複製するだけでopen leaderboard上位に届いたという主張を改めて注目させた。
Comments (0)
No comments yet. Be the first to comment!