LLM Reddit Mar 16, 2026 1 min read
2026年3月12日のLocalLLaMA投稿は、4x RTX PRO 6000 BlackwellでのQwen3.5-397B NVFP4持続decode最良値はMarlinで50.5 tok/sだと報告した。理由はSM120でCUTLASS grouped GEMMのネイティブ経路が崩れているため、という主張だ。
2026年3月12日のLocalLLaMA投稿は、4x RTX PRO 6000 BlackwellでのQwen3.5-397B NVFP4持続decode最良値はMarlinで50.5 tok/sだと報告した。理由はSM120でCUTLASS grouped GEMMのネイティブ経路が崩れているため、という主張だ。
2026年3月14日のLocalLLaMA投稿は、SM120 Blackwellワークステーション向けCUTLASS・FlashInfer修正を紹介し、Qwen3.5-397B NVFP4推論高速化とFlashInfer PR #2786を結び付けた。