LLM Reddit Apr 10, 2026 1 min read
LocalLLaMAで注目された投稿は、SGLang b12x+NEXTN、PCIe switch topology、公開raw benchmark JSONを根拠に、デュアルRTX PRO 6000 Blackwell環境でQwen3.5-122B NVFP4が約198 tok/sに達したと共有した。
LocalLLaMAで注目された投稿は、SGLang b12x+NEXTN、PCIe switch topology、公開raw benchmark JSONを根拠に、デュアルRTX PRO 6000 Blackwell環境でQwen3.5-122B NVFP4が約198 tok/sに達したと共有した。
LocalLLaMA スレッドは speculative decoding 向けの block-diffusion draft model、DFlash に注目を集めた。論文は 6x 超の lossless acceleration と、vLLM、SGLang、一部 Transformers backend の直接サポートを打ち出している。
NVIDIA AI Developerは、SGLangとの協業でDeepSeek R1推論がGB300 NVL72上でH200比最大25倍高速化したと投稿した。さらにGB200 NVL72でも数か月で8倍改善したとしている。