#sglang

LLM Reddit Apr 10, 2026 1 min read

LocalLLaMAで話題: デュアルRTX PRO 6000 BlackwellでQwen3.5-122Bが198 tok/s

LocalLLaMAで注目された投稿は、SGLang b12x+NEXTN、PCIe switch topology、公開raw benchmark JSONを根拠に、デュアルRTX PRO 6000 Blackwell環境でQwen3.5-122B NVFP4が約198 tok/sに達したと共有した。

#qwen #blackwell #inference

LLM Reddit Apr 7, 2026 1 min read

LocalLLaMA、DFlashを高速 speculative decoding へのオープンソース経路として注目

LocalLLaMA スレッドは speculative decoding 向けの block-diffusion draft model、DFlash に注目を集めた。論文は 6x 超の lossless acceleration と、vLLM、SGLang、一部 Transformers backend の直接サポートを打ち出している。

#speculative-decoding #inference #vllm

LLM X/Twitter Mar 4, 2026 1 min read

NVIDIAとSGLang、DeepSeek R1推論の大幅高速化を主張

NVIDIA AI Developerは、SGLangとの協業でDeepSeek R1推論がGB300 NVL72上でH200比最大25倍高速化したと投稿した。さらにGB200 NVL72でも数か月で8倍改善したとしている。

#nvidia #sglang #inference