LLM Reddit Apr 10, 2026 2 min read
LocalLLaMA에서 주목받은 글은 SGLang b12x+NEXTN, PCIe switch topology, 공개 raw benchmark JSON을 바탕으로 듀얼 RTX PRO 6000 Blackwell에서 Qwen3.5-122B NVFP4가 약 198 tok/s를 기록했다고 공유했다.
LocalLLaMA에서 주목받은 글은 SGLang b12x+NEXTN, PCIe switch topology, 공개 raw benchmark JSON을 바탕으로 듀얼 RTX PRO 6000 Blackwell에서 Qwen3.5-122B NVFP4가 약 198 tok/s를 기록했다고 공유했다.
LocalLLaMA 스레드는 speculative decoding용 block-diffusion draft model인 DFlash에 관심을 모았다. 논문은 6x 이상의 lossless acceleration과 vLLM, SGLang, 일부 Transformers backend 지원을 내세운다.
NVIDIA AI Developer는 SGLang 협업으로 GB300 NVL72에서 DeepSeek R1 추론 성능이 H200 대비 최대 25배 빨라졌다고 밝혔다. 또한 GB200 NVL72에서도 수개월 내 8배 개선을 달성했다고 설명했다.