#sglang

LLM Reddit Apr 10, 2026 2 min read

LocalLLaMA 화제: 듀얼 RTX PRO 6000 Blackwell에서 Qwen3.5-122B 198 tok/s 검증

LocalLLaMA에서 주목받은 글은 SGLang b12x+NEXTN, PCIe switch topology, 공개 raw benchmark JSON을 바탕으로 듀얼 RTX PRO 6000 Blackwell에서 Qwen3.5-122B NVFP4가 약 198 tok/s를 기록했다고 공유했다.

#qwen #blackwell #inference

LLM Reddit Apr 7, 2026 1 min read

LocalLLaMA, DFlash를 더 빠른 speculative decoding을 위한 오픈소스 경로로 주목

LocalLLaMA 스레드는 speculative decoding용 block-diffusion draft model인 DFlash에 관심을 모았다. 논문은 6x 이상의 lossless acceleration과 vLLM, SGLang, 일부 Transformers backend 지원을 내세운다.

#speculative-decoding #inference #vllm

LLM X/Twitter Mar 4, 2026 1 min read

NVIDIA·SGLang, DeepSeek R1 추론 성능 대폭 향상 주장

NVIDIA AI Developer는 SGLang 협업으로 GB300 NVL72에서 DeepSeek R1 추론 성능이 H200 대비 최대 25배 빨라졌다고 밝혔다. 또한 GB200 NVL72에서도 수개월 내 8배 개선을 달성했다고 설명했다.

#nvidia #sglang #inference