#flashinfer

LLM Reddit Mar 16, 2026 2 min read

LocalLLaMA 벤치마크: RTX PRO 6000 SM120의 병목은 깨진 CUTLASS NVFP4 MoE 커널

2026년 3월 12일 LocalLLaMA 게시글은 4x RTX PRO 6000 Blackwell 환경에서 Qwen3.5-397B NVFP4의 지속 decode 최고값이 Marlin 기준 50.5 tok/s라고 주장했다. 이유는 SM120에서 CUTLASS grouped GEMM 경로가 실패하거나 느린 fallback으로 떨어지기 때문이라는 설명이다.

#qwen #blackwell #vllm

LLM Reddit Mar 15, 2026 2 min read

LocalLLaMA, K=64 커널 패치로 Blackwell 워크스테이션의 Qwen3.5-397B 추론 개선 주장

2026년 3월 14일 LocalLLaMA 글은 SM120 Blackwell 워크스테이션용 CUTLASS·FlashInfer 패치를 소개하며, Qwen3.5-397B NVFP4 추론 속도 개선과 FlashInfer PR #2786을 함께 제시했다.

#qwen #blackwell #vllm