LLM Reddit Mar 16, 2026 2 min read
2026년 3월 12일 LocalLLaMA 게시글은 4x RTX PRO 6000 Blackwell 환경에서 Qwen3.5-397B NVFP4의 지속 decode 최고값이 Marlin 기준 50.5 tok/s라고 주장했다. 이유는 SM120에서 CUTLASS grouped GEMM 경로가 실패하거나 느린 fallback으로 떨어지기 때문이라는 설명이다.
2026년 3월 12일 LocalLLaMA 게시글은 4x RTX PRO 6000 Blackwell 환경에서 Qwen3.5-397B NVFP4의 지속 decode 최고값이 Marlin 기준 50.5 tok/s라고 주장했다. 이유는 SM120에서 CUTLASS grouped GEMM 경로가 실패하거나 느린 fallback으로 떨어지기 때문이라는 설명이다.
2026년 3월 14일 LocalLLaMA 글은 SM120 Blackwell 워크스테이션용 CUTLASS·FlashInfer 패치를 소개하며, Qwen3.5-397B NVFP4 추론 속도 개선과 FlashInfer PR #2786을 함께 제시했다.