LocalLLaMA 벤치마크: RTX PRO 6000 SM120의 병목은 깨진 CUTLASS NVFP4 MoE 커널
Original: I spent 8+ hours benchmarking every MoE backend for Qwen3.5-397B NVFP4 on 4x RTX PRO 6000 (SM120). Here's what I found. View original →
핵심 주장 한 줄 요약
2026년 3월 12일 r/LocalLLaMA에는 워크스테이션 Blackwell 추론 성능을 정면으로 다룬 긴 벤치마크 글이 올라왔다. 작성자는 96 GB 메모리를 탑재한 RTX PRO 6000 네 장, PCIe Gen5, NVLink 없음, WSL2 환경에서 nvidia/Qwen3.5-397B-A17B-NVFP4를 대상으로 16개 구성을 테스트했고, 지속 decode 최고값은 50.5 tok/s였다고 적었다. 최적 조합은 Marlin W4A16, tensor parallel 4, 그리고 MTP 비활성화였다.
이 수치의 의미는 단순한 최고 기록보다, 같은 하드웨어에서 더 높은 처리량이 가능하다는 외부 주장에 반박하려는 데 있다. 작성자는 일부 수치가 실제 출력 토큰이 아니라 speculative token을 과대 계산한 결과일 가능성을 제기한다.
문제는 native FP4 경로라고 본다
글의 핵심 기술적 주장에 따르면, RTX PRO 6000이 사용하는 SM120 데스크톱/워크스테이션 Blackwell에서는 NVFP4 MoE 추론을 위한 CUTLASS grouped GEMM 커널이 제대로 동작하지 않는다. 작성자는 native CUTLASS 및 FlashInfer 기반 경로에서 garbage output, 빠른 tactic 대량 스킵, 느린 fallback 현상을 봤다고 설명한다. dense FP4는 되지만 MoE expert 계산에 쓰이는 grouped GEMM 경로가 문제라는 진단이다. 이를 뒷받침하는 링크로 CUTLASS issue #3096가 제시됐다.
이는 로컬 추론 실무자에게 중요한 차이다. 하드웨어가 FP4를 지원한다고 해서, 실제 MoE 추론에서 그 빠른 경로가 곧바로 usable 하다는 뜻은 아니기 때문이다.
무엇이 통했고 무엇이 안 됐나
게시글의 장점은 구성별 결과를 비교적 구체적으로 공개했다는 점이다. Marlin 비MTP 조합이 50.5 tok/s로 가장 좋았고, Marlin + MTP는 acceptance 저하로 약 39.6 tok/s까지 떨어졌다고 한다. PCIe 환경에서 expert parallel은 1.4~2.6 tok/s 수준으로 사실상 비실용적이었다. 일부 CUTLASS Docker 조합은 20대 후반에서 40대 초반 tok/s를 보였지만, 빠른 kernel 다수를 건너뛴 뒤의 결과라는 설명이 붙는다. 작성자의 실전 권고는 명확하다. Marlin 강제, MTP 비활성화, CUDA graph 유지, PCIe에서 expert parallel 회피다.
또한 이 결과에 도달하기까지 FlashInfer와 vLLM에 여러 패치가 필요했다고 주장하며, FlashInfer PR #2725와 vLLM PR #36453를 함께 링크했다. 해석의 일부는 커뮤니티 검증이 더 필요하더라도, 적어도 로컬 Blackwell 사용자가 겪는 구현 격차를 드러냈다는 점은 분명하다.
왜 의미가 있나
이 글이 주는 더 큰 시사점은, 대형 모델 로컬 추론의 병목이 이제 모델 가중치나 메모리 용량만이 아니라 커널 성숙도와 아키텍처별 지원 상태라는 점이다. Blackwell 워크스테이션을 평가하는 팀이라면 “모델을 올릴 수 있느냐”와 “의도된 고속 경로를 쓸 수 있느냐”를 별개의 질문으로 봐야 한다.
원문: CUTLASS issue #3096, FlashInfer PR #2725, vLLM PR #36453. 커뮤니티 토론: r/LocalLLaMA.
Related Articles
2026년 3월 14일 LocalLLaMA 글은 SM120 Blackwell 워크스테이션용 CUTLASS·FlashInfer 패치를 소개하며, Qwen3.5-397B NVFP4 추론 속도 개선과 FlashInfer PR #2786을 함께 제시했다.
r/LocalLLaMA 게시글은 Mac 사용자를 March 11, 2026에 merge된 llama.cpp pull request #20361로 이끌었다. 이 PR은 fused GDN recurrent Metal kernel을 추가하며, Qwen 3.5 계열에서 대략 12-36% throughput 향상을 제시한다. Reddit commenters는 change가 master에는 들어갔지만 일부 local benchmark에서는 여전히 MLX가 더 빠를 수 있다고 덧붙였다.
고득점 r/MachineLearning 글은 David Noel Ng의 장문 blog를 가리키며, Qwen2-72B의 중간 7개 layer block을 복제하는 방식만으로 leaderboard 상단에 올랐다는 주장과 circuit-like 구조 해석을 다시 불러냈다.
Comments (0)
No comments yet. Be the first to comment!