LocalLLaMA 벤치마크: RTX PRO 6000 SM120의 병목은 깨진 CUTLASS NVFP4 MoE 커널

핵심 주장 한 줄 요약

2026년 3월 12일 r/LocalLLaMA에는 워크스테이션 Blackwell 추론 성능을 정면으로 다룬 긴 벤치마크 글이 올라왔다. 작성자는 96 GB 메모리를 탑재한 RTX PRO 6000 네 장, PCIe Gen5, NVLink 없음, WSL2 환경에서 nvidia/Qwen3.5-397B-A17B-NVFP4를 대상으로 16개 구성을 테스트했고, 지속 decode 최고값은 50.5 tok/s였다고 적었다. 최적 조합은 Marlin W4A16, tensor parallel 4, 그리고 MTP 비활성화였다.

이 수치의 의미는 단순한 최고 기록보다, 같은 하드웨어에서 더 높은 처리량이 가능하다는 외부 주장에 반박하려는 데 있다. 작성자는 일부 수치가 실제 출력 토큰이 아니라 speculative token을 과대 계산한 결과일 가능성을 제기한다.

문제는 native FP4 경로라고 본다

글의 핵심 기술적 주장에 따르면, RTX PRO 6000이 사용하는 SM120 데스크톱/워크스테이션 Blackwell에서는 NVFP4 MoE 추론을 위한 CUTLASS grouped GEMM 커널이 제대로 동작하지 않는다. 작성자는 native CUTLASS 및 FlashInfer 기반 경로에서 garbage output, 빠른 tactic 대량 스킵, 느린 fallback 현상을 봤다고 설명한다. dense FP4는 되지만 MoE expert 계산에 쓰이는 grouped GEMM 경로가 문제라는 진단이다. 이를 뒷받침하는 링크로 CUTLASS issue #3096가 제시됐다.

이는 로컬 추론 실무자에게 중요한 차이다. 하드웨어가 FP4를 지원한다고 해서, 실제 MoE 추론에서 그 빠른 경로가 곧바로 usable 하다는 뜻은 아니기 때문이다.

무엇이 통했고 무엇이 안 됐나

게시글의 장점은 구성별 결과를 비교적 구체적으로 공개했다는 점이다. Marlin 비MTP 조합이 50.5 tok/s로 가장 좋았고, Marlin + MTP는 acceptance 저하로 약 39.6 tok/s까지 떨어졌다고 한다. PCIe 환경에서 expert parallel은 1.4~2.6 tok/s 수준으로 사실상 비실용적이었다. 일부 CUTLASS Docker 조합은 20대 후반에서 40대 초반 tok/s를 보였지만, 빠른 kernel 다수를 건너뛴 뒤의 결과라는 설명이 붙는다. 작성자의 실전 권고는 명확하다. Marlin 강제, MTP 비활성화, CUDA graph 유지, PCIe에서 expert parallel 회피다.

또한 이 결과에 도달하기까지 FlashInfer와 vLLM에 여러 패치가 필요했다고 주장하며, FlashInfer PR #2725와 vLLM PR #36453를 함께 링크했다. 해석의 일부는 커뮤니티 검증이 더 필요하더라도, 적어도 로컬 Blackwell 사용자가 겪는 구현 격차를 드러냈다는 점은 분명하다.

왜 의미가 있나

이 글이 주는 더 큰 시사점은, 대형 모델 로컬 추론의 병목이 이제 모델 가중치나 메모리 용량만이 아니라 커널 성숙도와 아키텍처별 지원 상태라는 점이다. Blackwell 워크스테이션을 평가하는 팀이라면 “모델을 올릴 수 있느냐”와 “의도된 고속 경로를 쓸 수 있느냐”를 별개의 질문으로 봐야 한다.

원문: CUTLASS issue #3096, FlashInfer PR #2725, vLLM PR #36453. 커뮤니티 토론: r/LocalLLaMA.

LocalLLaMA 벤치마크: RTX PRO 6000 SM120의 병목은 깨진 CUTLASS NVFP4 MoE 커널

핵심 주장 한 줄 요약

문제는 native FP4 경로라고 본다

무엇이 통했고 무엇이 안 됐나

왜 의미가 있나

Related Articles

Qwen3.6 27B를 16GB GPU 두 장으로 204k까지, LocalLLaMA가 붙은 이유

vLLM, 첫 MLPerf vision-language benchmark 제출 사례에 이름 올리다

LocalLLaMA, K=64 커널 패치로 Blackwell 워크스테이션의 Qwen3.5-397B 추론 개선 주장

Comments (0)

Leave a Comment

Related Articles

Qwen3.6 27B를 16GB GPU 두 장으로 204k까지, LocalLLaMA가 붙은 이유
LocalLLaMA가 이 글에 반응한 이유는 홍보 문구가 아니라 숫자였다. RTX 5060 Ti 16GB 두 장으로 Qwen3.6 27B를 약 60 tok/s, 204k 컨텍스트까지 밀어본 실측값이 나왔다.

vLLM, 첫 MLPerf vision-language benchmark 제출 사례에 이름 올리다
LLM X/Twitter Apr 10, 2026 1 min read

LocalLLaMA, K=64 커널 패치로 Blackwell 워크스테이션의 Qwen3.5-397B 추론 개선 주장
LLM Reddit Mar 15, 2026 2 min read