LocalLLaMA, K=64 커널 패치로 Blackwell 워크스테이션의 Qwen3.5-397B 추론 개선 주장
Original: 55 → 282 tok/s: How I got Qwen3.5-397B running at speed on 4x RTX PRO 6000 Blackwell View original →
커뮤니티가 붙잡고 있던 병목
2026년 3월 14일 r/LocalLLaMA에 올라온 글은 RTX PRO 6000 같은 SM120 Blackwell 워크스테이션 GPU에서 발생하던 구체적인 추론 병목을 다뤘다. 작성자 설명에 따르면 NVFP4 기반 MoE 모델에 필요한 block-scaled GEMM 경로가 이 하드웨어 계열에서 제대로 동작하지 않아, usable tile shape가 부족했고 결국 느린 fallback kernel로 밀려났다는 것이다. 결과적으로 Qwen3.5-397B-A17B-NVFP4 같은 대형 모델이 하드웨어 잠재력을 충분히 쓰지 못했다.
글에서 연결한 FlashInfer PR #2786는 해결 방향을 명확히 적고 있다. SM120용 K=64 tile shape를 추가하고, K=64에서 발생하던 scale-factor layout mismatch를 고쳐 block-scaled MoE GEMM이 컴파일·실행되도록 만드는 것이다. PR 요약은 이 변경으로 RTX PRO 6000 환경의 single-user decode throughput이 대략 2배 가까이 개선됐다고 주장한다.
숫자를 어떻게 읽어야 하나
Reddit 글은 경로별 수치도 함께 공개했다. WSL2에서는 55 tok/s, native Linux로 옮기면 119 tok/s, driver와 설정 최적화 후 142 tok/s, 그리고 custom K=64 kernel 적용 후 283 tok/s라는 흐름이다. 다만 작성자는 가장 높은 283 tok/s 수치가 short prompt와 thinking mode가 켜진 상태에서 측정된 값이라고 명시했다. Multi-Token Prediction이 예측하기 쉬운 <think> token에서 높은 acceptance를 보이기 때문에 수치가 부풀려질 수 있다는 설명이다. 실제 사용에 가까운 real prompt, thinking off 조건에서는 대략 130-136 tok/s가 더 현실적이라고 적었다.
이 구분이 중요하다. 핵심은 “워크스테이션 Blackwell이 갑자기 모든 datacenter benchmark를 따라잡았다”가 아니라, 커뮤니티 패치가 불필요한 커널 제약을 줄이고 실제 성능을 의미 있게 회복시킬 수 있다는 점이다.
왜 LocalLLaMA가 반응했나
이 사례는 LocalLLaMA가 좋아하는 전형적인 기술 토론이다. 단순한 “더 빨라졌다”가 아니라 shared memory 한계, CUTLASS tile 선택, upstream 가능성이 있는 patch라는 구체적 근거가 붙어 있기 때문이다. PR 본문도 99KB shared memory를 가진 SM120 GPU에 맞춰 K=64 block-scaled MoE GEMM 경로를 여는 것이 핵심이라고 설명한다. 만약 이 수정이 stack 전체로 퍼지면, local Blackwell 환경에서 Qwen3.5-397B나 DeepSeek 계열 MoE 모델을 돌리는 사용자에게 직접적인 영향이 있다.
물론 수치는 self-reported이고 PR도 아직 open 상태이므로, 보수적으로 보면 방향성 신호에 가깝다. 그래도 local AI 성능이 이제는 모델 weight보다 커널 성숙도와 시스템 통합에 더 크게 좌우될 수 있음을 보여준다는 점에서 충분히 가치 있는 커뮤니티 스토리다.
원문: FlashInfer PR #2786, CUTLASS issue #3096. 커뮤니티 반응: r/LocalLLaMA.
Related Articles
2026년 3월 12일 LocalLLaMA 게시글은 4x RTX PRO 6000 Blackwell 환경에서 Qwen3.5-397B NVFP4의 지속 decode 최고값이 Marlin 기준 50.5 tok/s라고 주장했다. 이유는 SM120에서 CUTLASS grouped GEMM 경로가 실패하거나 느린 fallback으로 떨어지기 때문이라는 설명이다.
r/LocalLLaMA 게시글은 Mac 사용자를 March 11, 2026에 merge된 llama.cpp pull request #20361로 이끌었다. 이 PR은 fused GDN recurrent Metal kernel을 추가하며, Qwen 3.5 계열에서 대략 12-36% throughput 향상을 제시한다. Reddit commenters는 change가 master에는 들어갔지만 일부 local benchmark에서는 여전히 MLX가 더 빠를 수 있다고 덧붙였다.
r/LocalLLaMA의 한 현장 보고는 매우 구체적인 local inference workload를 throughput 중심으로 튜닝한 사례를 보여줬다. 작성자는 Qwen 3.5 27B로 markdown 문서를 분류하면서 약 2,000 tokens per second를 기록했다고 했고, 댓글에서는 실전 최적화 포인트가 추가로 논의됐다.
Comments (0)
No comments yet. Be the first to comment!