Cursor, Blackwell용 warp decode 공개… MoE inference 1.84배 가속 주장

4월 6일 Cursor의 X 게시물에서 회사는 mixture-of-experts model이 NVIDIA Blackwell GPUs에서 token을 생성하는 방식을 다시 설계해 1.84배 더 빠른 inference와 더 정확한 outputs를 얻었다고 밝혔다. 연결된 engineering post는 이 접근을 "warp decode"라고 부른다. Cursor에 따르면 이 변경은 expert 중심으로 짜여 있던 decode path를 output 중심으로 뒤집는 작업이며, Composer를 더 빠르게 학습하고 더 자주 개선판을 배포하는 데 직접 연결된다.

기술적 논지는 분명하다. 전통적인 MoE decode pipeline은 expert별로 token을 모으고, padding과 scatter를 수행하고, 계산 후 다시 combine하는 expert-centric structure를 가진다. Cursor는 이런 방식이 prefill이나 large batch에는 잘 맞지만, autoregressive decode처럼 token을 하나씩 생성하는 단계에서는 Blackwell에서 불필요한 bookkeeping cost를 크게 만든다고 설명한다. warp decode는 이 구조를 바꿔 각 warp가 하나의 output scalar를 맡게 하고, 필요한 weight rows를 직접 읽어 routed experts를 따라 FP32 accumulator에 합산한 뒤 최종 결과만 기록한다. 회사는 이를 통해 padding, scatter, combine, intermediate buffers를 없애고 MoE layer를 두 개의 kernels로 압축했다고 밝혔다.

Infra 최적화가 곧 model shipment cadence를 바꾼다는 주장

Cursor는 이 설계가 속도뿐 아니라 numerical quality도 개선한다고 주장한다. blog에 따르면 내부 inference system에서 Qwen-3 style model을 NVIDIA B200 GPUs 위에서 실행했을 때, warp decode는 context length와 무관하게 1.84배의 decode throughput gain을 보였고 outputs는 기존 경로보다 FP32 ground truth에 1.4배 더 가까웠다. 또한 B200에서 3.95 TB/s, 즉 측정된 최대 memory-read throughput의 약 58%를 달성했다고 설명한다. 이는 단순한 kernel micro-optimization이 아니라, inference engineering이 research loop와 product velocity를 동시에 밀어 올릴 수 있다는 주장이다. Cursor는 pretraining data나 RL만이 아니라 low-level GPU kernel design도 Composer iteration speed를 결정하는 product lever가 되고 있다고 말하고 있다.

Cursor, Blackwell용 warp decode 공개… MoE inference 1.84배 가속 주장

Infra 최적화가 곧 model shipment cadence를 바꾼다는 주장

Related Articles

GLM-5.2를 느린 PC에서 돌리는 Colibri, Local AI의 병목은 GPU만이 아닌 이유

NVIDIA ModelExpress, DeepSeek-V4 Pro 기동 시간을 8분에서 1분대로 단축

LocalLLaMA가 본 NVIDIA gpt-oss-puzzle-88B, gpt-oss-120b를 더 싸게 서빙하려는 88B 재설계