Cursor, Blackwell용 warp decode 공개… MoE inference 1.84배 가속 주장
Original: We rebuilt how MoE models generate tokens on Blackwell GPUs, resulting in 1.84x faster inference and more accurate outputs. These improvements directly contribute to how we train Composer, allowing us to ship improved versions of the model more often. View original →
4월 6일 Cursor의 X 게시물에서 회사는 mixture-of-experts model이 NVIDIA Blackwell GPUs에서 token을 생성하는 방식을 다시 설계해 1.84배 더 빠른 inference와 더 정확한 outputs를 얻었다고 밝혔다. 연결된 engineering post는 이 접근을 "warp decode"라고 부른다. Cursor에 따르면 이 변경은 expert 중심으로 짜여 있던 decode path를 output 중심으로 뒤집는 작업이며, Composer를 더 빠르게 학습하고 더 자주 개선판을 배포하는 데 직접 연결된다.
기술적 논지는 분명하다. 전통적인 MoE decode pipeline은 expert별로 token을 모으고, padding과 scatter를 수행하고, 계산 후 다시 combine하는 expert-centric structure를 가진다. Cursor는 이런 방식이 prefill이나 large batch에는 잘 맞지만, autoregressive decode처럼 token을 하나씩 생성하는 단계에서는 Blackwell에서 불필요한 bookkeeping cost를 크게 만든다고 설명한다. warp decode는 이 구조를 바꿔 각 warp가 하나의 output scalar를 맡게 하고, 필요한 weight rows를 직접 읽어 routed experts를 따라 FP32 accumulator에 합산한 뒤 최종 결과만 기록한다. 회사는 이를 통해 padding, scatter, combine, intermediate buffers를 없애고 MoE layer를 두 개의 kernels로 압축했다고 밝혔다.
Infra 최적화가 곧 model shipment cadence를 바꾼다는 주장
Cursor는 이 설계가 속도뿐 아니라 numerical quality도 개선한다고 주장한다. blog에 따르면 내부 inference system에서 Qwen-3 style model을 NVIDIA B200 GPUs 위에서 실행했을 때, warp decode는 context length와 무관하게 1.84배의 decode throughput gain을 보였고 outputs는 기존 경로보다 FP32 ground truth에 1.4배 더 가까웠다. 또한 B200에서 3.95 TB/s, 즉 측정된 최대 memory-read throughput의 약 58%를 달성했다고 설명한다. 이는 단순한 kernel micro-optimization이 아니라, inference engineering이 research loop와 product velocity를 동시에 밀어 올릴 수 있다는 주장이다. Cursor는 pretraining data나 RL만이 아니라 low-level GPU kernel design도 Composer iteration speed를 결정하는 product lever가 되고 있다고 말하고 있다.
Related Articles
LocalLLaMA의 관심은 “또 하나의 coding model”보다, Cohere 직원이 release 전 weights를 직접 커뮤니티에 맡긴 방식에 쏠렸다.
NVIDIA는 2026년 3월 16일 Dynamo 1.0을 공개하며 generative·agentic inference용 open-source 운영 계층을 본격 상용 단계로 끌어올렸다. 핵심은 Blackwell 성능 증폭, token cost 절감, open-source framework 통합을 한 번에 묶었다는 점이다.
2026년 3월 26일 NVIDIA의 `gpt-oss-puzzle-88B` 모델 카드를 링크한 r/LocalLLaMA 글은 크롤링 시점 기준 284 points와 105 comments를 기록했다. NVIDIA는 이 88B MoE 모델이 Puzzle post-training NAS 파이프라인으로 파라미터와 KV-cache 부담을 줄이면서도 reasoning 정확도를 부모 모델 수준으로 유지하거나 소폭 높인다고 설명한다.