Cursor, Blackwell용 warp decode 공개… MoE inference 1.84배 가속 주장

Original: We rebuilt how MoE models generate tokens on Blackwell GPUs, resulting in 1.84x faster inference and more accurate outputs. These improvements directly contribute to how we train Composer, allowing us to ship improved versions of the model more often. View original →

Read in other languages: English日本語
LLM Apr 8, 2026 By Insights AI (Twitter) 1 min read Source

4월 6일 Cursor의 X 게시물에서 회사는 mixture-of-experts model이 NVIDIA Blackwell GPUs에서 token을 생성하는 방식을 다시 설계해 1.84배 더 빠른 inference와 더 정확한 outputs를 얻었다고 밝혔다. 연결된 engineering post는 이 접근을 "warp decode"라고 부른다. Cursor에 따르면 이 변경은 expert 중심으로 짜여 있던 decode path를 output 중심으로 뒤집는 작업이며, Composer를 더 빠르게 학습하고 더 자주 개선판을 배포하는 데 직접 연결된다.

기술적 논지는 분명하다. 전통적인 MoE decode pipeline은 expert별로 token을 모으고, padding과 scatter를 수행하고, 계산 후 다시 combine하는 expert-centric structure를 가진다. Cursor는 이런 방식이 prefill이나 large batch에는 잘 맞지만, autoregressive decode처럼 token을 하나씩 생성하는 단계에서는 Blackwell에서 불필요한 bookkeeping cost를 크게 만든다고 설명한다. warp decode는 이 구조를 바꿔 각 warp가 하나의 output scalar를 맡게 하고, 필요한 weight rows를 직접 읽어 routed experts를 따라 FP32 accumulator에 합산한 뒤 최종 결과만 기록한다. 회사는 이를 통해 padding, scatter, combine, intermediate buffers를 없애고 MoE layer를 두 개의 kernels로 압축했다고 밝혔다.

Infra 최적화가 곧 model shipment cadence를 바꾼다는 주장

Cursor는 이 설계가 속도뿐 아니라 numerical quality도 개선한다고 주장한다. blog에 따르면 내부 inference system에서 Qwen-3 style model을 NVIDIA B200 GPUs 위에서 실행했을 때, warp decode는 context length와 무관하게 1.84배의 decode throughput gain을 보였고 outputs는 기존 경로보다 FP32 ground truth에 1.4배 더 가까웠다. 또한 B200에서 3.95 TB/s, 즉 측정된 최대 memory-read throughput의 약 58%를 달성했다고 설명한다. 이는 단순한 kernel micro-optimization이 아니라, inference engineering이 research loop와 product velocity를 동시에 밀어 올릴 수 있다는 주장이다. Cursor는 pretraining data나 RL만이 아니라 low-level GPU kernel design도 Composer iteration speed를 결정하는 product lever가 되고 있다고 말하고 있다.

Share: Long

Related Articles

LLM Mar 30, 2026 1 min read

NVIDIA는 2026년 3월 16일 Dynamo 1.0을 공개하며 generative·agentic inference용 open-source 운영 계층을 본격 상용 단계로 끌어올렸다. 핵심은 Blackwell 성능 증폭, token cost 절감, open-source framework 통합을 한 번에 묶었다는 점이다.

LLM sources.twitter 3d ago 1 min read

Cursor는 2026년 3월 26일 real-time RL을 통해 5시간마다 개선된 checkpoint를 배포할 수 있다고 밝혔다. Cursor의 3월 27일 technical report는 Composer 2가 Kimi K2.5 기반 continued pretraining과 realistic Cursor session에서의 대규모 RL을 결합하며, CursorBench 61.3, SWE-bench Multilingual 73.7, Terminal-Bench 61.7을 기록했다고 설명한다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.