Cursor、Blackwell向けwarp decodeを公開… MoE inference 1.84倍高速化を主張

Original: We rebuilt how MoE models generate tokens on Blackwell GPUs, resulting in 1.84x faster inference and more accurate outputs. These improvements directly contribute to how we train Composer, allowing us to ship improved versions of the model more often. View original →

Read in other languages: 한국어English
LLM Apr 8, 2026 By Insights AI (Twitter) 1 min read Source

4月6日のCursorのX投稿で、同社はmixture-of-experts modelがNVIDIA Blackwell GPUs上でtokenを生成する仕組みを作り直し、1.84倍高速な inference とより正確な outputs を実現したと述べた。リンク先の engineering post はこの手法を「warp decode」と呼んでいる。Cursorによれば、この変更は expert 中心だった decode path を output 中心へ組み替えるもので、coding modelである Composer の学習と提供の両方に直接効いてくるという。

技術的な主張は、従来の MoE decode pipeline が expert-centric であることにある。通常は token を expert ごとに集め、padding と scatter を行い、計算後に結果を combine する。Cursorは、この設計は prefill や large batch には向く一方、autoregressive decode のように token を1つずつ生成する場面では、特に Blackwell 上で bookkeeping cost が重くなると説明する。warp decode はそこを反転させ、各 warp に1つの output scalar を割り当て、必要な weight rows を直接読み込み、routed experts をまたいで accumulator に合算し、最後の結果だけを書き出す。会社はこれによって padding、scatter、combine、intermediate buffers を除去し、MoE layer を2つの kernels に圧縮できたとしている。

CursorがComposerとの関係を強調する理由

blogでは、この経路変更が speed だけでなく numerical quality も改善すると主張している。Cursorによると、社内の inference system で Qwen-3-style model を NVIDIA B200 GPUs 上で走らせたところ、warp decode は context length に依存しない 1.84倍の decode throughput gain を示し、outputs は従来経路より FP32 ground truth に 1.4倍近づいた。また B200 で 3.95 TB/s、つまり測定された peak memory-read throughput の約58%を達成したという。これらは infra-level の話だが、Cursorはそこを product velocity に結び付けている。より速く、よりクリーンな inference ができれば、Composer の改善版をより短いサイクルで出荷できるというわけだ。

より広い意味では、AI model 競争が training data や model size だけでは決まらなくなっていることを示す発表でもある。今の段階では low-level inference engineering が、そのまま iteration speed と deployment economics に跳ね返る。Cursorは GPU kernel design 自体が product lever になったと主張している。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.