Cursor、Blackwell向けwarp decodeを公開… MoE inference 1.84倍高速化を主張

4月6日のCursorのX投稿で、同社はmixture-of-experts modelがNVIDIA Blackwell GPUs上でtokenを生成する仕組みを作り直し、1.84倍高速な inference とより正確な outputs を実現したと述べた。リンク先の engineering post はこの手法を「warp decode」と呼んでいる。Cursorによれば、この変更は expert 中心だった decode path を output 中心へ組み替えるもので、coding modelである Composer の学習と提供の両方に直接効いてくるという。

技術的な主張は、従来の MoE decode pipeline が expert-centric であることにある。通常は token を expert ごとに集め、padding と scatter を行い、計算後に結果を combine する。Cursorは、この設計は prefill や large batch には向く一方、autoregressive decode のように token を1つずつ生成する場面では、特に Blackwell 上で bookkeeping cost が重くなると説明する。warp decode はそこを反転させ、各 warp に1つの output scalar を割り当て、必要な weight rows を直接読み込み、routed experts をまたいで accumulator に合算し、最後の結果だけを書き出す。会社はこれによって padding、scatter、combine、intermediate buffers を除去し、MoE layer を2つの kernels に圧縮できたとしている。

CursorがComposerとの関係を強調する理由

blogでは、この経路変更が speed だけでなく numerical quality も改善すると主張している。Cursorによると、社内の inference system で Qwen-3-style model を NVIDIA B200 GPUs 上で走らせたところ、warp decode は context length に依存しない 1.84倍の decode throughput gain を示し、outputs は従来経路より FP32 ground truth に 1.4倍近づいた。また B200 で 3.95 TB/s、つまり測定された peak memory-read throughput の約58%を達成したという。これらは infra-level の話だが、Cursorはそこを product velocity に結び付けている。より速く、よりクリーンな inference ができれば、Composer の改善版をより短いサイクルで出荷できるというわけだ。

より広い意味では、AI model 競争が training data や model size だけでは決まらなくなっていることを示す発表でもある。今の段階では low-level inference engineering が、そのまま iteration speed と deployment economics に跳ね返る。Cursorは GPU kernel design 自体が product lever になったと主張している。

Cursor、Blackwell向けwarp decodeを公開… MoE inference 1.84倍高速化を主張

CursorがComposerとの関係を強調する理由

Related Articles

Cohere未公開coding model、LocalLLaMAが先に試す30B/3B構成

NVIDIA、Dynamo 1.0をAI factory向けinference OSとして本番投入

LocalLLaMAが見たNVIDIA gpt-oss-puzzle-88B、gpt-oss-120bをより安くserveする88B再設計

Related Articles

Cohere未公開coding model、LocalLLaMAが先に試す30B/3B構成

NVIDIA、Dynamo 1.0をAI factory向けinference OSとして本番投入
LLM Mar 30, 2026 1 min read

LocalLLaMAが見たNVIDIA gpt-oss-puzzle-88B、gpt-oss-120bをより安くserveする88B再設計
LLM Reddit Mar 28, 2026 1 min read