Skip to content
腐食中

Cursor、Blackwell向けwarp decodeを公開… MoE inference 1.84倍高速化を主張

Original: We rebuilt how MoE models generate tokens on Blackwell GPUs, resulting in 1.84x faster inference and more accurate outputs. These improvements directly contribute to how we train Composer, allowing us to ship improved versions of the model more often. View original →

Read in other languages: 한국어English
LLM Apr 8, 2026 By Insights AI (Twitter) 1 min read 14 views Source

4月6日のCursorのX投稿で、同社はmixture-of-experts modelがNVIDIA Blackwell GPUs上でtokenを生成する仕組みを作り直し、1.84倍高速な inference とより正確な outputs を実現したと述べた。リンク先の engineering post はこの手法を「warp decode」と呼んでいる。Cursorによれば、この変更は expert 中心だった decode path を output 中心へ組み替えるもので、coding modelである Composer の学習と提供の両方に直接効いてくるという。

技術的な主張は、従来の MoE decode pipeline が expert-centric であることにある。通常は token を expert ごとに集め、padding と scatter を行い、計算後に結果を combine する。Cursorは、この設計は prefill や large batch には向く一方、autoregressive decode のように token を1つずつ生成する場面では、特に Blackwell 上で bookkeeping cost が重くなると説明する。warp decode はそこを反転させ、各 warp に1つの output scalar を割り当て、必要な weight rows を直接読み込み、routed experts をまたいで accumulator に合算し、最後の結果だけを書き出す。会社はこれによって padding、scatter、combine、intermediate buffers を除去し、MoE layer を2つの kernels に圧縮できたとしている。

CursorがComposerとの関係を強調する理由

blogでは、この経路変更が speed だけでなく numerical quality も改善すると主張している。Cursorによると、社内の inference system で Qwen-3-style model を NVIDIA B200 GPUs 上で走らせたところ、warp decode は context length に依存しない 1.84倍の decode throughput gain を示し、outputs は従来経路より FP32 ground truth に 1.4倍近づいた。また B200 で 3.95 TB/s、つまり測定された peak memory-read throughput の約58%を達成したという。これらは infra-level の話だが、Cursorはそこを product velocity に結び付けている。より速く、よりクリーンな inference ができれば、Composer の改善版をより短いサイクルで出荷できるというわけだ。

より広い意味では、AI model 競争が training data や model size だけでは決まらなくなっていることを示す発表でもある。今の段階では low-level inference engineering が、そのまま iteration speed と deployment economics に跳ね返る。Cursorは GPU kernel design 自体が product lever になったと主張している。

Share: Long

Related Articles

LLM Reddit Mar 28, 2026 1 min read

2026年3月26日、NVIDIAの`gpt-oss-puzzle-88B`モデルカードを扱ったr/LocalLLaMA投稿は、クロール時点で284 pointsと105 commentsを集めた。NVIDIAはこの88B MoEモデルがPuzzle post-training NASを用いてparameter数とKV-cache負荷を削減しつつ、reasoning accuracyを親モデル並みかそれ以上に保つと説明している。