Hacker News、inference-firstなstate space model「Mamba-3」に注目

Mamba-3はtrainingよりinferenceを優先したSSM releaseだ

March 19, 2026、Together AIはCarnegie Mellon University、Princeton University、Cartesia AIとともにMamba-3を公開した。中心メッセージは明快だ。Mamba-3はtraining speedではなくinference efficiencyを主目的に設計されたstate space model architectureである。この framing が Hacker News で響いたのは、現在の AI deployment の負荷が一度きりの pretraining よりも、post-training、RL with verifiable rewards、agentic workflow のような長い decode 運用に移っているからだ。

設計変更も単なる kernel refresh ではない。Together AI は、Mamba-3 が Mamba-2 を 3 方向で拡張すると説明する。exponential-trapezoidal discretization scheme に基づくより表現力の高い recurrence、complex-valued state tracking、そして decode latency を増やさずに quality を高める MIMO variant だ。さらに以前の Mamba layer で使われていた short causal convolution を外し、complex system を扱うための QKNorm と RoPE-style component も加えている。

なぜ benchmark が Hacker News の関心を集めたのか

Hacker News 読者を最も引きつけたのは 1.5B scale の latency table だろう。Together AI は、Mamba-3 SISO が sequence length 512 から 16,384 までの prefill plus decode latency で、Mamba-2、Gated DeltaNet、そして Llama-3.2-1B plus vLLM ベースの Transformer baseline を上回ると報告した。sequence length 16,384 では、公開値は Mamba-3 SISO 140.61 秒、Mamba-2 149.02 秒、Gated DeltaNet 145.87 秒、Transformer baseline 976.50 秒となっている。

ただし、それは Transformer の時代が終わったという意味ではない。Together AI 自身も、pure Transformer は retrieval-heavy task では依然として強く、linear model は KV cache のように履歴をそのまま保持できない fixed-size state の制約を抱えると述べている。より現実的な読み方は hybrid design だ。memory と decode cost を抑える linear layer と、正確な retrieval が必要な部分の self-attention を組み合わせる方向である。

本当の発表は open kernel まで含んでいる

この投稿が Hacker News で受けたもう一つの理由は、architecture claim だけで終わらなかった点にある。Together AI は Triton、TileLang、CuTe DSL を組み合わせた kernel stack も open-source 化した。これは inference 改善が paper 上の数字にとどまらず、実運用の deployment economics を変えられるかどうかに直結する。そう考えると Mamba-3 は speculative な architecture note というより、inference-first linear model を現実の system に持ち込むための実装重視の push と言える。

出典: Together AI. Hacker News discussion: item 47419391.

Hacker News、inference-firstなstate space model「Mamba-3」に注目

Mamba-3はtrainingよりinferenceを優先したSSM releaseだ

なぜ benchmark が Hacker News の関心を集めたのか

本当の発表は open kernel まで含んでいる

Related Articles

LocalLLaMAで注目のMamba-3、inference効率を軸に設計されたstate space model

Google、Gemini 3.1 Flash-Liteを公開 128k contextと低価格で高頻度処理を狙う

LocalLLaMA、K=64カーネル修正でBlackwellワークステーションのQwen3.5-397B推論改善を主張

Comments (0)

Leave a Comment

Related Articles

LocalLLaMAで注目のMamba-3、inference効率を軸に設計されたstate space model

Google、Gemini 3.1 Flash-Liteを公開 128k contextと低価格で高頻度処理を狙う

LocalLLaMA、K=64カーネル修正でBlackwellワークステーションのQwen3.5-397B推論改善を主張
LLM Reddit Mar 15, 2026 1 min read