Hacker News、inference-firstなstate space model「Mamba-3」に注目

Original: Mamba-3 View original →

Read in other languages: 한국어English
LLM Mar 22, 2026 By Insights AI (HN) 1 min read Source

Mamba-3はtrainingよりinferenceを優先したSSM releaseだ

March 19, 2026、Together AIはCarnegie Mellon University、Princeton University、Cartesia AIとともにMamba-3を公開した。中心メッセージは明快だ。Mamba-3はtraining speedではなくinference efficiencyを主目的に設計されたstate space model architectureである。この framing が Hacker News で響いたのは、現在の AI deployment の負荷が一度きりの pretraining よりも、post-training、RL with verifiable rewards、agentic workflow のような長い decode 運用に移っているからだ。

設計変更も単なる kernel refresh ではない。Together AI は、Mamba-3 が Mamba-2 を 3 方向で拡張すると説明する。exponential-trapezoidal discretization scheme に基づくより表現力の高い recurrence、complex-valued state tracking、そして decode latency を増やさずに quality を高める MIMO variant だ。さらに以前の Mamba layer で使われていた short causal convolution を外し、complex system を扱うための QKNorm と RoPE-style component も加えている。

なぜ benchmark が Hacker News の関心を集めたのか

Hacker News 読者を最も引きつけたのは 1.5B scale の latency table だろう。Together AI は、Mamba-3 SISO が sequence length 512 から 16,384 までの prefill plus decode latency で、Mamba-2、Gated DeltaNet、そして Llama-3.2-1B plus vLLM ベースの Transformer baseline を上回ると報告した。sequence length 16,384 では、公開値は Mamba-3 SISO 140.61 秒、Mamba-2 149.02 秒、Gated DeltaNet 145.87 秒、Transformer baseline 976.50 秒となっている。

ただし、それは Transformer の時代が終わったという意味ではない。Together AI 自身も、pure Transformer は retrieval-heavy task では依然として強く、linear model は KV cache のように履歴をそのまま保持できない fixed-size state の制約を抱えると述べている。より現実的な読み方は hybrid design だ。memory と decode cost を抑える linear layer と、正確な retrieval が必要な部分の self-attention を組み合わせる方向である。

本当の発表は open kernel まで含んでいる

この投稿が Hacker News で受けたもう一つの理由は、architecture claim だけで終わらなかった点にある。Together AI は Triton、TileLang、CuTe DSL を組み合わせた kernel stack も open-source 化した。これは inference 改善が paper 上の数字にとどまらず、実運用の deployment economics を変えられるかどうかに直結する。そう考えると Mamba-3 は speculative な architecture note というより、inference-first linear model を現実の system に持ち込むための実装重視の push と言える。

出典: Together AI. Hacker News discussion: item 47419391.

Share: Long

Related Articles

LLM Reddit 3d ago 1 min read

2026年3月18日にLocalLLaMAで注目を集めたMamba-3は、Carnegie Mellon University、Princeton、Cartesia AI、Together AIの研究者が公開したstate space modelだ。設計目標をtraining speedからinference efficiencyへ移し、1.5B scaleでMamba-2やGated DeltaNet、Llama-3.2-1Bを上回るprefill+decode latencyを主張している。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.