Hacker News、inference-firstなstate space model「Mamba-3」に注目
Original: Mamba-3 View original →
Mamba-3はtrainingよりinferenceを優先したSSM releaseだ
March 19, 2026、Together AIはCarnegie Mellon University、Princeton University、Cartesia AIとともにMamba-3を公開した。中心メッセージは明快だ。Mamba-3はtraining speedではなくinference efficiencyを主目的に設計されたstate space model architectureである。この framing が Hacker News で響いたのは、現在の AI deployment の負荷が一度きりの pretraining よりも、post-training、RL with verifiable rewards、agentic workflow のような長い decode 運用に移っているからだ。
設計変更も単なる kernel refresh ではない。Together AI は、Mamba-3 が Mamba-2 を 3 方向で拡張すると説明する。exponential-trapezoidal discretization scheme に基づくより表現力の高い recurrence、complex-valued state tracking、そして decode latency を増やさずに quality を高める MIMO variant だ。さらに以前の Mamba layer で使われていた short causal convolution を外し、complex system を扱うための QKNorm と RoPE-style component も加えている。
なぜ benchmark が Hacker News の関心を集めたのか
Hacker News 読者を最も引きつけたのは 1.5B scale の latency table だろう。Together AI は、Mamba-3 SISO が sequence length 512 から 16,384 までの prefill plus decode latency で、Mamba-2、Gated DeltaNet、そして Llama-3.2-1B plus vLLM ベースの Transformer baseline を上回ると報告した。sequence length 16,384 では、公開値は Mamba-3 SISO 140.61 秒、Mamba-2 149.02 秒、Gated DeltaNet 145.87 秒、Transformer baseline 976.50 秒となっている。
ただし、それは Transformer の時代が終わったという意味ではない。Together AI 自身も、pure Transformer は retrieval-heavy task では依然として強く、linear model は KV cache のように履歴をそのまま保持できない fixed-size state の制約を抱えると述べている。より現実的な読み方は hybrid design だ。memory と decode cost を抑える linear layer と、正確な retrieval が必要な部分の self-attention を組み合わせる方向である。
本当の発表は open kernel まで含んでいる
この投稿が Hacker News で受けたもう一つの理由は、architecture claim だけで終わらなかった点にある。Together AI は Triton、TileLang、CuTe DSL を組み合わせた kernel stack も open-source 化した。これは inference 改善が paper 上の数字にとどまらず、実運用の deployment economics を変えられるかどうかに直結する。そう考えると Mamba-3 は speculative な architecture note というより、inference-first linear model を現実の system に持ち込むための実装重視の push と言える。
出典: Together AI. Hacker News discussion: item 47419391.
Related Articles
2026年3月18日にLocalLLaMAで注目を集めたMamba-3は、Carnegie Mellon University、Princeton、Cartesia AI、Together AIの研究者が公開したstate space modelだ。設計目標をtraining speedからinference efficiencyへ移し、1.5B scaleでMamba-2やGated DeltaNet、Llama-3.2-1Bを上回るprefill+decode latencyを主張している。
Google DeepMindは2026年3月3日、Gemini 3.1 Flash-Liteを高頻度・低遅延ワークロード向けmodelとして提示した。会社は128k input、8k output、multimodal input、native audio generation、そして$0.10/$0.40水準のtoken pricingを強調している。
2026年3月14日のLocalLLaMA投稿は、SM120 Blackwellワークステーション向けCUTLASS・FlashInfer修正を紹介し、Qwen3.5-397B NVFP4推論高速化とFlashInfer PR #2786を結び付けた。
Comments (0)
No comments yet. Be the first to comment!