LocalLLaMAで注目のMamba-3、inference効率を軸に設計されたstate space model
Original: Mamba 3 - state space model optimized for inference View original →
LocalLLaMAのdiscussion は、2026年3月18日に Mamba-3 への関心を押し上げた。このクロール時点でReddit postは159 upvotesと21 commentsを集めていた。元になっているのは2026年3月17日に公開されたresearch postで、Carnegie Mellon University、Princeton、Cartesia AI、Together AIの研究者が共同で執筆している。狙いは明快で、state space modelをtraining speedではなくinference efficiency中心で作り直すことにある。
blogによれば、Mamba-3はcore recurrenceを3つの方向から刷新している。1つ目は exponential-trapezoidal discretization に基づく、より expressive な recurrence。2つ目は表現力を広げる complex-valued state tracking。3つ目は、decode latencyをほとんど増やさずに複数のSSMを並列に扱うMIMO variantだ。さらに、以前のMamba世代で使われていた short causal convolution を外し、BCNormまたはQKNorm系の安定化を加えることで、全体のarchitectureもより現代的なlanguage model stackに近づけている。
communityが注目した理由
- 著者らは、1.5B scaleでMamba-3 SISOが、すべてのtested sequence lengthにおいてMamba-2、Gated DeltaNet、Llama-3.2-1Bよりprefill+decode latencyで優位だと述べている。
- MIMO variantは、decode latencyを増やさずaccuracyを押し上げる手段として提示されている。
- teamはTriton、TileLang、CuTe DSLで作ったkernelをopen-source化した。
- 問題設定そのものがRLVR rolloutやagent workflowのようなinference-heavy workloadに向いている。
この framing は、なぜ LocalLLaMA の利用者が反応したのかをよく説明している。open model communityはこの1年、pretraining throughputだけでなく、serving cost、token latency、local deploymentのtrade-offに強い関心を向けてきた。Mamba-3の著者も、post-training、coding、math rollout、agent systemが推論需要を急増させていると明示的に述べる。そうした環境では、Transformerを完全に置き換えなくても、quality-efficiency frontierを前へ押し出すlinear architectureには十分な意味がある。
もちろんtrade-offは残る。blogは、pure linear modelがretrieval-heavy taskでは依然としてTransformerに劣ると認めている。growing KV cacheではなく fixed-size state に履歴を圧縮するからだ。そのため著者らは、長期的にはlinear layerとself-attentionを混ぜたhybrid modelが有力だと予測している。この含みがあるからこそ、今回のReddit postは単なる「new model release」以上の価値を持つ。open LLM inferenceが次に向かう先について、具体的なarchitectural betを示しているからだ。
Sources: Together AI Mamba-3 blog, r/LocalLLaMA discussion, Mamba-3 paper
Related Articles
Google DeepMindは2026年3月3日、Gemini 3.1 Flash-Liteを高頻度・低遅延ワークロード向けmodelとして提示した。会社は128k input、8k output、multimodal input、native audio generation、そして$0.10/$0.40水準のtoken pricingを強調している。
Together AIはMarch 13, 2026にOpen Deep Research v2をfully free & open sourceとして公開した。併せて公開されたblogは、multi-hop web research向けのplannerとself-reflection workflow、そしてcodeとevaluation assetを説明している。
Perceptaは2026年3月11日の投稿で、transformer 内部に computer を構築し、arbitrary C program を数百万 step 実行し、2D attention head で inference を指数的に高速化できると主張した。HNの読者は刺激的な研究方向として受け止めつつも、より明確な説明、benchmark、拡張性の根拠を求めた。
Comments (0)
No comments yet. Be the first to comment!