Hacker News, inference-first state space model Mamba-3 주목

Mamba-3는 training보다 inference를 앞세운 SSM release다

March 19, 2026, Together AI는 Carnegie Mellon University, Princeton University, Cartesia AI와 함께 Mamba-3를 공개했다. 핵심 메시지는 분명하다. Mamba-3는 training speed보다 inference efficiency를 우선 목표로 설계한 state space model architecture다. 이 framing이 Hacker News에서 통했던 이유는, 현재 AI deployment의 압력이 일회성 pretraining보다 post-training, RL with verifiable rewards, agentic workflow처럼 오래 decode하는 구간으로 이동하고 있기 때문이다.

설계 변화도 단순한 kernel refresh 수준이 아니다. Together AI는 Mamba-3가 Mamba-2를 세 방향에서 확장한다고 설명한다. exponential-trapezoidal discretization scheme에 기반한 더 풍부한 recurrence, complex-valued state tracking, 그리고 decode latency를 늘리지 않으면서 quality를 높이는 MIMO variant다. 여기에 이전 Mamba layer에서 쓰이던 short causal convolution을 제거하고, complex system을 다루기 위한 QKNorm과 RoPE-style component도 추가했다.

왜 benchmark가 Hacker News의 관심을 끌었나

Hacker News 독자를 가장 강하게 끌어들인 부분은 1.5B scale latency table이다. Together AI는 Mamba-3 SISO가 sequence length 512부터 16,384까지의 prefill plus decode latency에서 Mamba-2, Gated DeltaNet, 그리고 Llama-3.2-1B plus vLLM 기반 Transformer baseline을 모두 앞선다고 밝혔다. sequence length 16,384 기준 공개된 수치는 Mamba-3 SISO 140.61초, Mamba-2 149.02초, Gated DeltaNet 145.87초, Transformer baseline 976.50초다.

그렇다고 Transformer의 역할이 사라졌다는 뜻은 아니다. Together AI 역시 pure Transformer가 retrieval-heavy task에서는 여전히 더 강하고, linear model은 KV cache처럼 history를 그대로 보존하지 못하는 fixed-size state의 한계를 안고 있다고 말한다. 더 현실적인 해석은 hybrid design이다. memory와 decode cost를 줄이는 linear layer와, 정확한 retrieval이 필요한 구간의 self-attention을 함께 쓰는 방향이 더 중요해 보인다.

진짜 발표는 open kernel까지 포함한다

이 글이 Hacker News에서 반응을 얻은 또 다른 이유는 architecture claim에서 끝나지 않았기 때문이다. Together AI는 Triton, TileLang, CuTe DSL을 조합한 kernel stack을 공개했다. 이것은 inference 개선이 paper 위의 숫자에 머무르지 않고 실제 deployment economics를 바꿀 수 있느냐와 직결된다. 그런 점에서 Mamba-3는 단순한 architecture note라기보다 inference-first linear model을 실제 시스템에 올리려는 실전형 push에 가깝다.

출처: Together AI. Hacker News 토론: item 47419391.

Hacker News, inference-first state space model Mamba-3 주목

Mamba-3는 training보다 inference를 앞세운 SSM release다

왜 benchmark가 Hacker News의 관심을 끌었나

진짜 발표는 open kernel까지 포함한다

Related Articles

LocalLLaMA가 주목한 Mamba-3, inference 효율 중심으로 설계된 state space model

Google, Gemini 3.1 Flash-Lite 공개... 128k context와 저가 토큰 가격으로 대량 처리 겨냥

LocalLLaMA, K=64 커널 패치로 Blackwell 워크스테이션의 Qwen3.5-397B 추론 개선 주장

Comments (0)

Leave a Comment

Related Articles

LocalLLaMA가 주목한 Mamba-3, inference 효율 중심으로 설계된 state space model

Google, Gemini 3.1 Flash-Lite 공개... 128k context와 저가 토큰 가격으로 대량 처리 겨냥

LocalLLaMA, K=64 커널 패치로 Blackwell 워크스테이션의 Qwen3.5-397B 추론 개선 주장
LLM Reddit Mar 15, 2026 2 min read