Hacker News, inference-first state space model Mamba-3 주목
Original: Mamba-3 View original →
Mamba-3는 training보다 inference를 앞세운 SSM release다
March 19, 2026, Together AI는 Carnegie Mellon University, Princeton University, Cartesia AI와 함께 Mamba-3를 공개했다. 핵심 메시지는 분명하다. Mamba-3는 training speed보다 inference efficiency를 우선 목표로 설계한 state space model architecture다. 이 framing이 Hacker News에서 통했던 이유는, 현재 AI deployment의 압력이 일회성 pretraining보다 post-training, RL with verifiable rewards, agentic workflow처럼 오래 decode하는 구간으로 이동하고 있기 때문이다.
설계 변화도 단순한 kernel refresh 수준이 아니다. Together AI는 Mamba-3가 Mamba-2를 세 방향에서 확장한다고 설명한다. exponential-trapezoidal discretization scheme에 기반한 더 풍부한 recurrence, complex-valued state tracking, 그리고 decode latency를 늘리지 않으면서 quality를 높이는 MIMO variant다. 여기에 이전 Mamba layer에서 쓰이던 short causal convolution을 제거하고, complex system을 다루기 위한 QKNorm과 RoPE-style component도 추가했다.
왜 benchmark가 Hacker News의 관심을 끌었나
Hacker News 독자를 가장 강하게 끌어들인 부분은 1.5B scale latency table이다. Together AI는 Mamba-3 SISO가 sequence length 512부터 16,384까지의 prefill plus decode latency에서 Mamba-2, Gated DeltaNet, 그리고 Llama-3.2-1B plus vLLM 기반 Transformer baseline을 모두 앞선다고 밝혔다. sequence length 16,384 기준 공개된 수치는 Mamba-3 SISO 140.61초, Mamba-2 149.02초, Gated DeltaNet 145.87초, Transformer baseline 976.50초다.
그렇다고 Transformer의 역할이 사라졌다는 뜻은 아니다. Together AI 역시 pure Transformer가 retrieval-heavy task에서는 여전히 더 강하고, linear model은 KV cache처럼 history를 그대로 보존하지 못하는 fixed-size state의 한계를 안고 있다고 말한다. 더 현실적인 해석은 hybrid design이다. memory와 decode cost를 줄이는 linear layer와, 정확한 retrieval이 필요한 구간의 self-attention을 함께 쓰는 방향이 더 중요해 보인다.
진짜 발표는 open kernel까지 포함한다
이 글이 Hacker News에서 반응을 얻은 또 다른 이유는 architecture claim에서 끝나지 않았기 때문이다. Together AI는 Triton, TileLang, CuTe DSL을 조합한 kernel stack을 공개했다. 이것은 inference 개선이 paper 위의 숫자에 머무르지 않고 실제 deployment economics를 바꿀 수 있느냐와 직결된다. 그런 점에서 Mamba-3는 단순한 architecture note라기보다 inference-first linear model을 실제 시스템에 올리려는 실전형 push에 가깝다.
출처: Together AI. Hacker News 토론: item 47419391.
Related Articles
2026년 3월 18일 LocalLLaMA에서 화제가 된 Mamba-3는 Together AI와 CMU, Princeton, Cartesia AI 연구진이 공개한 state space model 연구다. 설계 목표를 training speed보다 inference efficiency에 두고, 1.5B scale에서 Mamba-2와 Gated DeltaNet, Llama-3.2-1B 대비 prefill+decode latency 우위를 주장한다.
Google DeepMind는 2026년 3월 3일 Gemini 3.1 Flash-Lite를 업데이트하며 대량·저지연 워크로드용 모델로 제시했다. 회사는 128k input, 8k output, multimodal 입력, native audio generation, 그리고 $0.10/$0.40 수준의 저가 token pricing을 강조했다.
2026년 3월 14일 LocalLLaMA 글은 SM120 Blackwell 워크스테이션용 CUTLASS·FlashInfer 패치를 소개하며, Qwen3.5-397B NVFP4 추론 속도 개선과 FlashInfer PR #2786을 함께 제시했다.
Comments (0)
No comments yet. Be the first to comment!