NVIDIA, multi-agent AI용 Nemotron 3 Super 공개
Original: Introducing NVIDIA Nemotron 3 Super 🎉 Open 120B-parameter (12B active) hybrid Mamba-Transformer MoE model Native 1M-token context Built for compute-efficient, high-accuracy multi-agent applications Plus, fully open weights, datasets and recipes for easy customization and deployment. 🧵 View original →
X 발표의 핵심
NVIDIA AI Developer는 2026년 3월 11일 Nemotron 3 Super를 공개하며, 이를 120B-parameter hybrid Mamba-Transformer MoE 모델로 소개했다. inference 시 활성화되는 파라미터는 12B이며, 핵심 메시지는 native 1M-token context, compute-efficient multi-agent workload 대응, 그리고 오픈 weights·datasets·recipes 제공이다.
이 발표가 중요한 이유는 단순한 model refresh가 아니라는 점이다. NVIDIA는 agent system이 실제 운영 단계로 갈수록 context가 빠르게 불어나고 reasoning 비용이 누적되며 throughput이 병목이 된다는 문제를 정면으로 겨냥하고 있다.
공식 블로그가 추가한 내용
NVIDIA 공식 블로그는 Nemotron 3 Super가 이전 Nemotron Super 대비 최대 5x higher throughput, 최대 2x higher accuracy를 제공한다고 설명한다. 회사는 이를 Mamba layer, transformer reasoning, sparse MoE activation, multi-token prediction을 결합한 hybrid architecture의 결과로 제시한다. 또한 모델이 NVIDIA Blackwell에 최적화돼 있고 NVFP4 precision으로 동작하며, multi-agent system에서 발생하는 “context explosion”과 “thinking tax”를 줄이도록 설계됐다고 밝혔다.
- NVIDIA는 이 모델이 동급 크기 모델 중 효율성과 openness 측면에서 Artificial Analysis 상위권에 올랐다고 설명한다.
- 공식 글은 Nemotron 3 Super가 NVIDIA AI-Q를 DeepResearch Bench와 DeepResearch Bench II 1위로 이끌었다고 적고 있다.
- 또한 permissive license 기반의 open weights와 함께, 10조 개 이상의 pre/post-training dataset 토큰, 15개의 reinforcement-learning training environment, evaluation recipe를 공개한다고 밝혔다.
실무적으로 왜 중요한가
가장 중요한 포인트는 긴 context와 sparse activation의 결합이다. 1M-token window 자체는 인상적이지만, 실제 가치가 있으려면 장시간 agent workflow를 감당할 수 있는 비용 구조가 뒤따라야 한다. NVIDIA는 12B active parameters 구조를 통해 긴 context 유지와 practical inference cost 사이의 긴장을 줄이겠다는 메시지를 내고 있다.
이번 공개는 오픈 모델 생태계 측면에서도 의미가 크다. weights, training recipe, evaluation artifact가 실제로 활용 가능하다면, coding agent, research agent, retrieval-heavy enterprise system을 만드는 팀은 proprietary model 외의 유력한 대안을 얻게 된다. 결국 관건은 각 팀의 production stack에서 속도와 reasoning 품질이 얼마나 재현되느냐지만, 이번 출시는 분명히 그 workload를 목표로 설계됐다.
Related Articles
Microsoft는 Fireworks AI가 Microsoft Foundry에 들어오면서 Azure에서 high-performance, low-latency open model inference를 제공한다고 밝혔다. day-zero access, custom model 반입, enterprise control을 한곳에서 제공하는 것이 핵심 메시지다.
Microsoft Research는 2026년 2월 26일 CORPGEN을 발표했다. 실제 사무 환경의 동시 다중 업무를 반영한 평가에서, 높은 부하 구간에서 기준 에이전트 대비 최대 3.5배 높은 완료율을 제시했다.
LocalLLaMA에서 크게 주목받은 Sarvam AI의 발표는 Apache 2.0 기반의 reasoning model인 Sarvam 30B와 Sarvam 105B를 공개한다. 회사는 두 모델이 India에서 scratch부터 학습됐고, Mixture-of-Experts 구조를 바탕으로 reasoning, coding, agentic workflow, Indian-language 성능을 겨냥했다고 설명한다.
Comments (0)
No comments yet. Be the first to comment!