NVIDIA, multi-agent AI용 Nemotron 3 Super 공개
Original: Introducing NVIDIA Nemotron 3 Super 🎉 Open 120B-parameter (12B active) hybrid Mamba-Transformer MoE model Native 1M-token context Built for compute-efficient, high-accuracy multi-agent applications Plus, fully open weights, datasets and recipes for easy customization and deployment. 🧵 View original →
X 발표의 핵심
NVIDIA AI Developer는 2026년 3월 11일 Nemotron 3 Super를 공개하며, 이를 120B-parameter hybrid Mamba-Transformer MoE 모델로 소개했다. inference 시 활성화되는 파라미터는 12B이며, 핵심 메시지는 native 1M-token context, compute-efficient multi-agent workload 대응, 그리고 오픈 weights·datasets·recipes 제공이다.
이 발표가 중요한 이유는 단순한 model refresh가 아니라는 점이다. NVIDIA는 agent system이 실제 운영 단계로 갈수록 context가 빠르게 불어나고 reasoning 비용이 누적되며 throughput이 병목이 된다는 문제를 정면으로 겨냥하고 있다.
공식 블로그가 추가한 내용
NVIDIA 공식 블로그는 Nemotron 3 Super가 이전 Nemotron Super 대비 최대 5x higher throughput, 최대 2x higher accuracy를 제공한다고 설명한다. 회사는 이를 Mamba layer, transformer reasoning, sparse MoE activation, multi-token prediction을 결합한 hybrid architecture의 결과로 제시한다. 또한 모델이 NVIDIA Blackwell에 최적화돼 있고 NVFP4 precision으로 동작하며, multi-agent system에서 발생하는 “context explosion”과 “thinking tax”를 줄이도록 설계됐다고 밝혔다.
- NVIDIA는 이 모델이 동급 크기 모델 중 효율성과 openness 측면에서 Artificial Analysis 상위권에 올랐다고 설명한다.
- 공식 글은 Nemotron 3 Super가 NVIDIA AI-Q를 DeepResearch Bench와 DeepResearch Bench II 1위로 이끌었다고 적고 있다.
- 또한 permissive license 기반의 open weights와 함께, 10조 개 이상의 pre/post-training dataset 토큰, 15개의 reinforcement-learning training environment, evaluation recipe를 공개한다고 밝혔다.
실무적으로 왜 중요한가
가장 중요한 포인트는 긴 context와 sparse activation의 결합이다. 1M-token window 자체는 인상적이지만, 실제 가치가 있으려면 장시간 agent workflow를 감당할 수 있는 비용 구조가 뒤따라야 한다. NVIDIA는 12B active parameters 구조를 통해 긴 context 유지와 practical inference cost 사이의 긴장을 줄이겠다는 메시지를 내고 있다.
이번 공개는 오픈 모델 생태계 측면에서도 의미가 크다. weights, training recipe, evaluation artifact가 실제로 활용 가능하다면, coding agent, research agent, retrieval-heavy enterprise system을 만드는 팀은 proprietary model 외의 유력한 대안을 얻게 된다. 결국 관건은 각 팀의 production stack에서 속도와 reasoning 품질이 얼마나 재현되느냐지만, 이번 출시는 분명히 그 workload를 목표로 설계됐다.
Related Articles
r/LocalLLaMA에서는 NVIDIA가 향후 5년간 open-weight AI model에 $26 billion을 투입할 수 있다는 보도가 빠르게 확산됐지만, 핵심 논의는 숫자보다 전략에 있었다. March 2026에 공개된 Nemotron 3 Super는 NVIDIA가 open model, tooling, Blackwell 최적화 deployment를 하나의 묶음으로 밀고 있음을 보여주는 가장 분명한 증거다.
NVIDIA는 2026년 3월 16일 Dynamo 1.0을 공개하며 generative·agentic inference용 open-source 운영 계층을 본격 상용 단계로 끌어올렸다. 핵심은 Blackwell 성능 증폭, token cost 절감, open-source framework 통합을 한 번에 묶었다는 점이다.
NVIDIA는 2026년 4월 2일 Google의 최신 Gemma 4 모델을 RTX PC, DGX Spark, Jetson edge module에 맞춰 최적화했다고 밝혔다. 핵심은 compact multimodal model을 cloud 바깥의 실제 local agent stack으로 밀어 넣는 데 있다.
Comments (0)
No comments yet. Be the first to comment!