NVIDIA, multi-agent AI용 Nemotron 3 Super 공개

X 발표의 핵심

NVIDIA AI Developer는 2026년 3월 11일 Nemotron 3 Super를 공개하며, 이를 120B-parameter hybrid Mamba-Transformer MoE 모델로 소개했다. inference 시 활성화되는 파라미터는 12B이며, 핵심 메시지는 native 1M-token context, compute-efficient multi-agent workload 대응, 그리고 오픈 weights·datasets·recipes 제공이다.

이 발표가 중요한 이유는 단순한 model refresh가 아니라는 점이다. NVIDIA는 agent system이 실제 운영 단계로 갈수록 context가 빠르게 불어나고 reasoning 비용이 누적되며 throughput이 병목이 된다는 문제를 정면으로 겨냥하고 있다.

공식 블로그가 추가한 내용

NVIDIA 공식 블로그는 Nemotron 3 Super가 이전 Nemotron Super 대비 최대 5x higher throughput, 최대 2x higher accuracy를 제공한다고 설명한다. 회사는 이를 Mamba layer, transformer reasoning, sparse MoE activation, multi-token prediction을 결합한 hybrid architecture의 결과로 제시한다. 또한 모델이 NVIDIA Blackwell에 최적화돼 있고 NVFP4 precision으로 동작하며, multi-agent system에서 발생하는 “context explosion”과 “thinking tax”를 줄이도록 설계됐다고 밝혔다.

NVIDIA는 이 모델이 동급 크기 모델 중 효율성과 openness 측면에서 Artificial Analysis 상위권에 올랐다고 설명한다.
공식 글은 Nemotron 3 Super가 NVIDIA AI-Q를 DeepResearch Bench와 DeepResearch Bench II 1위로 이끌었다고 적고 있다.
또한 permissive license 기반의 open weights와 함께, 10조 개 이상의 pre/post-training dataset 토큰, 15개의 reinforcement-learning training environment, evaluation recipe를 공개한다고 밝혔다.

실무적으로 왜 중요한가

가장 중요한 포인트는 긴 context와 sparse activation의 결합이다. 1M-token window 자체는 인상적이지만, 실제 가치가 있으려면 장시간 agent workflow를 감당할 수 있는 비용 구조가 뒤따라야 한다. NVIDIA는 12B active parameters 구조를 통해 긴 context 유지와 practical inference cost 사이의 긴장을 줄이겠다는 메시지를 내고 있다.

이번 공개는 오픈 모델 생태계 측면에서도 의미가 크다. weights, training recipe, evaluation artifact가 실제로 활용 가능하다면, coding agent, research agent, retrieval-heavy enterprise system을 만드는 팀은 proprietary model 외의 유력한 대안을 얻게 된다. 결국 관건은 각 팀의 production stack에서 속도와 reasoning 품질이 얼마나 재현되느냐지만, 이번 출시는 분명히 그 workload를 목표로 설계됐다.

출처: NVIDIA AI Developer X 게시물, NVIDIA 공식 블로그

NVIDIA, multi-agent AI용 Nemotron 3 Super 공개

X 발표의 핵심

공식 블로그가 추가한 내용

실무적으로 왜 중요한가

Related Articles

r/LocalLLaMA가 주목한 NVIDIA의 open-weight 전략, $26B 투자 보도보다 더 중요한 Nemotron 신호

NVIDIA, Dynamo 1.0으로 AI factory inference OS 상용 단계 진입

NVIDIA, Gemma 4를 RTX PC·DGX Spark·Jetson에 최적화... local agentic AI 저변 확대

Comments (0)

Leave a Comment

Related Articles

r/LocalLLaMA가 주목한 NVIDIA의 open-weight 전략, $26B 투자 보도보다 더 중요한 Nemotron 신호
LLM Reddit Mar 26, 2026 2 min read

NVIDIA, Dynamo 1.0으로 AI factory inference OS 상용 단계 진입
LLM Mar 30, 2026 1 min read

NVIDIA, Gemma 4를 RTX PC·DGX Spark·Jetson에 최적화... local agentic AI 저변 확대
LLM Apr 11, 2026 1 min read