NVIDIA, Nemotron 3 Super 공개… agentic AI용 open model 처리량 5x 제시
Original: New NVIDIA Nemotron 3 Super Delivers 5x Higher Throughput for Agentic AI View original →
NVIDIA는 March 11, 2026 agentic AI 시스템을 겨냥한 새 open model, Nemotron 3 Super를 공개했다. 회사는 이 모델을 NVIDIA Blackwell에 최적화된 120-billion-parameter hybrid mixture-of-experts model로 설명했으며, 실제 연산에는 12 billion active parameters가 사용된다고 밝혔다. 발표의 초점은 범용 chat 성능 경쟁이 아니라, 긴 reasoning chain과 잦은 tool use가 섞인 production agent workflow에서 발생하는 비용과 지연을 줄이는 데 맞춰졌다.
NVIDIA는 multi-agent system의 핵심 병목으로 “context explosion”을 지목했다. 여러 agent가 상호작용할수록 history, tool output, intermediate reasoning을 반복 전송해야 하고, 이 과정에서 latency와 cost가 급격히 커진다는 설명이다. Nemotron 3 Super는 이 문제를 겨냥해 1-million-token context window를 제공하며, 더 긴 workflow state를 memory 안에 유지하도록 설계됐다고 NVIDIA는 주장한다.
NVIDIA가 내세운 핵심 포인트
NVIDIA에 따르면 Nemotron 3 Super는 이전 Nemotron Super 모델 대비 최대 5x higher throughput과 최대 2x higher accuracy를 제공한다. 또 large function library를 다루는 agent stack에서 중요한 high-accuracy tool calling을 강조했다. 잘못된 function을 선택하는 순간 workflow 전체가 무너질 수 있기 때문에, tool routing 정확도는 agentic AI 환경에서 실질적인 성능 지표가 된다.
배포 방식도 눈에 띈다. NVIDIA는 Nemotron 3 Super를 permissive license의 open weights로 공개한다고 밝혔고, workstation, data center, cloud 어디서든 customize할 수 있다고 설명했다. 접근 경로로는 build.nvidia.com, Perplexity, OpenRouter, Hugging Face가 제시됐다. 동시에 CodeRabbit, Factory, Greptile 같은 software agent 업체와 Edison Scientific, Lila Sciences 같은 연구·life science 조직이 초기 활용 사례로 언급됐다.
왜 중요한가
이번 발표가 중요한 이유는 enterprise agent builder들이 이제 단순한 model intelligence보다 throughput, long context, tool reliability를 함께 보려 하기 때문이다. 1-million-token context가 모든 agent failure를 해결해주지는 않지만, 긴 workflow에서 state를 자주 압축하거나 버려야 하는 부담을 줄일 수 있다. 여기에 tool calling 정확도가 개선되면, agent가 잘못된 action을 실행할 가능성도 낮출 수 있다.
개발자 관점에서 Nemotron 3 Super의 의미는 parameter count보다 system economics에 있다. NVIDIA의 throughput·accuracy 주장과 실제 downstream test 결과가 맞아떨어진다면, autonomous research, code review, security, enterprise workflow agent를 만드는 팀에게 open weights와 유연한 배포 경로를 동시에 제공하는 유력한 선택지가 될 수 있다.
Related Articles
멀티모달 에이전트는 아직 비전·오디오·텍스트 모델을 따로 엮느라 비용과 지연을 치른다. NVIDIA는 Nemotron 3 Nano Omni로 30B 파라미터, 256K 문맥, 동일 반응성 기준 영상 추론 시스템 용량 최대 9.2배를 내세웠다.
2026년 3월 15일 LocalLLaMA 게시물은 Hugging Face model card commit과 NVIDIA license 페이지를 근거로 Nemotron Super 3가 기존 NVIDIA Open Model License에서 NVIDIA Nemotron Open Model License로 이동했음을 짚었다.
NVIDIA는 2026년 3월 11일 120B parameter급 open model Nemotron 3 Super를 발표했다. NVIDIA는 1M-token context, hybrid MoE 구조, 그리고 최대 5배 throughput 향상을 통해 agentic AI의 context explosion과 thinking tax를 줄이겠다고 밝혔다.
Comments (0)
No comments yet. Be the first to comment!