NVIDIA, Nemotron 3 Super 공개... 1M context와 최대 5배 throughput로 agentic AI 정조준

Original: New NVIDIA Nemotron 3 Super Delivers 5x Higher Throughput for Agentic AI View original →

Read in other languages: English日本語
LLM Mar 13, 2026 By Insights AI 1 min read 2 views Source

NVIDIA는 2026년 3월 11일 Nemotron 3 Super를 공개했다. 이 모델은 총 120B parameters 가운데 inference 시 12B active parameters만 사용하는 open model이며, autonomous agents와 multi-agent workflow를 겨냥해 설계됐다. NVIDIA가 내세운 핵심 문제의식은 agentic AI가 실제 배포 단계에서 마주치는 context explosion과 thinking tax다.

NVIDIA에 따르면 multi-agent workflow는 tool output, intermediate reasoning, conversation history를 반복적으로 다시 보내기 때문에 일반 chat보다 최대 15배 많은 tokens를 만들어낼 수 있다. 작업이 길어질수록 비용이 늘고, agent가 원래 목표에서 벗어나는 goal drift도 생길 수 있다. Nemotron 3 Super는 1M-token context window를 통해 전체 workflow state를 더 오래 유지하고, 긴 reasoning 작업을 더 효율적으로 처리하는 것을 목표로 한다.

모델이 내세운 주요 기술 포인트

  • 120B total parameters, 12B active parameters
  • Mamba layers와 transformer layers를 결합한 hybrid mixture-of-experts architecture
  • 전문가 4개를 1개 비용으로 활성화한다고 설명한 latent MoE
  • 여러 단어를 동시에 예측하는 multi-token prediction
  • 이전 Nemotron Super 대비 최대 5배 throughput, 최대 2배 accuracy 향상 주장

NVIDIA는 이 모델이 Blackwell에서 NVFP4 precision으로 동작해 memory requirement를 낮추고, Hopper의 FP8 대비 최대 4배 빠른 inference를 제공한다고 밝혔다. 또 Artificial Analysis에서 efficiency와 openness 기준 1위를 기록했고, NVIDIA AI-Q research agent를 DeepResearch Bench와 DeepResearch Bench II leaderboards 1위로 올렸다고 설명했다.

공개 방식도 눈에 띈다. NVIDIA는 permissive license 기반 open weights를 제공하고, 10 trillion tokens 이상의 pre- and post-training datasets, 15 reinforcement learning training environments, evaluation recipes까지 공개한다고 밝혔다. build.nvidia.com, Perplexity, OpenRouter, Hugging Face를 통해 접근할 수 있고, 여러 cloud 및 enterprise 파트너가 배포를 지원한다.

이 발표는 NVIDIA가 accelerator 공급자에 머무르지 않고, enterprise agent stack의 model 계층까지 영향력을 넓히려 한다는 점에서도 중요하다. 실제 production에서 긴 context와 낮은 inference cost, 높은 tool-calling reliability가 입증된다면, Nemotron 3 Super는 coding agents, research agents, workflow automation 시스템에서 빠르게 채택될 가능성이 있다.

Share: Long

Related Articles

LLM sources.twitter 4d ago 1 min read

NVIDIA AI Developer는 2026년 3월 11일 Nemotron 3 Super를 공개하며, 12B active parameters를 사용하는 오픈 120B-parameter hybrid MoE 모델과 native 1M-token context를 강조했다. NVIDIA는 이 모델이 이전 Nemotron Super 대비 최대 5배 높은 throughput으로 agentic workload를 겨냥한다고 설명했다.

LLM Reddit 14h ago 2 min read

3월 15일 LocalLLaMA에서 높은 반응을 얻은 Nemotron license thread는 model release에서 weights만큼 중요한 것이 license wording임을 다시 보여 줬다. 공식 NVIDIA Nemotron Model License와 이전 Open Model License를 비교하면, community가 주목한 포인트는 예전 guardrail termination clause와 Trustworthy AI 참조가 사라지고, 대신 NOTICE 중심의 attribution 구조가 더 전면으로 나온 점이었다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.