Nemotron 3 Ultra, 550B MoE로 에이전트 추론 5배 속도와 30% 비용 절감 제시
Original: NVIDIA Nemotron 3 Ultra targets agent workloads with 550B MoE model View original →
에이전트 비용을 겨냥한 550B MoE
장시간 실행되는 에이전트는 모델 품질만큼 추론 속도와 비용이 중요하다. NVIDIA AI는 6월 4일 트윗에서 Nemotron 3 Ultra를 공개하며 이를 “550B MoE frontier-intelligence open model”이라고 표현했다. 원문은 X에서 확인할 수 있다.
트윗의 수치는 명확하다. NVIDIA는 Nemotron 3 Ultra가 장시간 에이전트를 위해 만들어졌고, 다른 오픈 프런티어 모델 대비 추론은 5배 빠르며 복잡한 에이전트 작업 비용은 최대 30% 낮춘다고 적었다. 여기서 핵심은 550B라는 큰 파라미터 수 자체보다 MoE 구조를 통해 필요한 전문가만 활성화하는 방식이 실제 운영 비용에 어떤 차이를 만드는가다.
NVIDIA AI 계정은 보통 GPU, 추론 스택, 엔터프라이즈 AI 인프라와 연결된 모델 소식을 다룬다. 이번 트윗도 연구 논문 소개라기보다 모델을 에이전트 워크로드에 투입하려는 인프라 메시지에 가깝다. 영상 썸네일이 포함됐지만 별도 블로그 링크나 리포지터리는 트윗에 제공되지 않았다. 따라서 지금 확인 가능한 근거는 트윗 본문과 공개된 성능 주장에 한정된다.
오픈 모델 시장에서는 모델 카드와 벤치마크보다 실제 에이전트 비용이 점점 더 중요해진다. 장시간 작업은 토큰을 많이 쓰고 도구 호출과 재시도를 반복하기 때문에, 5배 추론 속도와 30% 비용 절감 주장은 배포 환경에서 큰 차이를 만들 수 있다. 다음 관전점은 독립 벤치마크, 라이선스 조건, 그리고 개발자가 실제로 사용할 수 있는 가중치·API·서빙 레시피가 언제 공개되는지다.
Related Articles
NVIDIA가 GTC Taipei에서 550B 파라미터 MoE 모델 Nemotron 3 Ultra와 Agent Toolkit을 묶어 기업용 장시간 에이전트 스택을 전면에 세웠다. 공개 모델 대비 최대 5배 빠른 추론과 최대 30% 낮은 비용, 6월 4일 배포 일정이 핵심이다.
r/LocalLLaMA에서는 NVIDIA가 향후 5년간 open-weight AI model에 $26 billion을 투입할 수 있다는 보도가 빠르게 확산됐지만, 핵심 논의는 숫자보다 전략에 있었다. March 2026에 공개된 Nemotron 3 Super는 NVIDIA가 open model, tooling, Blackwell 최적화 deployment를 하나의 묶음으로 밀고 있음을 보여주는 가장 분명한 증거다.
NVIDIA AI Developer는 2026년 3월 11일 Nemotron 3 Super를 공개하며, 12B active parameters를 사용하는 오픈 120B-parameter hybrid MoE 모델과 native 1M-token context를 강조했다. NVIDIA는 이 모델이 이전 Nemotron Super 대비 최대 5배 높은 throughput으로 agentic workload를 겨냥한다고 설명했다.