Nemotron 3 Ultra, 550B MoE로 에이전트 추론 5배 속도와 30% 비용 절감 제시

에이전트 비용을 겨냥한 550B MoE

장시간 실행되는 에이전트는 모델 품질만큼 추론 속도와 비용이 중요하다. NVIDIA AI는 6월 4일 트윗에서 Nemotron 3 Ultra를 공개하며 이를 “550B MoE frontier-intelligence open model”이라고 표현했다. 원문은 X에서 확인할 수 있다.

트윗의 수치는 명확하다. NVIDIA는 Nemotron 3 Ultra가 장시간 에이전트를 위해 만들어졌고, 다른 오픈 프런티어 모델 대비 추론은 5배 빠르며 복잡한 에이전트 작업 비용은 최대 30% 낮춘다고 적었다. 여기서 핵심은 550B라는 큰 파라미터 수 자체보다 MoE 구조를 통해 필요한 전문가만 활성화하는 방식이 실제 운영 비용에 어떤 차이를 만드는가다.

NVIDIA AI 계정은 보통 GPU, 추론 스택, 엔터프라이즈 AI 인프라와 연결된 모델 소식을 다룬다. 이번 트윗도 연구 논문 소개라기보다 모델을 에이전트 워크로드에 투입하려는 인프라 메시지에 가깝다. 영상 썸네일이 포함됐지만 별도 블로그 링크나 리포지터리는 트윗에 제공되지 않았다. 따라서 지금 확인 가능한 근거는 트윗 본문과 공개된 성능 주장에 한정된다.

오픈 모델 시장에서는 모델 카드와 벤치마크보다 실제 에이전트 비용이 점점 더 중요해진다. 장시간 작업은 토큰을 많이 쓰고 도구 호출과 재시도를 반복하기 때문에, 5배 추론 속도와 30% 비용 절감 주장은 배포 환경에서 큰 차이를 만들 수 있다. 다음 관전점은 독립 벤치마크, 라이선스 조건, 그리고 개발자가 실제로 사용할 수 있는 가중치·API·서빙 레시피가 언제 공개되는지다.

LLM X/Twitter 2d ago 1 min read

Nemotron 3 Embed, LMEB에서 8B 1위·1B 2위로 장기 기억 검색 경쟁 가속

NVIDIA의 Nemotron 3 Embed가 LMEB에서 8B 모델 1위, 1B 모델 2위를 기록하며 에이전트 기억 검색 경쟁을 넓혔다. Hugging Face 글에 따르면 8B는 LMEB 64.4, 1B BF16은 61.5를 기록해 장기 대화 검색 성능을 전면에 세웠다.

#nvidia #nemotron #embeddings

LLM X/Twitter 3d ago 1 min read

NVIDIA Nemotron 3 Embed 8B, RTEB 1위로 RAG 검색 경쟁 압박

RAG와 에이전트의 품질 병목이 검색 모델로 이동하고 있다. NVIDIA는 Nemotron 3 Embed 8B가 RTEB 전체 1위에 올랐고 32k context와 1B 변형을 함께 제공한다고 밝혔다.

#nvidia #nemotron #retrieval

LLM Reddit Mar 26, 2026 2 min read

r/LocalLLaMA가 주목한 NVIDIA의 open-weight 전략, $26B 투자 보도보다 더 중요한 Nemotron 신호

r/LocalLLaMA에서는 NVIDIA가 향후 5년간 open-weight AI model에 $26 billion을 투입할 수 있다는 보도가 빠르게 확산됐지만, 핵심 논의는 숫자보다 전략에 있었다. March 2026에 공개된 Nemotron 3 Super는 NVIDIA가 open model, tooling, Blackwell 최적화 deployment를 하나의 묶음으로 밀고 있음을 보여주는 가장 분명한 증거다.

#nvidia #open-weights #nemotron

에이전트 비용을 겨냥한 550B MoE

Related Articles

Nemotron 3 Embed, LMEB에서 8B 1위·1B 2위로 장기 기억 검색 경쟁 가속

NVIDIA Nemotron 3 Embed 8B, RTEB 1위로 RAG 검색 경쟁 압박

r/LocalLLaMA가 주목한 NVIDIA의 open-weight 전략, $26B 투자 보도보다 더 중요한 Nemotron 신호