NVIDIA Nemotron 3 Nano Omni 등장… 오픈 멀티모달 에이전트 9배 가속
Original: NVIDIA Launches Nemotron 3 Nano Omni Model, Unifying Vision, Audio and Language for up to 9x More Efficient AI Agents View original →
멀티모달 에이전트는 지금까지 화면 인식, 음성 이해, 언어 추론을 서로 다른 모델에 나눠 맡기면서 지연과 비용을 감수해왔다. NVIDIA가 4월 28일 공개한 블로그에서 내세운 핵심도 바로 이 지점이다. Nemotron 3 Nano Omni는 같은 상호작용 조건에서 다른 오픈 omni 모델 대비 최대 9배 높은 처리량을 제시했다. 수치가 그대로 재현된다면, 멀티모달 에이전트의 채산성부터 달라진다.
NVIDIA 설명에 따르면 이 모델은 복잡한 문서 이해, 비디오 이해, 오디오 이해 영역에서 6개 리더보드 정상을 기록했다. 구조는 30B-A3B hybrid MoE이며 Conv3D, EVS, 256K 컨텍스트를 갖췄다. 의미는 분명하다. 화면을 읽고, 문서를 훑고, 음성을 따라가면서 긴 문맥을 유지해야 하는 워크로드를 하나의 모델로 밀어붙이겠다는 구상이다.
배포 경로도 넓다. Hugging Face, OpenRouter, build.nvidia.com, 그리고 25개 이상 파트너 플랫폼에서 사용할 수 있다고 NVIDIA는 적었다. 초기 사례로는 H Company가 거론됐다. 이 회사는 Nemotron 3 Nano Omni를 붙인 computer-use 에이전트가 1920x1080 해상도의 화면 기록을 빠르게 해석할 수 있었고, OSWorld 예비 평가에서도 GUI 탐색 성능이 크게 뛰었다고 설명했다. 이 대목은 단순 데모보다 실전형 신호에 가깝다.
오픈 멀티모달 경쟁의 질문도 바뀌고 있다. 이제 관건은 “보고 듣는가”가 아니라 “그 과정을 충분히 싸고 빠르게 반복할 수 있는가”이다. Nemotron 3 Nano Omni가 독립 벤치마크에서도 비슷한 결과를 내는지는 더 봐야 한다. 그래도 이번 공개가 던진 메시지는 분명하다. 차세대 에이전트 인프라는 정확도만큼 처리량과 배포 유연성으로 평가받는다.
Related Articles
오픈 모델 경쟁이 단순 성능표에서 장시간 에이전트 비용으로 이동하고 있다. NVIDIA는 Nemotron 3 Ultra가 550B MoE 구조로 5배 빠른 추론과 최대 30% 낮은 복잡 작업 비용을 낸다고 밝혔다.
Google I/O 2026의 핵심은 Gemini를 앱 안의 챗봇보다 넓은 실행 계층으로 밀어 올리는 흐름이다. Gemini 3.5 Flash는 API와 Antigravity, Search, Gemini app에 풀렸고, Gemini Omni는 video 생성과 편집을 전면에 세웠다.
NVIDIA가 GTC Taipei에서 550B 파라미터 MoE 모델 Nemotron 3 Ultra와 Agent Toolkit을 묶어 기업용 장시간 에이전트 스택을 전면에 세웠다. 공개 모델 대비 최대 5배 빠른 추론과 최대 30% 낮은 비용, 6월 4일 배포 일정이 핵심이다.