NVIDIA Nemotron 3 Nano Omni 등장… 오픈 멀티모달 에이전트 9배 가속

Original: NVIDIA Launches Nemotron 3 Nano Omni Model, Unifying Vision, Audio and Language for up to 9x More Efficient AI Agents View original →

Read in other languages: English日本語
LLM Apr 30, 2026 By Insights AI 1 min read Source

멀티모달 에이전트는 지금까지 화면 인식, 음성 이해, 언어 추론을 서로 다른 모델에 나눠 맡기면서 지연과 비용을 감수해왔다. NVIDIA가 4월 28일 공개한 블로그에서 내세운 핵심도 바로 이 지점이다. Nemotron 3 Nano Omni는 같은 상호작용 조건에서 다른 오픈 omni 모델 대비 최대 9배 높은 처리량을 제시했다. 수치가 그대로 재현된다면, 멀티모달 에이전트의 채산성부터 달라진다.

NVIDIA 설명에 따르면 이 모델은 복잡한 문서 이해, 비디오 이해, 오디오 이해 영역에서 6개 리더보드 정상을 기록했다. 구조는 30B-A3B hybrid MoE이며 Conv3D, EVS, 256K 컨텍스트를 갖췄다. 의미는 분명하다. 화면을 읽고, 문서를 훑고, 음성을 따라가면서 긴 문맥을 유지해야 하는 워크로드를 하나의 모델로 밀어붙이겠다는 구상이다.

배포 경로도 넓다. Hugging Face, OpenRouter, build.nvidia.com, 그리고 25개 이상 파트너 플랫폼에서 사용할 수 있다고 NVIDIA는 적었다. 초기 사례로는 H Company가 거론됐다. 이 회사는 Nemotron 3 Nano Omni를 붙인 computer-use 에이전트가 1920x1080 해상도의 화면 기록을 빠르게 해석할 수 있었고, OSWorld 예비 평가에서도 GUI 탐색 성능이 크게 뛰었다고 설명했다. 이 대목은 단순 데모보다 실전형 신호에 가깝다.

오픈 멀티모달 경쟁의 질문도 바뀌고 있다. 이제 관건은 “보고 듣는가”가 아니라 “그 과정을 충분히 싸고 빠르게 반복할 수 있는가”이다. Nemotron 3 Nano Omni가 독립 벤치마크에서도 비슷한 결과를 내는지는 더 봐야 한다. 그래도 이번 공개가 던진 메시지는 분명하다. 차세대 에이전트 인프라는 정확도만큼 처리량과 배포 유연성으로 평가받는다.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment