NVIDIA Nemotron 3 Nano Omni 등장… 오픈 멀티모달 에이전트 9배 가속
Original: NVIDIA Launches Nemotron 3 Nano Omni Model, Unifying Vision, Audio and Language for up to 9x More Efficient AI Agents View original →
멀티모달 에이전트는 지금까지 화면 인식, 음성 이해, 언어 추론을 서로 다른 모델에 나눠 맡기면서 지연과 비용을 감수해왔다. NVIDIA가 4월 28일 공개한 블로그에서 내세운 핵심도 바로 이 지점이다. Nemotron 3 Nano Omni는 같은 상호작용 조건에서 다른 오픈 omni 모델 대비 최대 9배 높은 처리량을 제시했다. 수치가 그대로 재현된다면, 멀티모달 에이전트의 채산성부터 달라진다.
NVIDIA 설명에 따르면 이 모델은 복잡한 문서 이해, 비디오 이해, 오디오 이해 영역에서 6개 리더보드 정상을 기록했다. 구조는 30B-A3B hybrid MoE이며 Conv3D, EVS, 256K 컨텍스트를 갖췄다. 의미는 분명하다. 화면을 읽고, 문서를 훑고, 음성을 따라가면서 긴 문맥을 유지해야 하는 워크로드를 하나의 모델로 밀어붙이겠다는 구상이다.
배포 경로도 넓다. Hugging Face, OpenRouter, build.nvidia.com, 그리고 25개 이상 파트너 플랫폼에서 사용할 수 있다고 NVIDIA는 적었다. 초기 사례로는 H Company가 거론됐다. 이 회사는 Nemotron 3 Nano Omni를 붙인 computer-use 에이전트가 1920x1080 해상도의 화면 기록을 빠르게 해석할 수 있었고, OSWorld 예비 평가에서도 GUI 탐색 성능이 크게 뛰었다고 설명했다. 이 대목은 단순 데모보다 실전형 신호에 가깝다.
오픈 멀티모달 경쟁의 질문도 바뀌고 있다. 이제 관건은 “보고 듣는가”가 아니라 “그 과정을 충분히 싸고 빠르게 반복할 수 있는가”이다. Nemotron 3 Nano Omni가 독립 벤치마크에서도 비슷한 결과를 내는지는 더 봐야 한다. 그래도 이번 공개가 던진 메시지는 분명하다. 차세대 에이전트 인프라는 정확도만큼 처리량과 배포 유연성으로 평가받는다.
Related Articles
이 릴리스가 큰 이유는 대형 모델 한 묶음이 닫힌 API가 아니라 느슨한 라이선스로 바로 풀렸기 때문이다. MiMo-V2.5는 1M 토큰 컨텍스트, 상용 사용과 파인튜닝을 허용하는 MIT 라이선스, 그리고 GDPVal-AA·ClawEval 오픈모델 1위를 내세운 Pro 버전을 함께 내놨다.
멀티모달 에이전트는 아직 비전·오디오·텍스트 모델을 따로 엮느라 비용과 지연을 치른다. NVIDIA는 Nemotron 3 Nano Omni로 30B 파라미터, 256K 문맥, 동일 반응성 기준 영상 추론 시스템 용량 최대 9.2배를 내세웠다.
NVIDIA는 2026년 4월 2일 Google의 최신 Gemma 4 모델을 RTX PC, DGX Spark, Jetson edge module에 맞춰 최적화했다고 밝혔다. 핵심은 compact multimodal model을 cloud 바깥의 실제 local agent stack으로 밀어 넣는 데 있다.
Comments (0)
No comments yet. Be the first to comment!