NVIDIA Nemotron 3 Nano Omni — 비전·음성·언어 통합, 동급 대비 처리량 9배
하나의 모델로 비디오·오디오·이미지·텍스트 처리
NVIDIA는 2026년 4월 28일 Nemotron 3 Nano Omni를 공개했다. 허깅페이스, OpenRouter, build.nvidia.com을 포함한 25개 이상 플랫폼에서 즉시 사용 가능하다.
기술 사양
- 아키텍처: 30B-A3B 하이브리드 MoE (Conv3D, EVS 포함)
- 컨텍스트: 256K 토큰
- 처리 범위: 비디오, 오디오, 이미지, 텍스트 통합
- 성능: 동급 오픈 옴니 모델 대비 9배 높은 처리량
멀티모달 에이전트를 겨냥한 설계
기존 멀티모달 파이프라인은 시각 처리, 음성 인식, 언어 모델을 별도로 연결해야 했다. Nemotron 3 Nano Omni는 이를 하나의 모델에 통합해 지연 시간과 인프라 복잡성을 줄였다.
도입 현황
Aible, ASI, Eka Care, Foxconn, H Company, Palantir, Pyler가 이미 도입했으며, Dell Technologies, Docusign, Infosys, Oracle, Zefr가 평가 중이다.
출처: NVIDIA Blog
Related Articles
HN은 이번 일을 단순한 호스팅 이동으로 읽지 않았다. GitHub에 애정이 깊던 maintainer가 더는 못 버티겠다고 나서는 순간, reliability와 product focus 문제는 배경 소음이 아니라 경고가 된다.
HN 반응은 “와, 또 음성 모델”보다 “이번엔 정확히 뭐가 공개된 거지?”에 가까웠다. VibeVoice는 50개 이상 언어를 다루는 장시간 ASR과 실시간 TTS를 내세우지만, 커뮤니티는 예전 코드 철회 이력과 현재 공개 범위를 먼저 따졌다.
미 국방부가 5월 1일 Amazon, Google, Microsoft, NVIDIA, OpenAI, SpaceX, Reflection AI와 기밀 군사 네트워크 AI 배포 협약을 체결했다. 안전 가드레일을 주장한 Anthropic은 명단에서 빠졌다.
Comments (0)
No comments yet. Be the first to comment!