NVIDIA, 256K 문맥의 30B 옴니 모델 공개… 기업형 영상 추론 처리량은 최대 9.2배

왜 이 숫자가 먼저 보이나

멀티모달 에이전트의 병목은 모델 성능 하나가 아니라 조합 비용인 경우가 많다. 비전 모델, 오디오 모델, 텍스트 모델을 따로 이어 붙이면 추론 홉이 늘고, 문맥 일관성도 흔들린다. NVIDIA가 4월 28일 X에 올린 Nemotron 3 Nano Omni 포스트는 바로 그 비용 구조를 겨냥한다. 회사는 이 모델을 "30B parameters. 256K context length."라는 짧은 문장으로 묶었지만, 실은 멀티모달 서브에이전트를 한 모델로 모으겠다는 제안에 가깝다.

"30B parameters. 256K context length."

NVIDIA AI 계정은 Nemotron, NeMo, 배포 스택 업데이트를 한데 묶어 내보내는 릴리스 채널 성격이 강하다. 이번에도 공식 기술 블로그가 곧바로 붙었다. 블로그는 Nemotron 3 Nano Omni를 30B total / 3B active 하이브리드 MoE로 설명하면서, 문서·영상·오디오·이미지를 따로 쪼갠 파이프라인 대신 하나의 인식 서브에이전트로 쓰겠다는 방향을 분명히 적었다. 이 접근이 먹히면 멀티모달 워크플로 설계 자체가 단순해진다.

주장도 꽤 공격적이다. NVIDIA는 MMlongbench-Doc, OCRBenchV2, WorldSense, DailyOmni, VoiceBench 같은 벤치마크에서 선두권 정확도를 내세웠고, 같은 반응성 기준에서 영상 추론 시스템 용량이 대안 오픈 옴니 모델 대비 최대 9.2배, 다문서 추론은 최대 7.4배라고 적었다. 여기에 오픈 가중치뿐 아니라 데이터셋과 학습 레시피도 함께 풀었고, 약 127B 멀티모달 토큰, 124M 큐레이션 예제, 25개 환경에 걸친 RL 데이터셋 정보까지 공개했다. 단순 모델 카드 한 장이 아니라 스택 전체를 공개하겠다는 쪽에 가깝다.

다음은 외부 재현이다. 미디어 벤치마크 수치가 다른 하드웨어와 서빙 엔진에서도 그대로 나오는지, 그리고 vLLM·TensorRT-LLM·OpenClaw 같은 도구 체인과 결합했을 때 실전 이득이 얼마나 큰지가 핵심이다. 만약 숫자가 유지된다면, 이번 트윗은 멀티모달 에이전트를 여러 모델 묶음에서 단일 인식 계층으로 재편하려는 흐름의 기준점이 될 수 있다. 출처: NVIDIA AI 원문 트윗 · 공식 기술 블로그

NVIDIA, 256K 문맥의 30B 옴니 모델 공개… 기업형 영상 추론 처리량은 최대 9.2배

왜 이 숫자가 먼저 보이나

Related Articles

AgentPerf 첫 공개, GB300이 H200보다 MW당 coding agent 20배 처리

NVIDIA, Nemotron Nano 12B v2 VL을 온프레미스 영상 이해용 경량 오픈 모델로 전면 배치

FrontierCode, “테스트 통과”보다 “merge할 코드인가”를 묻는 평가

Related Articles

AgentPerf 첫 공개, GB300이 H200보다 MW당 coding agent 20배 처리

NVIDIA, Nemotron Nano 12B v2 VL을 온프레미스 영상 이해용 경량 오픈 모델로 전면 배치
LLM X/Twitter Mar 25, 2026 1 min read

FrontierCode, “테스트 통과”보다 “merge할 코드인가”를 묻는 평가