NVIDIA、256K文脈の30Bオムニモデル公開　動画推論容量は最大9.2倍、マルチ文書も7.4倍

なぜ性能より構成が効くのか

マルチモーダルエージェントの弱点は、モデル単体の精度だけではない。視覚、音声、テキストを別々の系でつなぐほど、遅延も運用コストも増え、文脈の受け渡しも崩れやすくなる。NVIDIAが4月28日にXへ出したNemotron 3 Nano Omniの投稿は、その構成コストを正面から崩しにきた。投稿では"30B parameters. 256K context length."と短くまとめているが、実際の狙いは動画・音声・画像・文章をひとつの認識層へ寄せることにある。

"30B parameters. 256K context length."

NVIDIA AIのアカウントは、NemotronやNeMoまわりの公開情報が最初に出るリリース面の色が強い。今回も公式技術ブログがすぐ続き、Nemotron 3 Nano Omniを30B総量 / 3B活性のハイブリッドMoEとして説明している。文書、動画、音声、画像の理解をバラバラのモデルで処理するのではなく、より大きなエージェント系の中で認識と文脈維持を担うサブエージェントとして使う設計だという。

注目すべきは精度の言い方より、運用時の容量指標だ。NVIDIAはMMlongbench-Doc、OCRBenchV2、WorldSense、DailyOmni、VoiceBenchで高い精度を示したうえで、同じ応答性条件なら動画推論の実効システム容量が最大9.2倍、複数文書推論でも最大7.4倍になるとしている。さらに、重みだけでなくデータセットと学習レシピも公開し、約127Bのマルチモーダル学習トークン、124Mの事後学習サンプル、25環境にまたがるRLデータまで開示した。モデル単体ではなく、積み上げ全体を見せる公開だ。

次に見るべきは、これらの数字が外部の検証環境でも残るかどうかだ。vLLMやTensorRT-LLM、下流のエージェント基盤が同じ効率を出せるなら、この投稿は単なる新モデルの紹介では終わらない。マルチモーダル認識を複数モデルの寄せ集めから一段下の共通レイヤーへ押し込む転換点として記憶される可能性がある。出典: NVIDIA AI元投稿 · 公式技術ブログ

NVIDIA、256K文脈の30Bオムニモデル公開　動画推論容量は最大9.2倍、マルチ文書も7.4倍

なぜ性能より構成が効くのか

Related Articles

NVIDIA、Nemotron Nano 12B v2 VLをオンプレ動画理解向けの軽量オープンモデルとして前面に

NVIDIA と Google、Gemma 4 を RTX GPU と DGX Spark 上の local agentic AI 向けに前面展開

MacBook Air M5でlocal coding LLM 21個比較、LocalLLaMAが欲しかった実測値

Comments (0)

Leave a Comment

Related Articles

NVIDIA、Nemotron Nano 12B v2 VLをオンプレ動画理解向けの軽量オープンモデルとして前面に
LLM sources.twitter Mar 25, 2026 1 min read

NVIDIA と Google、Gemma 4 を RTX GPU と DGX Spark 上の local agentic AI 向けに前面展開
LLM sources.twitter Apr 12, 2026 1 min read

MacBook Air M5でlocal coding LLM 21個比較、LocalLLaMAが欲しかった実測値
r/LocalLLaMAのMacBook Air M5 benchmarkは、Qwen 3.6 35B-A3Bの89.6% HumanEval+だけでなく、RAMとtok/sを一緒に見る実用的な視点を出した。