NVIDIA、256K文脈の30Bオムニモデル公開 動画推論容量は最大9.2倍、マルチ文書も7.4倍
Original: NVIDIA opens a 30B omni model with 256K context and 9.2x video capacity View original →
なぜ性能より構成が効くのか
マルチモーダルエージェントの弱点は、モデル単体の精度だけではない。視覚、音声、テキストを別々の系でつなぐほど、遅延も運用コストも増え、文脈の受け渡しも崩れやすくなる。NVIDIAが4月28日にXへ出したNemotron 3 Nano Omniの投稿は、その構成コストを正面から崩しにきた。投稿では"30B parameters. 256K context length."と短くまとめているが、実際の狙いは動画・音声・画像・文章をひとつの認識層へ寄せることにある。
"30B parameters. 256K context length."
NVIDIA AIのアカウントは、NemotronやNeMoまわりの公開情報が最初に出るリリース面の色が強い。今回も公式技術ブログがすぐ続き、Nemotron 3 Nano Omniを30B総量 / 3B活性のハイブリッドMoEとして説明している。文書、動画、音声、画像の理解をバラバラのモデルで処理するのではなく、より大きなエージェント系の中で認識と文脈維持を担うサブエージェントとして使う設計だという。
注目すべきは精度の言い方より、運用時の容量指標だ。NVIDIAはMMlongbench-Doc、OCRBenchV2、WorldSense、DailyOmni、VoiceBenchで高い精度を示したうえで、同じ応答性条件なら動画推論の実効システム容量が最大9.2倍、複数文書推論でも最大7.4倍になるとしている。さらに、重みだけでなくデータセットと学習レシピも公開し、約127Bのマルチモーダル学習トークン、124Mの事後学習サンプル、25環境にまたがるRLデータまで開示した。モデル単体ではなく、積み上げ全体を見せる公開だ。
次に見るべきは、これらの数字が外部の検証環境でも残るかどうかだ。vLLMやTensorRT-LLM、下流のエージェント基盤が同じ効率を出せるなら、この投稿は単なる新モデルの紹介では終わらない。マルチモーダル認識を複数モデルの寄せ集めから一段下の共通レイヤーへ押し込む転換点として記憶される可能性がある。出典: NVIDIA AI元投稿 · 公式技術ブログ
Related Articles
NVIDIAは2026年3月25日、Nemotron Nano 12B v2 VLがオンプレミスのvideo understandingを支え、同社の説明ではMediaPerf benchmarkで30B級代替に近い結果をより小さなfootprintで示したと発表した。NVIDIAのモデルカードはこれをmulti-image reasoning、video understanding、visual Q&A、summarization向けの商用利用可能なマルチモーダルモデルとして説明している。
NVIDIA AI PCは2026年4月2日のXで、Gemma 4 モデル群が RTX GPU と DGX Spark 向けに最適化され、とくに 26B と 31B が local agentic AI に適していると述べた。NVIDIA の公式 blog では、この協業が RTX PC、workstation、DGX Spark、Jetson Orin Nano、data center 配備までをカバーし、native tool use、multimodal input、Ollama と llama.cpp による local runtime を支えると説明している。
r/LocalLLaMAのMacBook Air M5 benchmarkは、Qwen 3.6 35B-A3Bの89.6% HumanEval+だけでなく、RAMとtok/sを一緒に見る実用的な視点を出した。
Comments (0)
No comments yet. Be the first to comment!