NVIDIA、256K文脈の30Bオムニモデル公開 動画推論容量は最大9.2倍、マルチ文書も7.4倍

Original: NVIDIA opens a 30B omni model with 256K context and 9.2x video capacity View original →

Read in other languages: 한국어English
LLM Apr 29, 2026 By Insights AI 1 min read Source

なぜ性能より構成が効くのか

マルチモーダルエージェントの弱点は、モデル単体の精度だけではない。視覚、音声、テキストを別々の系でつなぐほど、遅延も運用コストも増え、文脈の受け渡しも崩れやすくなる。NVIDIAが4月28日にXへ出したNemotron 3 Nano Omniの投稿は、その構成コストを正面から崩しにきた。投稿では"30B parameters. 256K context length."と短くまとめているが、実際の狙いは動画・音声・画像・文章をひとつの認識層へ寄せることにある。

"30B parameters. 256K context length."

NVIDIA AIのアカウントは、NemotronやNeMoまわりの公開情報が最初に出るリリース面の色が強い。今回も公式技術ブログがすぐ続き、Nemotron 3 Nano Omniを30B総量 / 3B活性のハイブリッドMoEとして説明している。文書、動画、音声、画像の理解をバラバラのモデルで処理するのではなく、より大きなエージェント系の中で認識と文脈維持を担うサブエージェントとして使う設計だという。

注目すべきは精度の言い方より、運用時の容量指標だ。NVIDIAはMMlongbench-Doc、OCRBenchV2、WorldSense、DailyOmni、VoiceBenchで高い精度を示したうえで、同じ応答性条件なら動画推論の実効システム容量が最大9.2倍、複数文書推論でも最大7.4倍になるとしている。さらに、重みだけでなくデータセットと学習レシピも公開し、約127Bのマルチモーダル学習トークン、124Mの事後学習サンプル、25環境にまたがるRLデータまで開示した。モデル単体ではなく、積み上げ全体を見せる公開だ。

次に見るべきは、これらの数字が外部の検証環境でも残るかどうかだ。vLLMやTensorRT-LLM、下流のエージェント基盤が同じ効率を出せるなら、この投稿は単なる新モデルの紹介では終わらない。マルチモーダル認識を複数モデルの寄せ集めから一段下の共通レイヤーへ押し込む転換点として記憶される可能性がある。出典: NVIDIA AI元投稿 · 公式技術ブログ

Share: Long

Related Articles

LLM sources.twitter Mar 25, 2026 1 min read

NVIDIAは2026年3月25日、Nemotron Nano 12B v2 VLがオンプレミスのvideo understandingを支え、同社の説明ではMediaPerf benchmarkで30B級代替に近い結果をより小さなfootprintで示したと発表した。NVIDIAのモデルカードはこれをmulti-image reasoning、video understanding、visual Q&A、summarization向けの商用利用可能なマルチモーダルモデルとして説明している。

LLM sources.twitter Apr 12, 2026 1 min read

NVIDIA AI PCは2026年4月2日のXで、Gemma 4 モデル群が RTX GPU と DGX Spark 向けに最適化され、とくに 26B と 31B が local agentic AI に適していると述べた。NVIDIA の公式 blog では、この協業が RTX PC、workstation、DGX Spark、Jetson Orin Nano、data center 配備までをカバーし、native tool use、multimodal input、Ollama と llama.cpp による local runtime を支えると説明している。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.