NVIDIA Nemotron 3 Nano Omni、オープン型マルチモーダルを9倍加速
Original: NVIDIA Launches Nemotron 3 Nano Omni Model, Unifying Vision, Audio and Language for up to 9x More Efficient AI Agents View original →
マルチモーダルエージェントは、画面理解、音声理解、言語推論を別々のモデルに分けることで、遅延とコストを抱え込んできた。NVIDIAが4月28日のブログで打ち出したNemotron 3 Nano Omniは、その構造的な無駄を減らすことに狙いを置く。最大9倍高いスループットという主張が本番環境でも通るなら、派手なデモよりも先にエージェント運用の採算ラインが変わる。
NVIDIAによれば、このモデルは複雑な文書理解、動画理解、音声理解で6つのリーダーボード首位を獲得した。構成は30B-A3Bのhybrid MoEで、Conv3D、EVS、256Kコンテキストを備える。画面を見て、文書を読み、音声を追い、長い文脈を維持する処理を1つのモデルで回したいチームにとって、かなり直球の設計だ。
配布面も広い。Hugging Face、OpenRouter、build.nvidia.comに加え、25以上のパートナープラットフォームで利用可能だという。初期事例として挙げられたH Companyは、1920x1080のフルHD画面記録を高速に解釈でき、OSWorldの予備評価でもGUI操作の質が大きく伸びたと説明されている。computer-use系で重要なのは認識精度だけでなく、遅れずに画面を追えるかどうかなので、この事例は意味が重い。
オープン型マルチモーダル競争の軸は、「見えて聞こえるか」から「それを十分に速く安く回せるか」へ移りつつある。Nemotron 3 Nano Omniには独立した検証がまだ必要だが、今回の公開が示した方向は明確だ。次のエージェント基盤は、性能だけでなく、スループット、配布の広さ、文脈保持の強さで選別される。
Related Articles
重要なのは、かなり大きいモデル群が閉じたAPIではなく緩い条件で開いたことだ。MiMo-V2.5は1Mトークンの文脈長とMITライセンスを掲げ、Pro版ではGDPVal-AAとClawEvalのオープンモデル首位も前面に出した。
マルチモーダルエージェントは、視覚・音声・テキストを別モデルでつなぐ分だけ遅く高くなりがちだ。NVIDIAはNemotron 3 Nano Omniでその構成を1本化し、30B・256K文脈、同じ応答性条件で動画推論の実効容量最大9.2倍を打ち出した。
NVIDIAは2026年4月2日、Google の最新 Gemma 4 model を RTX PC、DGX Spark、Jetson edge module 向けに最適化したと発表した。狙いは compact multimodal model を cloud の外にある実用的な local agent stack へ押し出すことにある。
Comments (0)
No comments yet. Be the first to comment!