NVIDIA Nemotron 3 Nano Omni、オープン型マルチモーダルを9倍加速

マルチモーダルエージェントは、画面理解、音声理解、言語推論を別々のモデルに分けることで、遅延とコストを抱え込んできた。NVIDIAが4月28日のブログで打ち出したNemotron 3 Nano Omniは、その構造的な無駄を減らすことに狙いを置く。最大9倍高いスループットという主張が本番環境でも通るなら、派手なデモよりも先にエージェント運用の採算ラインが変わる。

NVIDIAによれば、このモデルは複雑な文書理解、動画理解、音声理解で6つのリーダーボード首位を獲得した。構成は30B-A3Bのhybrid MoEで、Conv3D、EVS、256Kコンテキストを備える。画面を見て、文書を読み、音声を追い、長い文脈を維持する処理を1つのモデルで回したいチームにとって、かなり直球の設計だ。

配布面も広い。Hugging Face、OpenRouter、build.nvidia.comに加え、25以上のパートナープラットフォームで利用可能だという。初期事例として挙げられたH Companyは、1920x1080のフルHD画面記録を高速に解釈でき、OSWorldの予備評価でもGUI操作の質が大きく伸びたと説明されている。computer-use系で重要なのは認識精度だけでなく、遅れずに画面を追えるかどうかなので、この事例は意味が重い。

オープン型マルチモーダル競争の軸は、「見えて聞こえるか」から「それを十分に速く安く回せるか」へ移りつつある。Nemotron 3 Nano Omniには独立した検証がまだ必要だが、今回の公開が示した方向は明確だ。次のエージェント基盤は、性能だけでなく、スループット、配布の広さ、文脈保持の強さで選別される。

LLM sources.twitter 2d ago 1 min read

Xiaomi、MiMo-V2.5をMIT公開　1Mコンテキストで商用利用まで解放

重要なのは、かなり大きいモデル群が閉じたAPIではなく緩い条件で開いたことだ。MiMo-V2.5は1Mトークンの文脈長とMITライセンスを掲げ、Pro版ではGDPVal-AAとClawEvalのオープンモデル首位も前面に出した。

#xiaomi #mimo-v2.5 #open-source

LLM sources.twitter 1d ago 1 min read

NVIDIA、256K文脈の30Bオムニモデル公開　動画推論容量は最大9.2倍、マルチ文書も7.4倍

マルチモーダルエージェントは、視覚・音声・テキストを別モデルでつなぐ分だけ遅く高くなりがちだ。NVIDIAはNemotron 3 Nano Omniでその構成を1本化し、30B・256K文脈、同じ応答性条件で動画推論の実効容量最大9.2倍を打ち出した。

#nvidia #nemotron-3-nano-omni #multimodal

LLM Apr 11, 2026 1 min read

NVIDIA、Gemma 4 を RTX PC・DGX Spark・Jetson 向けに最適化　local agentic AI を前進

NVIDIAは2026年4月2日、Google の最新 Gemma 4 model を RTX PC、DGX Spark、Jetson edge module 向けに最適化したと発表した。狙いは compact multimodal model を cloud の外にある実用的な local agent stack へ押し出すことにある。

#nvidia #gemma-4 #rtx

NVIDIA Nemotron 3 Nano Omni、オープン型マルチモーダルを9倍加速

Related Articles

Xiaomi、MiMo-V2.5をMIT公開　1Mコンテキストで商用利用まで解放

NVIDIA、256K文脈の30Bオムニモデル公開　動画推論容量は最大9.2倍、マルチ文書も7.4倍

NVIDIA、Gemma 4 を RTX PC・DGX Spark・Jetson 向けに最適化　local agentic AI を前進

Comments (0)

Leave a Comment

Related Articles

Xiaomi、MiMo-V2.5をMIT公開 1Mコンテキストで商用利用まで解放

NVIDIA、256K文脈の30Bオムニモデル公開 動画推論容量は最大9.2倍、マルチ文書も7.4倍

NVIDIA、Gemma 4 を RTX PC・DGX Spark・Jetson 向けに最適化 local agentic AI を前進

Comments (0)

Leave a Comment

Xiaomi、MiMo-V2.5をMIT公開　1Mコンテキストで商用利用まで解放

NVIDIA、256K文脈の30Bオムニモデル公開　動画推論容量は最大9.2倍、マルチ文書も7.4倍

NVIDIA、Gemma 4 を RTX PC・DGX Spark・Jetson 向けに最適化　local agentic AI を前進