LLM X/Twitter Apr 29, 2026 1 min read
マルチモーダルエージェントは、視覚・音声・テキストを別モデルでつなぐ分だけ遅く高くなりがちだ。NVIDIAはNemotron 3 Nano Omniでその構成を1本化し、30B・256K文脈、同じ応答性条件で動画推論の実効容量最大9.2倍を打ち出した。
マルチモーダルエージェントは、視覚・音声・テキストを別モデルでつなぐ分だけ遅く高くなりがちだ。NVIDIAはNemotron 3 Nano Omniでその構成を1本化し、30B・256K文脈、同じ応答性条件で動画推論の実効容量最大9.2倍を打ち出した。