Nemotron 3 Ultra、550B MoEでエージェント推論5倍と30%コスト削減を提示
Original: NVIDIA Nemotron 3 Ultra targets agent workloads with 550B MoE model View original →
長時間エージェント向けの550B MoE
エージェント型AIでは、能力だけでなく推論速度と運用コストが直接の制約になる。NVIDIA AIは6月4日の投稿で、Nemotron 3 Ultraを“550B MoE frontier-intelligence open model”と表現し、長時間動くエージェント向けに作られたと説明した。原文はXで読める。
投稿に含まれる数字は2つだ。他のオープンなフロンティアモデルと比べて推論が5倍速く、複雑なエージェント作業のコストを最大30%下げるという。550Bという規模も大きいが、運用上の焦点はMoE構造にある。リクエストごとに一部の専門家だけを使えるなら、巨大モデルでも毎回フルの密モデル費用を払わずに能力を引き出せる可能性がある。
NVIDIA AIのアカウントは、GPU、推論基盤、企業向けAIインフラに関わる投稿が多い。今回も論文紹介というより、エージェント実行環境に向けたモデル投入のメッセージに近い。FxTwitterで確認した投稿は48時間以内のもので、動画は添付されていたが、ツイート自体には独立したリポジトリや技術レポートへのリンクは見当たらなかった。
次に見るべきなのは外部検証だ。エージェントのコストは文脈長、ツール呼び出し、再試行、サービング構成で大きく変わる。30%削減という数字が実運用で再現されるかは、モデルカード、ライセンス、重みやAPIの提供形態、そして短いプロンプトではなく多段タスクでの第三者ベンチマークによって判断される。
Related Articles
NVIDIAは550BパラメータのMoEモデルを、Agent ToolkitやOpenShellと一体で打ち出した。最大5倍の推論速度、最大30%のコスト低下、6月4日の提供開始が焦点になる。
r/LocalLLaMAでは、NVIDIAが今後5年間でopen-weight AI modelに$26 billionを投じる可能性があるという報道が急速に広まったが、実際の論点は数字そのものより戦略にあった。March 2026に公開されたNemotron 3 Superは、NVIDIAがopen model、tooling、Blackwell最適化deploymentを一体で押し出していることを示す最も明確な証拠だ。
NVIDIA AI Developerは2026年3月11日、12B active parametersを用いるオープン120B-parameter hybrid MoEモデル Nemotron 3 Super を発表した。NVIDIAはnative 1M-token contextと、前世代Nemotron Super比で最大5倍のthroughputを強調している。