NVIDIA、multi-agent AI向け Nemotron 3 Super を公開
Original: Introducing NVIDIA Nemotron 3 Super 🎉 Open 120B-parameter (12B active) hybrid Mamba-Transformer MoE model Native 1M-token context Built for compute-efficient, high-accuracy multi-agent applications Plus, fully open weights, datasets and recipes for easy customization and deployment. 🧵 View original →
Xで示された発表内容
NVIDIA AI Developerは2026年3月11日、Nemotron 3 Superを公開し、これを120B-parameterのhybrid Mamba-Transformer MoEモデルとして紹介した。inference時に有効になるのは12B active parametersで、投稿ではnative 1M-token context、compute-efficientなmulti-agent用途、そしてopen weights・datasets・recipesの提供が前面に出されている。
今回のポイントは、単なる性能更新ではなく、agent運用で顕在化する実務上の制約を明確に狙っていることだ。長時間ワークフローではcontextが膨らみ、reasoningコストが積み上がり、throughputがそのまま運用上の制約になる。NVIDIAはそこに対する解を打ち出している。
NVIDIA公式ブログの補足
NVIDIAの公式ブログによれば、Nemotron 3 Superは前世代のNemotron Super比で最大5x higher throughput、最大2x higher accuracyを実現するとされる。背景として、Mamba layer、transformer reasoning、sparse MoE activation、multi-token predictionを組み合わせたhybrid architectureが挙げられている。さらに、モデルはNVIDIA Blackwell向けに最適化され、NVFP4 precisionを用いながら、multi-agent systemで問題になる「context explosion」と「thinking tax」を抑える設計だという。
- NVIDIAは、同規模モデルの中で効率性とopennessの両面でArtificial Analysis上位に立ったと説明している。
- ブログでは、Nemotron 3 SuperがNVIDIA AI-QをDeepResearch BenchおよびDeepResearch Bench IIの首位へ押し上げたとも述べている。
- 加えて、permissive licenseのopen weightsに加え、10兆超のpre/post-training dataset token、15のreinforcement-learning training environment、evaluation recipeを公開するとしている。
AI/IT実務への意味
実務面で重要なのは、長いcontextとsparse activationの組み合わせだ。1M-tokenのwindowだけでは不十分で、それを維持できる推論コストが伴わなければ現場では使いにくい。NVIDIAは12B active parametersの構成によって、長文脈と実運用コストの折り合いをつけられると主張している。
また、このリリースはopen-model ecosystemへの供給面でも大きい。weights、training recipe、evaluation artifactが実際に使える形で揃うなら、coding agentやresearch agent、retrieval-heavyなenterprise workflowを作るチームにとって、有力な選択肢が増える。最終的な判断材料は各社のproduction stackで性能が再現するかどうかだが、今回の発表は明確にその用途を狙ったものだ。
Related Articles
Microsoftは、Fireworks AIがMicrosoft Foundryに加わり、Azureでhigh-performanceかつlow-latencyなopen model inferenceを提供すると発表した。day-zero access、custom model持ち込み、enterprise controlを一体で扱える点が中核だ。
r/LocalLLaMAで共有されたFlashAttention-4は、B200 BF16で最大1605 TFLOPs/sを報告し、Blackwell世代のメモリ/SFU制約を前提にした新しいattention最適化を示した。
NVIDIAのNemotron 3 Superは、120B total / 12B activeのhybrid Mamba-Transformer MoE、native 1M-token context、そしてopen weights・datasets・recipesを前面に出している。LocalLLaMA discussionは、そのopennessとefficiency claimが実際のhome-lab deploymentに結びつくかを中心に見ていた。
Comments (0)
No comments yet. Be the first to comment!