r/LocalLLaMAが見たNVIDIA Nemotron 3 Super公開
Original: Nemotron 3 Super Released View original →
なぜこのreleaseがLocalLLaMAで動いたのか
NVIDIAはNemotron 3 Superを、単なるfrontier modelの宣伝ではなくagentic reasoning向けmodelとして打ち出した。公式blogによれば、これは120B total、12B active-parameterのhybrid Mamba-Transformer MoEで、software developmentやcybersecurity triagingのようなdense technical taskを狙っている。さらにnative 1M-token context window、previous Nemotron Super比でover 5x throughput、そしてfully openなweights、datasets、recipesを前面に置き、multi-agent workflowで重くなりがちな「thinking tax」を下げると説明している。
しかしr/LocalLLaMA threadが本当に反応したのはheadline sizeだけではない。commentersはすぐにBF16、NVFP4、GGUFのlinkを集め、64GB級machineでどこまで現実的に動くのか、mainline llama.cpp supportはいつ追いつくのかを議論した。これこそLocalLLaMAらしい反応だ。press languageよりdeployabilityを先に見る。
技術面で目立つ点
NVIDIAは、このmodelがsequence efficiency向けのMamba layerとprecision reasoning向けのTransformer layerを組み合わせ、Blackwell向けNVFP4 pretraining、21 environment configurationでのRL post-training、1.2 millionを超えるenvironment rolloutsを備えると述べている。open releaseであることも大きい。この規模のmodelでweights、datasets、recipesが公開されれば、communityはquantization、adaptation、toolchain integrationを自分たちで前へ進められるからだ。
直近の焦点はecosystem supportである。いくつかのReddit commentは、mainline llama.cpp supportがまだ追従中で、Unsloth branchや初期GGUF buildがその隙間を埋めていると指摘した。したがってこの話の本質は、NVIDIAのarchitecture pitchだけではない。このopen releaseがcommunity stackへ十分速く入り込み、眺めるだけのmodel cardではなく実際に使えるlocal reasoning optionになれるかどうかにある。
Related Articles
r/LocalLLaMAで共有されたFlashAttention-4は、B200 BF16で最大1605 TFLOPs/sを報告し、Blackwell世代のメモリ/SFU制約を前提にした新しいattention最適化を示した。
NVIDIA AI Developerは2026年3月11日、12B active parametersを用いるオープン120B-parameter hybrid MoEモデル Nemotron 3 Super を発表した。NVIDIAはnative 1M-token contextと、前世代Nemotron Super比で最大5倍のthroughputを強調している。
Googleの2026年2月Geminiアップデートは、Gemini 3.1 Pro、Deep Think、Nano Banana 2、Veo Templates、新しいCanvas機能をまとめて投入した。今回のdropは、Gemini appを単なるchat surfaceではなく、reasoning、image、music、video workflowsの前面インターフェースとして強化する動きだ。
Comments (0)
No comments yet. Be the first to comment!