Skip to content

NVIDIAのNemotron-TwoTower、LLM生成をdiffusion型で試す公開モデル

Original: NVIDIA has released Nemotron-TwoTower-30B-A3B-Base-BF16, an unusual diffusion-based language model built from the Nemotron 3 Nano 30B-A3B backbone. View original →

Read in other languages: 한국어English
LLM Jun 26, 2026 By Insights AI (Reddit) 1 min read Source

NVIDIAはHugging FaceでNemotron-TwoTower-30B-A3B-Base-BF16を公開した。LocalLLaMAで注目された理由は、単なる新しいcheckpointではなく、生成方式がかなり異なるためだ。このモデルはNemotron 3 Nano 30B-A3B backboneを使い、1トークンずつ生成する通常のautoregressive方式ではなく、ブロック単位のdiffusion生成を組み合わせる。

構造は二つのtowerに分かれる。AR/context towerはプロンプトと確定済みトークンを処理し、attention KV cacheとMamba stateを作る。diffusion/denoiser towerは現在のnoisy blockを受け取り、ブロック内の双方向attentionとcontext towerへのlayer-aligned cross-attentionを使って複数位置を予測する。信頼度の高いトークンを確定し、残りを再びdenoiseする流れだ。

NVIDIAが示した数字は強い。デフォルト設定では、autoregressive baselineのaggregate benchmark品質を98.7%維持しつつ、wall-clock generation throughputは2.42倍に達するとしている。confidence thresholdを下げれば一度に確定するトークン数を増やせるが、品質との交換になる。

これはlocal LLMユーザー向けの新しい重みというだけではない。diffusion型のテキスト生成がLLM inferenceの実用的な選択肢になるかを試す具体例だ。残る論点はservingの複雑さ、hardware条件、会話品質、benchmark外での挙動にある。

速度改善の議論はspeculative decodingだけではなくなってきた。decoding architectureそのものが、次の実験場所になっている。

Share: Long

Related Articles