NVIDIAのNemotron-TwoTower、LLM生成をdiffusion型で試す公開モデル
Original: NVIDIA has released Nemotron-TwoTower-30B-A3B-Base-BF16, an unusual diffusion-based language model built from the Nemotron 3 Nano 30B-A3B backbone. View original →
NVIDIAはHugging FaceでNemotron-TwoTower-30B-A3B-Base-BF16を公開した。LocalLLaMAで注目された理由は、単なる新しいcheckpointではなく、生成方式がかなり異なるためだ。このモデルはNemotron 3 Nano 30B-A3B backboneを使い、1トークンずつ生成する通常のautoregressive方式ではなく、ブロック単位のdiffusion生成を組み合わせる。
構造は二つのtowerに分かれる。AR/context towerはプロンプトと確定済みトークンを処理し、attention KV cacheとMamba stateを作る。diffusion/denoiser towerは現在のnoisy blockを受け取り、ブロック内の双方向attentionとcontext towerへのlayer-aligned cross-attentionを使って複数位置を予測する。信頼度の高いトークンを確定し、残りを再びdenoiseする流れだ。
NVIDIAが示した数字は強い。デフォルト設定では、autoregressive baselineのaggregate benchmark品質を98.7%維持しつつ、wall-clock generation throughputは2.42倍に達するとしている。confidence thresholdを下げれば一度に確定するトークン数を増やせるが、品質との交換になる。
これはlocal LLMユーザー向けの新しい重みというだけではない。diffusion型のテキスト生成がLLM inferenceの実用的な選択肢になるかを試す具体例だ。残る論点はservingの複雑さ、hardware条件、会話品質、benchmark外での挙動にある。
速度改善の議論はspeculative decodingだけではなくなってきた。decoding architectureそのものが、次の実験場所になっている。
Related Articles
NVIDIA AI Developerは2026年3月11日、12B active parametersを用いるオープン120B-parameter hybrid MoEモデル Nemotron 3 Super を発表した。NVIDIAはnative 1M-token contextと、前世代Nemotron Super比で最大5倍のthroughputを強調している。
オープンモデル競争は順位表だけでなく、長時間エージェントの運用コストへ移っている。NVIDIAはNemotron 3 Ultraについて、5倍高速な推論と最大30%低い複雑タスク費用を示した。
LLM inferenceで高いのはGPUだけでなく、実験そのものだ。NVIDIAはDynoSimが23,608 requestのtraceをApple M4 MacBook Air上で2.41秒で再生し、60.1分のserving windowを約1,500倍速で模擬したと示した。