NVIDIA TwoTower、品質98.7%維持で生成速度2.42倍の拡散LLMを研究公開へ進む実装

1 tokenずつ書く制約への別解

LLMの推論を遅くする大きな要因は、出力を1 tokenずつ順番に生成する仕組みである。NVIDIA ResearchのNemotron-Labs-TwoTowerは、この制約に対してtwo-tower diffusionという経路を取った。30B級Nemotron backboneを、文脈を保持するtowerとtoken blockを埋めるdenoiser towerに分け、複数tokenを並列に確定する設計である。

“We found it kept 98.7% of the original model’s quality at 2.42× faster generation.”

出典tweetは2026年7月1日19:00:01 UTCに投稿され、今回の48時間条件を満たす。NVIDIA AIの公式アカウントは、研究、developer tooling、AI infrastructureの更新を多く扱う。この投稿は、単なるmodel releaseではなく、architectureと測定されたtradeoffを同時に示した点で材料性が高い。続く投稿はHugging Face上のNemotron-Labs-TwoTower-30B-A3B-Base-BF16 checkpointへ誘導している。

model cardによると、TwoTowerはNVIDIA-Nemotron-3-Nano-30B-A3B-Base-BF16 backbone上に作られたblock-wise autoregressive diffusion language modelである。Context towerはclean promptと過去tokenを処理し、denoiser towerはmaskされたblockを反復的に埋める。default設定はconfidence unmasking、block size 16、2基のH100 GPUで、autoregressive baselineに対してaggregate benchmark品質98.7%、wall-clock generation throughput 2.42倍を示した。

ただし、速度向上は無償ではない。model cardの例では、MMLUはbaseline 78.56に対して78.24とほぼ維持される一方、HumanEvalは79.27から75.58、MATH-500は84.40から80.60へ下がる。つまり、この結果はすべてのtaskで完全に同じ品質を保つ話ではなく、latencyとthroughputを重視する用途で選べる新しいtradeoffを示している。

次に見るべきなのは、long context、code editing、tool call、多言語生成、安全filter付きの実運用で同じ利得が残るかである。もう一つの焦点はserving costだ。公開checkpointは両towerを含み、default評価は2 H100 GPUで動く。token生成が速くなっても、全体の提供コストが下がらなければ、製品環境での価値は限定される。

NVIDIA TwoTower、品質98.7%維持で生成速度2.42倍の拡散LLMを研究公開へ進む実装

1 tokenずつ書く制約への別解

Related Articles

NVIDIAのNemotron-TwoTower、LLM生成をdiffusion型で試す公開モデル

NVIDIA、Nemotron Nano 12B v2 VLをオンプレ動画理解向けの軽量オープンモデルとして前面に

Nemotron 3 Ultra、550B MoEでエージェント推論5倍と30%コスト削減を提示