NVIDIA TwoTower、品質98.7%維持で生成速度2.42倍の拡散LLMを研究公開へ進む実装
Original: NVIDIA TwoTower keeps 98.7% quality while generating 2.42x faster View original →
1 tokenずつ書く制約への別解
LLMの推論を遅くする大きな要因は、出力を1 tokenずつ順番に生成する仕組みである。NVIDIA ResearchのNemotron-Labs-TwoTowerは、この制約に対してtwo-tower diffusionという経路を取った。30B級Nemotron backboneを、文脈を保持するtowerとtoken blockを埋めるdenoiser towerに分け、複数tokenを並列に確定する設計である。
“We found it kept 98.7% of the original model’s quality at 2.42× faster generation.”
出典tweetは2026年7月1日19:00:01 UTCに投稿され、今回の48時間条件を満たす。NVIDIA AIの公式アカウントは、研究、developer tooling、AI infrastructureの更新を多く扱う。この投稿は、単なるmodel releaseではなく、architectureと測定されたtradeoffを同時に示した点で材料性が高い。続く投稿はHugging Face上のNemotron-Labs-TwoTower-30B-A3B-Base-BF16 checkpointへ誘導している。
model cardによると、TwoTowerはNVIDIA-Nemotron-3-Nano-30B-A3B-Base-BF16 backbone上に作られたblock-wise autoregressive diffusion language modelである。Context towerはclean promptと過去tokenを処理し、denoiser towerはmaskされたblockを反復的に埋める。default設定はconfidence unmasking、block size 16、2基のH100 GPUで、autoregressive baselineに対してaggregate benchmark品質98.7%、wall-clock generation throughput 2.42倍を示した。
ただし、速度向上は無償ではない。model cardの例では、MMLUはbaseline 78.56に対して78.24とほぼ維持される一方、HumanEvalは79.27から75.58、MATH-500は84.40から80.60へ下がる。つまり、この結果はすべてのtaskで完全に同じ品質を保つ話ではなく、latencyとthroughputを重視する用途で選べる新しいtradeoffを示している。
次に見るべきなのは、long context、code editing、tool call、多言語生成、安全filter付きの実運用で同じ利得が残るかである。もう一つの焦点はserving costだ。公開checkpointは両towerを含み、default評価は2 H100 GPUで動く。token生成が速くなっても、全体の提供コストが下がらなければ、製品環境での価値は限定される。
Related Articles
LocalLLaMAの関心は、diffusion LLMが品質を保ったまま生成速度を本当に上げられるのかに集まった。
NVIDIAは2026年3月25日、Nemotron Nano 12B v2 VLがオンプレミスのvideo understandingを支え、同社の説明ではMediaPerf benchmarkで30B級代替に近い結果をより小さなfootprintで示したと発表した。NVIDIAのモデルカードはこれをmulti-image reasoning、video understanding、visual Q&A、summarization向けの商用利用可能なマルチモーダルモデルとして説明している。
オープンモデル競争は順位表だけでなく、長時間エージェントの運用コストへ移っている。NVIDIAはNemotron 3 Ultraについて、5倍高速な推論と最大30%低い複雑タスク費用を示した。