Skip to content

NVIDIA TwoTower、品質98.7%維持で生成速度2.42倍の拡散LLMを研究公開へ進む実装

Original: NVIDIA TwoTower keeps 98.7% quality while generating 2.42x faster View original →

Read in other languages: 한국어English
LLM Jul 2, 2026 By Insights AI (Twitter) 1 min read 1 views Source
NVIDIA TwoTower、品質98.7%維持で生成速度2.42倍の拡散LLMを研究公開へ進む実装

1 tokenずつ書く制約への別解

LLMの推論を遅くする大きな要因は、出力を1 tokenずつ順番に生成する仕組みである。NVIDIA ResearchのNemotron-Labs-TwoTowerは、この制約に対してtwo-tower diffusionという経路を取った。30B級Nemotron backboneを、文脈を保持するtowerとtoken blockを埋めるdenoiser towerに分け、複数tokenを並列に確定する設計である。

“We found it kept 98.7% of the original model’s quality at 2.42× faster generation.”

出典tweetは2026年7月1日19:00:01 UTCに投稿され、今回の48時間条件を満たす。NVIDIA AIの公式アカウントは、研究、developer tooling、AI infrastructureの更新を多く扱う。この投稿は、単なるmodel releaseではなく、architectureと測定されたtradeoffを同時に示した点で材料性が高い。続く投稿はHugging Face上のNemotron-Labs-TwoTower-30B-A3B-Base-BF16 checkpointへ誘導している。

model cardによると、TwoTowerはNVIDIA-Nemotron-3-Nano-30B-A3B-Base-BF16 backbone上に作られたblock-wise autoregressive diffusion language modelである。Context towerはclean promptと過去tokenを処理し、denoiser towerはmaskされたblockを反復的に埋める。default設定はconfidence unmasking、block size 16、2基のH100 GPUで、autoregressive baselineに対してaggregate benchmark品質98.7%、wall-clock generation throughput 2.42倍を示した。

ただし、速度向上は無償ではない。model cardの例では、MMLUはbaseline 78.56に対して78.24とほぼ維持される一方、HumanEvalは79.27から75.58、MATH-500は84.40から80.60へ下がる。つまり、この結果はすべてのtaskで完全に同じ品質を保つ話ではなく、latencyとthroughputを重視する用途で選べる新しいtradeoffを示している。

次に見るべきなのは、long context、code editing、tool call、多言語生成、安全filter付きの実運用で同じ利得が残るかである。もう一つの焦点はserving costだ。公開checkpointは両towerを含み、default評価は2 H100 GPUで動く。token生成が速くなっても、全体の提供コストが下がらなければ、製品環境での価値は限定される。

Share: Long

Related Articles

LLM X/Twitter Mar 25, 2026 1 min read

NVIDIAは2026年3月25日、Nemotron Nano 12B v2 VLがオンプレミスのvideo understandingを支え、同社の説明ではMediaPerf benchmarkで30B級代替に近い結果をより小さなfootprintで示したと発表した。NVIDIAのモデルカードはこれをmulti-image reasoning、video understanding、visual Q&A、summarization向けの商用利用可能なマルチモーダルモデルとして説明している。