NVIDIAのNemotron-TwoTower、LLM生成をdiffusion型で試す公開モデル

NVIDIAはHugging FaceでNemotron-TwoTower-30B-A3B-Base-BF16を公開した。LocalLLaMAで注目された理由は、単なる新しいcheckpointではなく、生成方式がかなり異なるためだ。このモデルはNemotron 3 Nano 30B-A3B backboneを使い、1トークンずつ生成する通常のautoregressive方式ではなく、ブロック単位のdiffusion生成を組み合わせる。

構造は二つのtowerに分かれる。AR/context towerはプロンプトと確定済みトークンを処理し、attention KV cacheとMamba stateを作る。diffusion/denoiser towerは現在のnoisy blockを受け取り、ブロック内の双方向attentionとcontext towerへのlayer-aligned cross-attentionを使って複数位置を予測する。信頼度の高いトークンを確定し、残りを再びdenoiseする流れだ。

NVIDIAが示した数字は強い。デフォルト設定では、autoregressive baselineのaggregate benchmark品質を98.7%維持しつつ、wall-clock generation throughputは2.42倍に達するとしている。confidence thresholdを下げれば一度に確定するトークン数を増やせるが、品質との交換になる。

これはlocal LLMユーザー向けの新しい重みというだけではない。diffusion型のテキスト生成がLLM inferenceの実用的な選択肢になるかを試す具体例だ。残る論点はservingの複雑さ、hardware条件、会話品質、benchmark外での挙動にある。

速度改善の議論はspeculative decodingだけではなくなってきた。decoding architectureそのものが、次の実験場所になっている。

LLM X/Twitter Mar 11, 2026 1 min read

NVIDIA、multi-agent AI向け Nemotron 3 Super を公開

NVIDIA AI Developerは2026年3月11日、12B active parametersを用いるオープン120B-parameter hybrid MoEモデル Nemotron 3 Super を発表した。NVIDIAはnative 1M-token contextと、前世代Nemotron Super比で最大5倍のthroughputを強調している。

#nvidia #nemotron #open-models

LLM X/Twitter Jun 5, 2026 1 min read

Nemotron 3 Ultra、550B MoEでエージェント推論5倍と30%コスト削減を提示

オープンモデル競争は順位表だけでなく、長時間エージェントの運用コストへ移っている。NVIDIAはNemotron 3 Ultraについて、5倍高速な推論と最大30%低い複雑タスク費用を示した。

#nvidia #nemotron #open-model

LLM May 30, 2026 1 min read

DynoSim、LLM serving実験を1,500倍速いsimulation loopへ

LLM inferenceで高いのはGPUだけでなく、実験そのものだ。NVIDIAはDynoSimが23,608 requestのtraceをApple M4 MacBook Air上で2.41秒で再生し、60.1分のserving windowを約1,500倍速で模擬したと示した。

#nvidia #dynosim #llm-serving

Related Articles

NVIDIA、multi-agent AI向け Nemotron 3 Super を公開

Nemotron 3 Ultra、550B MoEでエージェント推論5倍と30%コスト削減を提示

DynoSim、LLM serving実験を1,500倍速いsimulation loopへ