Nemotron-TwoTower 공개, autoregressive LLM을 diffusion으로 돌리는 실험

NVIDIA가 Hugging Face에 Nemotron-TwoTower-30B-A3B-Base-BF16를 공개했다. LocalLLaMA에서 반응이 컸던 이유는 단순한 새 checkpoint가 아니라 생성 방식이 다르기 때문이다. 이 모델은 Nemotron 3 Nano 30B-A3B backbone 위에 block-wise autoregressive diffusion 구조를 얹어, 토큰을 하나씩만 내보내는 대신 블록 단위로 마스킹된 토큰을 반복적으로 denoise한다.

구조는 이름처럼 두 tower로 나뉜다. AR/context tower는 깨끗한 프롬프트와 이미 확정된 토큰을 처리해 KV cache와 Mamba state를 만든다. diffusion/denoiser tower는 현재 블록의 noisy token을 보고, context tower의 상태를 참조하면서 여러 위치를 병렬로 예측한다. NVIDIA 설명에 따르면 denoiser tower만 약 2.1T tokens로 학습했고, context tower는 frozen 상태로 둔다.

숫자는 꽤 공격적이다. 기본 설정에서 autoregressive baseline 대비 aggregate benchmark 품질의 98.7%를 유지하면서 wall-clock generation throughput은 2.42배라고 제시했다. confidence threshold를 낮추면 한 단계에서 더 많은 토큰을 확정해 속도를 더 높일 수 있지만 품질이 줄어드는 trade-off가 있다.

커뮤니티의 관심은 “diffusion for text”가 이미지 생성에서처럼 언어 모델에서도 실용적인 선택지가 될 수 있느냐에 있다. 아직 serving 복잡도, hardware 조건, 실제 대화 품질은 별도 검증이 필요하다. 그래도 공개 checkpoint와 README 수준의 세부 구현이 같이 나온 점은 중요하다. local LLM 생태계가 다음 속도 개선을 speculative decoding만이 아니라 decoding architecture 자체에서 찾기 시작했다는 신호다.

LLM X/Twitter Mar 11, 2026 1 min read

NVIDIA, multi-agent AI용 Nemotron 3 Super 공개

NVIDIA AI Developer는 2026년 3월 11일 Nemotron 3 Super를 공개하며, 12B active parameters를 사용하는 오픈 120B-parameter hybrid MoE 모델과 native 1M-token context를 강조했다. NVIDIA는 이 모델이 이전 Nemotron Super 대비 최대 5배 높은 throughput으로 agentic workload를 겨냥한다고 설명했다.

#nvidia #nemotron #open-models

LLM X/Twitter Jun 5, 2026 1 min read

Nemotron 3 Ultra, 550B MoE로 에이전트 추론 5배 속도와 30% 비용 절감 제시

오픈 모델 경쟁이 단순 성능표에서 장시간 에이전트 비용으로 이동하고 있다. NVIDIA는 Nemotron 3 Ultra가 550B MoE 구조로 5배 빠른 추론과 최대 30% 낮은 복잡 작업 비용을 낸다고 밝혔다.

#nvidia #nemotron #open-model

LLM May 30, 2026 1 min read

DynoSim, LLM serving 실험을 1,500배 빠른 simulation 문제로 전환

LLM inference 운영에서 비싼 GPU 실험을 먼저 돌릴 필요가 줄어든다. NVIDIA DynoSim은 23,608개 request trace를 Apple M4 MacBook Air에서 2.41초에 재생하며 real time 대비 약 1,500배 빠른 serving simulation을 제시했다.

#nvidia #dynosim #llm-serving

Related Articles

NVIDIA, multi-agent AI용 Nemotron 3 Super 공개

Nemotron 3 Ultra, 550B MoE로 에이전트 추론 5배 속도와 30% 비용 절감 제시

DynoSim, LLM serving 실험을 1,500배 빠른 simulation 문제로 전환