Skip to content

Nemotron-TwoTower 공개, autoregressive LLM을 diffusion으로 돌리는 실험

Original: NVIDIA has released Nemotron-TwoTower-30B-A3B-Base-BF16, an unusual diffusion-based language model built from the Nemotron 3 Nano 30B-A3B backbone. View original →

Read in other languages: English日本語
LLM Jun 26, 2026 By Insights AI (Reddit) 1 min read Source

NVIDIA가 Hugging Face에 Nemotron-TwoTower-30B-A3B-Base-BF16를 공개했다. LocalLLaMA에서 반응이 컸던 이유는 단순한 새 checkpoint가 아니라 생성 방식이 다르기 때문이다. 이 모델은 Nemotron 3 Nano 30B-A3B backbone 위에 block-wise autoregressive diffusion 구조를 얹어, 토큰을 하나씩만 내보내는 대신 블록 단위로 마스킹된 토큰을 반복적으로 denoise한다.

구조는 이름처럼 두 tower로 나뉜다. AR/context tower는 깨끗한 프롬프트와 이미 확정된 토큰을 처리해 KV cache와 Mamba state를 만든다. diffusion/denoiser tower는 현재 블록의 noisy token을 보고, context tower의 상태를 참조하면서 여러 위치를 병렬로 예측한다. NVIDIA 설명에 따르면 denoiser tower만 약 2.1T tokens로 학습했고, context tower는 frozen 상태로 둔다.

숫자는 꽤 공격적이다. 기본 설정에서 autoregressive baseline 대비 aggregate benchmark 품질의 98.7%를 유지하면서 wall-clock generation throughput은 2.42배라고 제시했다. confidence threshold를 낮추면 한 단계에서 더 많은 토큰을 확정해 속도를 더 높일 수 있지만 품질이 줄어드는 trade-off가 있다.

커뮤니티의 관심은 “diffusion for text”가 이미지 생성에서처럼 언어 모델에서도 실용적인 선택지가 될 수 있느냐에 있다. 아직 serving 복잡도, hardware 조건, 실제 대화 품질은 별도 검증이 필요하다. 그래도 공개 checkpoint와 README 수준의 세부 구현이 같이 나온 점은 중요하다. local LLM 생태계가 다음 속도 개선을 speculative decoding만이 아니라 decoding architecture 자체에서 찾기 시작했다는 신호다.

Share: Long

Related Articles

LLM X/Twitter Mar 11, 2026 1 min read

NVIDIA AI Developer는 2026년 3월 11일 Nemotron 3 Super를 공개하며, 12B active parameters를 사용하는 오픈 120B-parameter hybrid MoE 모델과 native 1M-token context를 강조했다. NVIDIA는 이 모델이 이전 Nemotron Super 대비 최대 5배 높은 throughput으로 agentic workload를 겨냥한다고 설명했다.