한 토큰씩 쓰는 병목을 겨냥한 TwoTower

LLM이 느린 이유 중 하나는 답을 한 토큰씩 순서대로 생성한다는 점이다. NVIDIA Research는 Nemotron-Labs-TwoTower를 통해 이 병목을 다른 방식으로 건드렸다. 30B급 Nemotron 백본을 두 타워 구조의 확산 언어 모델로 바꾸고, 문맥을 보존하는 타워와 토큰 블록을 채우는 denoiser 타워를 나눴다. 목표는 품질을 크게 잃지 않으면서 여러 토큰을 병렬로 확정하는 것이다.

“We found it kept 98.7% of the original model’s quality at 2.42× faster generation.”

출처 트윗은 2026년 7월 1일 19:00:01 UTC에 올라왔고, 이번 48시간 기준 안에 들어온다. NVIDIA AI 계정은 연구, 개발자 도구, AI 인프라 소식을 주로 올린다. 이번 글은 단순 모델 카드 링크가 아니라 구조와 성능 수치를 함께 담았다. 이어진 글은 Hugging Face의 Nemotron-Labs-TwoTower-30B-A3B-Base-BF16 체크포인트로 연결된다.

모델 카드에 따르면 TwoTower는 NVIDIA-Nemotron-3-Nano-30B-A3B-Base-BF16 백본 위에 만든 block-wise autoregressive diffusion 모델이다. Context tower는 깨끗한 프롬프트와 이전 토큰을 처리하고, denoiser tower는 마스크된 토큰 블록을 반복적으로 채운다. 기본 설정은 confidence unmasking, block size 16, 2개 H100 GPU이며, autoregressive baseline 대비 aggregate benchmark 품질 98.7%와 wall-clock generation throughput 2.42배를 제시한다.

속도 향상은 공짜가 아니다. 모델 카드의 예시에서 MMLU는 baseline 78.56에서 78.24로 거의 유지되지만, HumanEval은 79.27에서 75.58로, MATH-500은 84.40에서 80.60으로 내려간다. 따라서 이 결과는 모든 작업에서 동일한 품질을 보장한다기보다, 지연 시간과 처리량이 중요한 서비스에서 선택할 수 있는 새로운 tradeoff를 보여준다.

다음 관전점은 긴 문맥, 코드 편집, 도구 호출, 다국어 생성, 안전 필터가 붙은 실제 서비스에서 같은 이득이 유지되는지다. 또 하나의 변수는 비용이다. 공개 체크포인트는 두 타워를 포함하고 기본 평가가 2개 H100 GPU에서 이뤄진다. 토큰 생성이 빨라져도 전체 serving 비용이 줄어야 제품 환경에서 의미가 커진다.

#diffusion-llm

NVIDIA TwoTower, 98.7% 품질 유지하며 생성 속도 2.42배 높인 확산 LLM