NVIDIA TwoTower, 98.7% 품질 유지하며 생성 속도 2.42배 높인 확산 LLM
Original: NVIDIA TwoTower keeps 98.7% quality while generating 2.42x faster View original →
한 토큰씩 쓰는 병목을 겨냥한 TwoTower
LLM이 느린 이유 중 하나는 답을 한 토큰씩 순서대로 생성한다는 점이다. NVIDIA Research는 Nemotron-Labs-TwoTower를 통해 이 병목을 다른 방식으로 건드렸다. 30B급 Nemotron 백본을 두 타워 구조의 확산 언어 모델로 바꾸고, 문맥을 보존하는 타워와 토큰 블록을 채우는 denoiser 타워를 나눴다. 목표는 품질을 크게 잃지 않으면서 여러 토큰을 병렬로 확정하는 것이다.
“We found it kept 98.7% of the original model’s quality at 2.42× faster generation.”
출처 트윗은 2026년 7월 1일 19:00:01 UTC에 올라왔고, 이번 48시간 기준 안에 들어온다. NVIDIA AI 계정은 연구, 개발자 도구, AI 인프라 소식을 주로 올린다. 이번 글은 단순 모델 카드 링크가 아니라 구조와 성능 수치를 함께 담았다. 이어진 글은 Hugging Face의 Nemotron-Labs-TwoTower-30B-A3B-Base-BF16 체크포인트로 연결된다.
모델 카드에 따르면 TwoTower는 NVIDIA-Nemotron-3-Nano-30B-A3B-Base-BF16 백본 위에 만든 block-wise autoregressive diffusion 모델이다. Context tower는 깨끗한 프롬프트와 이전 토큰을 처리하고, denoiser tower는 마스크된 토큰 블록을 반복적으로 채운다. 기본 설정은 confidence unmasking, block size 16, 2개 H100 GPU이며, autoregressive baseline 대비 aggregate benchmark 품질 98.7%와 wall-clock generation throughput 2.42배를 제시한다.
속도 향상은 공짜가 아니다. 모델 카드의 예시에서 MMLU는 baseline 78.56에서 78.24로 거의 유지되지만, HumanEval은 79.27에서 75.58로, MATH-500은 84.40에서 80.60으로 내려간다. 따라서 이 결과는 모든 작업에서 동일한 품질을 보장한다기보다, 지연 시간과 처리량이 중요한 서비스에서 선택할 수 있는 새로운 tradeoff를 보여준다.
다음 관전점은 긴 문맥, 코드 편집, 도구 호출, 다국어 생성, 안전 필터가 붙은 실제 서비스에서 같은 이득이 유지되는지다. 또 하나의 변수는 비용이다. 공개 체크포인트는 두 타워를 포함하고 기본 평가가 2개 H100 GPU에서 이뤄진다. 토큰 생성이 빨라져도 전체 serving 비용이 줄어야 제품 환경에서 의미가 커진다.
Related Articles
LocalLLaMA의 관심은 “diffusion LLM이 실제로 빠른가”에 모였다. NVIDIA는 98.7% 품질 유지와 2.42배 throughput을 제시했다.
NVIDIA는 2026년 3월 25일 Nemotron Nano 12B v2 VL이 온프레미스 video understanding을 지원하며, 자사 설명 기준으로 MediaPerf benchmark에서 30B급 대안에 가까운 성능을 더 작은 footprint로 낸다고 밝혔다. NVIDIA 모델 카드는 이를 multi-image reasoning, video understanding, visual Q&A, summarization을 위한 상용 가능 멀티모달 모델로 소개한다.
AI agent 인프라 경쟁이 토큰 처리량이 아니라 동시 작업 수와 전력 효율로 옮겨가고 있다. NVIDIA는 Artificial Analysis의 새 AA-AgentPerf에서 GB300 NVL72가 H200보다 MW당 동시 coding agent 처리량을 최대 20배 높였다고 밝혔다.