NVIDIA NeMo RL, FP8로 Qwen3-8B RL workload를 1.48x 가속
Original: NVIDIA NeMo RL supports FP8 to speed RL workloads by 1.48x on Qwen3-8B-Base View original →
트윗이 드러낸 것
NVIDIA AI는 NeMo RL이 Qwen3-8B-Base에서 RL workload를 1.48x 빠르게 하기 위해 “supports FP8 to speed up RL workloads” 한다고 적었다. timestamp는 매우 빡빡하지만 유효하다. FxTwitter 기준 이 트윗은 2026-04-22T21:00:02Z에 생성되어, 사용자가 지정한 TODAY=2026-04-22T21:00:04Z보다 2초 이르다.
NVIDIA AI 계정은 applied AI infrastructure, NeMo, robotics, model optimization 관련 소식을 주로 전한다. 연결된 NVIDIA Technical Blog가 짧은 트윗 뒤의 핵심을 제공한다. 글은 reasoning-grade model을 위한 reinforcement learning, 특히 generation phase와 training phase가 서로 다른 throughput bottleneck을 만드는 GRPO 계열 workflow에 초점을 맞춘다.
FP8 결과의 의미
blog는 NeMo RL이 NVIDIA NeMo 안의 open-source library이며, RL을 위한 end-to-end FP8 recipe를 설명한다고 밝힌다. linear layer에서는 DeepSeek-V3 technical report에서 나온 block-wise FP8 quantization 방식을 쓴다. NVIDIA는 FP8 math가 BF16 math보다 2x peak throughput을 낼 수 있고, 필요한 module은 BF16으로 남길 수 있다고 설명한다.
이 트윗의 핵심 benchmark는 Qwen3-8B-Base section이다. NVIDIA는 KV cache와 attention에 FP8을 적용하면 linear W8A8 setup 대비 rollout stage에서 추가 ~30% speedup이 나오고, BF16 대비 overall ~48% speedup이 나온다고 제시한다. token-level truncated importance sampling을 쓰면 low precision에서 생기는 numerical mismatch에도 validation accuracy가 BF16 baseline과 정렬된다고 설명한다.
이는 agentic tool use와 multi-step workflow가 post-training loop를 더 비싸게 만들기 때문에 중요하다. FP8 recipe가 accuracy를 유지하며 rollout throughput을 높인다면 team은 reward design, tool policy, reasoning behavior를 더 빨리 반복할 수 있다.
다음 관전점은 NVIDIA stack 밖에서의 재현성이다. 더 큰 MoE model, longer response, non-NVIDIA serving engine이 1.48x claim이 일반 recipe인지 특정 pipeline에 맞춘 결과인지 가를 것이다. 출처: NVIDIA AI source tweet · NVIDIA technical blog
Related Articles
오픈 모델 경쟁이 단순 성능표에서 장시간 에이전트 비용으로 이동하고 있다. NVIDIA는 Nemotron 3 Ultra가 550B MoE 구조로 5배 빠른 추론과 최대 30% 낮은 복잡 작업 비용을 낸다고 밝혔다.
LocalLLaMA에서 Qwen3.6 35B A3B 모델이 업무 워크플로우를 바꿨다는 경험담이 화제입니다. Codex로 작업을 수행하고 과정을 스킬 문서로 기록해 pi 에이전트에 공급하는 방식으로 VPS 관리, PDF 변환 등을 자동화했습니다.
LocalLLaMA에서 RTX 4070 Super 12GB로 Qwen3.6 35B A3B 모델을 110 토큰/초로 구동하는 데 성공한 벤치마크가 공유됐습니다. MTP 지원과 CPU 오프로딩 최적화에 특화된 ik_llama.cpp 포크 덕분입니다.