NVIDIA NeMo RL, FP8로 Qwen3-8B RL workload를 1.48x 가속

트윗이 드러낸 것

NVIDIA AI는 NeMo RL이 Qwen3-8B-Base에서 RL workload를 1.48x 빠르게 하기 위해 “supports FP8 to speed up RL workloads” 한다고 적었다. timestamp는 매우 빡빡하지만 유효하다. FxTwitter 기준 이 트윗은 2026-04-22T21:00:02Z에 생성되어, 사용자가 지정한 TODAY=2026-04-22T21:00:04Z보다 2초 이르다.

NVIDIA AI 계정은 applied AI infrastructure, NeMo, robotics, model optimization 관련 소식을 주로 전한다. 연결된 NVIDIA Technical Blog가 짧은 트윗 뒤의 핵심을 제공한다. 글은 reasoning-grade model을 위한 reinforcement learning, 특히 generation phase와 training phase가 서로 다른 throughput bottleneck을 만드는 GRPO 계열 workflow에 초점을 맞춘다.

FP8 결과의 의미

blog는 NeMo RL이 NVIDIA NeMo 안의 open-source library이며, RL을 위한 end-to-end FP8 recipe를 설명한다고 밝힌다. linear layer에서는 DeepSeek-V3 technical report에서 나온 block-wise FP8 quantization 방식을 쓴다. NVIDIA는 FP8 math가 BF16 math보다 2x peak throughput을 낼 수 있고, 필요한 module은 BF16으로 남길 수 있다고 설명한다.

이 트윗의 핵심 benchmark는 Qwen3-8B-Base section이다. NVIDIA는 KV cache와 attention에 FP8을 적용하면 linear W8A8 setup 대비 rollout stage에서 추가 ~30% speedup이 나오고, BF16 대비 overall ~48% speedup이 나온다고 제시한다. token-level truncated importance sampling을 쓰면 low precision에서 생기는 numerical mismatch에도 validation accuracy가 BF16 baseline과 정렬된다고 설명한다.

이는 agentic tool use와 multi-step workflow가 post-training loop를 더 비싸게 만들기 때문에 중요하다. FP8 recipe가 accuracy를 유지하며 rollout throughput을 높인다면 team은 reward design, tool policy, reasoning behavior를 더 빨리 반복할 수 있다.

다음 관전점은 NVIDIA stack 밖에서의 재현성이다. 더 큰 MoE model, longer response, non-NVIDIA serving engine이 1.48x claim이 일반 recipe인지 특정 pipeline에 맞춘 결과인지 가를 것이다. 출처: NVIDIA AI source tweet · NVIDIA technical blog

NVIDIA NeMo RL, FP8로 Qwen3-8B RL workload를 1.48x 가속

트윗이 드러낸 것

FP8 결과의 의미

Related Articles

Nemotron 3 Ultra, 550B MoE로 에이전트 추론 5배 속도와 30% 비용 절감 제시

Qwen3.6 35B, 업무 방식을 바꾸다 — 스킬 기반 프롬프팅 실전 활용기

RTX 4070 12GB에서 35B 모델 110 tok/s — ik_llama.cpp 최적화 효과