Skip to content

#nemo-rl

RSS Feed
LLM X/Twitter Apr 22, 2026 1 min read

중요한 점은 post-training agent 경쟁이 inference speed뿐 아니라 reinforcement learning throughput에 달려 있다는 데 있다. NVIDIA는 NeMo RL의 FP8 path가 Qwen3-8B-Base에서 RL workload를 1.48x 빠르게 하면서 BF16 accuracy를 따라간다고 제시했다.