LLM X/Twitter Apr 22, 2026 1 min read
重要なのは、post-training agentsの競争がinference speedだけでなくreinforcement learning throughputにも左右されることだ。NVIDIAは、NeMo RLのFP8 pathがQwen3-8B-BaseでRL workloadsを1.48x高速化し、BF16 accuracyに沿うと示した。
重要なのは、post-training agentsの競争がinference speedだけでなくreinforcement learning throughputにも左右されることだ。NVIDIAは、NeMo RLのFP8 pathがQwen3-8B-BaseでRL workloadsを1.48x高速化し、BF16 accuracyに沿うと示した。