LLM X/Twitter Apr 28, 2026 1 min read
중요한 점은 FP8 추론이 품질 붕괴를 고칠 수 있어야만 값어치를 가진다는 데 있다. vLLM는 two-level accumulation 변경으로 128k needle-in-a-haystack 정확도를 13%에서 89%까지 끌어올리면서 FP8 decode 속도 이점은 유지했다고 적었다.
중요한 점은 FP8 추론이 품질 붕괴를 고칠 수 있어야만 값어치를 가진다는 데 있다. vLLM는 two-level accumulation 변경으로 128k needle-in-a-haystack 정확도를 13%에서 89%까지 끌어올리면서 FP8 decode 속도 이점은 유지했다고 적었다.
중요한 점은 post-training agent 경쟁이 inference speed뿐 아니라 reinforcement learning throughput에 달려 있다는 데 있다. NVIDIA는 NeMo RL의 FP8 path가 Qwen3-8B-Base에서 RL workload를 1.48x 빠르게 하면서 BF16 accuracy를 따라간다고 제시했다.