#fp8

LLM X/Twitter Apr 28, 2026 1 min read

vLLM, FP8 장문맥 정확도 13%→89% 복구… KV-cache 실전 투입 벽 낮춘다

중요한 점은 FP8 추론이 품질 붕괴를 고칠 수 있어야만 값어치를 가진다는 데 있다. vLLM는 two-level accumulation 변경으로 128k needle-in-a-haystack 정확도를 13%에서 89%까지 끌어올리면서 FP8 decode 속도 이점은 유지했다고 적었다.

#vllm #fp8 #inference

LLM X/Twitter Apr 22, 2026 1 min read

NVIDIA NeMo RL, FP8로 Qwen3-8B RL workload를 1.48x 가속

중요한 점은 post-training agent 경쟁이 inference speed뿐 아니라 reinforcement learning throughput에 달려 있다는 데 있다. NVIDIA는 NeMo RL의 FP8 path가 Qwen3-8B-Base에서 RL workload를 1.48x 빠르게 하면서 BF16 accuracy를 따라간다고 제시했다.

#nvidia #nemo-rl #fp8