vLLM, FP8 장문맥 정확도 13%→89% 복구… KV-cache 실전 투입 벽 낮춘다

이번 벤치마크 숫자가 말하는 것

저정밀 추론의 약속은 단순하다. 더 싸고 더 빠르게 돌리되, model 품질은 무너지지 않아야 한다. vLLM는 FP8 KV-cache가 장문맥 작업에서 잃어버리던 정확도를 상당 부분 되돌리는 방법을 찾았다고 말한다. 프로젝트 X 글에서 유지보수 팀은 two-level accumulation fix 덕분에 128k needle-in-a-haystack 작업 성능이 13%에서 89%로 올라갔고, 그 와중에도 FP8 decode speedup은 지켰다고 적었다.

“two-level accumulation in FA3 takes 128k needle-in-a-haystack from 13% → 89%, while keeping the FP8 decode speedup”

vllm_project 계정은 가장 널리 쓰이는 open-source inference runtime 중 하나의 핵심 release 채널이다. 그래서 이런 글은 보통 마케팅 문구보다 실제로 배포 가능한 code path와 연결된다. 링크된 기술 글은 문제를 더 분명히 설명한다. 같은 128k 작업에서 BF16 baseline은 91%였지만, FP8 attention은 누적 계산 정밀도 문제 때문에 13%까지 무너졌다. 새 two-level accumulation 방식은 이 수치를 89%까지 되돌렸다. 장문맥 서비스에서 FP8을 다시 진지하게 검토할 만한 수준까지 올려놓은 셈이다.

왜 단순한 그래프 미화가 아닌가

이 글은 hybrid-attention model용 --kv-cache-dtype-skip-layers flag도 함께 언급한다. 이 지점이 중요하다. 실제 inference 운영은 깔끔한 실험 하나로 끝나지 않는다. 운영자는 양자화의 속도 이익을 유지하면서도 유난히 민감한 layer는 우회할 수 있는 손잡이가 필요하다. 그래서 이번 이야기는 예쁜 차트 하나가 아니라, vLLM가 잘 알려진 FP8 품질 실패를 실무에서 다룰 수 있는 engineering control로 바꾸고 있다는 데 있다.

다음 관전점은 재현성이다. 이 회복이 더 많은 model family, 특히 hybrid-attention과 MoE 계열에서도 유지되는지, 그리고 needle-in-a-haystack 류 평가를 넘어 실제 workload에서도 비슷한 품질 회복이 나오는지가 중요하다. 그 조건이 맞으면 FP8 KV-cache는 소수 전문가의 위험한 최적화가 아니라, 장문맥 추론의 보편적 배포 옵션으로 올라설 수 있다. 출처: vLLM source tweet · vLLM FP8 기술 글

vLLM, FP8 장문맥 정확도 13%→89% 복구… KV-cache 실전 투입 벽 낮춘다

이번 벤치마크 숫자가 말하는 것

왜 단순한 그래프 미화가 아닌가

Related Articles

Cohere W4A8, vLLM Hopper에서 first-token latency 58% 단축 주장

Quantized Gemma 4 31B, 메모리 절반으로 tokens/sec를 거의 두 배 끌어올리다

vLLM, 첫 MLPerf vision-language benchmark 제출 사례에 이름 올리다

Comments (0)

Leave a Comment

Related Articles

Cohere W4A8, vLLM Hopper에서 first-token latency 58% 단축 주장

Quantized Gemma 4 31B, 메모리 절반으로 tokens/sec를 거의 두 배 끌어올리다
LLM sources.twitter Apr 14, 2026 1 min read

vLLM, 첫 MLPerf vision-language benchmark 제출 사례에 이름 올리다
LLM sources.twitter Apr 10, 2026 1 min read