관심은 성능 자랑보다 README의 학습 설계에 모였다. vLLM의 핵심을 작은 코드와 수업 흐름으로 재구성한 점이 반응을 얻었다.
#vllm
RSS FeedLocalLLaMA의 관심은 “AI 도구 취약점”이라는 큰 말보다 FastAPI·Starlette 기반 agent 서버가 실제로 노출돼 있는지에 모였다.
LocalLLaMA가 본 포인트는 최고 속도가 아니었다. RTX 3090 한 장으로 218K 문맥을 밀어 올리고 긴 tool output에서도 덜 무너지는 구성이 더 중요했다.
LocalLLaMA가 이 글에 반응한 이유는 홍보 문구가 아니라 숫자였다. RTX 5060 Ti 16GB 두 장으로 Qwen3.6 27B를 약 60 tok/s, 204k 컨텍스트까지 밀어본 실측값이 나왔다.
중요한 점은 FP8 추론이 품질 붕괴를 고칠 수 있어야만 값어치를 가진다는 데 있다. vLLM는 two-level accumulation 변경으로 128k needle-in-a-haystack 정확도를 13%에서 89%까지 끌어올리면서 FP8 decode 속도 이점은 유지했다고 적었다.
LocalLLaMA가 이 글에 꽂힌 이유는 숫자 하나 때문만은 아니었다. RTX 5090 한 장에서 Qwen3.6-27B-INT4를 100 tps와 256k context로 돌렸다는 보고가 올라오자, 댓글은 곧바로 “그 속도에서 품질은 어디까지 지키느냐”로 모였다.
LocalLLaMA가 반응한 이유는 '새 모델 출시' 한 줄이 아니었다. RTX 5090 한 장에서 Qwen3.6-27B를 약 80 tokens/s, 218k context로 돌렸다는 구체적 수치가 붙었기 때문이다.
중요한 점은 inference cost가 이제 infrastructure 문제가 아니라 product constraint가 됐다는 데 있다. Cohere는 vLLM의 W4A8 path가 Hopper에서 W4A16 대비 TTFT 최대 58%, TPOT 최대 45% 빠르다고 밝혔다.
이 Reddit 스레드의 분위기는 TGI를 그리워하는 쪽이 아니다. Hugging Face TGI가 사실상 유지보수 단계로 들어간 지금, 실전 inference serving의 기본 선택지는 vLLM 쪽으로 기울었다는 운영자들의 현장감이 훨씬 강했다.
Quantization 얘기는 accuracy가 버티지 못하면 곧바로 무너진다. Red Hat AI는 quantized Gemma 4 31B가 메모리를 절반으로 줄이면서 tokens/sec를 거의 2배로 높이고, baseline accuracy의 99%+를 유지한다고 적었다.
r/LocalLLaMA에 올라온 벤치마크는 Intel Arc Pro B70 32GB와 Intel vLLM fork 조합으로 Qwen3.5-27B int4를 어느 정도 실용적으로 서빙할 수 있음을 보여준다. 다만 tensor parallel보다 pipeline parallel이 더 유리했고, setup 안정화에도 적지 않은 시행착오가 필요했다.
vLLM은 NVIDIA가 Qwen3-VL 기반 첫 MLPerf vision-language benchmark 제출에 자사 framework를 사용했다고 밝혔다. 함께 링크된 NVIDIA blog는 이 결과를 Blackwell Ultra 성능 강화 흐름 속에 배치하며 일부 workload에서 최대 2.7배 throughput과 60% 이상 token cost 절감을 주장한다.