RTX 5090 한 장으로 Qwen3.6-27B 80 tps, LocalLLaMA가 바로 따진 조건들
Original: Qwen3.6-27B at ~80 tps with 218k context window on 1x RTX 5090 served by vllm 0.19 View original →
LocalLLaMA는 headline 숫자를 좋아했지만 거기서 멈추지 않았다. 한 사용자가 single RTX 5090에서 vLLM 0.19.1rc1과 NVFP4+MTP 빌드를 써 Qwen3.6-27B를 약 80 tps, 218k context window로 돌렸다고 올리자 스레드가 바로 붙었다. VRAM, 처리량, 실제로 한 대의 장비에 무엇이 올라가느냐를 기준으로 움직이는 커뮤니티에서 이 조합은 충분히 강한 뉴스였다.
반응이 큰 이유도 분명했다. 이 글은 막연한 cloud brag이 아니라 재현 가능한 local recipe에 가까웠다. GPU 한 장, serving stack 하나, 그리고 긴 컨텍스트를 유지하면서도 interactive speed를 노린다는 약속이 함께 제시됐다. LocalLLaMA가 보통 높게 치는 글이 이런 종류다. 추상적인 모델 경쟁을 오늘 내 장비에서 무엇을 얼마만큼 돌릴 수 있나라는 질문으로 바로 바꿔주기 때문이다.
댓글 분위기는 역시 LocalLLaMA답게 바로 audit 모드로 들어갔다. 실제 benchmark에서 prompt 길이를 얼마나 채웠는지부터 물었고, context window 수치는 occupancy 없이 말하면 의미가 약하다는 지적이 나왔다. DFlash나 Q8로 옮겨도 acceptance rate가 유지되는지 묻는 사람도 있었고, 선택한 quant의 KLD 특성이 썩 좋지 않다는 경고도 붙었다. LM Studio 대신 vLLM을 쓰는 이점이 정확히 어디서 나오는지 묻는 초보 질문도 눈에 띄었다. 배포 난이도 자체도 성능표의 일부라는 얘기다.
그래서 이 스레드가 먹힌다. LocalLLaMA가 올린 표는 단순한 screenshot 찬양이 아니라, 실제 사용 직전까지 온 local inference recipe에 대한 집단 검수였다. 마지막에 남는 숫자도 80 tps 하나가 아니다. 긴 컨텍스트를 실제로 채웠을 때도 유지되는지, quant 품질이 버티는지, 그리고 현실적인 워크로드에서 재현되는지가 함께 남는다. 출처는 Reddit 스레드와 Hugging Face 모델 페이지다.
Related Articles
LocalLLaMA가 반응한 이유는 '새 모델 출시' 한 줄이 아니었다. RTX 5090 한 장에서 Qwen3.6-27B를 약 80 tokens/s, 218k context로 돌렸다는 구체적 수치가 붙었기 때문이다.
HN은 이번 스레드를 단순한 모델 공개로 보지 않았다. API 문서보다 먼저 Hugging Face 가중치와 base 모델이 모습을 드러내자, 커뮤니티의 관심은 홍보보다 실물 검증으로 곧장 옮겨갔다.
중요한 점은 inference cost가 이제 infrastructure 문제가 아니라 product constraint가 됐다는 데 있다. Cohere는 vLLM의 W4A8 path가 Hopper에서 W4A16 대비 TTFT 최대 58%, TPOT 최대 45% 빠르다고 밝혔다.
Comments (0)
No comments yet. Be the first to comment!