#vllm

LLM Hacker News Jun 28, 2026 1 min read

Strix Halo 두 대로 vLLM cluster, 관건은 100GbE RDMA 설정

로컬 LLM 관심은 이제 “돌아가나”에서 “두 노드를 어떻게 한 기계처럼 묶나”로 옮겨갔다. 이 가이드는 Framework Strix Halo 보드 두 대와 Intel E810 RoCE v2 구성을 vLLM serving까지 연결한다.

#amd #strix-halo #vllm

LLM Reddit Jun 16, 2026 1 min read

Qwen3+ streaming parser, LocalLLaMA가 반긴 작은 vLLM 수정

Qwen3.6-27B를 vLLM에서 agent loop로 돌리던 사용자들이 멈춤과 streaming tool call 오류에 예민하게 반응했다. nightly parser 수정은 작지만, 로컬 에이전트 운용에서는 체감이 큰 문제를 겨냥한다.

#vllm #qwen #tool-calling

LLM Hacker News May 31, 2026 1 min read

Tiny-vLLM, C++와 CUDA로 LLM inference를 끝까지 따라가는 교재형 엔진

관심은 성능 자랑보다 README의 학습 설계에 모였다. vLLM의 핵심을 작은 코드와 수업 흐름으로 재구성한 점이 반응을 얻었다.

#llm #cuda #inference

LLM Reddit May 28, 2026 1 min read

Starlette BadHost 취약점, vLLM·MCP 서버 운영자가 바로 봐야 할 이유

LocalLLaMA의 관심은 “AI 도구 취약점”이라는 큰 말보다 FastAPI·Starlette 기반 agent 서버가 실제로 노출돼 있는지에 모였다.

#security #starlette #mcp

LLM Reddit May 1, 2026 1 min read

3090 한 장에서 218K 문맥, LocalLLaMA가 속도보다 안정성에 반응한 이유

LocalLLaMA가 본 포인트는 최고 속도가 아니었다. RTX 3090 한 장으로 218K 문맥을 밀어 올리고 긴 tool output에서도 덜 무너지는 구성이 더 중요했다.

#qwen #rtx-3090 #vllm

LLM Reddit Apr 30, 2026 1 min read

Qwen3.6 27B를 16GB GPU 두 장으로 204k까지, LocalLLaMA가 붙은 이유

LocalLLaMA가 이 글에 반응한 이유는 홍보 문구가 아니라 숫자였다. RTX 5060 Ti 16GB 두 장으로 Qwen3.6 27B를 약 60 tok/s, 204k 컨텍스트까지 밀어본 실측값이 나왔다.

#qwen #local-llm #vllm

LLM X/Twitter Apr 28, 2026 1 min read

vLLM, FP8 장문맥 정확도 13%→89% 복구… KV-cache 실전 투입 벽 낮춘다

중요한 점은 FP8 추론이 품질 붕괴를 고칠 수 있어야만 값어치를 가진다는 데 있다. vLLM는 two-level accumulation 변경으로 128k needle-in-a-haystack 정확도를 13%에서 89%까지 끌어올리면서 FP8 decode 속도 이점은 유지했다고 적었다.

#vllm #fp8 #inference

LLM Reddit Apr 27, 2026 1 min read

Qwen3.6 27B, RTX 5090 한 장에서 100 tps… LocalLLaMA가 바로 물은 건 품질이었다

LocalLLaMA가 이 글에 꽂힌 이유는 숫자 하나 때문만은 아니었다. RTX 5090 한 장에서 Qwen3.6-27B-INT4를 100 tps와 256k context로 돌렸다는 보고가 올라오자, 댓글은 곧바로 “그 속도에서 품질은 어디까지 지키느냐”로 모였다.

#qwen #vllm #rtx-5090

LLM Reddit Apr 25, 2026 1 min read

RTX 5090 한 장으로 Qwen 3.6 27B 80t/s, LocalLLaMA가 반응한 이유

LocalLLaMA가 반응한 이유는 '새 모델 출시' 한 줄이 아니었다. RTX 5090 한 장에서 Qwen3.6-27B를 약 80 tokens/s, 218k context로 돌렸다는 구체적 수치가 붙었기 때문이다.

#qwen #vllm #rtx-5090

LLM X/Twitter Apr 23, 2026 1 min read

Cohere W4A8, vLLM Hopper에서 first-token latency 58% 단축 주장

중요한 점은 inference cost가 이제 infrastructure 문제가 아니라 product constraint가 됐다는 데 있다. Cohere는 vLLM의 W4A8 path가 Hopper에서 W4A16 대비 TTFT 최대 58%, TPOT 최대 45% 빠르다고 밝혔다.

#cohere #vllm #inference

LLM Reddit Apr 16, 2026 1 min read

TGI 유지보수 모드 소식, LocalLLaMA는 vLLM이 기본값이 되는 순간으로 읽었다

이 Reddit 스레드의 분위기는 TGI를 그리워하는 쪽이 아니다. Hugging Face TGI가 사실상 유지보수 단계로 들어간 지금, 실전 inference serving의 기본 선택지는 vLLM 쪽으로 기울었다는 운영자들의 현장감이 훨씬 강했다.

#llm #inference #vllm

LLM X/Twitter Apr 14, 2026 1 min read

Quantized Gemma 4 31B, 메모리 절반으로 tokens/sec를 거의 두 배 끌어올리다

Quantization 얘기는 accuracy가 버티지 못하면 곧바로 무너진다. Red Hat AI는 quantized Gemma 4 31B가 메모리를 절반으로 줄이면서 tokens/sec를 거의 2배로 높이고, baseline accuracy의 99%+를 유지한다고 적었다.

#gemma-4 #quantization #vllm