#vllm

LLM Hacker News Jun 28, 2026 1 min read

Strix Halo 2台でvLLM cluster、焦点は100GbE RDMA設定

Local LLMの関心は「動くか」から「小型のunified-memory機をどう一台のように束ねるか」へ移っている。このguideはFramework Strix Halo、Intel E810 RoCE v2、vLLM servingをつなぐ。

#amd #strix-halo #vllm

LLM Reddit Jun 16, 2026 1 min read

vLLMのQwen3+ streaming parser、local agent運用の痛点へ

LocalLLaMAで注目されたのは、小さく見えるvLLM nightlyのparser修正だ。Qwen3.6-27Bのmid-turn停止やstreaming tool call失敗は、local agent loopでは実害が大きい。

#vllm #qwen #tool-calling

LLM Hacker News May 31, 2026 1 min read

Tiny-vLLM、C++とCUDAでLLM inferenceを作りながら学ぶ小さな実装

HNの反応はコードだけでなくREADMEに集まった。vLLMの考え方を、小さな実装と教材の流れに落とし込んでいる点が評価された。

#llm #cuda #inference

LLM Reddit May 28, 2026 1 min read

StarletteのBadHost、vLLMとMCPサーバー運用者が確認すべき理由

LocalLLaMAでは、抽象的なAI脆弱性の話より、FastAPI・Starlette系のagentサーバーが外部公開されていないかに関心が集まった。

#security #starlette #mcp

LLM Reddit May 1, 2026 1 min read

3090一枚で218K文脈、LocalLLaMAが速度より安定性に反応した理由

LocalLLaMAが見た本題は最高速ではなかった。RTX 3090一枚で218K文脈まで伸ばし、長いtool outputでも落ちにくくした構成が評価された。

#qwen #rtx-3090 #vllm

LLM Reddit Apr 30, 2026 1 min read

Qwen3.6 27Bを16GB GPU 2枚で204kまで、LocalLLaMAが食いついた理由

LocalLLaMAがこの投稿に反応した理由は宣伝文句ではなく実測値だ。RTX 5060 Ti 16GBを2枚使い、Qwen3.6 27Bを約60 tok/s、204kコンテキストまで持ち上げた構成が共有された。

#qwen #local-llm #vllm

LLM X/Twitter Apr 28, 2026 1 min read

vLLM、FP8長文脈精度を13%→89%へ回復　KV-cache実用化の壁を削る

重要なのは、FP8推論が品質崩壊を直せてこそ意味を持つことだ。vLLMは two-level accumulation の変更で、128k needle-in-a-haystack の精度を13%から89%まで戻しつつ、FP8 decode の速度優位を保ったと書いた。

#vllm #fp8 #inference

LLM Reddit Apr 27, 2026 1 min read

Qwen3.6 27BがRTX 5090一枚で100 tps　LocalLLaMAが先に聞いたのは品質

LocalLLaMAが食いついたのは派手な速度自慢だけではない。Qwen3.6-27B-INT4をRTX 5090一枚で105-108 tps、しかも256k native contextで回したという投稿に対し、議論はすぐに「その速さで品質は持つのか」に集まった。

#qwen #vllm #rtx-5090

LLM Reddit Apr 25, 2026 1 min read

RTX 5090 1枚でQwen 3.6 27Bが約80 t/s、LocalLLaMAがざわついた理由

LocalLLaMAがざわついたのは「新モデルが出た」からではない。RTX 5090 1枚で Qwen3.6-27B を約80 t/s、218k context で回したという具体的な数字が付いていたからだ。

#qwen #vllm #rtx-5090

LLM X/Twitter Apr 23, 2026 1 min read

Cohere W4A8、vLLM Hopperでfirst-token latency 58%短縮を主張

重要なのは、inference costがinfrastructure問題だけでなくproduct constraintになっている点だ。CohereはvLLMのW4A8 pathがHopper上でW4A16比TTFT最大58%、TPOT最大45%高速だと述べた。

#cohere #vllm #inference

LLM Reddit Apr 16, 2026 1 min read

TGIのmaintenance modeを、LocalLLaMAはvLLMが既定路線になる瞬間として受け取った

このReddit threadは TGI を惜しむ空気ではない。active momentum が離れた後に operator 同士が答え合わせをしている感じで、general inference serving の default はもう vLLM だという見方がかなり強い。

#llm #inference #vllm

LLM X/Twitter Apr 14, 2026 1 min read

量子化Gemma 4 31B、メモリ半分でtokens/secをほぼ2倍へ引き上げつつ99%精度を維持

Quantizationはaccuracyが崩れると一気に価値を失う。Red Hat AIはquantized Gemma 4 31Bがメモリを半分に抑えつつtokens/secをほぼ2倍にし、baseline accuracyの99%+を維持すると書いた。

#gemma-4 #quantization #vllm