HNの反応はコードだけでなくREADMEに集まった。vLLMの考え方を、小さな実装と教材の流れに落とし込んでいる点が評価された。
#vllm
RSS FeedLocalLLaMAでは、抽象的なAI脆弱性の話より、FastAPI・Starlette系のagentサーバーが外部公開されていないかに関心が集まった。
LocalLLaMAが見た本題は最高速ではなかった。RTX 3090一枚で218K文脈まで伸ばし、長いtool outputでも落ちにくくした構成が評価された。
LocalLLaMAがこの投稿に反応した理由は宣伝文句ではなく実測値だ。RTX 5060 Ti 16GBを2枚使い、Qwen3.6 27Bを約60 tok/s、204kコンテキストまで持ち上げた構成が共有された。
重要なのは、FP8推論が品質崩壊を直せてこそ意味を持つことだ。vLLMは two-level accumulation の変更で、128k needle-in-a-haystack の精度を13%から89%まで戻しつつ、FP8 decode の速度優位を保ったと書いた。
LocalLLaMAが食いついたのは派手な速度自慢だけではない。Qwen3.6-27B-INT4をRTX 5090一枚で105-108 tps、しかも256k native contextで回したという投稿に対し、議論はすぐに「その速さで品質は持つのか」に集まった。
LocalLLaMAがざわついたのは「新モデルが出た」からではない。RTX 5090 1枚で Qwen3.6-27B を約80 t/s、218k context で回したという具体的な数字が付いていたからだ。
重要なのは、inference costがinfrastructure問題だけでなくproduct constraintになっている点だ。CohereはvLLMのW4A8 pathがHopper上でW4A16比TTFT最大58%、TPOT最大45%高速だと述べた。
このReddit threadは TGI を惜しむ空気ではない。active momentum が離れた後に operator 同士が答え合わせをしている感じで、general inference serving の default はもう vLLM だという見方がかなり強い。
Quantizationはaccuracyが崩れると一気に価値を失う。Red Hat AIはquantized Gemma 4 31Bがメモリを半分に抑えつつtokens/secをほぼ2倍にし、baseline accuracyの99%+を維持すると書いた。
r/LocalLLaMAに投稿されたbenchmarkは、Intel Arc Pro B70 32GBとIntelのvLLM forkの組み合わせでQwen3.5-27B int4を実用的にserveできる可能性を示した。ただしtensor parallelよりpipeline parallelの方が有利で、setupの安定化にもかなりの試行錯誤が必要だった。
vLLMは、NVIDIAがQwen3-VLベースの初のMLPerf vision-language benchmark提出で同frameworkを使ったと説明した。リンク先のNVIDIA blogは、この結果をBlackwell Ultra全体の性能強化の流れに位置づけ、一部workloadで最大2.7倍のthroughputと60%以上のtoken cost削減を主張している。