LocalLLaMAがこのmergeに反応したのは、すぐ試せるからだ。ただしthreadの有益なcaveatは、speedupがpromptの反復性とdraft acceptanceに大きく依存する点だった。
#inference
RSS FeedHNが見ていたのは「CloudflareがAIをやる」という話ではなく、14以上のproviderを束ねるinference layerがagent appの運用を本当に楽にするかだった。CloudflareはAI Gateway、Workers AI bindings、multimodal catalogを一つのplatformとして描き、コメント欄はOpenRouterとの差、pricingの正確さ、catalogの重なりを詰めた。
CloudflareはWorkers AI上のKimi K2.5をagent workload向けに3x fasterにしたと説明した。p90 time per tokenは約100 msから20-30 msへ下がり、peak時のinput token cache hit ratioは60%から80%へ上がった。
LocalLLaMAの熱量は「modelが弱くなった」という不満だけでは終わらなかった。provider routing、quantization、peak-time behavior、silent downgradeをどう証明するかへ議論が広がった。証拠は未確定だが、不安ははっきり見える。
CloudflareはAI Gatewayをagent向けの統合inference layerへ寄せ、Workers AIから70+ models、12+ providersを同じAPIで呼べるようにした。重要なのはcatalogだけではなく、10回前後のinferenceをつなぐagent workflowでcost、retry、failoverを一箇所に寄せる点だ。
このReddit threadは TGI を惜しむ空気ではない。active momentum が離れた後に operator 同士が答え合わせをしている感じで、general inference serving の default はもう vLLM だという見方がかなり強い。
HNでは「Diffusionでも品質を落とさずに済むのでは」という一点にすぐ火が付いた。I-DLMは並列寄りの生成速度とAR級の品質を両立できると主張していて、その話が実際のinference stackで通るのかまで議論が広がった。
GoogleはGemini APIにFlexとPriorityのservice tiersを追加し、background処理には低コストなsynchronous inferenceを、critical trafficにはより高いassuranceを選べるようにした。agent開発者が複数APIへ構成を分断せずに、costとreliabilityを分けて設計できる点が重要だ。
Cloudflareは2026年3月19日、Workers AI に Moonshot AI の Kimi K2.5 を追加して large-model tier に入った。durable agent execution、large-context inference、lower-cost open model deployment を 1 つの stack にまとめる戦略が中心だ。
LocalLLaMAの実装報告は、Apple Silicon向けnative MLX DFlash runtimeがQwen系inferenceを複数条件で2倍から3倍以上高速化すると主張する。注目点はspeedupだけでなく、greedy baselineとbit-for-bit identical outputを維持したと説明しているところだ。
LocalLLaMAで注目された投稿は、SGLang b12x+NEXTN、PCIe switch topology、公開raw benchmark JSONを根拠に、デュアルRTX PRO 6000 Blackwell環境でQwen3.5-122B NVFP4が約198 tok/sに達したと共有した。
LocalLLaMA の高スコア thread は、merge された PR #19378 によって <code>llama.cpp</code> の multi-GPU 実行が一段進んだと受け止めた。ただし新しい <code>--split-mode tensor</code> は明確に experimental で、現状は CUDA が中心、ROCm と Vulkan には性能や安定性の課題が残る。