Cloudflare、Kimi K2.5のtoken latencyを20-30 msへ下げた

Original: Building the foundation for running extra-large language models View original →

Read in other languages: 한국어English
LLM Apr 17, 2026 By Insights AI 1 min read 1 views Source

Cloudflareの新しいLLM infrastructure記事が問うているのは、単にどのmodelを使えるかではない。1 trillion parameters級のmodelをagent workloadのengineとして動かすとき、serving stackをどこまで変える必要があるのかだ。Cloudflareは2026年4月16日の技術記事で、Workers AI上のKimi K2.5を3x fasterにしたと述べた。

中心となる数字はlatencyである。Cloudflareはprefill decode disaggregated architectureへtrafficを移した後、request volumeが増え、GPU数は同じでも、p90 Time to First Tokenのtail latency varianceが改善したと説明する。さらにp90 time per tokenは、varianceの大きい約100 msから20-30 msへ下がった。Interactive agentsやcoding assistantsでは、このintertoken latencyの差が体感速度を左右する。

背景にはagent traffic特有の形がある。Agentはsystem prompt、tools、MCPs、過去のmessages、生成されたcodeをcontextに積み続ける。各turnでは大量のinput contextを送ってからoutput tokenを生成する。Cloudflareはそのため、fast input token processingとfast tool callingを優先した。Prefillとdecodeを別server poolに分け、token-aware load balancingでendpointごとのin-flight prefill/decode tokensを推定しながら負荷を分散する。

Prompt cachingも重要なleversの1つだ。Cloudflareはx-session-affinity headerで、以前にinput tensorsを計算したregionへrequestを寄せる。Heavy internal usersと作業した結果、peak時のinput token cache hit ratioは60%から80%へ上がったという。Long-context agent sessionでは、cache missの小さな差が必要GPU数とlatencyの両方に効いてくる。

記事はCloudflareのRust inference engineであるInfireにも踏み込む。Kimi K2.5は1 trillion parametersを超え、model weightsだけで約560GBあり、追加のKV-cacheを考える前に少なくとも8 H100sが必要だと説明されている。InfireはLlama 4 Scoutをtwo H200 GPUsで動かし、KV-cache向けに56 GiB以上を残して1.2m tokens超に対応できる。またKimi K2.5を8 H100 GPUsで動かし、KV-cache向けに30 GiB以上を残せるという。最大級のmodelでもunder 20 secondsでservingを始められ、unconstrained systemsではtokens per second throughputをup to 20%高められるとしている。

Share: Long

Related Articles

LLM 2d ago 1 min read

CloudflareはAI Gatewayをagent向けの統合inference layerへ寄せ、Workers AIから70+ models、12+ providersを同じAPIで呼べるようにした。重要なのはcatalogだけではなく、10回前後のinferenceをつなぐagent workflowでcost、retry、failoverを一箇所に寄せる点だ。

LLM Hacker News 1d ago 1 min read

HNが見ていたのは「CloudflareがAIをやる」という話ではなく、14以上のproviderを束ねるinference layerがagent appの運用を本当に楽にするかだった。CloudflareはAI Gateway、Workers AI bindings、multimodal catalogを一つのplatformとして描き、コメント欄はOpenRouterとの差、pricingの正確さ、catalogの重なりを詰めた。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.