Cloudflare、Kimi K2.5のtoken latencyを20-30 msへ下げた

Cloudflareの新しいLLM infrastructure記事が問うているのは、単にどのmodelを使えるかではない。1 trillion parameters級のmodelをagent workloadのengineとして動かすとき、serving stackをどこまで変える必要があるのかだ。Cloudflareは2026年4月16日の技術記事で、Workers AI上のKimi K2.5を3x fasterにしたと述べた。

中心となる数字はlatencyである。Cloudflareはprefill decode disaggregated architectureへtrafficを移した後、request volumeが増え、GPU数は同じでも、p90 Time to First Tokenのtail latency varianceが改善したと説明する。さらにp90 time per tokenは、varianceの大きい約100 msから20-30 msへ下がった。Interactive agentsやcoding assistantsでは、このintertoken latencyの差が体感速度を左右する。

背景にはagent traffic特有の形がある。Agentはsystem prompt、tools、MCPs、過去のmessages、生成されたcodeをcontextに積み続ける。各turnでは大量のinput contextを送ってからoutput tokenを生成する。Cloudflareはそのため、fast input token processingとfast tool callingを優先した。Prefillとdecodeを別server poolに分け、token-aware load balancingでendpointごとのin-flight prefill/decode tokensを推定しながら負荷を分散する。

Prompt cachingも重要なleversの1つだ。Cloudflareはx-session-affinity headerで、以前にinput tensorsを計算したregionへrequestを寄せる。Heavy internal usersと作業した結果、peak時のinput token cache hit ratioは60%から80%へ上がったという。Long-context agent sessionでは、cache missの小さな差が必要GPU数とlatencyの両方に効いてくる。

記事はCloudflareのRust inference engineであるInfireにも踏み込む。Kimi K2.5は1 trillion parametersを超え、model weightsだけで約560GBあり、追加のKV-cacheを考える前に少なくとも8 H100sが必要だと説明されている。InfireはLlama 4 Scoutをtwo H200 GPUsで動かし、KV-cache向けに56 GiB以上を残して1.2m tokens超に対応できる。またKimi K2.5を8 H100 GPUsで動かし、KV-cache向けに30 GiB以上を残せるという。最大級のmodelでもunder 20 secondsでservingを始められ、unconstrained systemsではtokens per second throughputをup to 20%高められるとしている。

Cloudflare、Kimi K2.5のtoken latencyを20-30 msへ下げた

Related Articles

OpenRouter、週25兆トークンでAIルーティングに$113M流入

Tiny-vLLM、C++とCUDAでLLM inferenceを作りながら学ぶ小さな実装

DynoSim、60.1分の推論トラフィックを2.41秒で再現したNVIDIAの検証手法

Comments (0)

Leave a Comment