Cloudflare、Kimi K2.5のtoken latencyを20-30 msへ下げた
Original: Building the foundation for running extra-large language models View original →
Cloudflareの新しいLLM infrastructure記事が問うているのは、単にどのmodelを使えるかではない。1 trillion parameters級のmodelをagent workloadのengineとして動かすとき、serving stackをどこまで変える必要があるのかだ。Cloudflareは2026年4月16日の技術記事で、Workers AI上のKimi K2.5を3x fasterにしたと述べた。
中心となる数字はlatencyである。Cloudflareはprefill decode disaggregated architectureへtrafficを移した後、request volumeが増え、GPU数は同じでも、p90 Time to First Tokenのtail latency varianceが改善したと説明する。さらにp90 time per tokenは、varianceの大きい約100 msから20-30 msへ下がった。Interactive agentsやcoding assistantsでは、このintertoken latencyの差が体感速度を左右する。
背景にはagent traffic特有の形がある。Agentはsystem prompt、tools、MCPs、過去のmessages、生成されたcodeをcontextに積み続ける。各turnでは大量のinput contextを送ってからoutput tokenを生成する。Cloudflareはそのため、fast input token processingとfast tool callingを優先した。Prefillとdecodeを別server poolに分け、token-aware load balancingでendpointごとのin-flight prefill/decode tokensを推定しながら負荷を分散する。
Prompt cachingも重要なleversの1つだ。Cloudflareはx-session-affinity headerで、以前にinput tensorsを計算したregionへrequestを寄せる。Heavy internal usersと作業した結果、peak時のinput token cache hit ratioは60%から80%へ上がったという。Long-context agent sessionでは、cache missの小さな差が必要GPU数とlatencyの両方に効いてくる。
記事はCloudflareのRust inference engineであるInfireにも踏み込む。Kimi K2.5は1 trillion parametersを超え、model weightsだけで約560GBあり、追加のKV-cacheを考える前に少なくとも8 H100sが必要だと説明されている。InfireはLlama 4 Scoutをtwo H200 GPUsで動かし、KV-cache向けに56 GiB以上を残して1.2m tokens超に対応できる。またKimi K2.5を8 H100 GPUsで動かし、KV-cache向けに30 GiB以上を残せるという。最大級のmodelでもunder 20 secondsでservingを始められ、unconstrained systemsではtokens per second throughputをup to 20%高められるとしている。
Related Articles
資金はモデルそのものだけでなく、どのリクエストをどのモデルへ流すかを決める層にも集まり始めた。OpenRouterは週25兆トークン、400以上のモデル、800万超のユーザーを掲げて$113 million Series Bを獲得した。
HNの反応はコードだけでなくREADMEに集まった。vLLMの考え方を、小さな実装と教材の流れに落とし込んでいる点が評価された。
NVIDIAはLLM推論スタックの設定探索を実機投入前に絞り込むDynoSimを示した。技術ブログでは23,608件のリクエスト、60.1分のserving windowを2.41秒で再現した例が示されている。
Comments (0)
No comments yet. Be the first to comment!