Cloudflare、Workers AI に Kimi K2.5 を投入 256k context で agent infrastructure を大型 model へ拡張
Original: Powering the agents: Workers AI now runs large models, starting with Kimi K2.5 View original →
Cloudflareは2026年3月19日、Workers AI が Moonshot AI の Kimi K2.5 を追加して large-model tier に入ると発表した。この model は 256k context window に加え、multi-turn tool calling、vision input、structured output をサポートする。Cloudflareの説明では、これは自社 agent stack の最後の空白を埋める更新だ。Durable Objects、Workflows、Dynamic Workers、Sandbox container、Agents SDK はすでに execution と orchestration を担っていたが、同じ environment 内に frontier-scale open model が不足していたというわけだ。
Cloudflareは自社 workload を材料にこの戦略を説明する。エンジニアはすでに OpenCode で Kimi を agentic coding task に使っており、public code review agent の Bonk にも組み込んでいるという。さらに 1日あたり 7B token 以上を処理する security review agent が、単一の codebase で 15件超の confirmed issue を見つけたと述べる。もっとも強い主張は economics にある。Cloudflareはその security review use case を mid-tier proprietary model で運用すると年間約 $2.4M かかったはずで、Workers AI 上の Kimi に切り替えることで cost を 77% 削減できたと説明した。
今回の launch は model access だけの話ではない。Cloudflareは long-running agent を意識した platform 改善も同時に出している。Workers AI は cached token を usage metric として見せるようになり、cached token に対する discount も導入した。agent loop で繰り返し使う context が大きな cost 要因であることを踏まえた動きだ。さらに関連 request を同じ model instance に寄せて prefix cache hit rate を高める x-session-affinity header を追加し、time to first token と cost の両方を下げようとしている。code scanning や research agent のような durable job 向けには revamped asynchronous API も発表し、internal testing では async request が通常 5分以内に完了したとしている。
より大きなポイントは、Cloudflare が agent infrastructure の one-platform story を押し出していることだ。serverless execution platform、別の model provider、custom queueing や state system を個別に組み合わせるのではなく、lifecycle 全体を 1 つの stack に載せたいという方向だ。large context window と tool-use support を持つ model が入ったことで、この主張はかなり現実味を増した。
もちろん、よく運用された managed service と self-hosting economics の間には依然として差があり、Kimi の実運用品質も price と同じくらい重要だ。それでも 3月19日の発表は、Cloudflare が frontier open model を単純な inference endpoint の追加機能ではなく、agent infrastructure の中核として見ていることを示す重要なサインだ。
Related Articles
Cloudflareは3月19日にXで、Kimi K2.5 が Workers AI で利用可能になったと発表した。単なるモデル追加ではなく、agent workload の遅延とコストを下げる platform 改善もセットになった launch だ。
Cloudflareは2026年3月20日、Kimi K2.5をWorkers AIに載せ、Cloudflare Developer Platform上でend-to-end agentを構築・運用できると発表した。公式ブログでは256k context、multi-turn tool calling、vision inputs、structured outputsに加え、1日7B tokensを処理する内部security review agentで77%のコスト削減を示している。
Cloudflareは2026年3月20日、Kimi K2.5をWorkers AIで提供し、agentを自社platform上でend-to-endに実行できるようにしたと発表した。リンク先のCloudflare blogは、256K context、multi-turn tool calling、vision、structured outputsに加え、ある内部agent workloadでコストを77%削減したと説明している。
Comments (0)
No comments yet. Be the first to comment!