Cloudflare、Workers AI に Kimi K2.5 を投入　256k context で agent infrastructure を大型 model へ拡張

Cloudflareは2026年3月19日、Workers AI が Moonshot AI の Kimi K2.5 を追加して large-model tier に入ると発表した。この model は 256k context window に加え、multi-turn tool calling、vision input、structured output をサポートする。Cloudflareの説明では、これは自社 agent stack の最後の空白を埋める更新だ。Durable Objects、Workflows、Dynamic Workers、Sandbox container、Agents SDK はすでに execution と orchestration を担っていたが、同じ environment 内に frontier-scale open model が不足していたというわけだ。

Cloudflareは自社 workload を材料にこの戦略を説明する。エンジニアはすでに OpenCode で Kimi を agentic coding task に使っており、public code review agent の Bonk にも組み込んでいるという。さらに 1日あたり 7B token 以上を処理する security review agent が、単一の codebase で 15件超の confirmed issue を見つけたと述べる。もっとも強い主張は economics にある。Cloudflareはその security review use case を mid-tier proprietary model で運用すると年間約 $2.4M かかったはずで、Workers AI 上の Kimi に切り替えることで cost を 77% 削減できたと説明した。

今回の launch は model access だけの話ではない。Cloudflareは long-running agent を意識した platform 改善も同時に出している。Workers AI は cached token を usage metric として見せるようになり、cached token に対する discount も導入した。agent loop で繰り返し使う context が大きな cost 要因であることを踏まえた動きだ。さらに関連 request を同じ model instance に寄せて prefix cache hit rate を高める x-session-affinity header を追加し、time to first token と cost の両方を下げようとしている。code scanning や research agent のような durable job 向けには revamped asynchronous API も発表し、internal testing では async request が通常 5分以内に完了したとしている。

より大きなポイントは、Cloudflare が agent infrastructure の one-platform story を押し出していることだ。serverless execution platform、別の model provider、custom queueing や state system を個別に組み合わせるのではなく、lifecycle 全体を 1 つの stack に載せたいという方向だ。large context window と tool-use support を持つ model が入ったことで、この主張はかなり現実味を増した。

もちろん、よく運用された managed service と self-hosting economics の間には依然として差があり、Kimi の実運用品質も price と同じくらい重要だ。それでも 3月19日の発表は、Cloudflare が frontier open model を単純な inference endpoint の追加機能ではなく、agent infrastructure の中核として見ていることを示す重要なサインだ。

Cloudflare、Workers AI に Kimi K2.5 を投入　256k context で agent infrastructure を大型 model へ拡張

Related Articles

Cloudflare、Workers AI に Kimi K2.5 を追加し agent 向け推論基盤も強化

Cloudflare、Workers AIにKimi K2.5投入　agent coding reviewコスト77%削減を提示

Cloudflare、Workers AIにKimi K2.5を投入　内部agentコスト77%削減事例を公開

Comments (0)

Leave a Comment

Related Articles

Cloudflare、Workers AI に Kimi K2.5 を追加し agent 向け推論基盤も強化
LLM X/Twitter Mar 23, 2026 1 min read

Cloudflare、Workers AIにKimi K2.5投入　agent coding reviewコスト77%削減を提示
LLM X/Twitter Mar 22, 2026 1 min read

Cloudflare、Workers AIにKimi K2.5を投入　内部agentコスト77%削減事例を公開
LLM X/Twitter Mar 23, 2026 1 min read