Cloudflare、Workers AI に Kimi K2.5 を投入　256k context で agent infrastructure を大型 model へ拡張

Cloudflareは2026年3月19日、Workers AI が Moonshot AI の Kimi K2.5 を追加して large-model tier に入ると発表した。この model は 256k context window に加え、multi-turn tool calling、vision input、structured output をサポートする。Cloudflareの説明では、これは自社 agent stack の最後の空白を埋める更新だ。Durable Objects、Workflows、Dynamic Workers、Sandbox container、Agents SDK はすでに execution と orchestration を担っていたが、同じ environment 内に frontier-scale open model が不足していたというわけだ。

Cloudflareは自社 workload を材料にこの戦略を説明する。エンジニアはすでに OpenCode で Kimi を agentic coding task に使っており、public code review agent の Bonk にも組み込んでいるという。さらに 1日あたり 7B token 以上を処理する security review agent が、単一の codebase で 15件超の confirmed issue を見つけたと述べる。もっとも強い主張は economics にある。Cloudflareはその security review use case を mid-tier proprietary model で運用すると年間約 $2.4M かかったはずで、Workers AI 上の Kimi に切り替えることで cost を 77% 削減できたと説明した。

今回の launch は model access だけの話ではない。Cloudflareは long-running agent を意識した platform 改善も同時に出している。Workers AI は cached token を usage metric として見せるようになり、cached token に対する discount も導入した。agent loop で繰り返し使う context が大きな cost 要因であることを踏まえた動きだ。さらに関連 request を同じ model instance に寄せて prefix cache hit rate を高める x-session-affinity header を追加し、time to first token と cost の両方を下げようとしている。code scanning や research agent のような durable job 向けには revamped asynchronous API も発表し、internal testing では async request が通常 5分以内に完了したとしている。

より大きなポイントは、Cloudflare が agent infrastructure の one-platform story を押し出していることだ。serverless execution platform、別の model provider、custom queueing や state system を個別に組み合わせるのではなく、lifecycle 全体を 1 つの stack に載せたいという方向だ。large context window と tool-use support を持つ model が入ったことで、この主張はかなり現実味を増した。

もちろん、よく運用された managed service と self-hosting economics の間には依然として差があり、Kimi の実運用品質も price と同じくらい重要だ。それでも 3月19日の発表は、Cloudflare が frontier open model を単純な inference endpoint の追加機能ではなく、agent infrastructure の中核として見ていることを示す重要なサインだ。

Cloudflare、Workers AI に Kimi K2.5 を投入　256k context で agent infrastructure を大型 model へ拡張

Related Articles

Cloudflare brings Kimi K2.5 to Workers AI and tunes the stack for agents

Cloudflare brings Kimi K2.5 to Workers AI and says agent coding reviews cut costs by 77%

Cloudflare brings Kimi K2.5 to Workers AI and shows how it cut internal agent costs

Related Articles

Cloudflare brings Kimi K2.5 to Workers AI and tunes the stack for agents
LLM X/Twitter Mar 23, 2026 1 min read

Cloudflare brings Kimi K2.5 to Workers AI and says agent coding reviews cut costs by 77%
LLM X/Twitter Mar 22, 2026 2 min read

Cloudflare brings Kimi K2.5 to Workers AI and shows how it cut internal agent costs
LLM X/Twitter Mar 23, 2026 2 min read