Cloudflare、Workers AIにKimi K2.5投入 agent coding reviewコスト77%削減を提示

Original: Kimi K2.5 is now available on #WorkersAI . You can now build and run agents end-to-end on the Cloudflare Developer Platform. Read about how we tuned our inference stack to drive down costs for internal agent workflows. cfl.re/4bmpZgb View original →

Read in other languages: 한국어English
LLM Mar 22, 2026 By Insights AI 1 min read Source

XでCloudflareが発表した内容

2026年3月20日、CloudflareはKimi K2.5Workers AIで利用可能になったと発表し、Cloudflare Developer Platform上でagentをend-to-endに構築・実行できると打ち出した。重要なのは新しいモデル追加そのものより、推論、workflow、状態管理、セキュア実行を一つのagent platformとしてまとめて提示した点にある。

公式ブログが示すモデルとプラットフォームの中身

Cloudflareのブログは、Workers AIがfrontier級のopen-source modelを本格的に扱う段階に入ったと説明する。最初の対象がMoonshot AIのKimi K2.5で、Cloudflareはこのモデルが256k context windowmulti-turn tool callingvision inputsstructured outputsを備え、複雑なagent workloadに向くと位置づけている。

  • Cloudflareは内部のOpenCode環境で、Kimi K2.5をagentic codingのdaily driverとして使っていると述べた。
  • 公開code review agentであるBonkにもこのモデルを統合したとしている。
  • 内部のsecurity review agentの一例では、1日あたり7B tokens超を処理し、単一コードベースで15件超のconfirmed issueを見つけたという。
  • 同じworkloadをmid-tier proprietary modelで動かせば年間240万ドル規模だったが、Workers AIへ切り替えることで77%のコスト削減ができたとCloudflareは説明している。

なぜ重要か

この発表が目立つのは、Cloudflareがモデル性能だけでなくagent economicsを前面に出しているからだ。coding agentやpersonal agentが常時動く環境では、長いcontext、繰り返し送るtool schema、コードベース規模のprompt、多段の対話がそのままコストと遅延の問題になる。Cloudflareはこれに対し、prefix cachingの可視化、cached token割引、x-session-affinityヘッダーなど、agentトラフィック前提の最適化を同時に打ち出している。

つまり今回のポイントは「大きなopen modelを提供する」ことだけではない。self-hostingやkernel最適化、推論トポロジー調整を自前で抱えずに、組織全体のagent workloadを回せるコスト構造を作れるかどうかだ。Cloudflareの内部事例が他社にも近い形で再現できるなら、Workers AIはproprietary modelの価格に悩むチームにとって有力な選択肢になる可能性が高い。

ソース: CloudflareのX投稿 · Cloudflare Workers AIの発表記事

Share: Long

Related Articles

LLM Reddit 3d ago 1 min read

2026年3月18日にLocalLLaMAで注目を集めたMamba-3は、Carnegie Mellon University、Princeton、Cartesia AI、Together AIの研究者が公開したstate space modelだ。設計目標をtraining speedからinference efficiencyへ移し、1.5B scaleでMamba-2やGated DeltaNet、Llama-3.2-1Bを上回るprefill+decode latencyを主張している。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.