Cloudflare, Workers AI에 Kimi K2.5 탑재... 256k context로 agent infrastructure 대형 모델 경쟁 진입

Cloudflare는 2026년 3월 19일 Workers AI가 Moonshot AI의 Kimi K2.5를 추가하며 large-model tier에 진입한다고 밝혔다. 이 model은 256k context window와 multi-turn tool calling, vision input, structured output을 지원한다. Cloudflare의 설명대로라면 이는 자사 agent stack의 마지막 빈칸을 메우는 성격이 있다. Durable Objects, Workflows, Dynamic Workers, Sandbox container, Agents SDK는 이미 execution과 orchestration을 담당하고 있었지만, 같은 환경 안에 frontier-scale open model이 부족했다는 것이다.

Cloudflare는 자사 workload를 근거로 이 전략을 설득한다. 엔지니어들이 OpenCode에서 Kimi를 agentic coding task에 사용하고 있고, public code review agent인 Bonk에도 통합했다고 설명한다. 또 하루 7B token 이상을 처리하는 security review agent가 단일 codebase에서 15개 이상의 confirmed issue를 잡아냈다고 밝혔다. 가장 강한 주장은 economics 쪽이다. Cloudflare는 해당 security review use case를 mid-tier proprietary model에서 돌렸다면 연간 약 $2.4M이 들었을 것이고, Workers AI 위 Kimi로 바꾸며 비용을 77% 줄였다고 말했다.

이번 출시는 model access만의 이야기가 아니다. Cloudflare는 long-running agent를 겨냥한 platform 개선도 함께 내놨다. Workers AI는 이제 cached token을 usage metric으로 노출하고, cached token에 대한 discount도 제공한다. agent loop에서 반복 context가 얼마나 큰 비용 요소인지 반영한 변화다. 또 관련 request를 같은 model instance로 라우팅해 prefix cache hit rate를 높이기 위한 x-session-affinity header를 추가했다. time to first token과 비용을 함께 낮추려는 목적이다. code scanning이나 research agent 같은 durable job을 위한 revamped asynchronous API도 공개했고, internal testing 기준으로 async request는 보통 5분 안에 실행됐다고 밝혔다.

더 큰 포인트는 Cloudflare가 agent infrastructure를 위한 one-platform story를 밀고 있다는 점이다. serverless execution platform, 별도 model provider, custom queueing이나 state system을 각각 조립하는 대신, 전체 lifecycle을 하나의 stack 안에 두겠다는 방향이다. large context window와 tool-use support를 가진 model이 들어오면서 이 주장은 훨씬 설득력을 얻는다.

물론 잘 운영된 managed service와 self-hosting economics 사이의 간극은 여전히 남아 있고, Kimi의 실제 품질도 가격만큼 중요하다. 그래도 3월 19일 출시는 Cloudflare가 frontier open model을 단순 inference endpoint의 옵션이 아니라, agent infrastructure의 핵심 요소로 보고 있다는 신호로 읽힌다.

Cloudflare, Workers AI에 Kimi K2.5 탑재... 256k context로 agent infrastructure 대형 모델 경쟁 진입

Related Articles

Cloudflare, Workers AI에 Kimi K2.5 도입… agent용 inference stack도 함께 최적화

Cloudflare, Workers AI에 Kimi K2.5 투입… 내부 agent 비용 77% 절감 사례 공개

Cloudflare, Workers AI에 Kimi K2.5 투입… agent 코딩·보안 검토 비용 77% 절감 제시

Comments (0)

Leave a Comment

Related Articles

Cloudflare, Workers AI에 Kimi K2.5 도입… agent용 inference stack도 함께 최적화
LLM X/Twitter Mar 23, 2026 1 min read

Cloudflare, Workers AI에 Kimi K2.5 투입… 내부 agent 비용 77% 절감 사례 공개
LLM X/Twitter Mar 23, 2026 1 min read

Cloudflare, Workers AI에 Kimi K2.5 투입… agent 코딩·보안 검토 비용 77% 절감 제시
LLM X/Twitter Mar 22, 2026 2 min read