Cloudflare, Workers AI에 Kimi K2.5 탑재... 256k context로 agent infrastructure 대형 모델 경쟁 진입

Original: Powering the agents: Workers AI now runs large models, starting with Kimi K2.5 View original →

Read in other languages: English日本語
LLM Apr 11, 2026 By Insights AI 1 min read Source

Cloudflare는 2026년 3월 19일 Workers AI가 Moonshot AI의 Kimi K2.5를 추가하며 large-model tier에 진입한다고 밝혔다. 이 model은 256k context window와 multi-turn tool calling, vision input, structured output을 지원한다. Cloudflare의 설명대로라면 이는 자사 agent stack의 마지막 빈칸을 메우는 성격이 있다. Durable Objects, Workflows, Dynamic Workers, Sandbox container, Agents SDK는 이미 execution과 orchestration을 담당하고 있었지만, 같은 환경 안에 frontier-scale open model이 부족했다는 것이다.

Cloudflare는 자사 workload를 근거로 이 전략을 설득한다. 엔지니어들이 OpenCode에서 Kimi를 agentic coding task에 사용하고 있고, public code review agent인 Bonk에도 통합했다고 설명한다. 또 하루 7B token 이상을 처리하는 security review agent가 단일 codebase에서 15개 이상의 confirmed issue를 잡아냈다고 밝혔다. 가장 강한 주장은 economics 쪽이다. Cloudflare는 해당 security review use case를 mid-tier proprietary model에서 돌렸다면 연간 약 $2.4M이 들었을 것이고, Workers AI 위 Kimi로 바꾸며 비용을 77% 줄였다고 말했다.

이번 출시는 model access만의 이야기가 아니다. Cloudflare는 long-running agent를 겨냥한 platform 개선도 함께 내놨다. Workers AI는 이제 cached token을 usage metric으로 노출하고, cached token에 대한 discount도 제공한다. agent loop에서 반복 context가 얼마나 큰 비용 요소인지 반영한 변화다. 또 관련 request를 같은 model instance로 라우팅해 prefix cache hit rate를 높이기 위한 x-session-affinity header를 추가했다. time to first token과 비용을 함께 낮추려는 목적이다. code scanning이나 research agent 같은 durable job을 위한 revamped asynchronous API도 공개했고, internal testing 기준으로 async request는 보통 5분 안에 실행됐다고 밝혔다.

더 큰 포인트는 Cloudflare가 agent infrastructure를 위한 one-platform story를 밀고 있다는 점이다. serverless execution platform, 별도 model provider, custom queueing이나 state system을 각각 조립하는 대신, 전체 lifecycle을 하나의 stack 안에 두겠다는 방향이다. large context window와 tool-use support를 가진 model이 들어오면서 이 주장은 훨씬 설득력을 얻는다.

물론 잘 운영된 managed service와 self-hosting economics 사이의 간극은 여전히 남아 있고, Kimi의 실제 품질도 가격만큼 중요하다. 그래도 3월 19일 출시는 Cloudflare가 frontier open model을 단순 inference endpoint의 옵션이 아니라, agent infrastructure의 핵심 요소로 보고 있다는 신호로 읽힌다.

Share: Long

Related Articles

LLM sources.twitter Mar 23, 2026 1 min read

Cloudflare는 2026년 3월 20일 Kimi K2.5를 Workers AI에서 제공해 agent를 자사 플랫폼 위에서 end-to-end로 실행할 수 있다고 밝혔다. 연결된 Cloudflare 블로그는 256K context, multi-turn tool calling, vision, structured outputs 지원과 함께 한 내부 agent workload에서 비용을 77% 줄였다고 설명한다.

LLM sources.twitter Mar 22, 2026 2 min read

Cloudflare는 2026년 3월 20일 Kimi K2.5를 Workers AI에 올려 Cloudflare 개발자 플랫폼 위에서 end-to-end agent를 구축·운영할 수 있다고 밝혔다. 공식 블로그는 256k context, multi-turn tool calling, vision inputs, structured outputs와 함께, 내부 보안 검토 agent가 하루 7B 토큰을 처리하면서 비용을 77% 줄였다고 설명한다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.