Cloudflare, Workers AI에 Kimi K2.5 투입… 내부 agent 비용 77% 절감 사례 공개
Original: Kimi K2.5 is now available on #WorkersAI. You can now build and run agents end-to-end on the Cloudflare Developer Platform. Read about how we tuned our inference stack to drive down costs for internal agent workflows. https://cfl.re/4bmpZgb View original →
X에서 Cloudflare가 발표한 내용
2026년 3월 20일, Cloudflare는 Kimi K2.5가 Workers AI에서 제공된다고 밝히며, 개발자가 Cloudflare Developer Platform 위에서 agent를 end-to-end로 구축하고 실행할 수 있다고 설명했다. 게시물은 동시에 내부 agent workload 비용을 낮추기 위해 inference stack을 어떻게 조정했는지도 함께 읽어보라고 안내했다.
이 표현이 중요한 이유는 Cloudflare가 단순히 model endpoint 하나를 추가한 것이 아니기 때문이다. 회사는 Workers AI를 이미 보유한 Durable Objects, Workflows, Dynamic Workers, Sandbox 같은 실행 primitives와 결합된 더 넓은 agent runtime의 핵심 계층으로 배치하고 있다.
Cloudflare 블로그가 추가한 내용
3월 19일 Cloudflare 블로그는 Workers AI가 이제 대형 모델 계층으로 올라가며, 첫 사례로 Moonshot AI의 Kimi K2.5를 제공한다고 설명한다. Cloudflare는 이 모델이 256K context window, multi-turn tool calling, vision input, structured output을 지원해 소형 open model보다 agent workload에 더 잘 맞는다고 본다.
가장 구체적인 부분은 내부 운영 수치다. Cloudflare는 엔지니어들이 OpenCode에서 agentic coding 작업에 Kimi를 쓰고 있고, 공개 저장소에서 동작하는 Bonk code review agent에도 이 모델을 연결했다고 밝혔다. 그중 보안 검토 agent 하나는 하루 7B token 이상을 처리하고, 단일 codebase에서 15건 이상의 confirmed issue를 발견했다. 회사는 이 workload를 중간급 proprietary model로 돌렸다면 연간 약 240만 달러가 들었겠지만, Workers AI로 전환한 뒤 비용이 77% 줄었다고 주장한다.
출시와 함께 agent 트래픽에 맞춘 플랫폼 개선도 공개했다. cached token을 사용량 지표로 노출하고 할인 요금도 붙였으며, prefix cache hit rate를 높이기 위한 x-session-affinity header를 추가했다. 또한 research agent나 code scanning agent처럼 오래 지속되는 작업을 위해 asynchronous API도 개편했다.
왜 중요한가
더 큰 신호는 기술 자체보다 economics에 있다. 팀이 가끔 프롬프트를 보내는 수준을 넘어, 상시 동작하는 coding, search, security agent를 운영하기 시작하면 모델 가용성보다 inference 비용이 먼저 병목이 된다. Cloudflare는 대형 open model과 serving 최적화를 결합하면 그 비용 장벽을 충분히 낮출 수 있다고 주장하는 셈이다.
이 주장이 맞다면 경쟁의 중심은 모델 하나의 성능보다 인프라 품질로 이동한다. cache hit behavior, async execution, throughput tuning, 그리고 나머지 runtime과의 결합도가 agent 플랫폼 경쟁력의 핵심이 된다는 뜻이다.
Related Articles
Cloudflare는 2026년 3월 20일 Kimi K2.5를 Workers AI에 올려 Cloudflare 개발자 플랫폼 위에서 end-to-end agent를 구축·운영할 수 있다고 밝혔다. 공식 블로그는 256k context, multi-turn tool calling, vision inputs, structured outputs와 함께, 내부 보안 검토 agent가 하루 7B 토큰을 처리하면서 비용을 77% 줄였다고 설명한다.
Cloudflare가 2026년 3월 19일 Workers AI에서 Moonshot AI의 Kimi K2.5 제공을 시작했다고 밝혔다. 256k context window와 tool calling, vision, structured outputs를 앞세워 agent stack 통합 경쟁에 본격 진입하는 모양새다.
2026년 3월 18일 LocalLLaMA에서 화제가 된 Mamba-3는 Together AI와 CMU, Princeton, Cartesia AI 연구진이 공개한 state space model 연구다. 설계 목표를 training speed보다 inference efficiency에 두고, 1.5B scale에서 Mamba-2와 Gated DeltaNet, Llama-3.2-1B 대비 prefill+decode latency 우위를 주장한다.
Comments (0)
No comments yet. Be the first to comment!