Cloudflare, Workers AI에 Kimi K2.5 투입… 내부 agent 비용 77% 절감 사례 공개

X에서 Cloudflare가 발표한 내용

2026년 3월 20일, Cloudflare는 Kimi K2.5가 Workers AI에서 제공된다고 밝히며, 개발자가 Cloudflare Developer Platform 위에서 agent를 end-to-end로 구축하고 실행할 수 있다고 설명했다. 게시물은 동시에 내부 agent workload 비용을 낮추기 위해 inference stack을 어떻게 조정했는지도 함께 읽어보라고 안내했다.

이 표현이 중요한 이유는 Cloudflare가 단순히 model endpoint 하나를 추가한 것이 아니기 때문이다. 회사는 Workers AI를 이미 보유한 Durable Objects, Workflows, Dynamic Workers, Sandbox 같은 실행 primitives와 결합된 더 넓은 agent runtime의 핵심 계층으로 배치하고 있다.

Cloudflare 블로그가 추가한 내용

3월 19일 Cloudflare 블로그는 Workers AI가 이제 대형 모델 계층으로 올라가며, 첫 사례로 Moonshot AI의 Kimi K2.5를 제공한다고 설명한다. Cloudflare는 이 모델이 256K context window, multi-turn tool calling, vision input, structured output을 지원해 소형 open model보다 agent workload에 더 잘 맞는다고 본다.

가장 구체적인 부분은 내부 운영 수치다. Cloudflare는 엔지니어들이 OpenCode에서 agentic coding 작업에 Kimi를 쓰고 있고, 공개 저장소에서 동작하는 Bonk code review agent에도 이 모델을 연결했다고 밝혔다. 그중 보안 검토 agent 하나는 하루 7B token 이상을 처리하고, 단일 codebase에서 15건 이상의 confirmed issue를 발견했다. 회사는 이 workload를 중간급 proprietary model로 돌렸다면 연간 약 240만 달러가 들었겠지만, Workers AI로 전환한 뒤 비용이 77% 줄었다고 주장한다.

출시와 함께 agent 트래픽에 맞춘 플랫폼 개선도 공개했다. cached token을 사용량 지표로 노출하고 할인 요금도 붙였으며, prefix cache hit rate를 높이기 위한 x-session-affinity header를 추가했다. 또한 research agent나 code scanning agent처럼 오래 지속되는 작업을 위해 asynchronous API도 개편했다.

왜 중요한가

더 큰 신호는 기술 자체보다 economics에 있다. 팀이 가끔 프롬프트를 보내는 수준을 넘어, 상시 동작하는 coding, search, security agent를 운영하기 시작하면 모델 가용성보다 inference 비용이 먼저 병목이 된다. Cloudflare는 대형 open model과 serving 최적화를 결합하면 그 비용 장벽을 충분히 낮출 수 있다고 주장하는 셈이다.

이 주장이 맞다면 경쟁의 중심은 모델 하나의 성능보다 인프라 품질로 이동한다. cache hit behavior, async execution, throughput tuning, 그리고 나머지 runtime과의 결합도가 agent 플랫폼 경쟁력의 핵심이 된다는 뜻이다.

출처: Cloudflare X 게시물 · Cloudflare 블로그

Cloudflare, Workers AI에 Kimi K2.5 투입… 내부 agent 비용 77% 절감 사례 공개

X에서 Cloudflare가 발표한 내용

Cloudflare 블로그가 추가한 내용

왜 중요한가

Related Articles

Cloudflare, Workers AI에 Kimi K2.5 탑재... 256k context로 agent infrastructure 대형 모델 경쟁 진입

Cloudflare, Workers AI에 Kimi K2.5 도입… agent용 inference stack도 함께 최적화

Cloudflare, Workers AI에 Kimi K2.5 투입… agent 코딩·보안 검토 비용 77% 절감 제시

Comments (0)

Leave a Comment

Related Articles

Cloudflare, Workers AI에 Kimi K2.5 탑재... 256k context로 agent infrastructure 대형 모델 경쟁 진입
LLM Apr 11, 2026 1 min read

Cloudflare, Workers AI에 Kimi K2.5 도입… agent용 inference stack도 함께 최적화
LLM X/Twitter Mar 23, 2026 1 min read

Cloudflare, Workers AI에 Kimi K2.5 투입… agent 코딩·보안 검토 비용 77% 절감 제시
LLM X/Twitter Mar 22, 2026 2 min read