Cloudflare, Workers AI에 Kimi K2.5 투입… agent 코딩·보안 검토 비용 77% 절감 제시

X에서 Cloudflare가 발표한 내용

2026년 3월 20일 Cloudflare는 Kimi K2.5가 Workers AI에서 사용 가능해졌다고 발표하며, 개발자가 Cloudflare Developer Platform 위에서 agent를 end-to-end로 구축하고 실행할 수 있다고 강조했다. 이 게시물의 핵심은 단순히 모델 하나를 추가했다는 사실보다, Cloudflare가 agent 실행에 필요한 인프라와 모델 추론을 한 플랫폼에서 묶어 제공하려는 방향을 분명히 했다는 점이다.

공식 블로그가 제시한 기술적 포인트

Cloudflare의 출시 글은 Workers AI가 이제 frontier급 open-source 모델을 본격적으로 다루기 시작했다고 설명한다. 첫 사례가 Moonshot AI의 Kimi K2.5이며, Cloudflare는 이 모델이 256k context window, multi-turn tool calling, vision inputs, structured outputs를 지원해 다양한 agent workload에 적합하다고 소개한다. 즉 agent의 상태, 워크플로, 실행 컨테이너, 추론 모델을 하나의 개발자 플랫폼 위에 올려놓겠다는 그림이다.

Cloudflare는 Kimi K2.5를 내부 OpenCode 환경에서 agentic coding의 daily driver로 쓰고 있다고 밝혔다.
공개 code review agent인 Bonk에도 이 모델을 통합했다고 설명한다.
보안 검토 agent 하나가 하루 7B tokens 이상을 처리하며 단일 코드베이스에서 15건 이상의 확정 이슈를 잡았다고 적었다.
같은 use case를 mid-tier proprietary model로 돌렸다면 연간 240만 달러 수준이었겠지만, Workers AI로 전환해 77% 비용 절감을 이뤘다고 주장한다.

비용과 플랫폼 설계 측면에서 왜 중요한가

이 발표가 의미 있는 이유는 Cloudflare가 모델 성능 자체보다도 agent economics를 전면에 내세웠기 때문이다. coding agent나 personal agent가 24시간 돌아가는 환경에서는 토큰 비용과 prefill 효율이 바로 확장성의 병목이 된다. Cloudflare는 여기에 대응해 prefix caching 사용량 노출, cached token 할인, x-session-affinity 헤더 같은 개선도 함께 내놨다. 이는 단순 모델 호스팅이 아니라 agent 트래픽 패턴에 맞춘 플랫폼 최적화에 가깝다.

또한 Cloudflare는 custom kernel과 자체 inference stack 조정을 통해, self-hosting 없이도 대형 open model을 API처럼 사용할 수 있게 만들겠다는 메시지를 던진다. 만약 이 비용 구조가 실제 현장에서도 재현된다면, Workers AI는 proprietary model 가격 부담 때문에 agent 배치를 망설이던 팀에게 꽤 강한 대안이 될 수 있다. 결국 이번 출시는 “좋은 모델이 있느냐”보다 “그 모델을 조직 전체의 agent 워크로드에 감당 가능한 비용으로 올릴 수 있느냐”가 더 중요한 단계로 시장이 이동하고 있음을 보여준다.

출처: Cloudflare X 게시물 · Cloudflare Workers AI 발표 글

Cloudflare, Workers AI에 Kimi K2.5 투입… agent 코딩·보안 검토 비용 77% 절감 제시

X에서 Cloudflare가 발표한 내용

공식 블로그가 제시한 기술적 포인트

비용과 플랫폼 설계 측면에서 왜 중요한가

Related Articles

Cloudflare, Workers AI에 Kimi K2.5 탑재... 256k context로 agent infrastructure 대형 모델 경쟁 진입

Cloudflare, Workers AI에 Kimi K2.5 도입하며 대형 open-source model 제공 시작

Cloudflare, Workers AI에 Kimi K2.5 도입… agent용 inference stack도 함께 최적화

Comments (0)

Leave a Comment

Related Articles

Cloudflare, Workers AI에 Kimi K2.5 탑재... 256k context로 agent infrastructure 대형 모델 경쟁 진입
LLM Apr 11, 2026 1 min read

Cloudflare, Workers AI에 Kimi K2.5 도입하며 대형 open-source model 제공 시작
LLM Mar 20, 2026 1 min read

Cloudflare, Workers AI에 Kimi K2.5 도입… agent용 inference stack도 함께 최적화
LLM X/Twitter Mar 23, 2026 1 min read