Cloudflare, Workers AI에 Kimi K2.5 투입… agent 코딩·보안 검토 비용 77% 절감 제시
Original: Kimi K2.5 is now available on #WorkersAI . You can now build and run agents end-to-end on the Cloudflare Developer Platform. Read about how we tuned our inference stack to drive down costs for internal agent workflows. cfl.re/4bmpZgb View original →
X에서 Cloudflare가 발표한 내용
2026년 3월 20일 Cloudflare는 Kimi K2.5가 Workers AI에서 사용 가능해졌다고 발표하며, 개발자가 Cloudflare Developer Platform 위에서 agent를 end-to-end로 구축하고 실행할 수 있다고 강조했다. 이 게시물의 핵심은 단순히 모델 하나를 추가했다는 사실보다, Cloudflare가 agent 실행에 필요한 인프라와 모델 추론을 한 플랫폼에서 묶어 제공하려는 방향을 분명히 했다는 점이다.
공식 블로그가 제시한 기술적 포인트
Cloudflare의 출시 글은 Workers AI가 이제 frontier급 open-source 모델을 본격적으로 다루기 시작했다고 설명한다. 첫 사례가 Moonshot AI의 Kimi K2.5이며, Cloudflare는 이 모델이 256k context window, multi-turn tool calling, vision inputs, structured outputs를 지원해 다양한 agent workload에 적합하다고 소개한다. 즉 agent의 상태, 워크플로, 실행 컨테이너, 추론 모델을 하나의 개발자 플랫폼 위에 올려놓겠다는 그림이다.
- Cloudflare는 Kimi K2.5를 내부 OpenCode 환경에서 agentic coding의 daily driver로 쓰고 있다고 밝혔다.
- 공개 code review agent인 Bonk에도 이 모델을 통합했다고 설명한다.
- 보안 검토 agent 하나가 하루 7B tokens 이상을 처리하며 단일 코드베이스에서 15건 이상의 확정 이슈를 잡았다고 적었다.
- 같은 use case를 mid-tier proprietary model로 돌렸다면 연간 240만 달러 수준이었겠지만, Workers AI로 전환해 77% 비용 절감을 이뤘다고 주장한다.
비용과 플랫폼 설계 측면에서 왜 중요한가
이 발표가 의미 있는 이유는 Cloudflare가 모델 성능 자체보다도 agent economics를 전면에 내세웠기 때문이다. coding agent나 personal agent가 24시간 돌아가는 환경에서는 토큰 비용과 prefill 효율이 바로 확장성의 병목이 된다. Cloudflare는 여기에 대응해 prefix caching 사용량 노출, cached token 할인, x-session-affinity 헤더 같은 개선도 함께 내놨다. 이는 단순 모델 호스팅이 아니라 agent 트래픽 패턴에 맞춘 플랫폼 최적화에 가깝다.
또한 Cloudflare는 custom kernel과 자체 inference stack 조정을 통해, self-hosting 없이도 대형 open model을 API처럼 사용할 수 있게 만들겠다는 메시지를 던진다. 만약 이 비용 구조가 실제 현장에서도 재현된다면, Workers AI는 proprietary model 가격 부담 때문에 agent 배치를 망설이던 팀에게 꽤 강한 대안이 될 수 있다. 결국 이번 출시는 “좋은 모델이 있느냐”보다 “그 모델을 조직 전체의 agent 워크로드에 감당 가능한 비용으로 올릴 수 있느냐”가 더 중요한 단계로 시장이 이동하고 있음을 보여준다.
Related Articles
Cloudflare가 2026년 3월 19일 Workers AI에서 Moonshot AI의 Kimi K2.5 제공을 시작했다고 밝혔다. 256k context window와 tool calling, vision, structured outputs를 앞세워 agent stack 통합 경쟁에 본격 진입하는 모양새다.
OpenAI는 2026년 3월 9일 Promptfoo 인수 계획을 공개하며 해당 AI security tooling을 OpenAI Frontier에 통합하겠다고 밝혔다. enterprise agent 개발에서 security testing, red-teaming, governance를 기본 workflow로 끌어들이려는 움직임이다.
SkyPilot는 Claude Code가 8시간 동안 약 910개의 autoresearch 실험을 돌렸다고 설명했고, Hacker News는 진짜 돌파구가 에이전트 전략인지 인프라인지, 혹은 둘 다인지에 주목했다.
Comments (0)
No comments yet. Be the first to comment!