Cloudflare, Workers AI에 Kimi K2.5 도입하며 대형 open-source model 제공 시작
Original: Powering the agents: Workers AI now runs large models, starting with Kimi K2.5 View original →
무슨 일이 있었나
Cloudflare는 2026년 3월 19일 Workers AI가 frontier-scale open-source model을 실행하기 시작했으며 첫 모델로 Moonshot AI의 Kimi K2.5를 제공한다고 발표했다. Cloudflare는 Kimi K2.5가 256k context window, multi-turn tool calling, vision inputs, structured outputs를 지원해 agentic workload에 적합하다고 설명했다.
이번 발표에서 Cloudflare가 강조한 것은 model 추가 자체보다 "single, unified platform"이라는 포지셔닝이다. 회사는 대형 model을 Workers AI에 올려, agent가 추론하고 tool을 부르고 state를 유지하고 workflow를 실행하는 전체 lifecycle을 Cloudflare Developer Platform 안에서 처리할 수 있게 만들겠다는 방향을 제시했다.
비용과 운영 측면의 의미
Cloudflare는 이미 Kimi K2.5를 내부 개발 환경인 OpenCode와 public code review agent인 Bonk에 넣어 사용하고 있다고 밝혔다. 특히 code security review agent 하나가 하루 7B tokens 이상을 처리했고, 한 codebase에서 15건이 넘는 confirmed issue를 찾아냈다고 설명했다. 회사는 같은 workload를 mid-tier proprietary model로 돌렸다면 연간 비용이 $2.4M에 달했을 것이지만, Workers AI의 Kimi K2.5로 전환하면서 비용을 77% 줄였다고 주장했다.
이 수치는 open-source model이 단순히 저렴한 대안이 아니라 production-grade agent 운영의 주력 후보가 될 수 있음을 보여준다. context window, tool use, cost efficiency가 함께 개선되면, 기업은 proprietary API 의존도를 낮추면서도 coding, review, security automation 같은 반복적인 agent 작업을 더 공격적으로 늘릴 수 있다.
왜 중요한가
AI infra 경쟁은 이제 model access만이 아니라 agent stack 통합으로 이동하고 있다. Cloudflare의 발표는 edge 및 developer platform 사업자가 frontier open-source model과 workflow primitives를 한데 묶어, 개발자가 별도 orchestration layer 없이도 agent application을 운영하도록 만들려 한다는 신호다. 이는 inference economics와 developer convenience를 동시에 압박하는 움직임으로 읽힌다.
Related Articles
Cloudflare는 2026년 3월 20일 Kimi K2.5를 Workers AI에 올려 Cloudflare 개발자 플랫폼 위에서 end-to-end agent를 구축·운영할 수 있다고 밝혔다. 공식 블로그는 256k context, multi-turn tool calling, vision inputs, structured outputs와 함께, 내부 보안 검토 agent가 하루 7B 토큰을 처리하면서 비용을 77% 줄였다고 설명한다.
왜 중요한가: 장시간 실행되는 agent는 모든 메시지를 다시 넣지 않고도 이전 상태를 기억해야 한다. Cloudflare는 private beta로 공개한 Agent Memory가 context window를 채우지 않으면서 필요한 정보를 다시 제공한다고 설명했다.
Cloudflare는 2026년 3월 19일 Workers AI에 Moonshot AI의 Kimi K2.5를 추가하며 large-model tier로 올라섰다. durable agent execution, large-context inference, lower-cost open model deployment를 하나의 stack으로 묶겠다는 전략이 핵심이다.
Comments (0)
No comments yet. Be the first to comment!