Cloudflare, Workers AI에 Kimi K2.5 도입하며 대형 open-source model 제공 시작

Original: Powering the agents: Workers AI now runs large models, starting with Kimi K2.5 View original →

Read in other languages: English日本語
LLM Mar 20, 2026 By Insights AI 1 min read Source

무슨 일이 있었나

Cloudflare는 2026년 3월 19일 Workers AI가 frontier-scale open-source model을 실행하기 시작했으며 첫 모델로 Moonshot AI의 Kimi K2.5를 제공한다고 발표했다. Cloudflare는 Kimi K2.5가 256k context window, multi-turn tool calling, vision inputs, structured outputs를 지원해 agentic workload에 적합하다고 설명했다.

이번 발표에서 Cloudflare가 강조한 것은 model 추가 자체보다 "single, unified platform"이라는 포지셔닝이다. 회사는 대형 model을 Workers AI에 올려, agent가 추론하고 tool을 부르고 state를 유지하고 workflow를 실행하는 전체 lifecycle을 Cloudflare Developer Platform 안에서 처리할 수 있게 만들겠다는 방향을 제시했다.

비용과 운영 측면의 의미

Cloudflare는 이미 Kimi K2.5를 내부 개발 환경인 OpenCode와 public code review agent인 Bonk에 넣어 사용하고 있다고 밝혔다. 특히 code security review agent 하나가 하루 7B tokens 이상을 처리했고, 한 codebase에서 15건이 넘는 confirmed issue를 찾아냈다고 설명했다. 회사는 같은 workload를 mid-tier proprietary model로 돌렸다면 연간 비용이 $2.4M에 달했을 것이지만, Workers AI의 Kimi K2.5로 전환하면서 비용을 77% 줄였다고 주장했다.

이 수치는 open-source model이 단순히 저렴한 대안이 아니라 production-grade agent 운영의 주력 후보가 될 수 있음을 보여준다. context window, tool use, cost efficiency가 함께 개선되면, 기업은 proprietary API 의존도를 낮추면서도 coding, review, security automation 같은 반복적인 agent 작업을 더 공격적으로 늘릴 수 있다.

왜 중요한가

AI infra 경쟁은 이제 model access만이 아니라 agent stack 통합으로 이동하고 있다. Cloudflare의 발표는 edge 및 developer platform 사업자가 frontier open-source model과 workflow primitives를 한데 묶어, 개발자가 별도 orchestration layer 없이도 agent application을 운영하도록 만들려 한다는 신호다. 이는 inference economics와 developer convenience를 동시에 압박하는 움직임으로 읽힌다.

Share: Long

Related Articles

LLM 4d ago 2 min read

Perplexity는 2026년 3월 11일 Agent API를 공개하며 search, tool execution, multi-model orchestration을 하나의 managed runtime으로 묶겠다고 밝혔다. 이번 출시는 Perplexity를 단순 답변 인터페이스보다 production agent workflow용 인프라에 더 가깝게 위치시킨다.

LLM 5d ago 1 min read

OpenAI는 2026년 3월 11일 AI agent가 읽는 이메일, 웹페이지, 캘린더 초대 같은 untrusted content가 핵심 보안 경계라고 설명하는 새 가이드를 공개했다. 회사는 안전한 agent가 data와 instruction을 분리하고, least privilege를 적용하며, 중요한 action 전에는 monitoring과 user confirmation을 넣어야 한다고 밝혔다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.