Skip to content
부식 중

Cloudflare, Workers AI에 Kimi K2.5 도입… agent용 inference stack도 함께 최적화

Original: Kimi K2.5 is now on Workers AI, helping you power agents entirely on Cloudflare’s Developer Platform. Learn how we optimized our inference stack and reduced inference costs for internal agent use cases. https://t.co/kEQ6HHpoJS View original →

Read in other languages: English日本語
LLM Mar 23, 2026 By Insights AI 1 min read 13 views Source

2026년 3월 19일 Cloudflare는 X를 통해 Moonshot AI의 Kimi K2.5가 Workers AI에서 사용 가능해졌다고 밝혔다. 함께 공개된 blog post에서 Cloudflare는 Workers AI가 이제 frontier open-source model을 직접 제공하는 “big models” 단계로 들어간다고 설명했고, 그 시작점으로 Kimi K2.5를 선택했다.

Cloudflare가 이 모델을 agent workload에 적합하다고 보는 이유도 구체적이다. 회사는 Kimi K2.5가 256k context window와 multi-turn tool calling, vision input, structured output을 지원한다고 설명했다. 이는 긴 상태를 유지하는 agent workflow에 유리하다. 더 큰 메시지는 모델 하나가 아니라 전체 실행 환경이다. Durable Objects로 state를 관리하고, Workflows로 장기 작업을 돌리며, sandboxed execution surface로 tool을 실행하는 Cloudflare의 기존 primitive와 모델을 하나의 platform에서 묶겠다는 것이다.

  • Cloudflare는 자체 Infire inference engine 위에 Kimi K2.5용 custom kernel을 구축했다고 밝혔다.
  • Workers AI는 이제 cached token을 usage metric으로 노출하고, fresh input token보다 할인된 가격 체계를 적용한다.
  • 새 `x-session-affinity` header는 multi-turn agent session에서 prefix cache hit rate를 높여 latency와 비용을 줄이기 위한 기능이다.

핵심은 단순한 모델 탑재가 아니라는 점이다. 모델 카탈로그를 올리는 것만으로는 차별화가 어렵다. Cloudflare는 serving optimization, stateful primitive, agent infrastructure를 하나의 stack으로 묶어, 개발자가 open-source frontier model을 쓰면서도 self-hosting, kernel tuning, cache-aware routing 부담을 직접 지지 않도록 하려 한다.

Cloudflare는 Agents SDK starter의 기본 모델도 Kimi K2.5로 바꿨다고 밝혔다. 즉 이번 출시는 일반적인 모델 목록 추가가 아니라 실제 agent 개발 workflow에 바로 연결하려는 의도가 분명하다. 원문 X post는 여기, 자세한 글은 Cloudflare에서 확인할 수 있다.

Share: Long

Related Articles

LLM X/Twitter Mar 23, 2026 1 min read

Cloudflare는 2026년 3월 20일 Kimi K2.5를 Workers AI에서 제공해 agent를 자사 플랫폼 위에서 end-to-end로 실행할 수 있다고 밝혔다. 연결된 Cloudflare 블로그는 256K context, multi-turn tool calling, vision, structured outputs 지원과 함께 한 내부 agent workload에서 비용을 77% 줄였다고 설명한다.

LLM X/Twitter Mar 22, 2026 2 min read

Cloudflare는 2026년 3월 20일 Kimi K2.5를 Workers AI에 올려 Cloudflare 개발자 플랫폼 위에서 end-to-end agent를 구축·운영할 수 있다고 밝혔다. 공식 블로그는 256k context, multi-turn tool calling, vision inputs, structured outputs와 함께, 내부 보안 검토 agent가 하루 7B 토큰을 처리하면서 비용을 77% 줄였다고 설명한다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment