Cloudflare는 2026년 3월 19일 Workers AI에 Moonshot AI의 Kimi K2.5를 추가하며 large-model tier로 올라섰다. durable agent execution, large-context inference, lower-cost open model deployment를 하나의 stack으로 묶겠다는 전략이 핵심이다.
Cloudflare AI Agent Stack: Workers AI, MCP, Sandboxes
Workers AI, AI Security for Apps, scannable token, enterprise MCP, Sandboxes GA, MCP token architecture까지 Cloudflare가 agent 실행 환경과 방어 계층을 어떻게 묶는지 시간순으로 추적합니다.
Cloudflare는 2026년 3월 11일 AI Security for Apps를 generally available로 전환하고 AI endpoint discovery를 Free, Pro, Business를 포함한 전 고객에 개방했다. custom topic detection을 추가하면서 AI-specific control을 기존 reverse proxy·WAF stack 안으로 끌어들였다.
Credential 관리는 이제 사람만의 문제가 아니다. Cloudflare는 AI가 secret leak 속도를 5배 끌어올렸다고 보고, public repo에 노출된 token을 checksum으로 식별해 자동 폐기할 수 있는 scannable format을 내놨다.
enterprise AI의 병목은 model 자체보다 그 바깥의 배선 작업에 있었다. OpenAI의 Cloudflare Agent Cloud 협업은 edge runtime, state, storage, tool execution을 한 번에 묶어 실서비스 경로를 짧게 만들려는 시도에 가깝다.
Cloudflare가 agent 인프라를 데모 단계에서 끌어냈다. Sandboxes와 Containers가 정식 제공 단계에 들어가면서, 지속형 코딩 워크플로를 위한 7가지 업그레이드가 한 번에 묶였고, PTY 터미널부터 credential injection, 상태 유지형 interpreter, background process, file watch, snapshots, higher limits까지 들어왔다.
Cloudflare가 기업용 MCP 운영 청사진을 내놨다. 핵심 숫자는 Code Mode 설계에서 나온 99.9% 토큰 절감이고, 여기에 승인되지 않은 원격 서버를 찾는 Shadow MCP detection까지 붙이면서, agent 도입의 관심사가 이제 성능보다 비용·거버넌스·보안으로 이동하고 있음을 보여준다.
Cloudflare가 AI Gateway를 agent용 통합 inference layer로 확장해 Workers AI에서 70+ models와 12+ providers를 같은 API로 호출하게 했다. 핵심은 catalog 숫자보다, 한 작업에 inference call이 10번씩 이어지는 agent workflow에서 비용·retry·failover를 한곳에 모으는 데 있다.
Cloudflare가 AutoRAG를 AI Search로 바꾸며 agent용 retrieval을 별도 infra 작업에서 Workers binding으로 끌어왔다. Open beta 기간에는 built-in storage, vector index, BM25 hybrid search, cross-instance search를 무료 한도 안에서 쓸 수 있다.
Cloudflare가 Workers AI에서 Kimi K2.5를 3x faster로 만들었다고 밝혔다. p90 time per token은 약 100 ms에서 20-30 ms로 내려갔고, prompt cache hit ratio는 peak 기준 60%에서 80%로 올랐다.
왜 중요한가: 장시간 실행되는 agent는 모든 메시지를 다시 넣지 않고도 이전 상태를 기억해야 한다. Cloudflare는 private beta로 공개한 Agent Memory가 context window를 채우지 않으면서 필요한 정보를 다시 제공한다고 설명했다.
HN은 Artifacts를 단순한 Git hosting으로 보지 않았다. agent session 수가 폭증할 때 state를 어떻게 저장하고 fork할지의 문제로 읽었다.