Cloudflare, 70+ models를 하나의 AI Gateway API로 묶었다

Original: Cloudflare’s AI Platform: an inference layer designed for agents View original →

Read in other languages: English日本語
LLM Apr 16, 2026 By Insights AI 1 min read 2 views Source

Cloudflare가 AI Gateway를 단순 proxy에서 agent용 inference layer로 밀어 올렸다. 개발자는 하나의 API 경로로 70+ models와 12+ providers에 접근할 수 있다. agent workflow는 이제 단일 model만으로 끝나기 어렵다. 고객 지원 agent는 저렴한 model로 메시지를 분류하고, 강한 reasoning model로 계획을 세운 뒤, 작은 model로 세부 task를 처리할 수 있다. 이런 흐름에서 한 작업이 10번의 inference call로 이어지면 latency, provider outage, cost reporting은 backend 세부 사항이 아니라 제품 품질의 일부가 된다.

Cloudflare의 4월 16일 source post에 따르면 Workers 개발자는 기존 Workers AI에서 쓰던 AI.run() binding으로 third-party models를 호출할 수 있다. Cloudflare-hosted model에서 OpenAI, Anthropic, Alibaba Cloud, Google, Runway, Vidu, Recraft, MiniMax, InWorld, AssemblyAI, Pixverse, Bytedance 등의 model로 바꾸는 작업은 code상 한 줄 변경으로 가능하다. Workers 밖의 환경을 위한 REST API는 앞으로 몇 주 안에 제공될 예정이다.

더 큰 포인트는 model catalog 자체보다 platform 운영 기능이다. Cloudflare는 AI Gateway에서 여러 provider에 흩어진 AI spend를 한곳에서 보고, request metadata를 붙여 customer별 또는 workflow별 비용을 나눠 볼 수 있다고 설명한다. 같은 model을 여러 provider에서 이용할 수 있는 경우 장애 시 다른 provider로 자동 routing하는 기능도 포함된다. streaming inference에서는 gateway가 response를 buffer해 long-running agent가 끊겼다가 다시 연결돼도 같은 output tokens에 대해 두 번 비용을 내지 않도록 설계했다.

Replicate와의 결합도 강해진다. Cloudflare는 Replicate models를 AI Gateway로 들여오고, Replicate에서 host되던 model을 Cloudflare infrastructure로 옮기는 작업을 진행 중이라고 밝혔다. custom model, managed open model, commercial API를 함께 쓰는 팀에는 agent app 아래의 orchestration layer를 Cloudflare가 맡겠다는 메시지다.

봐야 할 위험은 다른 층위의 lock-in이다. 통합 catalog는 provider 전환을 쉽게 만들지만 routing, observability, credits, reliability policy는 Cloudflare에 모인다. 성능과 안정성이 약속대로 나오면 production agents의 실용적인 control plane이 될 수 있다. 반대로 gateway 자체가 흔들리면 model independence는 장부상 장점에 그칠 가능성이 크다.

Share: Long

Related Articles

LLM Hacker News 1d ago 1 min read

HN의 관심은 “Cloudflare가 AI를 한다”가 아니라, 14개 이상 provider를 묶는 inference layer가 agent 개발자의 실제 배관 문제를 줄여주느냐였다. Cloudflare 글은 AI Gateway, Workers AI binding, multimodal model catalog를 한 흐름으로 묶었고, 댓글은 OpenRouter와의 차이, pricing 신뢰도, model catalog의 일관성을 따졌다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.