Cloudflare、70+ modelsを1つのAI Gateway APIに集約
Original: Cloudflare’s AI Platform: an inference layer designed for agents View original →
CloudflareはAI Gatewayを単なるproxyからagent向けのinference layerへ押し上げた。開発者は1つのAPI経路で70+ models、12+ providersにアクセスできる。agent workflowはもはや単一modelで完結しにくい。customer support agentなら安いmodelで分類し、強いreasoning modelで計画し、小型modelで個別taskを実行することがある。1つのtaskに10回のinference callが連なるなら、latency、provider outage、cost reportingはbackendの細部ではなく製品体験そのものになる。
Cloudflareの4月16日のsource postによると、Workersの開発者はWorkers AIで使ってきたAI.run() bindingからthird-party modelsを呼べるようになった。Cloudflare-hosted modelからOpenAI、Anthropic、Alibaba Cloud、Google、Runway、Vidu、Recraft、MiniMax、InWorld、AssemblyAI、Pixverse、Bytedanceなどのmodelへ切り替える操作は、code上では1行の変更で済む。Workers以外の環境向けREST APIは今後数週間で提供予定だ。
今回の要点はmodel catalogの大きさだけではない。CloudflareはAI GatewayでproviderをまたいだAI spendを監視し、request metadataを付けてcustomer別やworkflow別のcostを追えるとしている。さらに同じmodelが複数providerから利用できる場合、障害時に別providerへ自動routingする。streaming inferenceではgatewayがresponseをbufferし、長時間動くagentが切断後に再接続しても、同じoutput tokensに二重課金されにくい構成を狙う。
Replicateとの距離も縮まる。CloudflareはReplicate modelsをAI Gatewayへ取り込み、Replicate上でhostされていたmodelをCloudflare infrastructureへ移していく方針を示した。custom model、managed open model、commercial APIを同時に使うteamにとって、これはagent appの下にあるorchestration layerをCloudflareが握りにいく動きだ。
注目点は新しい種類のlock-inだ。統合catalogはprovider変更を楽にするが、routing、observability、credits、reliability policyはCloudflare側に集まる。宣言どおりに安定すれば、production agentsの実用的なcontrol planeになり得る。逆にgateway自体が不安定なら、model independenceは絵に描いた利点で終わる。
Related Articles
HNが見ていたのは「CloudflareがAIをやる」という話ではなく、14以上のproviderを束ねるinference layerがagent appの運用を本当に楽にするかだった。CloudflareはAI Gateway、Workers AI bindings、multimodal catalogを一つのplatformとして描き、コメント欄はOpenRouterとの差、pricingの正確さ、catalogの重なりを詰めた。
r/LocalLLaMAでMiniMax M2.7が一気に伸びた理由は、Hugging Face公開が単なるchat modelではなく、tool use、Agent Teams、deployment guideまで含むagent systemとして提示されたからだ。初期の関心はbenchmarkの数字だけでなく、実運用を意識したpackagingにも向いている。
Cloudflareは2026年3月19日、Workers AI に Moonshot AI の Kimi K2.5 を追加して large-model tier に入った。durable agent execution、large-context inference、lower-cost open model deployment を 1 つの stack にまとめる戦略が中心だ。
Comments (0)
No comments yet. Be the first to comment!