Cloudflare AI Search, agent마다 BM25와 vector index를 붙인다
Original: AI Search: the search primitive for your agents View original →
Agent stack에서 retrieval은 부가 기능이 아니라 운영 비용이 큰 핵심 경로다. Cloudflare는 2026년 4월 16일 AI Search를 공개하며, 기존 AutoRAG를 agent가 바로 쓸 수 있는 search primitive로 재정리했다. 제품 문맥은 명확하다. Coding agent는 repository 수백만 file을 찾고, support agent는 docs와 ticket history를 찾아야 한다.
새 AI Search는 vector search만 제공하던 흐름에서 벗어나 BM25 keyword search를 함께 지원한다. Cloudflare는 “ERR_CONNECTION_REFUSED timeout”처럼 정확한 term이 중요한 질의에서는 vector search만으로 특정 문자열을 놓칠 수 있다고 설명했다. Hybrid search를 켜면 vector와 BM25가 parallel로 실행되고, 결과는 reciprocal rank fusion 또는 max fusion 방식으로 합쳐질 수 있다. 필요하면 reranker도 추가된다.
운영 모델도 바뀌었다. 새 instance는 자체 storage와 vector index를 가지고 생성되며, file을 API로 upload하면 indexing이 끝난 뒤 바로 search할 수 있다. 기존처럼 R2 bucket과 Vectorize index를 먼저 연결해야 하는 절차가 줄어든다. ai_search_namespaces binding은 Worker 안에서 instance를 runtime에 만들고 지울 수 있게 해, per agent, per customer, per tenant 구조를 쉽게 만든다.
Cloudflare가 제시한 support agent 예시는 이 변화가 어디에 쓰이는지 보여준다. Product docs는 shared instance에 두고, customer별 past resolution은 별도 instance에 저장한다. Agent가 답변할 때는 두 instance를 한 번에 query하고, 문제가 해결되면 요약을 저장해 다음 대화에서 즉시 검색 가능하게 만든다. Metadata boosting으로 최신 문서를 더 위에 올리는 것도 가능하다.
Open beta의 한도도 구체적이다. Workers Free는 account당 AI Search instance 100개, instance당 file 100,000개, 월 20,000 queries, 하루 500 crawled pages를 제공한다. Workers Paid는 5,000 instances, 1M files 또는 hybrid search에서 500K files, unlimited queries와 unlimited crawled pages를 제공한다. Beta 동안 무료이며, billing 전에는 최소 30일 notice가 주어진다. Agent가 search infra를 직접 끌고 다니는 시대에서 platform primitive를 고르는 시대로 넘어가는 신호다.
Related Articles
Cloudflare가 AI Gateway를 agent용 통합 inference layer로 확장해 Workers AI에서 70+ models와 12+ providers를 같은 API로 호출하게 했다. 핵심은 catalog 숫자보다, 한 작업에 inference call이 10번씩 이어지는 agent workflow에서 비용·retry·failover를 한곳에 모으는 데 있다.
Cloudflare가 agent 인프라를 데모 단계에서 끌어냈다. Sandboxes와 Containers가 정식 제공 단계에 들어가면서, 지속형 코딩 워크플로를 위한 7가지 업그레이드가 한 번에 묶였고, PTY 터미널부터 credential injection, 상태 유지형 interpreter, background process, file watch, snapshots, higher limits까지 들어왔다.
MCP는 이제 개발자 편의 기능이 아니라 enterprise 통제 문제로 넘어갔다. Cloudflare의 새 설계는 context를 잡아먹는 tool schema와 무질서한 local server 운영을 한 번에 다루려는 점에서 의미가 크다.
Comments (0)
No comments yet. Be the first to comment!