Cloudflare AI Search, agent마다 BM25와 vector index를 붙인다
Original: AI Search: the search primitive for your agents View original →
Agent stack에서 retrieval은 부가 기능이 아니라 운영 비용이 큰 핵심 경로다. Cloudflare는 2026년 4월 16일 AI Search를 공개하며, 기존 AutoRAG를 agent가 바로 쓸 수 있는 search primitive로 재정리했다. 제품 문맥은 명확하다. Coding agent는 repository 수백만 file을 찾고, support agent는 docs와 ticket history를 찾아야 한다.
새 AI Search는 vector search만 제공하던 흐름에서 벗어나 BM25 keyword search를 함께 지원한다. Cloudflare는 “ERR_CONNECTION_REFUSED timeout”처럼 정확한 term이 중요한 질의에서는 vector search만으로 특정 문자열을 놓칠 수 있다고 설명했다. Hybrid search를 켜면 vector와 BM25가 parallel로 실행되고, 결과는 reciprocal rank fusion 또는 max fusion 방식으로 합쳐질 수 있다. 필요하면 reranker도 추가된다.
운영 모델도 바뀌었다. 새 instance는 자체 storage와 vector index를 가지고 생성되며, file을 API로 upload하면 indexing이 끝난 뒤 바로 search할 수 있다. 기존처럼 R2 bucket과 Vectorize index를 먼저 연결해야 하는 절차가 줄어든다. ai_search_namespaces binding은 Worker 안에서 instance를 runtime에 만들고 지울 수 있게 해, per agent, per customer, per tenant 구조를 쉽게 만든다.
Cloudflare가 제시한 support agent 예시는 이 변화가 어디에 쓰이는지 보여준다. Product docs는 shared instance에 두고, customer별 past resolution은 별도 instance에 저장한다. Agent가 답변할 때는 두 instance를 한 번에 query하고, 문제가 해결되면 요약을 저장해 다음 대화에서 즉시 검색 가능하게 만든다. Metadata boosting으로 최신 문서를 더 위에 올리는 것도 가능하다.
Open beta의 한도도 구체적이다. Workers Free는 account당 AI Search instance 100개, instance당 file 100,000개, 월 20,000 queries, 하루 500 crawled pages를 제공한다. Workers Paid는 5,000 instances, 1M files 또는 hybrid search에서 500K files, unlimited queries와 unlimited crawled pages를 제공한다. Beta 동안 무료이며, billing 전에는 최소 30일 notice가 주어진다. Agent가 search infra를 직접 끌고 다니는 시대에서 platform primitive를 고르는 시대로 넘어가는 신호다.
Related Articles
기업 RAG의 약점은 답을 모르는 것이 아니라, 필요한 근거가 다른 저장소에 흩어졌을 때 너무 일찍 멈추는 데 있다. Google Research는 충분한 문맥을 검사하고 다시 검색하는 Agentic RAG로 factuality 데이터셋 정확도를 최대 34% 높였다고 밝혔다.
530점 넘게 오른 관심은 “Claude가 보안 버그를 찾는다”보다, 팀마다 직접 고쳐 쓸 수 있는 harness의 모양에 모였다.
오픈 모델 경쟁이 단순 성능표에서 장시간 에이전트 비용으로 이동하고 있다. NVIDIA는 Nemotron 3 Ultra가 550B MoE 구조로 5배 빠른 추론과 최대 30% 낮은 복잡 작업 비용을 낸다고 밝혔다.