Cloudflare AI Search, agent마다 BM25와 vector index를 붙인다

Agent stack에서 retrieval은 부가 기능이 아니라 운영 비용이 큰 핵심 경로다. Cloudflare는 2026년 4월 16일 AI Search를 공개하며, 기존 AutoRAG를 agent가 바로 쓸 수 있는 search primitive로 재정리했다. 제품 문맥은 명확하다. Coding agent는 repository 수백만 file을 찾고, support agent는 docs와 ticket history를 찾아야 한다.

새 AI Search는 vector search만 제공하던 흐름에서 벗어나 BM25 keyword search를 함께 지원한다. Cloudflare는 “ERR_CONNECTION_REFUSED timeout”처럼 정확한 term이 중요한 질의에서는 vector search만으로 특정 문자열을 놓칠 수 있다고 설명했다. Hybrid search를 켜면 vector와 BM25가 parallel로 실행되고, 결과는 reciprocal rank fusion 또는 max fusion 방식으로 합쳐질 수 있다. 필요하면 reranker도 추가된다.

운영 모델도 바뀌었다. 새 instance는 자체 storage와 vector index를 가지고 생성되며, file을 API로 upload하면 indexing이 끝난 뒤 바로 search할 수 있다. 기존처럼 R2 bucket과 Vectorize index를 먼저 연결해야 하는 절차가 줄어든다. ai_search_namespaces binding은 Worker 안에서 instance를 runtime에 만들고 지울 수 있게 해, per agent, per customer, per tenant 구조를 쉽게 만든다.

Cloudflare가 제시한 support agent 예시는 이 변화가 어디에 쓰이는지 보여준다. Product docs는 shared instance에 두고, customer별 past resolution은 별도 instance에 저장한다. Agent가 답변할 때는 두 instance를 한 번에 query하고, 문제가 해결되면 요약을 저장해 다음 대화에서 즉시 검색 가능하게 만든다. Metadata boosting으로 최신 문서를 더 위에 올리는 것도 가능하다.

Open beta의 한도도 구체적이다. Workers Free는 account당 AI Search instance 100개, instance당 file 100,000개, 월 20,000 queries, 하루 500 crawled pages를 제공한다. Workers Paid는 5,000 instances, 1M files 또는 hybrid search에서 500K files, unlimited queries와 unlimited crawled pages를 제공한다. Beta 동안 무료이며, billing 전에는 최소 30일 notice가 주어진다. Agent가 search infra를 직접 끌고 다니는 시대에서 platform primitive를 고르는 시대로 넘어가는 신호다.

Cloudflare AI Search, agent마다 BM25와 vector index를 붙인다

Related Articles

Harness Training, 모델보다 “작업 발판”을 학습시키는 agent 실험

Gemini 3.6 Flash의 진짜 변화, 더 싼 agent 실행 비용

ChatGPT Voice, 데스크톱에서 Codex와 다중 agent 제어까지 확장한 음성 작업 방식

Related Articles

Harness Training, 모델보다 “작업 발판”을 학습시키는 agent 실험

Gemini 3.6 Flash의 진짜 변화, 더 싼 agent 실행 비용
Google의 새 Gemini Flash 라인업에서 관심은 모델 이름보다 토큰 효율과 agent workflow 비용에 모였다. 3.6 Flash는 3.5 Flash보다 출력 토큰을 17% 줄였고, Cyber 모델은 CodeMender와 묶였다.

ChatGPT Voice, 데스크톱에서 Codex와 다중 agent 제어까지 확장한 음성 작업 방식