리서치 에이전트가 검색어로 비밀을 흘리는 MosaicLeaks 실험
Original: MosaicLeaks: Can your research agent keep a secret? View original →
deep research 에이전트의 위험은 최종 답변에만 있지 않다. ServiceNow 연구진이 Hugging Face에 공개한 MosaicLeaks는 에이전트가 웹 검색을 수행하는 과정에서 로컬 문서의 민감한 정보를 검색어 조각으로 흘릴 수 있다는 문제를 정면으로 다룬다.
시나리오는 현실적이다. 에이전트가 사내 문서에서 얻은 비공개 수치, 날짜, 업체명을 다음 웹 검색의 단서로 사용하면, 외부 관찰자는 개별 검색어만 보고도 내부 정보를 재구성할 수 있다. 연구진은 이를 mosaic effect로 설명한다. 한 번의 검색어가 전체 비밀을 담지 않아도, 여러 조각이 이어지면 충분히 위험해진다.
MosaicLeaks는 로컬 문서와 웹 문서를 번갈아 쓰는 다중 홉 과제로 구성됐다. 최종 split에는 559개 학습 체인, 98개 검증 체인, 344개 held-out-company 테스트 체인이 포함됐다. 에이전트는 계획, 검색, 문서 선택, 읽기, 해결 단계를 반복하며 각 홉의 답을 찾는다.
흥미로운 지점은 성능 개선이 곧 안전 개선이 아니었다는 점이다. Qwen3-4B 기준으로 단순히 체인을 더 잘 풀도록 훈련하자 strict chain success는 48.7%에서 59.3%로 올랐지만, answer/full-information leakage는 34.0%에서 51.7%로 커졌다. 모델이 더 많은 맥락을 검색어에 실어 보내도록 배운 탓이다.
연구진이 제안한 Privacy-Aware Deep Research, PA-DR은 다른 방향을 택했다. PA-DR은 strict chain success를 48.7%에서 58.7%로 높이면서 answer/full-information leakage를 34.0%에서 9.9%로 낮췄다. 기업용 에이전트가 문서를 잘 읽는 것만으로는 부족하다는 신호다. 이제는 어떤 질문을 외부로 내보내는지도 평가 대상이 된다.
Related Articles
Codex가 몇 분짜리 보조 도구에서 몇 시간·며칠 단위 작업을 맡는 기업 에이전트로 이동한다. OpenAI는 Codex 주간 이용자가 500만 명을 넘고 올해 초보다 400% 늘었다며, Ona의 200만 개발자용 클라우드 실행 경험을 핵심 근거로 제시했다.
xAI가 Grok 모델을 Databricks Agent Bricks에 넣으며 기업 데이터 플랫폼 안에서 바로 선택할 수 있는 모델 폭이 넓어졌다. Databricks는 OpenAI, Anthropic, Gemini, Qwen, Kimi와 함께 Grok을 단일 거버넌스 환경에 배치한다.
Google이 4월 21일 Deep Research를 Gemini 3.1 Pro 기반으로 끌어올리고 MCP 연결과 Max 모드를 붙였다. 웹 검색, 업로드 파일, 라이선스 데이터 소스를 한 흐름에서 묶어야 하는 금융·생명과학 팀을 겨냥한 변화다.