Skip to content

리서치 에이전트가 검색어로 비밀을 흘리는 MosaicLeaks 실험

Original: MosaicLeaks: Can your research agent keep a secret? View original →

Read in other languages: English日本語
LLM Jun 19, 2026 By Insights AI 1 min read Source

deep research 에이전트의 위험은 최종 답변에만 있지 않다. ServiceNow 연구진이 Hugging Face에 공개한 MosaicLeaks는 에이전트가 웹 검색을 수행하는 과정에서 로컬 문서의 민감한 정보를 검색어 조각으로 흘릴 수 있다는 문제를 정면으로 다룬다.

시나리오는 현실적이다. 에이전트가 사내 문서에서 얻은 비공개 수치, 날짜, 업체명을 다음 웹 검색의 단서로 사용하면, 외부 관찰자는 개별 검색어만 보고도 내부 정보를 재구성할 수 있다. 연구진은 이를 mosaic effect로 설명한다. 한 번의 검색어가 전체 비밀을 담지 않아도, 여러 조각이 이어지면 충분히 위험해진다.

MosaicLeaks는 로컬 문서와 웹 문서를 번갈아 쓰는 다중 홉 과제로 구성됐다. 최종 split에는 559개 학습 체인, 98개 검증 체인, 344개 held-out-company 테스트 체인이 포함됐다. 에이전트는 계획, 검색, 문서 선택, 읽기, 해결 단계를 반복하며 각 홉의 답을 찾는다.

흥미로운 지점은 성능 개선이 곧 안전 개선이 아니었다는 점이다. Qwen3-4B 기준으로 단순히 체인을 더 잘 풀도록 훈련하자 strict chain success는 48.7%에서 59.3%로 올랐지만, answer/full-information leakage는 34.0%에서 51.7%로 커졌다. 모델이 더 많은 맥락을 검색어에 실어 보내도록 배운 탓이다.

연구진이 제안한 Privacy-Aware Deep Research, PA-DR은 다른 방향을 택했다. PA-DR은 strict chain success를 48.7%에서 58.7%로 높이면서 answer/full-information leakage를 34.0%에서 9.9%로 낮췄다. 기업용 에이전트가 문서를 잘 읽는 것만으로는 부족하다는 신호다. 이제는 어떤 질문을 외부로 내보내는지도 평가 대상이 된다.

Share: Long

Related Articles