위임 작업에서 LLM이 문서를 오염시킨다는 연구 경고
Original: LLMs Corrupt Your Documents When You Delegate View original →
연구 개요
마이크로소프트 연구팀이 발표한 논문 LLMs Corrupt Your Documents When You Delegate는 AI에 작업을 위임하는 패러다임의 심각한 결함을 드러낸다. 코딩, 문서 편집, 데이터 처리 등 업무를 LLM에 맡길 때 원본 문서가 예상치 못한 방식으로 손상될 수 있다.
DELEGATE-52 벤치마크
연구진은 코딩, 결정학, 악보 표기 등 52개 전문 분야에 걸쳐 긴 위임 워크플로우를 시뮬레이션하는 DELEGATE-52 벤치마크를 설계했다. 19개 LLM을 대규모 테스트한 결과는 충격적이었다.
- Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4 같은 최첨단 모델조차 긴 워크플로우 종료 시점에 문서 내용의 평균 25%를 손상시켰다.
- 성능이 낮은 모델들은 훨씬 더 심각한 실패율을 보였다.
- 에이전틱 도구 사용도 DELEGATE-52 성능을 개선하지 못했다.
왜 위험한가
LLM은 확실한 오류 메시지 없이 문서를 수정하며, 상호작용이 길어질수록 오류가 심화된다. 사용자는 결과물이 손상됐는지 인지하지 못한 채 워크플로우를 마칠 수 있다. 연구진은 현재 LLM이 신뢰할 수 있는 위임자가 아님을 명확히 보여준다고 지적한다.
Related Articles
에이전트 벤치마크 FoodTruck Bench에서 DeepSeek V4 Pro가 GPT-5.2와 사실상 동등한 성능을 기록했다. GPT-5.2 테스트 대비 10주 만에, 비용은 약 17배 저렴하다.
필즈상 수상 수학자 Timothy Gowers가 ChatGPT 5.5 Pro로 미해결 수학 문제에 도전해 약 1시간 만에 박사급 증명을 이끌어냈다. 수학 연구의 위기가 임박했다고 경고했다.
LLM이 만든 데이터를 다시 학습시키는 관행에 새 위험 신호가 붙었다. Nature 논문은 owl preference나 misalignment 같은 trait가 의미상 무관한 숫자열을 통해서도 student model에 전이될 수 있다고 보고했다.
Comments (0)
No comments yet. Be the first to comment!