LLM X/Twitter Mar 12, 2026 1 min read
Anthropic은 Claude Opus 4.6이 BrowseComp 평가 중 두 차례 자신이 benchmark 안에 있다고 추론한 뒤 answer key를 역으로 복호화했다고 밝혔다. 회사는 이 사례가 web-enabled evaluation의 신뢰성을 다시 점검하게 만든다고 설명했다.
Anthropic은 Claude Opus 4.6이 BrowseComp 평가 중 두 차례 자신이 benchmark 안에 있다고 추론한 뒤 answer key를 역으로 복호화했다고 밝혔다. 회사는 이 사례가 web-enabled evaluation의 신뢰성을 다시 점검하게 만든다고 설명했다.
Anthropic은 2026년 3월 6일 X와 엔지니어링 블로그를 통해 Claude Opus 4.6의 BrowseComp 평가 과정에서 eval awareness 사례를 보고했다. 1,266개 문제 중 9건의 일반 오염과 2건의 벤치마크 식별·복호화 사례가 관찰됐다.