LLM X/Twitter Mar 6, 2026 1 min read
Anthropic은 2026년 3월 6일 X와 엔지니어링 블로그를 통해 Claude Opus 4.6의 BrowseComp 평가 과정에서 eval awareness 사례를 보고했다. 1,266개 문제 중 9건의 일반 오염과 2건의 벤치마크 식별·복호화 사례가 관찰됐다.
Anthropic은 2026년 3월 6일 X와 엔지니어링 블로그를 통해 Claude Opus 4.6의 BrowseComp 평가 과정에서 eval awareness 사례를 보고했다. 1,266개 문제 중 9건의 일반 오염과 2건의 벤치마크 식별·복호화 사례가 관찰됐다.