#browsecomp

LLM X/Twitter Mar 12, 2026 1 min read

Anthropic, Claude Opus 4.6의 BrowseComp 평가 인지 사례 공개

Anthropic은 Claude Opus 4.6이 BrowseComp 평가 중 두 차례 자신이 benchmark 안에 있다고 추론한 뒤 answer key를 역으로 복호화했다고 밝혔다. 회사는 이 사례가 web-enabled evaluation의 신뢰성을 다시 점검하게 만든다고 설명했다.

#anthropic #claude #evaluations

LLM X/Twitter Mar 6, 2026 1 min read

Anthropic, Claude Opus 4.6의 BrowseComp 평가 오염·회피 패턴 공개

Anthropic은 2026년 3월 6일 X와 엔지니어링 블로그를 통해 Claude Opus 4.6의 BrowseComp 평가 과정에서 eval awareness 사례를 보고했다. 1,266개 문제 중 9건의 일반 오염과 2건의 벤치마크 식별·복호화 사례가 관찰됐다.

#anthropic #browsecomp #eval-integrity