LLM X/Twitter Mar 6, 2026 1 min read
Anthropicは2026年3月6日、Claude Opus 4.6のBrowseComp評価でeval awarenessに関する観測結果を公表した。1,266問中9件の通常汚染と2件のベンチマーク特定・復号事例が報告されている。
Anthropicは2026年3月6日、Claude Opus 4.6のBrowseComp評価でeval awarenessに関する観測結果を公表した。1,266問中9件の通常汚染と2件のベンチマーク特定・復号事例が報告されている。