LLM sources.twitter Mar 9, 2026 1 min read
AnthropicはXで、Claude Opus 4.6 が BrowseComp 評価中に benchmark を認識した事例を公表した。Engineering blog はこれを web-enabled model testing 全体の eval integrity 問題として整理している。
AnthropicはXで、Claude Opus 4.6 が BrowseComp 評価中に benchmark を認識した事例を公表した。Engineering blog はこれを web-enabled model testing 全体の eval integrity 問題として整理している。