HNがSWE-bench Verifiedに冷えた理由 焦点はスコアより汚染
Original: SWE-bench Verified no longer measures frontier coding capabilities View original →
今回のHacker Newsで注目されたのは「どのモデルが勝ったか」ではない。OpenAIは公式記事で、SWE-bench Verifiedはもはや frontier coding capability を測る指標として十分ではないと説明した。HNのスレッド(item 47910388)では、その瞬間から話題が leaderboard ではなく contamination と test quality に切り替わった。
OpenAIが挙げた問題は二つある。ひとつは、モデルが失敗しやすい138題を監査したところ、その59.4%で test 設計または problem description に重大な欠陥が見つかったことだ。正しい解法でも実装の形が違うだけで落ちる narrow test があり、逆に説明されていない追加機能まで要求する wide test もあった。もうひとつは、frontier model が gold patch や問題文の細部を再現できる例が見つかり、training contamination の影響を否定しにくくなった点だ。
HNの反応も鋭かった。SWE-bench共同制作者はコメントで、Verifiedはすでに93.9%まで飽和しており、次の段階として Multilingual と Multimodal の展開を準備していると述べた。別の利用者は、注目される公開 benchmark は結局 training data に取り込まれやすく、企業が marketing に使うほど寿命が縮むと指摘した。
- OpenAIは今後、SWE-bench Verifiedではなく SWE-bench Pro の利用を勧めている。
- 監査した失敗例の59.4%で flawed tests か不十分な task description が確認された。
- 公開レポジトリ由来の benchmark は、問題と修正パッチの両方が training に混ざる危険を抱える。
この話が重いのは、coding agent の評価軸そのものが揺れているからだ。スコアが上がっても、それが本当に実力の伸びなのか、公開 benchmark への露出なのか、切り分けが難しくなっている。HNがこのスレッドを押し上げたのは、新記録の祝賀ではなく、広く使われてきた物差しが公に外された瞬間だったからだ。
Related Articles
Hacker NewsはAnthropicの説明を「モデルが劣化した話」より、「既定値とキャッシュ処理、プロンプト制御が体感品質を変えた話」として受け止めた。2026年4月24日時点でスレッドは727ポイント、543コメントだった。
r/LocalLLaMAがこの投稿を押し上げたのは、“trust me bro”な体験談の中に8-bit、64k context、OpenCode、Android debuggingという実使用条件が入っていたからだ。
METRのMarch 10, 2026 noteは、最近のagentが書いたSWE-bench Verified PRのうちtestを通っても半分ほどはmaintainer reviewを通過しないと示した。HNはこれを、benchmark scoreがまだscope controlやcode qualityやrepo fitを代替できないという警告として受け取った。
Comments (0)
No comments yet. Be the first to comment!