HNがSWE-bench Verifiedに冷えた理由　焦点はスコアより汚染

今回のHacker Newsで注目されたのは「どのモデルが勝ったか」ではない。OpenAIは公式記事で、SWE-bench Verifiedはもはや frontier coding capability を測る指標として十分ではないと説明した。HNのスレッド（item 47910388）では、その瞬間から話題が leaderboard ではなく contamination と test quality に切り替わった。

OpenAIが挙げた問題は二つある。ひとつは、モデルが失敗しやすい138題を監査したところ、その59.4%で test 設計または problem description に重大な欠陥が見つかったことだ。正しい解法でも実装の形が違うだけで落ちる narrow test があり、逆に説明されていない追加機能まで要求する wide test もあった。もうひとつは、frontier model が gold patch や問題文の細部を再現できる例が見つかり、training contamination の影響を否定しにくくなった点だ。

HNの反応も鋭かった。SWE-bench共同制作者はコメントで、Verifiedはすでに93.9%まで飽和しており、次の段階として Multilingual と Multimodal の展開を準備していると述べた。別の利用者は、注目される公開 benchmark は結局 training data に取り込まれやすく、企業が marketing に使うほど寿命が縮むと指摘した。

OpenAIは今後、SWE-bench Verifiedではなく SWE-bench Pro の利用を勧めている。
監査した失敗例の59.4%で flawed tests か不十分な task description が確認された。
公開レポジトリ由来の benchmark は、問題と修正パッチの両方が training に混ざる危険を抱える。

この話が重いのは、coding agent の評価軸そのものが揺れているからだ。スコアが上がっても、それが本当に実力の伸びなのか、公開 benchmark への露出なのか、切り分けが難しくなっている。HNがこのスレッドを押し上げたのは、新記録の祝賀ではなく、広く使われてきた物差しが公に外された瞬間だったからだ。

HNがSWE-bench Verifiedに冷えた理由　焦点はスコアより汚染

Related Articles

Claude Code postmortemでHNが見たもの、モデル崩壊ではなくプロダクト層

M5 Maxで動くQwen3.6に、LocalLLaMAはcodeを外へ出さない現実味を見た

Hacker Newsが見たSWE-bench合格とmergeable codeの距離

Comments (0)

Leave a Comment

Related Articles

Claude Code postmortemでHNが見たもの、モデル崩壊ではなくプロダクト層
Hacker NewsはAnthropicの説明を「モデルが劣化した話」より、「既定値とキャッシュ処理、プロンプト制御が体感品質を変えた話」として受け止めた。2026年4月24日時点でスレッドは727ポイント、543コメントだった。

M5 Maxで動くQwen3.6に、LocalLLaMAはcodeを外へ出さない現実味を見た
LLM Reddit Apr 20, 2026 1 min read

Hacker Newsが見たSWE-bench合格とmergeable codeの距離
LLM Hacker News Mar 12, 2026 1 min read