SWE-bench Verified失速、HNが見た本質は順位より汚染
Original: SWE-bench Verified no longer measures frontier coding capabilities View original →
Hacker Newsでは、この話は新しいスコア報告というより「この指標はもう終わりだ」という宣言として受け止められた。OpenAIの分析は、SWE-bench Verifiedがもはや最前線のコーディング能力を測る尺度として機能しないと主張している。理由は2つある。正しい修正を弾くテストが多いこと、そしてモデルが問題や解答断片を学習時に見ている可能性が高いことだ。HNが最初に食いついたのも、順位表ではなくこの2点だった。
数字はかなり重い。OpenAIはo3が安定して解けなかった138問を監査し、その59.4%にテスト設計または問題記述の重大な欠陥があったと述べている。35.5%は機能的に正しい実装まで落とす narrow test、18.8%は問題文にない追加機能まで求める wide test だった。さらに contamination の問題がある。分析では、複数の frontier モデルが元の gold patch や問題文の固有表現を再現できたとされ、学習時に既に似た情報へ触れていた可能性が高い。こうなるとスコア上昇は、現実のソフトウェア開発能力より、どれだけその評価セットに慣れているかを映してしまう。
スレッドではすぐに、OpenAI個社の話からベンチマーク文化全体の話へ広がった。SWE-bench共同作成者の一人はコメントで、Verifiedは93.9%まで飽和した一方、MultilingualやMultimodalの版はまだ余地があると説明した。別のコメントはさらに辛辣で、有名になった評価セットはすぐに学習データにも販促材料にも最適化対象にもなると切って捨てた。HNには以前から、SWE-benchでは通っても人間のレビューでは通らないPRが多いという不満がある。この議論はその延長線上にあった。
とはいえ、HNが評価そのものを捨てようとしていたわけではない。むしろ逆で、コーディングモデルの進歩を追うなら、業界全体が学習し調整し宣伝に使う単一の有名ベンチマークに依存してはいけない、という方向だった。OpenAIはSWE-bench Proの利用を勧めている。HNも次の基準へ移る必要には概ね同意していたが、その次も長く無傷ではいられないだろうという諦めも強かった。今回の本題は順位争いではない。評価がどれだけ早く「ゲーム」になるかだった。
Related Articles
HNで火がついたのは新しい順位争いではなかった。OpenAIがSWE-bench Verifiedをfrontier coding能力の指標として外すと表明し、議論はすぐに contamination と benchmark の寿命へ移った。
Hacker NewsはAnthropicの説明を「モデルが劣化した話」より、「既定値とキャッシュ処理、プロンプト制御が体感品質を変えた話」として受け止めた。2026年4月24日時点でスレッドは727ポイント、543コメントだった。
LocalLLaMAの反応は驚きよりも納得に近かった。公開benchmarkは結局こうなる、という空気だ。今回はcontaminationとflawed testが数字で並び、従来の自慢材料がもう安定して見えなくなった。
Comments (0)
No comments yet. Be the first to comment!