SWE-bench Verified失速、HNが見た本質は順位より汚染
Original: SWE-bench Verified no longer measures frontier coding capabilities View original →
Hacker Newsでは、この話は新しいスコア報告というより「この指標はもう終わりだ」という宣言として受け止められた。OpenAIの分析は、SWE-bench Verifiedがもはや最前線のコーディング能力を測る尺度として機能しないと主張している。理由は2つある。正しい修正を弾くテストが多いこと、そしてモデルが問題や解答断片を学習時に見ている可能性が高いことだ。HNが最初に食いついたのも、順位表ではなくこの2点だった。
数字はかなり重い。OpenAIはo3が安定して解けなかった138問を監査し、その59.4%にテスト設計または問題記述の重大な欠陥があったと述べている。35.5%は機能的に正しい実装まで落とす narrow test、18.8%は問題文にない追加機能まで求める wide test だった。さらに contamination の問題がある。分析では、複数の frontier モデルが元の gold patch や問題文の固有表現を再現できたとされ、学習時に既に似た情報へ触れていた可能性が高い。こうなるとスコア上昇は、現実のソフトウェア開発能力より、どれだけその評価セットに慣れているかを映してしまう。
スレッドではすぐに、OpenAI個社の話からベンチマーク文化全体の話へ広がった。SWE-bench共同作成者の一人はコメントで、Verifiedは93.9%まで飽和した一方、MultilingualやMultimodalの版はまだ余地があると説明した。別のコメントはさらに辛辣で、有名になった評価セットはすぐに学習データにも販促材料にも最適化対象にもなると切って捨てた。HNには以前から、SWE-benchでは通っても人間のレビューでは通らないPRが多いという不満がある。この議論はその延長線上にあった。
とはいえ、HNが評価そのものを捨てようとしていたわけではない。むしろ逆で、コーディングモデルの進歩を追うなら、業界全体が学習し調整し宣伝に使う単一の有名ベンチマークに依存してはいけない、という方向だった。OpenAIはSWE-bench Proの利用を勧めている。HNも次の基準へ移る必要には概ね同意していたが、その次も長く無傷ではいられないだろうという諦めも強かった。今回の本題は順位争いではない。評価がどれだけ早く「ゲーム」になるかだった。
Related Articles
HNで話題になったのは、コーディング評価が正答率からレビュー品質へ移り始めている点だ。FrontierCodeは、人間のmaintainerが受け入れるかを測ろうとする。
METRのMarch 10, 2026 noteは、最近のagentが書いたSWE-bench Verified PRのうちtestを通っても半分ほどはmaintainer reviewを通過しないと示した。HNはこれを、benchmark scoreがまだscope controlやcode qualityやrepo fitを代替できないという警告として受け取った。
OpenAIは6月4日、ChatGPTのLockdown Modeを全ログインユーザーとワークスペースに提供し、API生成リクエストでは入力・出力のmoderationスコアを同じ応答で受け取れるようにした。prompt injection対策が製品機能として見える位置に出てきた。