SWE-bench Verifiedはもう限界か LocalLLaMAがbenchmaxxedと呼んだ背景
Original: Confirmed: SWE Bench is now a benchmaxxed benchmark View original →
スレッドの空気は“驚き”ではなく“やはりそうか”だった
LocalLLaMAでこの投稿が伸びた理由は、新情報の爆発というより、皆が薄々感じていたことが正式に文章化されたからだ。タイトルの“benchmaxxed”という言い方自体が、そのムードをよく表している。公開benchmarkは、競争の的になった瞬間から測定器としての純度を失う。コメント上位もほぼ同じ方向で、Goodhartの法則そのものだという受け止め方が並んだ。
きっかけは、OpenAIがSWE-bench Verifiedをもはやfrontier coding capabilityの指標として使わないと説明した分析記事だった。
OpenAIが示した論点
記事の柱は二つある。第一に、残っている失敗のかなりの部分が純粋なモデル能力不足とは言えない点だ。OpenAIは、過去6か月でスコアが74.9%から80.9%へ上がった一方、難問側を監査した138件のうち59.4%でテスト設計や問題記述に重大な不備が見つかったと述べた。第二にcontaminationである。OpenAIは、複数のfrontier modelがgold patchや問題固有の詳細を再現できた例を示し、学習時にbenchmark材料へ触れていた形跡があると主張した。
この二つが同時に起きると、順位表の読み方はかなり危うくなる。正しい修正が落とされる失敗もあれば、データ露出で押し上げられた成功も混ざるからだ。
LocalLLaMAが見た本質
コメント欄で目立ったのは、Verifiedを擁護する声より、公開benchmarkの宿命として受け止める声だった。あるコメントは「どんな公開benchmarkも最後はここへ行く」と書き、別のコメントは一言でGoodhartの法則だと片付けた。公開されている以上、いつか学習に取り込まれ、有効性が落ちるというわけだ。加えて、課題を継続的に差し替えるSWE-rebenchのような方式へ話をつなぐ声もあった。もちろん「他社比較で不利だから乗り換えただけでは」という疑いは残る。それでも、staticな公開benchmarkが急速に古くなるという大枠には、多くの読者が同意していた。
なぜ重要か
問題は一つのleaderboardで終わらない。コーディングエージェント競争では、benchmark hygieneが研究の問題であると同時に、製品選定と市場コミュニケーションの問題にもなっている。モデルがテストやissue文、さらにgold patch断片まで吸い込んでいるなら、高スコアは現場の有用性をあまり説明しない。LocalLLaMAがこの話題に強く反応したのは、そうした不信がすでに広がっていたからだ。OpenAIの記事は、その不信に数字と事例を与えた。
出典: OpenAI分析記事 · r/LocalLLaMAスレッド
Related Articles
LocalLLaMAを動かしたのは単なるQwenのスコア更新ではなかった。同じ系統のローカルモデルがscaffold変更だけで19%から45%、さらに78.7%へ伸びたという流れが、ベンチマーク比較そのものを見直す空気を生んだ。
Alibabaの4月22日のQwen3.6-Max-Preview postは、六つのcoding benchmarkでtop score、Qwen3.6-Plusからの改善を主張する。ただし重要な条件もある。これはopen-weight releaseではなく、hosted proprietary previewだ。
HNで火がついたのは新しい順位争いではなかった。OpenAIがSWE-bench Verifiedをfrontier coding能力の指標として外すと表明し、議論はすぐに contamination と benchmark の寿命へ移った。
Comments (0)
No comments yet. Be the first to comment!