SWE-bench Verifiedはもう限界か　LocalLLaMAがbenchmaxxedと呼んだ背景

スレッドの空気は“驚き”ではなく“やはりそうか”だった

LocalLLaMAでこの投稿が伸びた理由は、新情報の爆発というより、皆が薄々感じていたことが正式に文章化されたからだ。タイトルの“benchmaxxed”という言い方自体が、そのムードをよく表している。公開benchmarkは、競争の的になった瞬間から測定器としての純度を失う。コメント上位もほぼ同じ方向で、Goodhartの法則そのものだという受け止め方が並んだ。

きっかけは、OpenAIがSWE-bench Verifiedをもはやfrontier coding capabilityの指標として使わないと説明した分析記事だった。

OpenAIが示した論点

記事の柱は二つある。第一に、残っている失敗のかなりの部分が純粋なモデル能力不足とは言えない点だ。OpenAIは、過去6か月でスコアが74.9%から80.9%へ上がった一方、難問側を監査した138件のうち59.4%でテスト設計や問題記述に重大な不備が見つかったと述べた。第二にcontaminationである。OpenAIは、複数のfrontier modelがgold patchや問題固有の詳細を再現できた例を示し、学習時にbenchmark材料へ触れていた形跡があると主張した。

この二つが同時に起きると、順位表の読み方はかなり危うくなる。正しい修正が落とされる失敗もあれば、データ露出で押し上げられた成功も混ざるからだ。

LocalLLaMAが見た本質

コメント欄で目立ったのは、Verifiedを擁護する声より、公開benchmarkの宿命として受け止める声だった。あるコメントは「どんな公開benchmarkも最後はここへ行く」と書き、別のコメントは一言でGoodhartの法則だと片付けた。公開されている以上、いつか学習に取り込まれ、有効性が落ちるというわけだ。加えて、課題を継続的に差し替えるSWE-rebenchのような方式へ話をつなぐ声もあった。もちろん「他社比較で不利だから乗り換えただけでは」という疑いは残る。それでも、staticな公開benchmarkが急速に古くなるという大枠には、多くの読者が同意していた。

なぜ重要か

問題は一つのleaderboardで終わらない。コーディングエージェント競争では、benchmark hygieneが研究の問題であると同時に、製品選定と市場コミュニケーションの問題にもなっている。モデルがテストやissue文、さらにgold patch断片まで吸い込んでいるなら、高スコアは現場の有用性をあまり説明しない。LocalLLaMAがこの話題に強く反応したのは、そうした不信がすでに広がっていたからだ。OpenAIの記事は、その不信に数字と事例を与えた。

出典: OpenAI分析記事 · r/LocalLLaMAスレッド

SWE-bench Verifiedはもう限界か　LocalLLaMAがbenchmaxxedと呼んだ背景

スレッドの空気は“驚き”ではなく“やはりそうか”だった

OpenAIが示した論点

LocalLLaMAが見た本質

なぜ重要か

Related Articles

Qwen3.6-35B結果より大きかった論点、LocalLLaMAが見たscaffold問題

Qwen3.6-Max-Preview、coding benchmark上位でもcloud-only

HNがSWE-bench Verifiedに冷えた理由　焦点はスコアより汚染

Comments (0)

Leave a Comment

Related Articles

Qwen3.6-35B結果より大きかった論点、LocalLLaMAが見たscaffold問題
LocalLLaMAを動かしたのは単なるQwenのスコア更新ではなかった。同じ系統のローカルモデルがscaffold変更だけで19%から45%、さらに78.7%へ伸びたという流れが、ベンチマーク比較そのものを見直す空気を生んだ。

Qwen3.6-Max-Preview、coding benchmark上位でもcloud-only

HNがSWE-bench Verifiedに冷えた理由　焦点はスコアより汚染

スレッドの空気は“驚き”ではなく“やはりそうか”だった

OpenAIが示した論点

LocalLLaMAが見た本質

なぜ重要か

Related Articles

Qwen3.6-35B結果より大きかった論点、LocalLLaMAが見たscaffold問題

Qwen3.6-Max-Preview、coding benchmark上位でもcloud-only

HNがSWE-bench Verifiedに冷えた理由 焦点はスコアより汚染

Comments (0)

Leave a Comment

HNがSWE-bench Verifiedに冷えた理由　焦点はスコアより汚染