モデル順位表の弱点は、モデルではなく問題側にあるかもしれない。新しいarXiv論文は、評価タスクの25.7%以上に重大な問題を見つけ、欠陥タスクを除くとSWE-bench Verifiedの平均性能が9.9%動くと報告した。
#swe-bench
RSS FeedHNは今回のOpenAI記事を、ベンチマークの整理ではなく有名リーダーボードの事実上の終了宣言として読んだ。誰が何点を取ったかより、壊れたテストと汚染が評価をどこまで空洞化したかに関心が集まった。
LocalLLaMAの反応は驚きよりも納得に近かった。公開benchmarkは結局こうなる、という空気だ。今回はcontaminationとflawed testが数字で並び、従来の自慢材料がもう安定して見えなくなった。
重要なのは、Alibabaが multimodal coding model を API 限定ではなく open weights として出した点だ。投稿は Qwen3.6-35B-A3B が35B total parameters、3B active parameters、Apache 2.0 license を持つと示し、ブログでは SWE-bench Verified 73.4 と Terminal-Bench 2.0 51.5 が示された。
Hacker News で浮上した Z.ai の GLM-5.1 は、one-shot の勝ち負けよりも長時間の agentic work を前面に出している。Z.ai は SWE-Bench Pro 58.4、NL2Repo 42.7、Terminal Bench 2.0 66.5 を示し、数百回の iteration と数千回の tool call を通じて改善が続く実験も公開した。
Hacker Newsでは2026年3月12日の分析記事をきっかけに、LLMコーディング能力はSWE-benchのtest通過率ほどにはmaintainer merge基準で伸びていないのではないかという議論が広がった。
METRのMarch 10, 2026 noteは、最近のagentが書いたSWE-bench Verified PRのうちtestを通っても半分ほどはmaintainer reviewを通過しないと示した。HNはこれを、benchmark scoreがまだscope controlやcode qualityやrepo fitを代替できないという警告として受け取った。
r/LocalLLaMA投稿は「編集ごとの検証」ループでQwen3.5-35B-A3Bが22.2%から37.8%へ改善したと報告し、Claude Opus 4.6の40%参照値に接近した点を示した。
r/singularityで注目された投稿は、OpenAIがSWE-bench Verifiedのテスト品質問題を理由に評価利用を停止した発表を共有した。少なくとも16.4%の欠陥指摘は、coding LLMベンチマークの読み方に直接影響する。
Hacker Newsで話題になったarXiv:2602.11988は、AGENTS.mdのようなリポジトリ文脈ファイルがコーディングエージェントの成功率を下げ、推論コストを20%以上増やす傾向を報告した。
LocalLLaMAで共有されたSWE-rebench 1月結果は、Claude Code先行を維持しつつ上位差の縮小とオープンモデル追い上げを示した。