SWE-rebench 2026年1月版、コーディングエージェント競争は上位で僅差に
Original: SWE-rebench Jan 2026: GLM-5, MiniMax M2.5, Qwen3-Coder-Next, Opus 4.6, Codex Performance View original →
Reddit投稿で共有された結果
LocalLLaMAで注目を集めた投稿は、2026年1月のSWE-rebench結果を報告した。対象は直近作成のGitHub PR課題48件で、モデルは課題文を読み、コードを編集し、テストを通過して初めて解決扱いとなる。投稿によればClaude Code(Opus 4.6)はresolved rate 52.9%、pass@5 70.8%で首位。Claude Opus 4.6とgpt-5.2-xhighが51.7%で続いた。
オープンモデルの位置とコスト観点
同投稿では、Kimi K2 Thinking 43.8%、GLM-5 42.1%、Qwen3-Coder-Next 40.0%、MiniMax M2.5 39.6%が主要なオープンモデルとして示された。SWE-rebench側の解説では、MiniMax M2.5のコスト効率やQwen3-Coder-Nextの高いpass@5が補足されている。コメント欄では、モデル名だけでなく、プロバイダ差やキャッシュ対応など運用条件が実効性能を大きく左右する点が多く議論された。
方法論の読み解きが不可欠
ベンチマークページには、汚染可能性のある期間、モデル公開日との整合、実行フラグやツール権限設定など、比較時に重要な注意事項が明記されている。特にheadless実行設定やトークン計上方法の違いは、スコアとコスト推定の両方に影響しうる。したがって、順位表は方向性を示すが、導入判断は自社ワークロードでの再評価が前提になる。
2026年の開発組織への示唆
今回のポイントは収束傾向である。最上位のクローズドモデルは依然として強いが、オープンモデルがコーディングエージェント領域で急速に追い上げている。開発チームは単純な順位比較ではなく、品質・レイテンシ・コストを同じ運用条件で同時に測る評価基盤を持つ必要がある。Reddit議論とSWE-rebench更新は、その実務的な判断材料を提供している。
Related Articles
r/LocalLLaMAでは、Qwen3.5-9BベースのOmniCoder-9Bがfrontier agent tracesを取り込んだ小型open coding modelとして注目されている。
METRのMarch 10, 2026 noteは、最近のagentが書いたSWE-bench Verified PRのうちtestを通っても半分ほどはmaintainer reviewを通過しないと示した。HNはこれを、benchmark scoreがまだscope controlやcode qualityやrepo fitを代替できないという警告として受け取った。
r/LocalLLaMA投稿は「編集ごとの検証」ループでQwen3.5-35B-A3Bが22.2%から37.8%へ改善したと報告し、Claude Opus 4.6の40%参照値に接近した点を示した。
Comments (0)
No comments yet. Be the first to comment!