SWE-rebench 2026年1月版、コーディングエージェント競争は上位で僅差に
Original: SWE-rebench Jan 2026: GLM-5, MiniMax M2.5, Qwen3-Coder-Next, Opus 4.6, Codex Performance View original →
Reddit投稿で共有された結果
LocalLLaMAで注目を集めた投稿は、2026年1月のSWE-rebench結果を報告した。対象は直近作成のGitHub PR課題48件で、モデルは課題文を読み、コードを編集し、テストを通過して初めて解決扱いとなる。投稿によればClaude Code(Opus 4.6)はresolved rate 52.9%、pass@5 70.8%で首位。Claude Opus 4.6とgpt-5.2-xhighが51.7%で続いた。
オープンモデルの位置とコスト観点
同投稿では、Kimi K2 Thinking 43.8%、GLM-5 42.1%、Qwen3-Coder-Next 40.0%、MiniMax M2.5 39.6%が主要なオープンモデルとして示された。SWE-rebench側の解説では、MiniMax M2.5のコスト効率やQwen3-Coder-Nextの高いpass@5が補足されている。コメント欄では、モデル名だけでなく、プロバイダ差やキャッシュ対応など運用条件が実効性能を大きく左右する点が多く議論された。
方法論の読み解きが不可欠
ベンチマークページには、汚染可能性のある期間、モデル公開日との整合、実行フラグやツール権限設定など、比較時に重要な注意事項が明記されている。特にheadless実行設定やトークン計上方法の違いは、スコアとコスト推定の両方に影響しうる。したがって、順位表は方向性を示すが、導入判断は自社ワークロードでの再評価が前提になる。
2026年の開発組織への示唆
今回のポイントは収束傾向である。最上位のクローズドモデルは依然として強いが、オープンモデルがコーディングエージェント領域で急速に追い上げている。開発チームは単純な順位比較ではなく、品質・レイテンシ・コストを同じ運用条件で同時に測る評価基盤を持つ必要がある。Reddit議論とSWE-rebench更新は、その実務的な判断材料を提供している。
Related Articles
LocalLLaMAの反応は驚きよりも納得に近かった。公開benchmarkは結局こうなる、という空気だ。今回はcontaminationとflawed testが数字で並び、従来の自慢材料がもう安定して見えなくなった。
重要なのは、Moonshotが“agent swarm”をdemo wordではなく実行スケールの数字で押し出していることだ。Kimiのpostは、1回のrunで300 sub-agentと4,000 stepを回し、chatではなく100超のfilesを返せるとした。
HNで火がついたのは新しい順位争いではなかった。OpenAIがSWE-bench Verifiedをfrontier coding能力の指標として外すと表明し、議論はすぐに contamination と benchmark の寿命へ移った。
Comments (0)
No comments yet. Be the first to comment!