SWE-rebench 2026年1月版、コーディングエージェント競争は上位で僅差に

Reddit投稿で共有された結果

LocalLLaMAで注目を集めた投稿は、2026年1月のSWE-rebench結果を報告した。対象は直近作成のGitHub PR課題48件で、モデルは課題文を読み、コードを編集し、テストを通過して初めて解決扱いとなる。投稿によればClaude Code（Opus 4.6）はresolved rate 52.9%、pass@5 70.8%で首位。Claude Opus 4.6とgpt-5.2-xhighが51.7%で続いた。

オープンモデルの位置とコスト観点

同投稿では、Kimi K2 Thinking 43.8%、GLM-5 42.1%、Qwen3-Coder-Next 40.0%、MiniMax M2.5 39.6%が主要なオープンモデルとして示された。SWE-rebench側の解説では、MiniMax M2.5のコスト効率やQwen3-Coder-Nextの高いpass@5が補足されている。コメント欄では、モデル名だけでなく、プロバイダ差やキャッシュ対応など運用条件が実効性能を大きく左右する点が多く議論された。

方法論の読み解きが不可欠

ベンチマークページには、汚染可能性のある期間、モデル公開日との整合、実行フラグやツール権限設定など、比較時に重要な注意事項が明記されている。特にheadless実行設定やトークン計上方法の違いは、スコアとコスト推定の両方に影響しうる。したがって、順位表は方向性を示すが、導入判断は自社ワークロードでの再評価が前提になる。

2026年の開発組織への示唆

今回のポイントは収束傾向である。最上位のクローズドモデルは依然として強いが、オープンモデルがコーディングエージェント領域で急速に追い上げている。開発チームは単純な順位比較ではなく、品質・レイテンシ・コストを同じ運用条件で同時に測る評価基盤を持つ必要がある。Reddit議論とSWE-rebench更新は、その実務的な判断材料を提供している。

Reddit discussion thread

SWE-rebench 2026年1月版、コーディングエージェント競争は上位で僅差に

Reddit投稿で共有された結果

オープンモデルの位置とコスト観点

方法論の読み解きが不可欠

2026年の開発組織への示唆

Related Articles

SWE-bench Verifiedはもう限界か　LocalLLaMAがbenchmaxxedと呼んだ背景

Kimi K2.6、agent swarmを300体・4,000 stepへ拡張し実ファイル出力を本格化

HNがSWE-bench Verifiedに冷えた理由　焦点はスコアより汚染

Comments (0)

Leave a Comment

Related Articles

SWE-bench Verifiedはもう限界か　LocalLLaMAがbenchmaxxedと呼んだ背景

Kimi K2.6、agent swarmを300体・4,000 stepへ拡張し実ファイル出力を本格化
重要なのは、Moonshotが“agent swarm”をdemo wordではなく実行スケールの数字で押し出していることだ。Kimiのpostは、1回のrunで300 sub-agentと4,000 stepを回し、chatではなく100超のfilesを返せるとした。

HNがSWE-bench Verifiedに冷えた理由　焦点はスコアより汚染

Reddit投稿で共有された結果

オープンモデルの位置とコスト観点

方法論の読み解きが不可欠

2026年の開発組織への示唆

Related Articles

SWE-bench Verifiedはもう限界か LocalLLaMAがbenchmaxxedと呼んだ背景

Kimi K2.6、agent swarmを300体・4,000 stepへ拡張し実ファイル出力を本格化

HNがSWE-bench Verifiedに冷えた理由 焦点はスコアより汚染

Comments (0)

Leave a Comment

SWE-bench Verifiedはもう限界か　LocalLLaMAがbenchmaxxedと呼んだ背景

HNがSWE-bench Verifiedに冷えた理由　焦点はスコアより汚染