DeepSWEの113課題、GPT-5.5を70%・Claude Opus 4.7を54%に分離した新基準

長期コーディング評価で順位差が広がる

コーディングエージェントの実力は、短い修正だけでなく、複数ファイルをまたぐ長い作業で崩れないかに表れる。Datacurve共同創業者兼CEOのSerena Geは2026年5月26日、XでDeepSWEを公開し、「DeepSWE shows where they actually diverge」と投稿した。元の投稿はこちら。

“DeepSWE shows where they actually diverge”

DeepSWEの特徴は、113個の新規課題を91リポジトリ、5つのプログラミング言語にまたがって用意した点にある。ブログと公開アーティファクトによると、課題は既存のコミットやプルリクエストから作ったものではなく、汚染を避けるために一から書かれている。さらに浅いクローンを使い、エージェントがgit履歴から正解パッチを探す抜け道も塞いでいる。

難しさの方向も従来と違う。平均プロンプト長は2,158文字で、SWE-bench Proの4,614文字より短い。一方で想定される修正量は平均668.1行で、SWE-bench Proの120.3行に対して約5.5倍だ。つまり、長い説明文を読む能力より、少ない要求から大きな変更を計画し、検証まで持っていく能力を測る設計になっている。

初回リーダーボードでは、GPT-5.5がpass@1で70.0%を記録し、GPT-5.4が55.5%、Claude Opus 4.7が54.2%だった。コスト面でも差が見える。GPT-5.5の成功時中央値は約$5.76、75ステップである一方、Claude Opus 4.7は約$15.95、191ステップとなっている。

Serena GeのアカウントはDatacurveのデータ、ベンチマーク、コーディングエージェント評価を伝える一次情報源として使われている。次に見るべき点は外部検証だ。公開されたGitHubリポジトリ、データ、評価アーティファクトを第三者が再現できるか、そして既存のSWE-bench系評価が汚染対策と検証器監査をどこまで強めるかが焦点になる。

DeepSWEの113課題、GPT-5.5を70%・Claude Opus 4.7を54%に分離した新基準

長期コーディング評価で順位差が広がる

Related Articles

GLM 5.2、SemgrepのセキュリティbenchmarkでClaude Codeを上回る

きれいなコードはcoding agentの正答率より移動コストに効く

Databricks Omnigent、複数coding agentを1つのworkflowで運用制御