DeepSWE 113개 과제, 코딩 에이전트 격차를 70% 대 54%로 벌린 새 평가 벤치마크

113개 새 과제가 만든 더 넓은 격차

코딩 에이전트 평가는 모델 홍보 문구보다 실제 저장소에서 얼마나 오래 버티는지를 봐야 한다. Datacurve 공동창업자 Serena Ge는 2026년 5월 26일 X에서 DeepSWE를 공개하며 “DeepSWE shows where they actually diverge”라고 썼다. 원문 트윗은 여기에서 확인할 수 있다.

“DeepSWE shows where they actually diverge”

핵심 숫자는 113개 과제, 91개 저장소, 5개 언어다. DeepSWE 블로그와 공개 아티팩트에 따르면 과제는 기존 커밋이나 PR을 변형하지 않고 새로 작성됐고, 얕은 클론을 사용해 에이전트가 git 히스토리에서 정답을 찾아내는 우회 경로를 막았다. 평균 프롬프트 길이는 SWE-bench Pro의 절반 수준이지만, 해법은 평균 668.1줄로 SWE-bench Pro의 120.3줄보다 약 5.5배 길다.

첫 리더보드는 공개 코딩 벤치마크에서 비슷하게 보이던 모델 간 차이를 크게 벌렸다. GPT-5.5는 pass@1 70.0%로 1위, GPT-5.4는 55.5%, Claude Opus 4.7은 54.2%를 기록했다. 비용과 행동도 함께 볼 만하다. Claude Opus 4.7의 통과 시 중앙 비용은 약 $15.95로 GPT-5.5의 약 $5.76보다 높고, 중앙 스텝도 191 대 75로 더 길다.

Serena Ge 계정은 Datacurve의 벤치마크와 데이터셋, 코딩 에이전트 평가를 직접 설명하는 창구로 쓰인다. 이번 트윗이 중요한 이유는 단순한 새 순위표가 아니라 평가 환경 자체를 문제 삼았기 때문이다. DeepSWE는 손으로 작성한 검증기가 공개 API 동작을 확인하도록 설계됐고, 모델이 더 많은 토큰을 쓴다고 자동으로 더 똑똑해지는 것은 아니라는 분석도 함께 내놓았다.

다음 관전점은 독립 재현이다. Datacurve가 공개한 GitHub 저장소, 데이터 페이지, 아티팩트를 외부 연구자와 모델 제공사가 얼마나 검증하는지, 그리고 SWE-bench 계열 리더보드가 오염 차단과 검증기 품질을 얼마나 빠르게 보강하는지가 코딩 에이전트 평가의 새 기준을 정할 것이다.

DeepSWE 113개 과제, 코딩 에이전트 격차를 70% 대 54%로 벌린 새 평가 벤치마크

113개 새 과제가 만든 더 넓은 격차

Related Articles

GLM 5.2, Semgrep 보안 benchmark에서 Claude 추월

깨끗한 코드가 coding agent 비용을 줄이는 이유

Databricks Omnigent, 여러 coding agent를 한 workflow로 조율