DeepSWE 113개 과제, 코딩 에이전트 격차를 70% 대 54%로 벌린 새 평가 벤치마크
Original: DeepSWE’s 113 tasks put GPT-5.5 at 70% and Claude Opus 4.7 at 54% View original →
113개 새 과제가 만든 더 넓은 격차
코딩 에이전트 평가는 모델 홍보 문구보다 실제 저장소에서 얼마나 오래 버티는지를 봐야 한다. Datacurve 공동창업자 Serena Ge는 2026년 5월 26일 X에서 DeepSWE를 공개하며 “DeepSWE shows where they actually diverge”라고 썼다. 원문 트윗은 여기에서 확인할 수 있다.
“DeepSWE shows where they actually diverge”
핵심 숫자는 113개 과제, 91개 저장소, 5개 언어다. DeepSWE 블로그와 공개 아티팩트에 따르면 과제는 기존 커밋이나 PR을 변형하지 않고 새로 작성됐고, 얕은 클론을 사용해 에이전트가 git 히스토리에서 정답을 찾아내는 우회 경로를 막았다. 평균 프롬프트 길이는 SWE-bench Pro의 절반 수준이지만, 해법은 평균 668.1줄로 SWE-bench Pro의 120.3줄보다 약 5.5배 길다.
첫 리더보드는 공개 코딩 벤치마크에서 비슷하게 보이던 모델 간 차이를 크게 벌렸다. GPT-5.5는 pass@1 70.0%로 1위, GPT-5.4는 55.5%, Claude Opus 4.7은 54.2%를 기록했다. 비용과 행동도 함께 볼 만하다. Claude Opus 4.7의 통과 시 중앙 비용은 약 $15.95로 GPT-5.5의 약 $5.76보다 높고, 중앙 스텝도 191 대 75로 더 길다.
Serena Ge 계정은 Datacurve의 벤치마크와 데이터셋, 코딩 에이전트 평가를 직접 설명하는 창구로 쓰인다. 이번 트윗이 중요한 이유는 단순한 새 순위표가 아니라 평가 환경 자체를 문제 삼았기 때문이다. DeepSWE는 손으로 작성한 검증기가 공개 API 동작을 확인하도록 설계됐고, 모델이 더 많은 토큰을 쓴다고 자동으로 더 똑똑해지는 것은 아니라는 분석도 함께 내놓았다.
다음 관전점은 독립 재현이다. Datacurve가 공개한 GitHub 저장소, 데이터 페이지, 아티팩트를 외부 연구자와 모델 제공사가 얼마나 검증하는지, 그리고 SWE-bench 계열 리더보드가 오염 차단과 검증기 품질을 얼마나 빠르게 보강하는지가 코딩 에이전트 평가의 새 기준을 정할 것이다.
Related Articles
AGI 수준 평가 벤치마크 ARC-AGI-3에서 GPT-5.5 High가 0.43%, Claude Opus 4.7이 0.18%를 기록했다. 최강 모델들도 이 벤치마크 앞에서는 사실상 제로에 수렴한다.
HN에서는 “새 모델이냐, 새 하니스냐”가 바로 쟁점이 됐다. Dirac의 65.2% 점수보다 더 크게 붙은 이야기는 코딩 에이전트 성능이 결국 컨텍스트 관리와 편집 전략에서 갈린다는 점이었다.
Anthropic과 KPMG가 5월 19일 글로벌 전략 동맹을 체결했다. KPMG 전 직원 27만 6천 명이 Digital Gateway를 통해 Claude에 접근하며, 조세·사모펀드·사이버보안 분야 에이전트 워크플로우에 우선 적용된다.
Comments (0)
No comments yet. Be the first to comment!