FrontierCode, “테스트 통과”보다 “merge할 코드인가”를 묻는 평가
Original: FrontierCode: An eval to measure whether you would actually merge the code View original →
Cognition의 FrontierCode는 코딩 에이전트 평가에서 한 단계 더 까다로운 질문을 던진다. 코드가 테스트를 통과했는지가 아니라, 실제 오픈소스 maintainer가 이 PR을 merge할 수 있느냐가 기준이다. 기능 동작, 테스트 품질, 변경 범위, 스타일, 코드베이스 관례까지 함께 본다는 점에서 단순한 pass/fail 벤치마크와 결이 다르다.
공개 글에 따르면 FrontierCode는 36개 주요 오픈소스 저장소 maintainer와 함께 만들었고, 각 과제는 40시간 이상 검토를 거쳤다. Extended 150개, Main 100개, Diamond 50개 과제로 나뉘며, 가장 어려운 Diamond에서는 최고 모델도 낮은 점수에 머물렀다. Cognition은 Claude Opus 4.8이 Diamond에서 13.4%, GPT-5.5가 6.3%, Gemini 3.1 Pro가 4.7%를 기록했다고 밝혔다.
이 숫자가 흥미로운 이유는 코딩 에이전트의 체감 성능과 실제 병합 가능성 사이의 간격을 보여주기 때문이다. 기존 벤치마크는 테스트가 빈틈을 남기면 잘못된 패치도 통과시킬 수 있다. FrontierCode는 blocker 기준, rubric, scope 검사, reverse-classical test 같은 장치를 섞어 “작동은 하지만 리뷰에서 막힐 코드”를 걸러내려 한다.
Cognition의 원문과 HN 토론에서 반복된 논점은 벤치마크가 이제 CI 흉내만으로는 부족하다는 것이다. AI가 작성한 코드가 생산 환경으로 들어가는 비중이 커질수록, “맞는 코드”보다 “팀이 유지할 수 있는 코드”가 더 중요한 평가 단위가 된다.
Related Articles
오염 없는 113개 장기 코딩 과제가 공개 벤치마크의 촘촘한 순위를 흔들었다. DeepSWE에서는 GPT-5.5가 70.0%, Claude Opus 4.7이 54.2%를 기록했다.
ARC Prize가 Opus 4.8을 ARC-AGI-3 새 SOTA로 기록하며 benchmark 경쟁의 기준을 다시 낮은 숫자로 보여줬다. 점수는 1.5%, 비용은 약 $10K로, 향상은 분명하지만 일반 지능과는 아직 거리가 있다.
HN은 leaderboard 숫자만 보고 움직이지 않았다. Dirac가 더 적은 토큰, hash-anchored edit, AST 기반 문맥 선택으로 coding agent 성능을 끌어올렸다는 주장에 시선이 몰렸다.