SWE-bench Verified, 왜 HN이 이제 못 믿겠다고 했나

Original: SWE-bench Verified no longer measures frontier coding capabilities View original →

Read in other languages: English日本語
LLM Apr 27, 2026 By Insights AI (HN) 1 min read Source

Hacker News가 바로 반응한 지점은 숫자 자체보다 숫자가 만들어지는 방식이었다. OpenAI는 공식 분석에서 SWE-bench Verified가 이제 frontier coding model의 실제 성능을 재는 잣대로는 부적절하다고 밝혔다. 이번 HN 스레드(item 47910388)는 이 결론을 두고 “benchmark가 포화된 것이냐, training contamination이 숫자를 밀어 올린 것이냐”를 빠르게 파고들었다.

OpenAI가 내놓은 핵심 근거는 두 가지다. 첫째, 반복적으로 실패한 138개 문제를 감사한 결과 59.4%에서 test 설계나 문제 서술에 중대한 결함이 발견됐다는 점이다. 좁은 test는 함수적으로 맞는 해법도 떨어뜨렸고, 넓은 test는 문제 설명에 없는 추가 기능까지 요구했다. 둘째, frontier model들이 gold patch나 문제 문구의 세부 표현을 재현하는 사례가 확인되면서 benchmark contamination이 무시하기 어려운 수준이라는 점이다.

HN 댓글도 비슷한 방향으로 흘렀다. SWE-bench 공동 제작자는 댓글에서 Verified가 이미 93.9%까지 포화됐고, Multilingual과 Multimodal 같은 후속 benchmark를 준비 중이라고 설명했다. 다른 이용자들은 “앞으로 공개된 benchmark는 결국 training set에 섞일 수밖에 없다”는 냉소를 보였고, 일부는 아예 model launch marketing에서 benchmark 표기를 줄여야 한다고 주장했다.

  • OpenAI는 SWE-bench Verified 대신 SWE-bench Pro 보고를 권고했다.
  • 감사 대상 138개 중 59.4%가 flawed tests 또는 불완전한 problem description 문제를 드러냈다.
  • 최근 6개월 개선 폭도 74.9%에서 80.9%로 둔화돼, 남은 실패가 진짜 능력 한계인지 데이터셋 문제인지 구분하기 어렵다고 했다.

이 스레드가 흥미로운 이유는 “누가 1등인가”보다 “무엇을 재고 있었나”로 화제가 옮겨갔기 때문이다. coding agent 경쟁이 거세질수록 benchmark는 더 많이 쓰이지만, 공개 벤치마크일수록 오염과 과최적화 위험도 같이 커진다. HN이 이번 글을 밀어 올린 건 OpenAI의 선언이 새 benchmark 홍보가 아니라, 이미 표준처럼 굳은 수치 하나를 공식적으로 내려놓는 순간이었기 때문이다.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.