SWE-bench Verified, 왜 HN이 이제 못 믿겠다고 했나

Hacker News가 바로 반응한 지점은 숫자 자체보다 숫자가 만들어지는 방식이었다. OpenAI는 공식 분석에서 SWE-bench Verified가 이제 frontier coding model의 실제 성능을 재는 잣대로는 부적절하다고 밝혔다. 이번 HN 스레드(item 47910388)는 이 결론을 두고 “benchmark가 포화된 것이냐, training contamination이 숫자를 밀어 올린 것이냐”를 빠르게 파고들었다.

OpenAI가 내놓은 핵심 근거는 두 가지다. 첫째, 반복적으로 실패한 138개 문제를 감사한 결과 59.4%에서 test 설계나 문제 서술에 중대한 결함이 발견됐다는 점이다. 좁은 test는 함수적으로 맞는 해법도 떨어뜨렸고, 넓은 test는 문제 설명에 없는 추가 기능까지 요구했다. 둘째, frontier model들이 gold patch나 문제 문구의 세부 표현을 재현하는 사례가 확인되면서 benchmark contamination이 무시하기 어려운 수준이라는 점이다.

HN 댓글도 비슷한 방향으로 흘렀다. SWE-bench 공동 제작자는 댓글에서 Verified가 이미 93.9%까지 포화됐고, Multilingual과 Multimodal 같은 후속 benchmark를 준비 중이라고 설명했다. 다른 이용자들은 “앞으로 공개된 benchmark는 결국 training set에 섞일 수밖에 없다”는 냉소를 보였고, 일부는 아예 model launch marketing에서 benchmark 표기를 줄여야 한다고 주장했다.

OpenAI는 SWE-bench Verified 대신 SWE-bench Pro 보고를 권고했다.
감사 대상 138개 중 59.4%가 flawed tests 또는 불완전한 problem description 문제를 드러냈다.
최근 6개월 개선 폭도 74.9%에서 80.9%로 둔화돼, 남은 실패가 진짜 능력 한계인지 데이터셋 문제인지 구분하기 어렵다고 했다.

이 스레드가 흥미로운 이유는 “누가 1등인가”보다 “무엇을 재고 있었나”로 화제가 옮겨갔기 때문이다. coding agent 경쟁이 거세질수록 benchmark는 더 많이 쓰이지만, 공개 벤치마크일수록 오염과 과최적화 위험도 같이 커진다. HN이 이번 글을 밀어 올린 건 OpenAI의 선언이 새 benchmark 홍보가 아니라, 이미 표준처럼 굳은 수치 하나를 공식적으로 내려놓는 순간이었기 때문이다.

SWE-bench Verified, 왜 HN이 이제 못 믿겠다고 했나

Related Articles

Claude Code postmortem에 HN이 꽂힌 이유, 모델이 아니라 제품 레이어

Hacker News가 본 SWE-bench 합격과 mergeable code의 거리

M5 Max에서 돈 Qwen3.6, LocalLLaMA의 관심은 code를 밖으로 안 보내도 되나였다

Comments (0)

Leave a Comment

Related Articles

Claude Code postmortem에 HN이 꽂힌 이유, 모델이 아니라 제품 레이어
Hacker News는 Anthropic 글을 “모델이 망가졌다”보다 “기본값과 프롬프트, 캐시 처리 방식이 체감 품질을 바꿨다”는 고백으로 읽었다. 2026년 4월 24일 크롤링 시점 기준 스레드는 727점, 543댓글이었다.

Hacker News가 본 SWE-bench 합격과 mergeable code의 거리
LLM Hacker News Mar 12, 2026 1 min read

M5 Max에서 돈 Qwen3.6, LocalLLaMA의 관심은 code를 밖으로 안 보내도 되나였다
LLM Reddit Apr 20, 2026 1 min read