Papers with Code가 닫힌 모델 eval까지 품은 배경
Original: Introducing Papers Without Code [P] View original →
Hugging Face 오픈소스 팀의 Niels Rogge가 r/MachineLearning에 Papers with Code 재출시 소식을 올리면서, 논점은 단순한 사이트 개편보다 더 현실적인 곳으로 향했다. 요즘 AI leaderboard는 오픈소스 코드가 붙은 논문만으로 설명되지 않는다. GPT-5.5나 Mythos 5처럼 블로그, 기술 보고서, 제품 문서로 성능 수치가 공개되는 닫힌 모델도 benchmark 표의 상단을 차지한다. 그래서 농담처럼 “Papers Without Code”라는 이름이 붙었다.
게시글에 따르면 새 Papers with Code는 arXiv와 Hugging Face에 올라온 연구물을 자동 파싱해 여러 AI 영역의 SOTA를 찾고 leaderboard를 만든다. 예시로는 agents 영역의 BrowseComp benchmark가 제시됐다. 각 benchmark에는 산점도와 표가 있고, 점에 마우스를 올려 모델을 확인할 수 있는 식이다. 중요한 변화는 닫힌 모델 eval도 볼 수 있게 했다는 점이다. 사용자는 설정이나 toggle로 닫힌 모델 표시를 끌 수 있다.
이 변화가 민감한 이유는 leaderboard의 신뢰 방식이 바뀌기 때문이다. 예전 Papers with Code는 이름 그대로 코드와 논문이 붙은 재현 가능한 결과를 떠올리게 했다. 지금의 모델 경쟁에서는 상용 모델이 benchmark를 주도하지만, 그 결과가 같은 수준의 재현성을 제공하지 않는 경우가 많다. 커뮤니티가 파고든 것도 이 지점이다. 닫힌 모델을 아예 빼면 현실을 놓치고, 그대로 섞으면 공개성과 검증 가능성이 흐려진다.
새 사이트의 장점은 사용자가 그 긴장을 직접 볼 수 있게 만든다는 데 있다. closed tag와 필터가 있다면, leaderboard는 단순한 순위표가 아니라 출처와 공개 수준을 함께 읽는 도구가 된다. AI 성능 비교가 점점 제품 발표와 연구 논문 사이로 이동하는 상황에서, Papers with Code의 변화는 benchmark 문화가 어디로 가는지 보여주는 작은 신호다.
Related Articles
코딩 모델 평가가 정답률에서 코드 리뷰 품질로 옮겨가고 있다는 점에 HN 관심이 모였다. FrontierCode는 PR을 실제 maintainer가 받아들일지에 초점을 둔다.
Google DeepMind는 AGI 진척을 평가하기 위한 cognitive taxonomy를 발표하고, 이를 실제 benchmark로 연결하기 위한 Kaggle hackathon도 함께 시작했다. 핵심은 단일 headline score 대신 10개 cognitive ability별로 AI를 human baseline과 비교하자는 제안이다.
LiteCoder가 terminal 특화 모델만 내놓은 것이 아니라 11,255개 trajectory와 602개 Harbor 환경까지 함께 풀었다. 30B 모델은 Terminal Bench Pro에서 Pass@1 31.5%를 기록해 preview의 22.0%에서 크게 올라왔고, 작은 코드 agent도 아직 더 밀어 올릴 여지가 있다는 주장을 숫자로 뒷받침한다.