Papers with Code가 닫힌 모델 eval까지 품은 배경

Hugging Face 오픈소스 팀의 Niels Rogge가 r/MachineLearning에 Papers with Code 재출시 소식을 올리면서, 논점은 단순한 사이트 개편보다 더 현실적인 곳으로 향했다. 요즘 AI leaderboard는 오픈소스 코드가 붙은 논문만으로 설명되지 않는다. GPT-5.5나 Mythos 5처럼 블로그, 기술 보고서, 제품 문서로 성능 수치가 공개되는 닫힌 모델도 benchmark 표의 상단을 차지한다. 그래서 농담처럼 “Papers Without Code”라는 이름이 붙었다.

게시글에 따르면 새 Papers with Code는 arXiv와 Hugging Face에 올라온 연구물을 자동 파싱해 여러 AI 영역의 SOTA를 찾고 leaderboard를 만든다. 예시로는 agents 영역의 BrowseComp benchmark가 제시됐다. 각 benchmark에는 산점도와 표가 있고, 점에 마우스를 올려 모델을 확인할 수 있는 식이다. 중요한 변화는 닫힌 모델 eval도 볼 수 있게 했다는 점이다. 사용자는 설정이나 toggle로 닫힌 모델 표시를 끌 수 있다.

이 변화가 민감한 이유는 leaderboard의 신뢰 방식이 바뀌기 때문이다. 예전 Papers with Code는 이름 그대로 코드와 논문이 붙은 재현 가능한 결과를 떠올리게 했다. 지금의 모델 경쟁에서는 상용 모델이 benchmark를 주도하지만, 그 결과가 같은 수준의 재현성을 제공하지 않는 경우가 많다. 커뮤니티가 파고든 것도 이 지점이다. 닫힌 모델을 아예 빼면 현실을 놓치고, 그대로 섞으면 공개성과 검증 가능성이 흐려진다.

새 사이트의 장점은 사용자가 그 긴장을 직접 볼 수 있게 만든다는 데 있다. closed tag와 필터가 있다면, leaderboard는 단순한 순위표가 아니라 출처와 공개 수준을 함께 읽는 도구가 된다. AI 성능 비교가 점점 제품 발표와 연구 논문 사이로 이동하는 상황에서, Papers with Code의 변화는 benchmark 문화가 어디로 가는지 보여주는 작은 신호다.

Papers with Code가 닫힌 모델 eval까지 품은 배경

Related Articles

Claude Opus 5, Fable급 코딩 성능을 절반 가격대로 낮춘 일상형 고성능 모델

Debian LLM 사용 투표, 금지와 조건부 허용 사이

Google DeepMind, AGI 진척 측정용 cognitive framework 공개

Related Articles

Claude Opus 5, Fable급 코딩 성능을 절반 가격대로 낮춘 일상형 고성능 모델
일상형 고성능 모델 경쟁의 초점이 최고점보다 비용당 성능으로 옮겨갔다. Claude Opus 5는 Fable 5에 가까운 코딩·지식 작업 성능을 절반 가격으로 내세우며, API 가격은 입력 $5/M·출력 $25/M 토큰으로 책정됐다.

Debian LLM 사용 투표, 금지와 조건부 허용 사이

Google DeepMind, AGI 진척 측정용 cognitive framework 공개
LLM Mar 24, 2026 2 min read