Papers with Code、「codeなし」のevalも扱う時代へ
Original: Introducing Papers Without Code [P] View original →
Hugging FaceのオープンソースチームにいるNiels Roggeがr/MachineLearningに投稿したPapers with Code再始動の話は、単なるサイト更新では終わらなかった。現在のAI leaderboardでは、コード付き論文だけが上位を占めるわけではない。GPT-5.5やMythos 5のように、ブログ記事、技術レポート、製品ページを通じて評価値が示される閉じたモデルも多い。そこで投稿では半分冗談として「Papers Without Code」という表現が使われた。
投稿によると、新しいPapers with CodeはarXivやHugging Faceに公開された研究を自動的に解析し、3D生成からagentsまで各分野のSOTAを見つけてleaderboardを作る。例として挙げられたのはagentsタスクのBrowseComp benchmarkで、各benchmarkには散布図と表が用意される。大きな変更点は、閉じたモデルのevalも表示できることだ。ユーザーはtoggleや設定でそれらを非表示にすることもできる。
この設計が議論を呼ぶのは、Papers with Codeという名前がもともと再現性を強く連想させるからである。論文、コード、結果が結びついていれば、第三者は少なくとも検証への道筋を持てる。しかし、商用モデルの評価値は同じ形では検証できないことが多い。閉じたモデルを完全に除外すれば現実の競争状況を取り逃がす。何も区別せず混ぜれば、公開性と再現性の差が見えにくくなる。
今回の変更で重要なのは、結果を隠すのではなく、出所と公開度を読者に見せる方向を選んだことだ。closed tagやフィルターが機能すれば、leaderboardは単なる順位表ではなく、どの主張がどの程度検証可能かを読む場所になる。AI評価は研究論文と製品発表の間に広がっており、Papers with Codeの変化はその地形を映している。
Related Articles
HNで話題になったのは、コーディング評価が正答率からレビュー品質へ移り始めている点だ。FrontierCodeは、人間のmaintainerが受け入れるかを測ろうとする。
LiteCoderはterminal特化modelだけでなく、11,255 trajectoriesと602 Harbor environmentsまでまとめて公開した。30B modelはTerminal Bench ProでPass@1 31.5%に到達し、previewの22.0%から大きく伸びており、小さめのcoding agentにもまだ伸びしろがあることを数字で示している。
中国のGLM-5モデルがIntelligence Indexで50点を記録し、オープンソース大規模言語モデルの中で最高性能を達成しました。