Papers with Code、「codeなし」のevalも扱う時代へ

Hugging FaceのオープンソースチームにいるNiels Roggeがr/MachineLearningに投稿したPapers with Code再始動の話は、単なるサイト更新では終わらなかった。現在のAI leaderboardでは、コード付き論文だけが上位を占めるわけではない。GPT-5.5やMythos 5のように、ブログ記事、技術レポート、製品ページを通じて評価値が示される閉じたモデルも多い。そこで投稿では半分冗談として「Papers Without Code」という表現が使われた。

投稿によると、新しいPapers with CodeはarXivやHugging Faceに公開された研究を自動的に解析し、3D生成からagentsまで各分野のSOTAを見つけてleaderboardを作る。例として挙げられたのはagentsタスクのBrowseComp benchmarkで、各benchmarkには散布図と表が用意される。大きな変更点は、閉じたモデルのevalも表示できることだ。ユーザーはtoggleや設定でそれらを非表示にすることもできる。

この設計が議論を呼ぶのは、Papers with Codeという名前がもともと再現性を強く連想させるからである。論文、コード、結果が結びついていれば、第三者は少なくとも検証への道筋を持てる。しかし、商用モデルの評価値は同じ形では検証できないことが多い。閉じたモデルを完全に除外すれば現実の競争状況を取り逃がす。何も区別せず混ぜれば、公開性と再現性の差が見えにくくなる。

今回の変更で重要なのは、結果を隠すのではなく、出所と公開度を読者に見せる方向を選んだことだ。closed tagやフィルターが機能すれば、leaderboardは単なる順位表ではなく、どの主張がどの程度検証可能かを読む場所になる。AI評価は研究論文と製品発表の間に広がっており、Papers with Codeの変化はその地形を映している。

Papers with Code、「codeなし」のevalも扱う時代へ

Related Articles

DebianのLLM利用投票、禁止か条件付き許容か

Claude Opus 5、Fable級のcoding性能を半額圏に寄せる日常高性能モデルとroutingの狙い

LiteCoder、Terminal Bench Pro 31.5%でコードagentを押し上げた