FrontierCode、AIコード評価を「mergeできるPRか」へ寄せる新ベンチマーク
Original: FrontierCode: An eval to measure whether you would actually merge the code View original →
Cognitionが公開したFrontierCodeは、AIコーディング評価により実務的な問いを持ち込む。パッチがテストを通るかだけでなく、そのPRを実際のオープンソースmaintainerがmergeするかを見る。動作、回帰リスク、テスト品質、変更範囲、スタイル、コードベースの慣習まで評価対象に入る。
同社によると、FrontierCodeは36の主要オープンソースリポジトリのmaintainerと作られ、各タスクに40時間以上の作業が投じられた。Extendedは150問、Mainは難しい100問、Diamondは最難関50問で構成される。DiamondではClaude Opus 4.8が13.4%、GPT-5.5が6.3%、Gemini 3.1 Proが4.7%にとどまったという。
この低い数字は、AIが「それらしいコード」を書けることと、チームが保守できるコードを書くことの違いを示している。既存のテストだけでは、間違った変更が偶然通ることもある。FrontierCodeはblocker基準、rubric、scope検査、reverse-classical testなどを組み合わせ、レビューで止まる種類のパッチを検出しようとする。
Cognitionの発表とHNの議論が示すのは、AIコード評価がCI風の正誤判定だけでは足りなくなっているという現実だ。AIが本番コードに近づくほど、「動いた」よりも「引き受けて保守できる」ことが重要になる。
Related Articles
DeepSWEは91リポジトリ横断の113課題で、コーディングエージェント評価をより長期作業寄りにした。初回結果はGPT-5.5が70.0%、Claude Opus 4.7が54.2%。
ARC PrizeはAnthropic Opus 4.8をARC-AGI-3の新SOTAとしたが、数字はbenchmarkの難しさも示す。スコアは1.5%、コストは約$10Kで、進歩はobjectとsystemの抽象化に結びついている。
HNが反応したのは順位そのものではない。Diracが少ないトークン、hash-anchored edit、ASTベースの文脈選択でcoding agentを押し上げたという設計に注目が集まった。