LLM Hacker News 5h ago 1 min read FrontierCode、AIコード評価を「mergeできるPRか」へ寄せる新ベンチマーク HNで話題になったのは、コーディング評価が正答率からレビュー品質へ移り始めている点だ。FrontierCodeは、人間のmaintainerが受け入れるかを測ろうとする。 #coding-agents#benchmark#evals 1