Hacker News、maintainer merge rateで見るLLMコーディング進歩停滞論を議論
Original: Are LLM merge rates not getting better? View original →
同じコーディングagentでも指標で見え方が変わる
2026年3月12日にEntropic Thoughtsへ掲載された記事は、コーディングagentの議論でしばしば前提化されてきた考え方に疑問を投げかけた。benchmark scoreが上がれば、実際にmergeされるコード品質も同じように上がっていると見てよいのか、という点だ。この投稿はHacker Newsでクロール時点167ポイント、155コメントを集め、2日前の3月10日にMETRが公開したSWE-bench Verifiedのmaintainer review結果を再解釈する形で注目された。
METRの主結果はかなり具体的だ。scikit-learn、Sphinx、pytestのmaintainerがAI生成の296件のpull requestを審査したところ、golden baselineで正規化してもmaintainer merge rateはautomated grader scoreより平均約24 percentage points低かった。実務的には、50% success horizonが「testを通す」基準では約50分なのに対し、「maintainerがmergeする」基準では約8分に縮む。つまり、test-passing patchとrepositoryに受け入れられるpatchは同義ではない。
Hacker Newsで議論が深まった点
Entropic Thoughtsの記事はそこからさらに踏み込む。METRのグラフのうちmerge-rate部分だけを見ると、2025年初頭以降に明確な上昇証拠はほとんどないのではないか、という主張だ。著者はこれを単なる目視に終わらせず、leave-one-out cross-validationで緩やかな上昇線とpiecewise constant、完全なconstantを比較した。提示されたBrier scoreは順に0.0129、0.0117、0.0100で、滑らかな成長線よりも段差的あるいはほぼ横ばいの説明の方がデータに合うとしている。
もちろん、それで即座に「コーディングmodelの進歩が止まった」と断定できるわけではない。METR自身も、Sonnet 4.5以降のより新しいmodelについては同じ慎重なmaintainer reviewで測れていないと述べている。それでもこの批判が重要なのは、AI分野がnoisyなbenchmark curveを現実の有用性の直接指標として読みがちな習慣に歯止めをかけるからだ。
coding agent実装への示唆
運用上の教訓は、failure modeごとに改善速度が違うという点にある。METRのrejection breakdownを見ると、いくつかの進歩は「まったくtestに通らないpatch」を「機能は近いがcode qualityやmaintainabilityに問題があるpatch」へ移している。benchmark opticsは良くなっても、人間reviewはまだ通らない可能性が高い。
そのため、このHacker Newsの議論は単なる性能論争ではなく、evaluation designとproduct strategyの問題だ。mergeabilityが遅くしか動かないのにtest-passing scoreだけが速く伸びるなら、coding agent teamはより現実的なacceptance metric、より強いelicitation loop、そしてhuman feedbackを整えないままbenchmark上昇をそのまま経済価値に変換すべきではない。要点は「2026年3月12日にLLM進歩が止まった」ということではなく、「merge可能コードの着実な伸び」を示す証拠はheadline benchmarkほど強くない、ということだ。
Entropic Thoughts analysis · METR note · Hacker News discussion
Related Articles
LocalLLaMAの反応は驚きよりも納得に近かった。公開benchmarkは結局こうなる、という空気だ。今回はcontaminationとflawed testが数字で並び、従来の自慢材料がもう安定して見えなくなった。
HNは今回のOpenAI記事を、ベンチマークの整理ではなく有名リーダーボードの事実上の終了宣言として読んだ。誰が何点を取ったかより、壊れたテストと汚染が評価をどこまで空洞化したかに関心が集まった。
HNで火がついたのは新しい順位争いではなかった。OpenAIがSWE-bench Verifiedをfrontier coding能力の指標として外すと表明し、議論はすぐに contamination と benchmark の寿命へ移った。
Comments (0)
No comments yet. Be the first to comment!