Hacker News、maintainer merge rateで見るLLMコーディング進歩停滞論を議論
Original: Are LLM merge rates not getting better? View original →
同じコーディングagentでも指標で見え方が変わる
2026年3月12日にEntropic Thoughtsへ掲載された記事は、コーディングagentの議論でしばしば前提化されてきた考え方に疑問を投げかけた。benchmark scoreが上がれば、実際にmergeされるコード品質も同じように上がっていると見てよいのか、という点だ。この投稿はHacker Newsでクロール時点167ポイント、155コメントを集め、2日前の3月10日にMETRが公開したSWE-bench Verifiedのmaintainer review結果を再解釈する形で注目された。
METRの主結果はかなり具体的だ。scikit-learn、Sphinx、pytestのmaintainerがAI生成の296件のpull requestを審査したところ、golden baselineで正規化してもmaintainer merge rateはautomated grader scoreより平均約24 percentage points低かった。実務的には、50% success horizonが「testを通す」基準では約50分なのに対し、「maintainerがmergeする」基準では約8分に縮む。つまり、test-passing patchとrepositoryに受け入れられるpatchは同義ではない。
Hacker Newsで議論が深まった点
Entropic Thoughtsの記事はそこからさらに踏み込む。METRのグラフのうちmerge-rate部分だけを見ると、2025年初頭以降に明確な上昇証拠はほとんどないのではないか、という主張だ。著者はこれを単なる目視に終わらせず、leave-one-out cross-validationで緩やかな上昇線とpiecewise constant、完全なconstantを比較した。提示されたBrier scoreは順に0.0129、0.0117、0.0100で、滑らかな成長線よりも段差的あるいはほぼ横ばいの説明の方がデータに合うとしている。
もちろん、それで即座に「コーディングmodelの進歩が止まった」と断定できるわけではない。METR自身も、Sonnet 4.5以降のより新しいmodelについては同じ慎重なmaintainer reviewで測れていないと述べている。それでもこの批判が重要なのは、AI分野がnoisyなbenchmark curveを現実の有用性の直接指標として読みがちな習慣に歯止めをかけるからだ。
coding agent実装への示唆
運用上の教訓は、failure modeごとに改善速度が違うという点にある。METRのrejection breakdownを見ると、いくつかの進歩は「まったくtestに通らないpatch」を「機能は近いがcode qualityやmaintainabilityに問題があるpatch」へ移している。benchmark opticsは良くなっても、人間reviewはまだ通らない可能性が高い。
そのため、このHacker Newsの議論は単なる性能論争ではなく、evaluation designとproduct strategyの問題だ。mergeabilityが遅くしか動かないのにtest-passing scoreだけが速く伸びるなら、coding agent teamはより現実的なacceptance metric、より強いelicitation loop、そしてhuman feedbackを整えないままbenchmark上昇をそのまま経済価値に変換すべきではない。要点は「2026年3月12日にLLM進歩が止まった」ということではなく、「merge可能コードの着実な伸び」を示す証拠はheadline benchmarkほど強くない、ということだ。
Entropic Thoughts analysis · METR note · Hacker News discussion
Related Articles
LocalLLaMAで共有されたSWE-rebench 1月結果は、Claude Code先行を維持しつつ上位差の縮小とオープンモデル追い上げを示した。
METRのMarch 10, 2026 noteは、最近のagentが書いたSWE-bench Verified PRのうちtestを通っても半分ほどはmaintainer reviewを通過しないと示した。HNはこれを、benchmark scoreがまだscope controlやcode qualityやrepo fitを代替できないという警告として受け取った。
r/LocalLLaMA投稿は「編集ごとの検証」ループでQwen3.5-35B-A3Bが22.2%から37.8%へ改善したと報告し、Claude Opus 4.6の40%参照値に接近した点を示した。
Comments (0)
No comments yet. Be the first to comment!