HN注目: AGENTS.mdは常に有効とは限らないと示すarXiv研究
Original: Evaluating AGENTS.md: are they helpful for coding agents? View original →
Hacker Newsで共有された論文
Hacker News投稿 "Evaluating AGENTS.md: are they helpful for coding agents?" は、クロール時点で 184ポイント、146コメント を集めた。参照先は arXiv:2602.11988 で、提出日は 2026-02-12。テーマは、AGENTS.mdのようなリポジトリ単位の指示ファイルが、実タスクで本当に有効かどうかを検証することだ。
評価設計の要点
研究は2系統の設定で比較している。1つは、SWE-bench系タスクに対し、エージェント開発者の推奨に沿ってLLM生成コンテキストを付与する方法。もう1つは、開発者が実際にコンテキストファイルをコミットしているリポジトリ由来の課題群を新たに作成して評価する方法である。実運用に近いケースとベンチマーク条件の両方を見ている点が特徴だ。
主要結果
著者らは、複数のコーディングエージェントとLLMの組み合わせで、コンテキストファイルを追加すると 成功率が下がる傾向 を確認したと報告している。同時に、推論コストは 20%以上増加。行動面では、ファイル探索やテスト実行が広がり、指示遵守は高まるが、不要な要件が増えることでタスク難度が上がるという結論だ。
開発現場への示唆
含意は「AGENTS.mdを使うな」ではない。むしろ、要求事項を最小限かつ検証可能なものに絞るべきだということだ。長い運用ルールを追加するほど、トークン消費と失敗率が同時に増えるリスクがある。チーム運用では、ルール追加ごとに成功率とコストの差分を測り、残す指示と削る指示を継続的に選別する設計が重要になる。
出典: Hacker Newsスレッド · arXiv
Related Articles
LocalLLaMAの反応は驚きよりも納得に近かった。公開benchmarkは結局こうなる、という空気だ。今回はcontaminationとflawed testが数字で並び、従来の自慢材料がもう安定して見えなくなった。
HNで火がついたのは新しい順位争いではなかった。OpenAIがSWE-bench Verifiedをfrontier coding能力の指標として外すと表明し、議論はすぐに contamination と benchmark の寿命へ移った。
r/LocalLLaMAがこの投稿を押し上げたのは、“trust me bro”な体験談の中に8-bit、64k context、OpenCode、Android debuggingという実使用条件が入っていたからだ。
Comments (0)
No comments yet. Be the first to comment!