SkillsBench: self-generated Agent Skillは平均的に効果なしという結果
Original: Study: Self-generated Agent Skills are useless View original →
Hacker Newsで共有された論文
2026年2月16日、Hacker Newsの"Study: Self-generated Agent Skills are useless"という投稿は、arXiv論文 SkillsBench を取り上げた。確認時点で当該HN投稿はscore 217、comment 102。論点は明確で、LLM AgentにSkillを与えたとき本当に成功率が上がるのか、そしてモデル自身が作ったSkillでも同等の効果が出るのかを検証している。
実験の構成
SkillsBenchは11ドメインにまたがる86タスクを用意し、各タスクにcurated Skillとdeterministic verifierを対応付ける。評価条件は3つで、no skills、curated skills、self-generated skills。著者らは7つのagent-model構成で合計7,308 trajectoriesを収集し、pass rateを比較した。単発の事例ではなく、再現可能な条件でSkillの寄与を切り分ける設計になっている。
主な結果
- curated Skillは平均pass rateを+16.2 percentage points改善
- 改善幅はドメインごとに差が大きく、Software Engineeringで+4.5pp、Healthcareで+51.9pp
- 84タスク中16タスクではnegative deltaが発生
- self-generated Skillは平均的に有意な利得を示さない
- 2-3モジュールのfocused Skillが、大規模ドキュメント型Skillより高い傾向
実務への示唆
この結果は、Agent品質がモデル能力だけで決まらないことを示す。現時点では、モデルに手順を自動生成させるより、検証可能な手順を短く明確に設計し、verifierで継続評価する方が安定しやすい。運用チームにとっては、Skillの作成そのものより、Skillの寿命管理と失敗タスクの整理が重要になる。つまり、Agent開発は"モデルの拡大"と"手続き資産の品質管理"の両輪で進めるべき段階に入ったと言える。
Related Articles
Claude Fable 5がGDPval-AAで1932点を記録し、エージェント型の実業務ベンチマークで首位に立った。Anthropic系モデルが上位4枠のうち3枠を占め、長時間タスクの評価軸がさらに重要になっている。
HNで話題になったのは、コーディング評価が正答率からレビュー品質へ移り始めている点だ。FrontierCodeは、人間のmaintainerが受け入れるかを測ろうとする。
中国のAI研究所DeepSeekが今週中にフラッグシップモデルV4をリリースする見込みだ。1兆パラメータのネイティブマルチモーダル構成でHuawei AscendチップをメインにNvidiaとAMDを完全に排除した設計が注目される。