SkillsBench: self-generated Agent Skillは平均的に効果なしという結果

Hacker Newsで共有された論文

2026年2月16日、Hacker Newsの"Study: Self-generated Agent Skills are useless"という投稿は、arXiv論文 SkillsBench を取り上げた。確認時点で当該HN投稿はscore 217、comment 102。論点は明確で、LLM AgentにSkillを与えたとき本当に成功率が上がるのか、そしてモデル自身が作ったSkillでも同等の効果が出るのかを検証している。

実験の構成

SkillsBenchは11ドメインにまたがる86タスクを用意し、各タスクにcurated Skillとdeterministic verifierを対応付ける。評価条件は3つで、no skills、curated skills、self-generated skills。著者らは7つのagent-model構成で合計7,308 trajectoriesを収集し、pass rateを比較した。単発の事例ではなく、再現可能な条件でSkillの寄与を切り分ける設計になっている。

主な結果

curated Skillは平均pass rateを+16.2 percentage points改善
改善幅はドメインごとに差が大きく、Software Engineeringで+4.5pp、Healthcareで+51.9pp
84タスク中16タスクではnegative deltaが発生
self-generated Skillは平均的に有意な利得を示さない
2-3モジュールのfocused Skillが、大規模ドキュメント型Skillより高い傾向

実務への示唆

この結果は、Agent品質がモデル能力だけで決まらないことを示す。現時点では、モデルに手順を自動生成させるより、検証可能な手順を短く明確に設計し、verifierで継続評価する方が安定しやすい。運用チームにとっては、Skillの作成そのものより、Skillの寿命管理と失敗タスクの整理が重要になる。つまり、Agent開発は"モデルの拡大"と"手続き資産の品質管理"の両輪で進めるべき段階に入ったと言える。

SkillsBench: self-generated Agent Skillは平均的に効果なしという結果

Hacker Newsで共有された論文

実験の構成

主な結果

実務への示唆

Related Articles

Claude Fable 5、GDPval-AA 1932点でエージェント業務評価の首位へ

FrontierCode、AIコード評価を「mergeできるPRか」へ寄せる新ベンチマーク

DeepSeek、今週V4リリースへ——1兆パラメータのマルチモーダルモデル、Huaweiチップに最適化