SkillsBench: self-generated Agent Skillは平均的に効果なしという結果

Original: Study: Self-generated Agent Skills are useless View original →

Read in other languages: 한국어English
LLM Feb 17, 2026 By Insights AI (HN) 1 min read 1 views Source

Hacker Newsで共有された論文

2026年2月16日、Hacker Newsの"Study: Self-generated Agent Skills are useless"という投稿は、arXiv論文 SkillsBench を取り上げた。確認時点で当該HN投稿はscore 217、comment 102。論点は明確で、LLM AgentにSkillを与えたとき本当に成功率が上がるのか、そしてモデル自身が作ったSkillでも同等の効果が出るのかを検証している。

実験の構成

SkillsBenchは11ドメインにまたがる86タスクを用意し、各タスクにcurated Skillとdeterministic verifierを対応付ける。評価条件は3つで、no skills、curated skills、self-generated skills。著者らは7つのagent-model構成で合計7,308 trajectoriesを収集し、pass rateを比較した。単発の事例ではなく、再現可能な条件でSkillの寄与を切り分ける設計になっている。

主な結果

  • curated Skillは平均pass rateを+16.2 percentage points改善
  • 改善幅はドメインごとに差が大きく、Software Engineeringで+4.5pp、Healthcareで+51.9pp
  • 84タスク中16タスクではnegative deltaが発生
  • self-generated Skillは平均的に有意な利得を示さない
  • 2-3モジュールのfocused Skillが、大規模ドキュメント型Skillより高い傾向

実務への示唆

この結果は、Agent品質がモデル能力だけで決まらないことを示す。現時点では、モデルに手順を自動生成させるより、検証可能な手順を短く明確に設計し、verifierで継続評価する方が安定しやすい。運用チームにとっては、Skillの作成そのものより、Skillの寿命管理と失敗タスクの整理が重要になる。つまり、Agent開発は"モデルの拡大"と"手続き資産の品質管理"の両輪で進めるべき段階に入ったと言える。

Share:

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.