SkillsBench: self-generated Agent Skillは平均的に効果なしという結果
Original: Study: Self-generated Agent Skills are useless View original →
Hacker Newsで共有された論文
2026年2月16日、Hacker Newsの"Study: Self-generated Agent Skills are useless"という投稿は、arXiv論文 SkillsBench を取り上げた。確認時点で当該HN投稿はscore 217、comment 102。論点は明確で、LLM AgentにSkillを与えたとき本当に成功率が上がるのか、そしてモデル自身が作ったSkillでも同等の効果が出るのかを検証している。
実験の構成
SkillsBenchは11ドメインにまたがる86タスクを用意し、各タスクにcurated Skillとdeterministic verifierを対応付ける。評価条件は3つで、no skills、curated skills、self-generated skills。著者らは7つのagent-model構成で合計7,308 trajectoriesを収集し、pass rateを比較した。単発の事例ではなく、再現可能な条件でSkillの寄与を切り分ける設計になっている。
主な結果
- curated Skillは平均pass rateを+16.2 percentage points改善
- 改善幅はドメインごとに差が大きく、Software Engineeringで+4.5pp、Healthcareで+51.9pp
- 84タスク中16タスクではnegative deltaが発生
- self-generated Skillは平均的に有意な利得を示さない
- 2-3モジュールのfocused Skillが、大規模ドキュメント型Skillより高い傾向
実務への示唆
この結果は、Agent品質がモデル能力だけで決まらないことを示す。現時点では、モデルに手順を自動生成させるより、検証可能な手順を短く明確に設計し、verifierで継続評価する方が安定しやすい。運用チームにとっては、Skillの作成そのものより、Skillの寿命管理と失敗タスクの整理が重要になる。つまり、Agent開発は"モデルの拡大"と"手続き資産の品質管理"の両輪で進めるべき段階に入ったと言える。
Related Articles
OpenAIはFirst Proofの10問すべてに対する証明試行を公開し、専門家のフィードバックに基づいて少なくとも5件が正しい可能性が高いと述べた。通常のbenchmarkを超える長時間 reasoning評価として位置づけている。
Microsoft Researchは2026年2月26日にCORPGENを発表した。実際のオフィス業務を模した高負荷マルチタスク条件で、ベースライン比最大3.5倍の完了率を報告している。
r/MachineLearningでは、重みを変えずに中間7層ブロックを複製するだけでbenchmarkを押し上げたという実験ノートが注目を集めている。
Comments (0)
No comments yet. Be the first to comment!