SkillsBench: self-generated Agent Skillは平均的に効果なしという結果
Original: Study: Self-generated Agent Skills are useless View original →
Hacker Newsで共有された論文
2026年2月16日、Hacker Newsの"Study: Self-generated Agent Skills are useless"という投稿は、arXiv論文 SkillsBench を取り上げた。確認時点で当該HN投稿はscore 217、comment 102。論点は明確で、LLM AgentにSkillを与えたとき本当に成功率が上がるのか、そしてモデル自身が作ったSkillでも同等の効果が出るのかを検証している。
実験の構成
SkillsBenchは11ドメインにまたがる86タスクを用意し、各タスクにcurated Skillとdeterministic verifierを対応付ける。評価条件は3つで、no skills、curated skills、self-generated skills。著者らは7つのagent-model構成で合計7,308 trajectoriesを収集し、pass rateを比較した。単発の事例ではなく、再現可能な条件でSkillの寄与を切り分ける設計になっている。
主な結果
- curated Skillは平均pass rateを+16.2 percentage points改善
- 改善幅はドメインごとに差が大きく、Software Engineeringで+4.5pp、Healthcareで+51.9pp
- 84タスク中16タスクではnegative deltaが発生
- self-generated Skillは平均的に有意な利得を示さない
- 2-3モジュールのfocused Skillが、大規模ドキュメント型Skillより高い傾向
実務への示唆
この結果は、Agent品質がモデル能力だけで決まらないことを示す。現時点では、モデルに手順を自動生成させるより、検証可能な手順を短く明確に設計し、verifierで継続評価する方が安定しやすい。運用チームにとっては、Skillの作成そのものより、Skillの寿命管理と失敗タスクの整理が重要になる。つまり、Agent開発は"モデルの拡大"と"手続き資産の品質管理"の両輪で進めるべき段階に入ったと言える。
Related Articles
AnthropicはClaudeの選挙安全策を数値で公開した。Opus 4.7とSonnet 4.6は600件の選挙ポリシー試験で100%と99.8%の適切応答を示し、米中間選挙関連の質問では92%と95%の割合でウェブ検索を起動した。
Googleは4月21日、Deep ResearchをGemini 3.1 Proベースへ引き上げ、MCP接続とMaxモードを加えた。Web検索、アップロード済みファイル、ライセンスデータを一つの調査フローにまとめたい金融・ライフサイエンス向けの動きだ。
HNはGPT-5.5を単なる新モデルとしてではなく、雑多なPC作業を本当に最後まで任せられるかの試金石として見た。話題の中心もベンチよりロールアウト、API時期、実運用でのコーディング性能だった。
Comments (0)
No comments yet. Be the first to comment!