SkillOpt、重みを変えずagent scoreを23.5pt押し上げるskill学習

agentの性能改善は、モデル重みを変えることだけではない。Microsoft Researchは2026年6月30日 16:50:02 UTC にSkillOptを公開し、自然言語のskill fileをtrainable parameterのように最適化する方法を示した。モデル本体はそのままに、モデルが作業を進める手順書を学習対象にする発想である。

数字は大きい。GPT-5.5のdirect chatでは、SkillOptが6 benchmark平均を58.8から82.3へ引き上げた。絶対値で+23.5ポイントの改善である。対象はSearchQA、SpreadsheetBench、OfficeQA、DocVQA、LiveMathematicianBench、ALFWorld。モデルはGPT-5.5からQwen3.5-4Bまで7種類、実行環境はdirect chat、Codex、Claude Codeの3種類だった。Microsoftは52の評価セルすべてで、SkillOptが最高または同率最高だったとしている。

この結果が重要なのは、agentの失敗が生の推論力だけでなく作業手順から生まれるためだ。SkillOptはskill fileへの編集案を探索し、却下された編集の履歴を保持し、validation splitと遅い更新を使って不安定なprompt driftを抑える。最終成果物も巨大な隠しpromptではない。Microsoftによれば、6つのcase studyで最終skillの長さの中央値は約920 tokensで、採用された編集は1〜4個に収まった。

特に注目すべきは移植性である。Codex内で訓練したspreadsheet skillをClaude Codeに移すと、no-skill baselineは22.1から81.8へ上がった。Claude Code内で直接訓練した80.4をわずかに上回る。これは、特定harnessのtool名を暗記しただけではなく、タスクを解く一般的なworkflowがskillに入った可能性を示す。

もちろん条件はある。SkillOptは評価器やverifierがある領域で強い。だがenterprise agentでは、その条件はむしろ自然だ。spreadsheet、document QA、search、coding workflow、社内運用にはテスト、正解、レビューゲートがあることが多い。benchmark外でも再現されるなら、agent stackには小さく、監査可能で、version管理でき、rollback可能な適応層が加わる。出典: Microsoft Research、2026年6月30日.

SkillOpt、重みを変えずagent scoreを23.5pt押し上げるskill学習

Related Articles

GitHub Copilot harness、5つのcoding benchでtoken効率を提示

Open-weight 4モデル、安い推論から実運用エージェント基盤へ移った品質・価格競争の新局面へ

Open-weight modelの差は3〜6カ月、OpenRouterが4モデルで整理