SkillOpt、重みを変えずagent scoreを23.5pt押し上げるskill学習
Original: SkillOpt: Agent skills as trainable parameters View original →
agentの性能改善は、モデル重みを変えることだけではない。Microsoft Researchは2026年6月30日 16:50:02 UTC にSkillOptを公開し、自然言語のskill fileをtrainable parameterのように最適化する方法を示した。モデル本体はそのままに、モデルが作業を進める手順書を学習対象にする発想である。
数字は大きい。GPT-5.5のdirect chatでは、SkillOptが6 benchmark平均を58.8から82.3へ引き上げた。絶対値で+23.5ポイントの改善である。対象はSearchQA、SpreadsheetBench、OfficeQA、DocVQA、LiveMathematicianBench、ALFWorld。モデルはGPT-5.5からQwen3.5-4Bまで7種類、実行環境はdirect chat、Codex、Claude Codeの3種類だった。Microsoftは52の評価セルすべてで、SkillOptが最高または同率最高だったとしている。
この結果が重要なのは、agentの失敗が生の推論力だけでなく作業手順から生まれるためだ。SkillOptはskill fileへの編集案を探索し、却下された編集の履歴を保持し、validation splitと遅い更新を使って不安定なprompt driftを抑える。最終成果物も巨大な隠しpromptではない。Microsoftによれば、6つのcase studyで最終skillの長さの中央値は約920 tokensで、採用された編集は1〜4個に収まった。
特に注目すべきは移植性である。Codex内で訓練したspreadsheet skillをClaude Codeに移すと、no-skill baselineは22.1から81.8へ上がった。Claude Code内で直接訓練した80.4をわずかに上回る。これは、特定harnessのtool名を暗記しただけではなく、タスクを解く一般的なworkflowがskillに入った可能性を示す。
もちろん条件はある。SkillOptは評価器やverifierがある領域で強い。だがenterprise agentでは、その条件はむしろ自然だ。spreadsheet、document QA、search、coding workflow、社内運用にはテスト、正解、レビューゲートがあることが多い。benchmark外でも再現されるなら、agent stackには小さく、監査可能で、version管理でき、rollback可能な適応層が加わる。出典: Microsoft Research、2026年6月30日.
Related Articles
GitHubはCopilot agentic harnessを5種類のtask suiteでmodel標準harnessと比較した。同じmodelとtask条件で、解決率は同等水準、token使用量は多くの構成で少ないという結果だ。
Open-weight LLMの争点は、単価比較からエージェント実装の設計へ移っている。OpenRouterはJune 2026の4モデルを挙げ、DeepSeek V4 FlashのSWE-bench 79.0%、GLM 5.2のAA Index 51、1M contextを具体例にした。
OpenRouterは6月のopen-weight modelをDeepSeek V4 Flash、GLM 5.2、MiniMax M3、NVIDIA Nemotron 3 Ultraの4軸で整理した。79.0%のSWE-bench Verified、Intelligence Index 51、1M context、低いserving costが判断材料になる。