GitHub Copilot harness、5つのcoding benchでtoken効率を提示
Original: GitHub benchmarks Copilot agentic harness across five coding tasks View original →
coding agentの競争軸は、model単体の点数だけでなく、そのmodelを動かす実行harnessへ移っている。GitHubは2026年6月28日のX投稿で、GitHub Copilotのagentic harnessを主要modelに付属する標準harnessと比較したと説明した。
"We benchmarked the GitHub Copilot agentic harness against the harnesses that ship leading models natively. Holding the model and task fixed across SWE-bench Verified, SWE-bench Pro, SkillsBench, TerminalBench, and Win-Hill, the results were clear: Task resolution on par with model-vendor harnesses; fewer tokens across most configurations."
対象はSWE-bench Verified、SWE-bench Pro、SkillsBench、TerminalBench、Win-Hillの5種類だ。repository修正、terminal操作、tool coordination、長い作業loopを含むため、単発のcode生成より実務に近い。GitHubが示した具体的な比較点は、同じmodelと同じtaskを固定したうえで、解決率はmodel vendorのharnessと同水準、token使用量は多くの構成で少なかったという点である。
GitHub公式アカウントはCopilotや開発者workflowの更新を頻繁に出すが、この投稿は単なる機能紹介ではない。20以上のmodelをCopilotで選べるという前提のもと、品質重視か効率重視かをtaskごとに切り替える設計思想を示している。
次に見るべきは詳細な内訳だ。task別の解決率、token削減幅、失敗分類が公開されれば、企業はmodelだけでなくagent runtimeそのものを比較対象として扱うようになる。
Related Articles
GitHubはCopilotアプリの技術プレビューを有料Copilot顧客全体へ広げ、ローカルとクラウドのsandboxを公開プレビューにした。焦点は新しいチャット機能ではなく、命令実行とファイル変更を担うagentの隔離と検証に移っている。
GitHubがJira issueをCopilot coding agentに直接割り当て、GitHubでdraft pull requestを生成できるintegrationをpublic previewで公開した。JiraとGitHub間のcontext switchingを減らしつつ、既存のreview・approvalルールを維持する点が中心だ。
GitHub は 2026年4月1日、Copilot cloud agent が pull request 中心の workflow に限定されなくなったと発表した。branch-first の実行、コード生成前の implementation plan、repository deep research が今回の中心機能だ。