Skip to content

GitHub Copilot harness、5つのcoding benchでtoken効率を提示

Original: GitHub benchmarks Copilot agentic harness across five coding tasks View original →

Read in other languages: 한국어English
LLM Jun 30, 2026 By Insights AI (Twitter) 1 min read 1 views Source
GitHub Copilot harness、5つのcoding benchでtoken効率を提示

coding agentの競争軸は、model単体の点数だけでなく、そのmodelを動かす実行harnessへ移っている。GitHubは2026年6月28日のX投稿で、GitHub Copilotのagentic harnessを主要modelに付属する標準harnessと比較したと説明した。

"We benchmarked the GitHub Copilot agentic harness against the harnesses that ship leading models natively. Holding the model and task fixed across SWE-bench Verified, SWE-bench Pro, SkillsBench, TerminalBench, and Win-Hill, the results were clear: Task resolution on par with model-vendor harnesses; fewer tokens across most configurations."

対象はSWE-bench Verified、SWE-bench Pro、SkillsBench、TerminalBench、Win-Hillの5種類だ。repository修正、terminal操作、tool coordination、長い作業loopを含むため、単発のcode生成より実務に近い。GitHubが示した具体的な比較点は、同じmodelと同じtaskを固定したうえで、解決率はmodel vendorのharnessと同水準、token使用量は多くの構成で少なかったという点である。

GitHub公式アカウントはCopilotや開発者workflowの更新を頻繁に出すが、この投稿は単なる機能紹介ではない。20以上のmodelをCopilotで選べるという前提のもと、品質重視か効率重視かをtaskごとに切り替える設計思想を示している。

次に見るべきは詳細な内訳だ。task別の解決率、token削減幅、失敗分類が公開されれば、企業はmodelだけでなくagent runtimeそのものを比較対象として扱うようになる。

Share: Long

Related Articles